นี่เป็นการวิเคราะห์ที่สกปรกอย่างรวดเร็วตามฐานข้อมูล PGN "Million Base" ฉันทำสิ่งนี้อย่างเร่งด่วนดังนั้นอาจมีข้อผิดพลาดในการเขียนโปรแกรมหรือตรรกะของฉัน โปรดอย่าใช้มันเพื่ออะไรที่ร้ายแรงเกินไป อัปเดต - หมายเหตุ:จริงๆแล้วฉันเพิ่งสังเกตว่าฉันทำผิดกับชุดข้อมูลและ จำกัด ไว้ที่ 1 ล้านระเบียนแรก ฉันจะโพสต์การอัปเดตเมื่อฉันมีเวลาว่างในการรันอีกครั้งในทุกสิ่ง ในขณะเดียวกันตัวเลขเหล่านี้น่าสนใจ
การรับข้อมูล:
ฉันได้รับไฟล์ Million Base 1.74 จากURL นี้เนื่องจากไซต์ top-5000.nl ดูเหมือนจะ 404 เมื่อคุณพยายามดาวน์โหลด ไฟล์ดังกล่าวมีมากกว่า 1 ล้านเกมในรูปแบบการส่งออก PGN (กล่าวคือง่ายต่อการแยกวิเคราะห์)
น่าเสียดายที่กว่า 60% ของเกมไม่มีข้อมูลการจัดเรต (ฉันกำลังมองหาแท็ก "WhiteELO" และ "BlackELO") และแม้แต่น้อยก็มีเรตติ้งสำหรับผู้เล่นทั้งสองคน ในตอนท้ายฉันตัดสินใจที่จะเพิ่มขนาดตัวอย่างให้ใหญ่ที่สุดเท่าที่จะทำได้และนับการเคลื่อนไหวของผู้เล่นหากการจัดอันดับของเขาหรือเธอเป็นที่รู้จักโดยไม่คำนึงถึงการจัดอันดับของผู้เล่นคนอื่น
กระบวนการ:
เกมดังกล่าวได้รับการแยกวิเคราะห์ทีละรายการและหากมีการจัดอันดับของผู้เล่นเป็นที่ทราบกันแล้วการเคลื่อนไหวทั้งหมดของพวกเขาสำหรับเกมนั้นจะถูกเพิ่มเข้าไปในการรวมสำหรับกลุ่มการจัดอันดับของผู้เล่น ฉันเลือกที่จะแบ่งการจัดอันดับออกเป็น 100 กลุ่มเช่น 1600 ถึง 1699 เป็นกลุ่มเดียว
เนื่องจาก movetext ที่แท้จริงใน PGN คือ SAN ฉันใช้ทางลัดต่อไปนี้เพื่อนับการเคลื่อนไหว: Knight (N), Bishop (B), Rook (R), Queen (Q) และ King (K) ย้ายทั้งหมดเริ่มต้นด้วยตัวอักษรชิ้น . Castling (OO และ OOO) ถูกนับแยกเป็นกรณีพิเศษ การเคลื่อนไหวที่เหลือทั้งหมดจะถูกนับเป็นการจำนำโดยไม่มีการตรวจสอบเพิ่มเติม
ไม่มีการล้างข้อมูล ไม่มีความพยายามในการระบุตัวผู้ผิดและลบออก (เช่นเกมที่สั้นและยาวเกินไป ฯลฯ ) ฉันเก็บไว้ แต่ไม่ได้รวมไว้ในการวิเคราะห์ต่อไปนี้ผลลัพธ์จากการจัดอันดับต่ำกว่า 1600 - ขนาดตัวอย่างสำหรับเกมเหล่านี้ต่ำกว่า 100 ซึ่งนำไปสู่ผลลัพธ์ที่หลากหลาย ข้อมูลดิบมีให้ในตอนท้ายของโพสต์นี้
ข้อบกพร่องบางประการของข้อมูล: ในขณะนี้ฉันได้รวบรวมผลรวมพื้นฐานเท่านั้นและให้ค่าเฉลี่ย ฉันค่อนข้างแน่ใจว่าโดยทั่วไปแล้วข้อมูลจะไม่ถูกกระจายออกไป แต่จะไม่สามารถพูดได้มากกว่านี้หากไม่แสดงผลจำนวนจริงและเรียกใช้ข้อมูลเหล่านั้นผ่านโปรแกรมทางสถิติ ฉันอาจทำเช่นนั้นหากมีความสนใจ ในขณะนี้หมายถึงไม่มีช่วงความมั่นใจหรือข้อมูลอื่น ๆ เกี่ยวกับการกระจายของตัวเลขที่ค่าเฉลี่ยเหล่านั้นเป็นตัวแทน ฉันยังไม่ได้ตรวจสอบว่าชุดข้อมูลมีช่วงเวลากี่ปี - ถ้ามันแสดงถึงหลายปีอาจเป็นประโยชน์ในการพยายามแก้ไขเพื่อความแข็งแรงโดยรวมของฟิลด์
เทรนด์บางส่วน:
คำพูดเกี่ยวกับการให้คะแนนของผู้เล่น - กลุ่มอันดับที่พบบ่อยที่สุดคือตามลำดับ: 2400 ถึง 2500, 2500 ถึง 2600 และ 2300 ถึง 2400 กลุ่มคะแนนเหล่านี้ให้ 72% ของเกมที่ถูกนับ
เมื่อดูผลลัพธ์ที่เกิดขึ้นจริงความยาวของเกมโดยเฉลี่ยนั้นค่อนข้างประหลาดใจ:
กลุ่มเรตติ้งย่อย 2,000 ทั้งหมดมีเกมที่สั้นกว่ากลุ่มที่สูงกว่าอย่างมาก สิ่งนี้อาจอธิบายได้โดยความเป็นไปได้ว่าพวกเขากำลังเล่นคู่ต่อสู้ที่แข็งแกร่งกว่า (ดูคะแนนเฉลี่ยด้านบน) และพวกเขาพ่ายแพ้ในการเคลื่อนไหวน้อยลง สิ่งนี้ดูเหมือนจะขัดแย้งกับเกมที่สั้นกว่าเล็กน้อยที่เล่นโดยกลุ่มอันดับสูงสุดแม้ว่าอาจมีขนาดตัวอย่างเล็กลง
ความแตกต่างที่ค่อนข้างใหญ่ของความยาวของเกมโดยเฉลี่ยหมายถึงการให้ความถี่ในการเคลื่อนย้ายชิ้นส่วนหนึ่งมากกว่าจำนวนครั้งที่ชิ้นส่วนถูกย้ายอาจเป็นการเปรียบเทียบที่ยุติธรรมกว่า การคำนวณผลลัพธ์ความถี่ในกราฟต่อไปนี้:
แนวโน้มต่อไปนี้ดูเหมือนจะเป็นปัจจุบัน:
- ความถี่ของการเคลื่อนไหวของอัศวินดูเหมือนว่าจะมีแนวโน้มลดลงเล็กน้อยด้วยคะแนน
- อธิการเลื่อนเทรนด์ลงไปจนถึงปี 2000 จากนั้นค่อย ๆ เทรนด์ขึ้น
- Rook เคลื่อนไหวแนวโน้มสูงขึ้นอย่างรวดเร็วในจุดเดียวกันและอยู่บ่อยกว่าการเคลื่อนไหวของ Bishop ในการเล่นระดับสูง
- การเคลื่อนไหวจำนำดูเหมือนว่าจะมีแนวโน้มลดลงเล็กน้อยด้วยคะแนนที่เพิ่มขึ้น ข้อยกเว้นขนาดใหญ่คือประเภทสูงสุด 2800 ถึง 2900 สิ่งนี้นำเราไปสู่จุดต่อไป:
- หมวดหมู่ที่ให้คะแนนสูงสุดให้ค่าผิดปกติหรือแนวโน้มกลับในการวัดจำนวนค่อนข้างมาก สิ่งนี้อาจอธิบายได้หลายวิธี - 1) ขนาดตัวอย่างค่อนข้างต่ำที่ 363 ไม่ใช่เล็ก แต่ 10% ของขนาดตัวอย่างที่เล็กที่สุดถัดไปรวมอยู่ด้วย 2) เนื่องจากพวกเขาอยู่ในอันดับต้น ๆ ของกลุ่มเรตติ้งพวกเขาไม่เคยเล่นคู่ต่อสู้ที่ "แข็งแกร่ง" กว่าตัวพวกเขาเอง 3) หรือเพียงแค่ในระดับนี้สไตล์การเล่นของพวกเขาได้ก้าวข้ามระดับต่ำกว่าพวกเขา ฉันเดาว่าจะเป็นการรวมกันของ 1) และ 2)
- ความแตกต่างในการเคลื่อนไหวของราชินีและการเคลื่อนไหวแบบเหวี่ยงนั้นมีขนาดเล็กมากโดยไม่มีแนวโน้มที่แท้จริงนอกเหนือไปจากแนวโน้มเล็ก ๆ ทั้งสองกรณี
- ความถี่ของการเคลื่อนไหวของกษัตริย์มีความแตกต่างที่ใหญ่ที่สุด มองไม่เห็นแนวโน้มที่ชัดเจนและดูเหมือนจะเปลี่ยนทิศทาง 3 หรือ 4 ครั้ง
การวิเคราะห์เพิ่มเติม
แนวคิดบางประการสำหรับการวิเคราะห์ในอนาคต:
- การแก้ไขสถิติพื้นฐาน: ฉันรู้สึกว่าเกมที่สั้นและยาวมากอาจไม่ได้รับการยกเว้น นอกจากนี้การกระจายของจำนวนจริงอาจบอกได้มาก
- การแยกวิเคราะห์ต่อไปอาจทำให้ได้ผลลัพธ์ที่น่าสนใจ ตัวอย่างเช่นฉันสนใจที่จะทราบว่าความถี่ของการจับคู่ขาวดำเป็นเท่าไร (เหมือนกันหรือแตกต่างกันอย่างไร?)
- การจัดหมวดหมู่ตามความแตกต่างของคะแนนอาจน่าสนใจผู้เล่นที่เล่นคู่ต่อสู้ที่แข็งแกร่งกว่า (เช่น 200 คะแนนเหนือพวกเขา) เล่นด้วยความถี่การเคลื่อนที่ที่ต่างกันหรือไม่? น่าเสียดายที่สิ่งนี้ต้องการให้ ELO ของผู้เล่นทั้งสองเป็นที่รู้จักซึ่งหายากในชุดข้อมูลนี้
- แนวโน้มของปราสาทสั้นและปราสาทยาวอาจแตกต่างกันไปตามอันดับ
- สถิติการส่งเสริมการขายชิ้นการวิเคราะห์โครงสร้างบางอย่าง (เช่นอุบัติการณ์ของเบี้ยสองเท่า, en passant, หมุด, ส้อม, แสดงโดยอันดับ) อาจจะลึกซึ้ง
- "แผนที่ความร้อน" ของการจัดวางชิ้นบนกระดานจริงซึ่งแสดงโดยการจัดอันดับอาจค่อนข้างรบกวน
รวบรวมข้อมูลในรูปแบบ CSV
สำหรับผู้ที่ต้องการเล่นกับข้อมูลรู้สึกฟรี
ช่วงเรตติ้ง, ขนาดตัวอย่าง, ความยาวเกมโดยเฉลี่ย, การจำนำเฉลี่ย, การเคลื่อนที่ของอัศวินโดยเฉลี่ย, การเคลื่อนไหวบิชอปโดยเฉลี่ย, การเคลื่อนไหวโกงโดยเฉลี่ย, การเคลื่อนที่ของราชินีโดยเฉลี่ย, การเคลื่อนที่ของพระราชาโดยเฉลี่ย, การเคลื่อนที่โดยเฉลี่ย
1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857