การประเมินผลคอมพิวเตอร์: เชื่อถือได้แค่ไหน?


14

ฟริตซ์ 12 ห้องพร้อมด้วย Rybka ให้เพื่อนของฉันการประเมินผล 3 สีขาวในตำแหน่งฤทธิ์นี้ ,

สีขาวที่จะย้าย

ซึ่งกลายเป็นวาด แต่ฉันได้ยินมาว่า +3 จากคอมพิวเตอร์หมายถึงการรับประกันที่ชนะด้วยการเล่นที่สมบูรณ์แบบ ฉันเพิ่งได้ยินผิดไหม การประเมินผลคอมพิวเตอร์ควรตีความโดยทั่วไปอย่างไร? ข้อดีการเปิดของ <.5 หมายถึงอะไร


3
ฉันจะท้าทายความคิดเห็น "รับประกันชนะ" หมายเลขการประเมินผลเป็นตัวบ่งชี้ฮิวริสติกซึ่งโดยทั่วไปแล้วจะเป็น "ความรู้สึก" ที่คอมพิวเตอร์มีสำหรับตำแหน่ง Endgames สามารถมีผลลัพธ์ที่ "น่าประหลาดใจ" และหากคอมพิวเตอร์ไม่ได้รับการตั้งโปรแกรมให้ตรวจจับรูปแบบที่เป็นไปได้ทั้งหมด (หรือสามารถคำนวณได้ตลอดทาง) ก็จะพลาดบางส่วน หากจะดูอีกวิธีหนึ่งถ้ามีการรับประกัน +3 จริง ๆ มันจะไม่เป็น +3 มันจะเป็น + ไม่มีที่สิ้นสุด
Daniel B

สำหรับบันทึกฉันได้ตรวจสอบกับ Lichess 7-table tablebases แล้วและแน่นอนว่าเป็นการวาด
PhishMaster

คำตอบ:


8

มีสองสิ่งที่นี่

ก่อนแต่ละโปรแกรมจะมีวิธีการประเมินตำแหน่งเพื่อให้คะแนนไม่สามารถเปรียบเทียบได้โดยตรง ตัวอย่างเช่นฉันใช้งาน StockFish กับ Rybka เมื่อเร็ว ๆ นี้และพบว่าคะแนนของ Stockfish นั้นเกี่ยวกับสองเท่าของ Rybka ฉันรู้สึกประหลาดใจกับสิ่งนี้ แต่มันค่อนข้างชัดเจนว่าคะแนน 1 ไม่ได้แปลว่า "1 เบี้ย" ฉันคิดว่าสิ่งที่เราควรดูคือการเปลี่ยนแปลงของคะแนน ความอยากรู้อีกอย่างที่ฉันเห็นเมื่อวานนี้ (ขณะตอบคำถามอื่น ๆ ของคุณโดยบังเอิญ) ก็คืออัลกอริทึมการประเมินของ Stockfish ไม่ชอบตัวเลขที่แปลกมาก ในความเป็นจริงคะแนนมากที่สุดคือทวีคูณของ. 04 เนื่องจากขนาดของค่านั้นเป็นเรื่องที่ไม่มีกฎเกณฑ์ฉันจะไม่ถือว่าค่าที่แน่นอนหมายถึง "การชนะอย่างแน่นอน" เว้นแต่ว่าเครื่องจะอ้างว่าพบคู่

ประการที่สองตารางฐานท้ายเกมถูกสร้างขึ้นเนื่องจากการแก้ไขเกมจบต้องใช้ความลึกในการค้นหามาก คอมพิวเตอร์ที่เล่นที่ความเร็วทัวร์นาเมนต์ทำได้ไม่ดีเท่าที่ควร ฉันทำงานผ่านเกมที่แตกต่างกันไม่กี่วันก่อนและประกาศในเว็บไซต์นี้ว่าด้านหนึ่งมีข้อได้เปรียบ เอ็ดใช้ฐานโต๊ะเพื่อแสดงว่าไม่มีความลึกลับเหลืออยู่ในตำแหน่ง - มันถูกดึงออกทางทฤษฎี แน่นอนว่ามันมีความแตกต่างอย่างมากระหว่างการวาดด้วยการเล่นที่สมบูรณ์แบบและการวาด ผู้เล่นจะต้องหาจังหวะที่ถูกต้อง


ค่าเล็กน้อยโดยทั่วไปที่ให้กับ White ในระยะแรกของเกมโดยทั่วไปหมายถึงสีขาวสามารถเรียกร้องอสังหาริมทรัพย์ที่มีคุณค่ามากขึ้น ตัวอย่างเช่นเมื่อย้าย 1 สีขาวสามารถอ้างสิทธิ์ e4 และโจมตี e5 และ f5 สามารถดำได้ แต่จากนั้น White สามารถเล่น Nc3 และโจมตี / หนุน a4, b5, d5 และ e4 แต่แบล็กสามารถโต้กลับ ดังนั้นมันจึงมีความหมายน้อยมาก


ในที่สุดเพื่อตอบคำถามในหัวเรื่องของคุณ - การประเมินมีความน่าเชื่อถือมากเนื่องจากขึ้นอยู่กับข้อเท็จจริงที่ยากและการค้นหาที่น่าประทับใจ แน่นอนว่าเครื่องจักรนั้นไม่ผิดพลาด แต่เราผู้เล่น b ต้องจำไว้ว่า Stockfish (หรือ Rybka) เล่นที่จุดแข็งของจีเอ็มในฮาร์ดแวร์ที่เรียบง่าย สำหรับฮาร์ดแวร์ทั่วไปที่ดีที่สุดพวกเขาประเมินการจัดอันดับของพวกเขาที่ FIDE 3200 สูงมากจนมีเพียงมนุษย์ที่ดีที่สุดเท่านั้นที่มีโอกาสไม่แพ้

พิจารณาสิ่งนี้หมายความว่าอะไร; ฉัน (USCF 1650-ish) ไม่มีโอกาสต่อบุคคล (พูด USCF 2050) ที่ไม่มีโอกาสต่อบุคคล (พูด USCF 2450) ที่ไม่มีโอกาสต่อบุคคล (พูด USCF 2850) ที่มีเศษไม้ ของโอกาสกับโปรแกรมเชิงพาณิชย์บนเที่ยวบิน (FIDE 3200)

ดังนั้นเมื่อสต็อคฟิชบอกว่าการเคลื่อนไหวหนึ่งท่านั้นดีกว่าอีกท่าหนึ่ง เมื่อฉันขอจบตารางเกม endgame สิ่งนี้จะเริ่มประกาศเพื่อนใน 30s, lol


1
คำตอบที่ดีมาก ฉันมักจะคิดว่าการประเมิน 1 หมายถึงมูลค่าของวัสดุจำนำ 1 นอกจากนี้ Chesstempo บอกว่าการเคลื่อนไหวที่ดีที่สุดในปัญหาคือสิ่งที่ชนะอย่างน้อย 2 เบี้ยมูลค่าของวัสดุดังนั้นฉันพิจารณาการประเมินเครื่องยนต์ +2 หรือมากกว่าที่จะชนะโดยไม่คำนึงถึงขั้นตอนในเกม อย่างไรก็ตามฉันพบว่าการวิเคราะห์ของ stockfish ผิดพลาดมาก่อนและเห็นว่ามันไม่สามารถประเมิน endgames ได้อย่างถูกต้อง ในบันทึกนั้นคุณรู้หรือไม่ว่าฉันสามารถหา endgames ได้จากที่ไหน
chubbycantorset

นี่คือฐานข้อมูลตาราง 6 คนออนไลน์เอ็ดโพสต์: k4it.de/index.php?topic=egtb&lang=th
Tony Ennis

+1 สำหรับ"ฉันจะไม่ถือว่าค่าที่แน่นอนหมายถึง" การชนะอย่างแน่นอน "เว้นแต่ว่าเครื่องจะอ้างว่าพบคู่"
ferit

14

เอนจินต่าง ๆ มี "สเกล" ที่แตกต่างกันสำหรับการประเมินเชิงตัวเลข ตัวอย่างเช่นในตำแหน่งกลางเกมทั่วไปที่มีผู้เล่นเหลืออยู่มากเมื่อฮูดินี่พูดว่า +2.00 หรือดีกว่านั้นมีความเป็นไปได้สูงที่ไวท์จะมีข้อได้เปรียบในการชนะ แต่พิจารณา: หนึ่งสามารถแก้ไขซอร์สโค้ดของฮูดินี่และเพิ่มค่าสัมบูรณ์ของตัวเลขทั้งหมดที่เกี่ยวข้องในการประเมิน หนึ่งได้รับเครื่องยนต์ที่มีความแข็งแกร่งเหมือนกันที่ก่อให้เกิดการเล่นที่เหมือนกัน แต่ตอนนี้ +4.00 หมายถึงสิ่งที่ +2.00 ใช้ในการหมายถึง สิ่งนี้แสดงให้เห็นว่าเราไม่ควรคาดหวังว่าจะมีค่าตัวเลขที่สม่ำเสมอในเครื่องยนต์ที่โดยทั่วไปจะระบุว่าเป็นข้อได้เปรียบในการชนะ

ยิ่งไปกว่านั้นสิ่งสำคัญคือต้องเข้าใจว่าการประเมินเครื่องยนต์เชิงตัวเลขของตำแหน่ง (ตรงข้ามกับคำประกาศที่หลีกเลี่ยงไม่ได้จากคู่ครองที่หลีกเลี่ยงไม่ได้) ไม่เคยแปลความหมายว่า "เกมที่ชนะแล้ว" อย่างถาวร ประเด็นสำคัญคือการประเมินเชิงตัวเลขไม่มี "ความหมาย" ที่ชัดเจนในแง่ของหมากรุกในวงกว้างและเป็นเพียงการทดแทนความคิดทางอารมณ์ที่ใช้ในการชี้นำกลไกทางเครื่องยนต์ไปสู่ผลลัพธ์ที่พึงประสงค์โดยทั่วไปโดยการย้ายมันเลือกในแต่ละจุด ในเกม; ในแง่นี้สิ่งที่สำคัญที่สุดต่อการเล่นของเครื่องยนต์คือความแตกต่างในการประเมินที่กำหนดให้กับการเคลื่อนไหวที่อาจเกิดขึ้นแทนที่จะเป็นอะไรก็ตามที่เกี่ยวกับค่าสัมบูรณ์ที่เกี่ยวข้อง ตัวเลขเหล่านี้มีประโยชน์สำหรับเครื่องยนต์ซึ่งต้องการบางสิ่งบางอย่างที่เป็นรูปธรรมเพื่อที่จะตัดสินใจเลือกสิ่งหนึ่ง แต่พวกเราไม่ควรที่จะอ่านความหมายมากขึ้นในขนาดที่เกี่ยวข้องกับความคิดเช่น "+ X หมายถึง ชนะ "

โดยเฉพาะอย่างยิ่งยิ่งเราเข้าหา endgame มากขึ้นเมื่อเทียบกับคนกลางเรายิ่งใช้กฎนิ้วหัวแม่มือน้อยลง (เช่น +2.00 สำหรับ Houdini ในเกมกลางด้านบน) เกี่ยวกับเกณฑ์ที่แน่นอนเพียงพอสำหรับการชนะ เหตุผลสำคัญประการหนึ่งสำหรับเรื่องนี้คือความยากลำบากของเครื่องยนต์ที่สามารถจดจำป้อมปราการได้ซึ่งวัสดุพิเศษมากมายยังไม่เพียงพอที่จะชนะ ตัวอย่างเช่นเมื่อฉันให้อาหาร Stockfish ตำแหน่งนี้

NN - NN

หลังจากสองสามนาทีคิดว่ามันกำลังประเมินเวลาประมาณ 7.00 น. และอยู่ในตำแหน่งปกติเมื่อ Stockfish กล่าวว่าคุณเกือบจะชนะแน่นอน อย่างไรก็ตามนี่คือการดึงที่ตายแล้วและมนุษย์สามารถมองเห็นสิ่งนี้ได้อย่างง่ายดายเมื่อความจริงได้รับการตระหนักว่าแบล็กสามารถสลับโกงระหว่าง f6 และ h6 ได้และดังนั้น (1) h-pawn ไม่มีประโยชน์และ (2) สีขาว ราชาจะไม่สามารถช่วยโจมตีราชินีขาวได้ ในที่สุดสต็อคฟิชจะจดจำการจับฉลากที่นี่เช่นกันเมื่อมันเทียบกับการเคลื่อนไหว 50 ครั้งพูดหรือในที่สุดก็วิ่งออกไปจากท่าที่แตกต่างกันเพื่อลองและในที่สุดก็ไม่สามารถหลีกเลี่ยงการทำซ้ำได้

ตำแหน่ง endgame จากคำถามก่อนหน้านี้ของคุณที่คุณเชื่อมโยงกับนั้นคล้ายกับป้อมปราการประเภทนี้โดยที่ White pawns ที่ผ่านการเชื่อมต่อพิเศษนั้นมีดีและทั้งหมด แต่ท้ายที่สุดก็ไม่มากพอที่จะชนะในตำแหน่งนั้น หากเครื่องยนต์ต้องคำนวณเวลาให้มากพอที่จะดูข้อมูลมากที่สุดเท่าที่มีอยู่ในตารางแล้วการประเมินของมันจะลดลงเหลือ 0 แต่ในขณะเดียวกันอัลกอริธึมการประเมินผลของมันไม่มีอะไรดีไปกว่าให้ + สำหรับ วัสดุพิเศษ (ที่ยังไม่ทราบว่าไม่มีความหมาย)


+1 สำหรับ"ยิ่งไปกว่านี้สิ่งสำคัญคือต้องเข้าใจว่าการประเมินค่าตัวเลขของตำแหน่งเครื่องยนต์ (ตรงข้ามกับการประกาศโดยทันทีของคู่ที่หลีกเลี่ยงไม่ได้) ไม่เคยแปลความหมายของเกมที่ชนะอย่างเด็ดขาด"
ferit

8

ฉันคิดว่าภาพนี้อธิบายสถานการณ์ค่อนข้างดี มันถูกสร้างขึ้นจากเกม 400k และพิจารณาเฉพาะวัสดุชิ้นธรรมดา

ชนะความได้เปรียบ / จำนำ

ที่มา: Pawn Advantage, Win Percentage และ ELO


1
มีส่วนร่วมที่ดี! +1
ferit

@Thomas Ahle: กราฟน่าสนใจ แต่บทความต้นฉบับไม่สามารถใช้ได้อีกต่อไปลิงก์ wikispaces ได้ลงไปอย่างน่าเศร้า คุณจำความหมายที่แน่นอนของ W = Win Probability ได้หรือไม่ มันชนะหรือแพ้โดยไม่สนใจการจับฉลากหรือไม่? หรือเป็น "คะแนนที่คาดหวัง" โดยคำนึงถึงการเสมอหรือไม่
Diedrsch

@Diedrsch ฉันได้อัปเดตลิงก์แล้ว
Thomas Ahle
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.