คำถามติดแท็ก alphazero

11
Alpha Zero เป็น“ มนุษย์มากกว่า” อย่างไร?
ฉันมีคำถามที่ไร้เดียงสาเกี่ยวกับ AlphaZero ฉันได้เห็นมันอธิบายว่าเล่นในลักษณะ "มนุษย์มากขึ้น" กว่าคอมพิวเตอร์เครื่องอื่น ๆ แต่ไม่ว่ามันจะทำอะไรก็จะได้คะแนน ELO ประมาณ 100 คะแนนโดยการทำ คาสปารอฟและอีกหลายคนอ้างว่ามนุษย์ที่แข็งแกร่งในความร่วมมือกับคอมพิวเตอร์จะเอาชนะคอมพิวเตอร์ที่แข็งแกร่ง (อาจจะประมาณ 100 ELO ??) ดังนั้นคำถามที่ชัดเจนคือ AlphaZero จะเปรียบเทียบกับชุด "เซ็นทอร์" ได้อย่างไร สิ่งที่ฉันสังเกตเห็นคือคอมพิวเตอร์ส่วนใหญ่เล่นเกมเปิดกว้างที่เพิ่มความคล่องตัวของตัวเอง แต่ดูเหมือนว่า AlphaZero จะมีความกังวลมากที่จะ จำกัด การเคลื่อนไหวของฝ่ายตรงข้าม ในผู้เล่นที่เป็นมนุษย์ฉันจะอธิบายสิ่งนี้ว่าเป็นเรื่องของสไตล์ไม่ใช่มนุษย์มากหรือน้อย

2
ทำความเข้าใจกับ AlphaZero
เมื่อไม่นานมานี้มีข่าวออกมาว่าทีมวิจัย DeepMind ของ Alphabet ได้ขยายเครื่องมือการเรียนรู้ของเครื่องเพื่อเล่นทั้ง Shogi และหมากรุก เห็นได้ชัดหลังจากเพียงไม่กี่ชั่วโมงของการเรียนรู้ด้วยตนเองความหมายโดยการเล่นกับตัวเองเท่านั้นที่กำหนดกฎของเกมประสิทธิภาพการทำงานในหมากรุกได้แล้วเกินกว่าเครื่องยนต์ปัจจุบันด้านบนเช่น Stockfish 8. ฉันเองก็ไม่รู้เหมือนกันว่าตั้งค่าการแข่งขันไว้ตรงไหนภายใต้เงื่อนไขที่ Stockfish ตั้งไว้ให้ปฏิบัติเพราะถ้าเวลาในการคำนวณนั้น จำกัด เครื่องยนต์จะสามารถทำงานได้แย่มาก ไม่ว่าในกรณีใด ๆ นี่เป็นความสำเร็จที่น่าประทับใจมากเพราะถึงแม้ว่ามันจะปรากฎว่าสามารถสร้าง Stockfish ได้อย่างเหมาะสมที่สุดด้วยการฝึกฝนเพิ่มเติมไม่กี่ชั่วโมง AlphaZero ก็จะก้าวข้ามระดับการเล่นอีกครั้งซึ่งหมายความว่า AlphaZero แข็งแกร่งกว่าเดิม เอ็นจิ้นหมากรุกมาตรฐานตามฟังก์ชั่นการประเมินฮิวริสติก ตอนนี้ในแง่ของข่าวนี้มันจะดีถ้ามีคนสามารถอธิบายความแตกต่างที่สำคัญในการทำงานของเครื่องเรียนรู้เครื่องมือหมากรุกเมื่อเทียบกับเครื่องยนต์มาตรฐานที่เราทุกคนคุ้นเคยกับการใช้ เป็นรูปธรรมมากขึ้น: ฟังก์ชั่นการประเมินผลที่ AlphaZero ใช้ไม่ได้รับการฝึกฝนโดยวิธีการเรียนรู้ของเครื่องจักรในตอนท้ายฟังก์ชั่นการประเมินแบบฮิวริสติกอีกฟังก์ชั่นหรือไม่ ถ้าใช่มันจะยุติธรรมหรือไม่ที่จะบอกว่าความแตกต่างพื้นฐานระหว่างฟังก์ชั่นการประเมินของเครื่องยนต์ทั้งสองนั้นคือข้อเท็จจริงที่ว่า Stockfish มีฟังก์ชั่นการประเมินที่ได้รับการปรับแต่งโดยมนุษย์ด้วยมือ AlphaZero, ฟังก์ชั่นการประเมินเป้าหมายจะถูกกำหนดใหม่อย่างต่อเนื่องผ่านการฝึกอบรมเพิ่มเติม (เช่นผ่านการเล่นด้วยตนเอง)? ทำให้สิ่งหลังเป็นสิ่งที่มีพลังมากขึ้น ในที่สุดการพูดคลุมเครือเครื่องยนต์เช่น Stockfish ใช้ฟังก์ชั่นการประเมินผลกับต้นไม้ของการเคลื่อนไหวที่เป็นไปได้ตัดสินใจที่สาขาที่จะเก็บและที่จะวางแล้วผ่านคอนกรีตลึกการวิเคราะห์ของแต่ละสาขาอีกครั้งผ่านฟังก์ชั่นการประเมินมันแสดงให้เห็นว่าสาขาใดให้คุณค่าสูงสุดและกลายเป็นการเปลี่ยนแปลงที่สำคัญ (แน่นอนว่ามีเทคนิคขั้นสูงมากมายรอบกระบวนการนี้เพื่อตัดต้นไม้ขนาดใหญ่นี้ได้อย่างมีประสิทธิภาพ) ความหมายสำหรับแต่ละตำแหน่งงานประจำที่เป็นรูปธรรมนี้จะต้องมีการทำซ้ำสำหรับ Stockfish เพื่อตัดสินใจ ในทางตรงกันข้ามฉันคิดว่า AlphaZero ทำสิ่งที่แตกต่างกันมากกล่าวคือมันไม่ได้พึ่งพาการวิเคราะห์ที่เป็นรูปธรรมของต้นไม้ที่เป็นไปได้ในตำแหน่งที่กำหนดแทนที่จะฟังก์ชั่นการประเมินของมันจะกำหนดค่าให้กับตำแหน่งนั้น ตำแหน่งปัจจุบันในการเปรียบเทียบกับตำแหน่งอื่น ๆ ทั้งหมดที่ได้รับการฝึกอบรมสำหรับ) …

7
ฮาร์ดแวร์ที่ใช้ในการจับคู่ AlphaZero กับ Stockfish
ฉันเข้าใจว่า AlphaZero ต้องใช้ฮาร์ดแวร์ชนิดอื่นนอกเหนือจาก Stockfish ปกติ ฉันคาดหวังว่าฮาร์ดแวร์จะมีผลอย่างมากต่อความแข็งแกร่งของเครื่องยนต์ นั่นเป็นเหตุผลที่ฉันสงสัยว่ามีความพยายามใด ๆ ในการจัดหาฮาร์ดแวร์ที่เปรียบเทียบได้กับทั้งคู่หรือไม่ นอกจากนี้ "เทียบเคียง" หมายถึงอะไรที่นี่ โดยเฉพาะฉันอ่านว่าคนบ่นเกี่ยวกับ: Stockfish ได้รับแคชเพียง 1 GB และ จำกัด เวลา 1 นาที / การย้าย (Stockfish จะเสียเปรียบอย่างไร?)

1
AlphaZero เรียนรู้ที่จะประเมินตำแหน่งที่ไม่เคยเห็นได้อย่างไร
ติดตามคำตอบจาก: ทำความเข้าใจกับ AlphaZero คำถามของฉันจะเป็นวิธีการที่ "เรียนรู้" ตาข่ายประสาทจะทำอย่างไรในตำแหน่งที่ไม่ได้พบ การบอกว่า AZ จริงเรียกใช้ MCTS โดยใช้อคติ + น้ำหนักจากโครงข่ายประสาทที่ได้รับการฝึกอบรมเพียงแค่ผลักดันมันกลับไปอีกขั้นหนึ่งเพื่อให้วิธีคำนวณหาค่าเหล่านี้ ถ้ามันผ่านการสุ่มเล่นด้วยตัวเองโดยที่ไม่มีความรู้จากมนุษย์มันจะตัดสินได้อย่างไรว่าจะยกน้ำหนักตำแหน่งที่ไม่เคยเห็น
12 alphazero 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.