การค้นหาต้นไม้มอนติคาร์โล: การเคลื่อนไหวประเภทใดที่สามารถพบได้ง่ายและสิ่งใดที่ทำให้เกิดปัญหา?


10

ฉันต้องการเริ่มต้นด้วยสถานการณ์ที่ทำให้ฉันคิดว่า MCTS สามารถทำงานได้ดีเพียงใด: ลองสมมติว่ามีการย้ายที่ยังไม่ได้เพิ่มลงในแผนผังการค้นหา มันเป็นเลเยอร์ / การเคลื่อนไหวที่ลึกเกินไป แต่ถ้าเราเล่นท่านี้เกมจะชนะโดยทั่วไป อย่างไรก็ตามลองสมมติว่าการเคลื่อนไหวทั้งหมดที่สามารถใช้แทนในสถานะเกมที่กำหนดนั้นแย่มาก เพื่อการโต้แย้งสมมติว่ามีการเคลื่อนไหวที่เป็นไปได้ 1,000 ครั้งและมีเพียงหนึ่งในนั้นเท่านั้นที่ดี (แต่ดีมาก) และที่เหลือก็แย่มาก MCTS จะไม่จดจำสิ่งนี้หรือไม่ปลูกต้นไม้ค้นหาไปทางนี้และให้คะแนนทรีย่อยนี้แย่มาก? ฉันรู้ว่า MCTS ในที่สุดจะมารวมกันเป็น minimax (และในที่สุดมันก็จะสร้างต้นไม้ทั้งหมดหากมีหน่วยความจำเพียงพอ) จากนั้นควรรู้ว่าการเคลื่อนไหวนั้นดีแม้ว่าจะมีความเป็นไปได้ที่ไม่ดีมากมาย แต่ฉันเดาว่าในทางปฏิบัตินี่ไม่ใช่สิ่งที่เราสามารถพึ่งพาได้ บางทีใครบางคนสามารถบอกฉันได้ว่านี่เป็นการประเมินที่ถูกต้องในส่วนของฉันหรือไม่

นอกเหนือจากสถานการณ์พิเศษนี้ฉันยังต้องการทราบว่ามีสถานการณ์อื่น ๆ ที่ MCTS จะทำงานได้ไม่ดี (หรือดีเป็นพิเศษ)


MCTS น่าจะเป็น เช่นนี้ต้องการเบาะแสหรือไม่พบอะไรเลย ตัวอย่างเช่นการหาเข็มในกองหญ้า ลองสิ่งนี้แล้วคุณจะล้มเหลว มันจะดีถ้าคุณสามารถสร้างตัวอย่างที่เหมือนจริงมากขึ้นและถามว่าอะไรคือกลยุทธ์ที่เหมาะสมที่สุดสำหรับตัวอย่างนั้น นี่อาจเป็นคำใบ้ว่าจะหาเข็มได้ดีกว่าในกองหญ้าอย่างไร
Trilarion

คำตอบ:


2

ไม่ว่าจะพบการเคลื่อนไหวและความรวดเร็วในการค้นหานั้นขึ้นอยู่กับบางสิ่ง หากฉันเข้าใจอย่างถูกต้องมีลำดับของการเคลื่อนไหว "ไม่ดี" จำนวนมากซึ่งนำไปสู่การย้าย "ชนะใหญ่" และคุณกลัวว่าอัลกอริทึม MCTS จะไม่ไปถึงการเคลื่อนไหว "ชนะใหญ่" เพราะจะเป็นการเลือกที่มีแนวโน้มมากกว่า เลื่อนขึ้นไปบนต้นไม้ บางสิ่งที่ต้องพิจารณา (อ่านบทความ MCTS ของ Wikipedia ด้วย):

  • เมื่อเล่นเพลย์เอาต์คุณสามารถเล่นเกมของคุณได้เพียงการเคลื่อนที่ต่อไปอีกสองสามครั้งหรือจนจบเกม การเล่นเพียงไม่กี่ก้าวต่อไปนั้นเร็วกว่าอย่างเห็นได้ชัด แต่ในกรณีที่รุนแรงคุณอธิบายว่ามันจะไม่ใช่ตัวเลือกที่ดีที่สุด หากคุณรู้เกี่ยวกับการมีอยู่ของสถานการณ์ดังกล่าวให้แน่ใจว่าได้เล่นเกมจนจบใน playouts

  • เมื่อเล่นเพลย์เอาต์คุณสามารถเลือกการเคลื่อนไหว / การกระทำของคุณแบบสุ่มหรือแบบฮิวริสติกแบบง่ายๆโลภ (ด่วน) ที่ตรงกับปัญหาของคุณ อาจมีฮิวริสติกแบบโลภที่ออกแบบมาเพื่อค้นหาหรือคำนึงถึงสถานการณ์ดังกล่าวสำหรับเกม / ปัญหาของคุณหรือไม่? ถ้าใช่ใช้พวกเขา มันถูกเรียกว่า "การเล่นอย่างหนัก" เปรียบเทียบผลลัพธ์กับการเล่นรอบโดยใช้การเคลื่อนไหวแบบสุ่ม

  • หากคุณเลือกการกระทำที่ใช้ UCT (ขอบเขตความเชื่อมั่นบนที่นำไปใช้กับทรี) ส่วนแรกของนิพจน์นั้นรับผิดชอบการเอารัดเอาเปรียบ การเคลื่อนไหวที่มีอัตราการชนะโดยเฉลี่ยสูงเป็นที่ต้องการ ส่วนที่สองนั้นสอดคล้องกับการสำรวจ หากตั้งค่าพารามิเตอร์การสำรวจไว้สูงพอ (ทดสอบสังเกตุปัญหาของคุณ) การเคลื่อนที่ด้วยการจำลองจะเป็นที่ต้องการ การสำรวจที่สูงจะเป็นอีกวิธีหนึ่งในการค้นหาท่าทองของคุณในความสูญเสียจากการเอารัดเอาเปรียบ

หากคุณอธิบายเกมจริงหรือสถานการณ์ปัญหาเราอาจสามารถช่วยคุณกำหนดกลยุทธ์ที่เหมาะสม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.