ทำไมการเรียนรู้การเสริมแรงจึงไม่ค่อยถูกใช้ในการมองเห็น


12

อัลกอริธึมทางทฤษฎีกราฟเส้นทางที่สั้นที่สุดที่น่านับถือ A * และการปรับปรุงในภายหลัง

สำหรับฉันแล้วดูเหมือนว่า RL เป็นกระบวนทัศน์ที่เป็นธรรมชาติมากขึ้นในการย้ายตัวละครไปรอบ ๆ พื้นที่เกม

และถึงกระนั้นฉันก็ยังไม่ทราบว่าเป็นนักพัฒนาเกมเดียวที่ใช้เครื่องมือสร้างเส้นทางการเรียนรู้แบบ Reinforcement Learning (ฉันไม่ได้อนุมานได้เลยว่าแอปพลิเคชัน RL ในการค้นหาเส้นทางคือ 0 เพียงว่ามันมีขนาดเล็กมากเมื่อเทียบกับ A * และเพื่อน ๆ )

ไม่ว่าจะด้วยเหตุผลใดก็ตามไม่ใช่เพราะนักพัฒนาซอฟต์แวร์เหล่านี้ไม่รู้จัก RL เนื่องจากหลักฐานจากข้อเท็จจริงที่ว่า RL ถูกใช้บ่อยในที่อื่น ๆ ในเอ็นจิ้นเกม

คำถามนี้ไม่ใช่ข้ออ้างสำหรับการเสนอความคิดเห็นเกี่ยวกับ RL ในการชี้แนะทาง ในความเป็นจริงฉันสมมติว่าการตั้งค่าโดยปริยายสำหรับ A * et al มากกว่า RL นั้นถูกต้อง - แต่การตั้งค่านั้นไม่ชัดเจนสำหรับฉันและฉันอยากรู้อยากเห็นมากเกี่ยวกับเหตุผลของมันโดยเฉพาะอย่างยิ่งจากทุกคนที่พยายามใช้ RL เพื่อหาเส้นทาง


1
"ไม่ใช่เพราะนักพัฒนาเหล่านี้ไม่รู้จัก RL" คุณแน่ใจหรือไม่ นั่นเป็นข้อสันนิษฐานที่ยิ่งใหญ่
Tetrad

สนใจที่จะแชร์ลิงก์หรือเอกสารใน RL ในการค้นหาเส้นทางหรือไม่
falstro

3
เมื่อพิจารณาถึงข้อพิสูจน์การเพิ่มประสิทธิภาพ / ขอบเขตที่แตกต่างกันสำหรับ A * (และอัลกอริธึมที่เกี่ยวข้อง) คุณคิดว่า RL นำอะไรไปสู่ตารางสำหรับการค้นหาเส้นทาง

1
เกี่ยวข้อง (พบในคำถามอื่น): ai-blog.net/archives/000178.html
Tetrad

คำตอบ:


14

ฉันคิดว่าเป็นเพราะคุณจะไม่ได้ประโยชน์จากนโยบายทั่วไปที่เป็นประโยชน์จากปัญหาใด ๆ นอกจากปัญหาของเล่นและฟังก์ชั่นของรางวัลจะดูน่าสงสัยเหมือนฮิวริสติก A * โอกาสในการใช้ RL มีแนวโน้มที่จะดูเหมือนจริง ๆ การสร้างผลลัพธ์ที่ไม่ตรงกับที่ดีที่สุดของ A * อย่างมีประสิทธิภาพมากเกินไป แต่อาจจะไม่ดีเท่าที่ควร

นี่อาจไม่เป็นธรรมต่อ RL และถ้าเป็นเช่นนั้นฉันจะสนใจที่จะฟังว่าทำไม แต่ฉันไม่เห็นอะไรเลยที่จะระบุว่า

พวกเราหลายคนยังจำได้ว่าสิ่งที่ทำให้มองไม่เห็นเหมือนในเกมก่อนที่จะยอมรับ A * อย่างกว้างขวางและไม่กระตือรือร้นที่จะทำอะไรที่คล้ายกับวันเหล่านั้นกับผู้เล่นหรือประสบกับผลที่ตามมาจากการทำตลาด


1
+1 สำหรับคำสั่งของคุณเกี่ยวกับฟังก์ชั่นการให้รางวัล และไม่ฉันเชื่อว่ามันเป็นลักษณะที่เป็นธรรม RL สามารถทำได้ดีในสิ่งที่ทำ แต่ฉันไม่คาดหวังว่าการหาเส้นทางที่เข้มงวดจะอยู่ในชุดนั้น (โปรดทราบว่าฉันตั้งใจยกเว้นการวางแผนการเคลื่อนไหวจากการสนทนานี้ RL ได้ถูกนำไปใช้กับปัญหาประเภทนั้นเรียบร้อยแล้ว)
Throwback1986

5

ฉันจะพยายามตอบคำถามของคุณด้วยคำถามอื่นโดยไม่ทราบเกี่ยวกับ RL มากนัก:

เมื่อใช้ RL คุณสามารถพิจารณาว่าเป็นไปได้ไหมที่จะไปถึงจุด A จากจุด B?

RL สามารถรับประกันพฤติกรรมการนำทางที่ทำซ้ำ / สอดคล้อง / ทดสอบได้หรือไม่

ความต้องการหน่วยความจำและเวลาทำงานของ CPU เปรียบเทียบกับ A * อย่างไร ในทำนองเดียวกันคุณสามารถคำนวณจำนวนก่อนเปรียบเทียบกับการนำทางตาข่ายได้อย่างไร

RL ยุติธรรมในสภาพแวดล้อมที่มีการชนแบบไดนามิกอย่างไร

การเข้าใจและใช้ RL อย่างถูกต้องกับการพูดพฤติกรรมการบังคับเลี้ยวทำได้ยากเพียงใด

มีผู้ให้บริการมิดเดิลแวร์ที่ดีสำหรับ RL หรือไม่

บางทีคำถามเหล่านั้นสามารถช่วยคุณได้คำตอบ


จากภาพรวมอย่างรวดเร็ว A * ดูเหมือนว่าจะถูกกว่าในการติดตั้งใช้งานได้เร็วขึ้นประมวลผลใช้หน่วยความจำน้อยกว่าสามารถคาดเดาได้มากกว่า RL อย่างไรก็ตาม RL อาจให้ผลลัพธ์ที่สมจริงยิ่งขึ้น
Jari Komppa

4
ในทางตรงกันข้ามตัวแทน RL มีแนวโน้มที่จะให้ผลลัพธ์ที่ไม่เป็นจริงอย่างสนุกสนานในช่วงเริ่มต้นการเรียนรู้ A * ที่มีพฤติกรรมการบังคับเลี้ยวเล็ก ๆ นั้นดูเป็นธรรมชาติมากขึ้น

ตกลงผลลัพธ์ที่สมจริงยิ่งขึ้นในที่สุด =)
Jari Komppa

RL เป็นพื้นฐานของพฤติกรรมการหาเส้นทางที่สมบูรณ์แบบ มันเร็วกว่าและง่ายกว่า A * แต่ใช้หน่วยความจำมากขึ้น เมื่อคุณพยายามลดความต้องการหน่วยความจำลงมันจะซับซ้อนและ / หรือไม่สอดคล้องกัน
Don Reba

5

ฉันสับสนโดยคำแนะนำที่ RL คือ "กระบวนทัศน์ที่เป็นธรรมชาติมากขึ้น" ฉันไม่เห็นว่าการเรียนรู้การเสริมแรงจับคู่กับโดเมนปัญหาทุกที่ใกล้อย่างหมดจดหรือแม่นยำเหมือนกับการค้นหากราฟอย่างไร โดยทั่วไปแล้วคุณไม่ต้องการให้ตัวแทนเรียนรู้ - คุณคิดว่าพวกเขารู้เส้นทางแล้ว แต่คุณต้องการให้พวกเขาเลือกและใช้เส้นทางที่ตรงที่สุดที่มีอยู่และการค้นหากราฟอำนวยความสะดวกในวิธีที่เหมาะสมที่สุด หากคุณใช้ RL ออฟไลน์ในการคำนวณทิศทางที่ดีที่สุดที่จะไปที่โหนดที่กำหนดสำหรับปลายทางที่กำหนดนั่นจะทำให้มีขนาดเทียบเท่า A * ในวงกว้างยกเว้นต้องใช้หน่วยความจำมากขึ้น * และต้องการให้นักพัฒนาระมัดระวัง ตรวจสอบให้แน่ใจว่าโหนดทั้งหมดได้รับการสำรวจอย่างเพียงพอระหว่างการฝึกอบรม และการฝึกนั้นจะให้คุณค่าที่เราสามารถประมาณได้ดีกับสมการพีทาโกรัสเนื่องจากรู้ล่วงหน้าว่ากราฟเป็นไปตามกฎของปริภูมิแบบยุคลิด (แน่นอนว่านี่ไม่ใช่กรณีสำหรับทุกสถานการณ์ที่อาจใช้การค้นหากราฟและ / หรือการเรียนรู้การเสริมแรง)

(เกี่ยวกับปัญหาหน่วยความจำ: หากคุณมีตำแหน่งเชิงปริมาณ 1,000 ตำแหน่งที่เป็นไปได้บนแผนที่นั่นคือ 1000 โหนดบวกกับขอบ 1000 * M (โดยที่ M คือจำนวนเฉลี่ยของโหนดที่สามารถเข้าถึงได้จากโหนดอื่น ๆ ) นั่นรวมถึงฮิวริสติก A * เพื่อดำเนินการสำหรับการเรียนรู้การเสริมแรงในการทำงานอย่างน้อยในวิธีที่ฉันมองเห็นคุณจะต้องมี 1,000 รายการสำหรับแต่ละขอบ 1000 * M เพื่อให้คะแนนค่าตอบแทนตามขอบนั้นสำหรับ 1,000 จุดหมายปลายทางที่เป็นไปได้นั่นคือข้อมูลจำนวนมาก - และทุกบิตต้องแม่นยำพอสมควรเพื่อหลีกเลี่ยงการวนซ้ำการแวะหรือการสิ้นตาย


3

การทำให้เบิกทางเป็นปัญหาที่ค่อนข้าง "แก้ไข" RL ไม่ใช่

ด้วย A * ผู้พัฒนาสามารถสร้างฮิวริสติกได้อย่างรวดเร็วและปรับปรุงได้ตลอดเวลา RL (ฉันกำลังพูดถึง Q-Learning เมื่อพูดถึง RL ที่นี่) ใช้เวลาในการคำนวณอัตราการเรียนรู้ที่ดีที่สุดและปัจจัยลดราคา (เวลาที่คุ้มค่ากับการใช้จ่ายในด้านอื่น ๆ ของเกม)


1

มันขึ้นอยู่กับประเภทของเกม หากทุกอย่างในเกมเป็นแบบสแตติกการใช้ A * search จะมีประสิทธิภาพมากกว่า อย่างไรก็ตามหากมีผู้เล่นคนอื่นที่เคลื่อนไหวในพื้นที่เดียวกันการค้นหา A * จะรับประกันความล้มเหลว การค้นหา * ไม่มีความคิดเกี่ยวกับตำแหน่งของผู้เล่นอื่น ๆ ในทางตรงกันข้าม RL สามารถจำลองพฤติกรรมของผู้เล่นคนอื่นและค้นหาเส้นทางที่ดีกว่าซึ่งนำผู้เล่นคนอื่นมาพิจารณา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.