เราสามารถแยกแยะปัญหาได้ดังนี้
ขั้นแรกถ้าคุณมีจุดสองจุดบนระนาบและป้อนพิกัดของจุดเหล่านั้นไปยังเครือข่ายประสาท (เช่นเวกเตอร์ < x0, y0, x1, y1>) และฝึกบนฉลากที่ระยะทางจริง (เช่น ( x0- y0)2+ ( x1- y1)2------------------√) ควรจะสามารถเรียนรู้ความสัมพันธ์นี้ด้วยความแม่นยำที่ปิดโดยพลการ
ถัดไปหากคุณมีภาพคล้ายกับสิ่งที่คุณอธิบายและให้อาหารผ่านเครือข่ายประสาทที่แตกต่างกัน (เช่น CNN) และเป็นป้ายกำกับที่คุณใช้จุดของจุดสองจุด (อีกครั้ง < x0, y0, x1, y1>) จากนั้นควรจะสามารถเรียนรู้ความสัมพันธ์นั้นกับความแม่นยำที่ปิดโดยพลการได้อีกครั้ง
แน่นอนว่าไม่มีเหตุผลที่จะทำสิ่งนี้ในสองโครงข่ายประสาทเทียมที่แยกจากกันดังนั้นเราจึงสามารถรวมทั้งสองแบบจากต้นทางถึงปลายทางเข้าด้วยกันได้แบบจำลองที่ใช้ภาพเป็นอินพุตและระยะทางเป็นเอาต์พุต
แบบจำลองนี้จะต้องได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่มีป้ายกำกับดังนั้นคุณอาจจำเป็นต้องสร้างข้อมูลด้วยตัวคุณเองหรือภาพป้ายกำกับ
แต่ถ้าคุณต้องการให้มันเรียนรู้ความคิดของการปิดระยะทางในแบบที่มีผู้ดูแลน้อยกว่าคุณจะต้องใช้การเรียนรู้การเสริมแรง ในกรณีนี้คุณจะต้องตั้งค่าสภาพแวดล้อมที่กระตุ้นให้ตัวแทนลดระยะทาง นี่อาจเป็นเรื่องง่ายเหมือนการได้รับรางวัลถ้าการกระทำลดระยะทาง
อีกแนวทางหนึ่งคือการจูงใจตัวแทนโดยใช้รางวัลในอนาคต นั่นคือรางวัลมันไม่เพียงมาจากผลลัพธ์ของสถานะถัดไปทันที แต่ยังมีส่วนร่วมจากสถานะที่เป็นไปได้ถัดไปและอีกอย่างหนึ่งหลังจากนั้นเป็นต้น นี่เป็นแนวคิดที่อยู่เบื้องหลัง Deep Q-Learning และฉันใช้ตัวอย่างง่ายๆ (คล้ายกับสิ่งที่คุณกำลังอธิบาย) ในสมุดบันทึกนี้นี้
ดังนั้นตอนนี้คำถามคือ: การใช้งานนี้ได้ทำอย่างอื่นนอกเหนือจากการสุ่มย้ายไปรอบ ๆ จนกว่ามันจะเป็นไปตามเส้นทางสู่ความสำเร็จหรือไม่?
ในตัวอย่างของคุณคุณพูดคุยเกี่ยวกับการให้รางวัลตัวแทนเมื่อมันตกลงสู่เป้าหมาย แต่ในสิ่งที่ฉันอธิบายมันได้รับรางวัลโดยขยับเข้าใกล้เป้าหมาย (ผ่านทาง Q-Function หรือจากสภาพแวดล้อมโดยตรง) มันสามารถทำได้โดยการเรียนรู้แนวความคิดที่เป็นนามธรรมของระยะทาง (ซึ่งสามารถแสดงในเวอร์ชันที่ควบคุม)
เมื่อมนุษย์เรียนรู้สิ่งนี้มันก็มีเหตุผลเหมือนกันนั่นคือมนุษย์กำลังได้รับรางวัลสำหรับการเคลื่อนที่ในทิศทางนั้นผ่านความรู้สึกของรางวัลในอนาคต
ฉันจะบอกว่าถ้าได้รับการฝึกอบรมและข้อมูลที่เพียงพอการเรียนรู้เสริมสามารถเรียนรู้แนวคิดนี้ได้อย่างง่ายดาย ตราบใดที่มีของรางวัลอื่น ๆ ปรากฏบนกระดาน (เช่น "ลดจำนวนเอนโทรปีของคณะกรรมการรวมทั้งพยายามรับรางวัล") คุณต้องคิดเกี่ยวกับสิ่งที่คุณขอ คุณต้องการให้ตัวแทนลดระยะทางหรือลดผลตอบแทนสูงสุดหรือไม่ สาเหตุโดยทั่วไปไม่สามารถทำได้ทั้งสองอย่าง หากคุณกำลังมองหาสมดุลระหว่างสองสิ่งนี้จริงๆแล้วคุณแค่กำหนดรางวัลใหม่เพื่อพิจารณาระยะทาง