เครือข่ายประสาทสามารถทำงานตามแนวคิดของระยะทางได้หรือไม่


10

ลองนึกภาพเกมที่มีหน้าจอสีดำแยกจากพิกเซลสีแดงและพิกเซลสีน้ำเงิน ให้เกมนี้กับมนุษย์พวกเขาจะเห็นว่าการกดปุ่มลูกศรจะย้ายจุดสีแดง สิ่งต่อไปที่พวกเขาจะพยายามคือย้ายพิกเซลสีแดงไปยังพิกเซลสีน้ำเงิน

มอบเกมนี้ให้กับ AI โดยจะสุ่มย้ายพิกเซลสีแดงจนกว่าจะมีผู้ลองล้านครั้งในภายหลังโดยบังเอิญย้ายไปที่พิกเซลสีน้ำเงินเพื่อรับรางวัล หาก AI มีแนวคิดระยะห่างระหว่างพิกเซลสีแดงและสีน้ำเงินมันอาจพยายามลดระยะห่างนี้

หากไม่มีการเขียนโปรแกรมในแนวคิดของระยะทางหากเราใช้พิกเซลของเกมเราสามารถคำนวณจำนวนเช่น "เอนโทรปี" ซึ่งจะต่ำกว่าเมื่อพิกเซลอยู่ห่างกันมากกว่าเมื่ออยู่ใกล้กันหรือไม่ ควรทำงานกับการกำหนดค่าพิกเซลอื่น ๆ เช่นเกมที่มีสามพิกเซลในที่ที่ดีและอีกอันไม่ดี เพียงเพื่อให้โครงข่ายประสาทมีความรู้สึกว่าหน้าจอเป็นอย่างไร จากนั้นให้ตั้งเป้าหมาย NN เช่น "พยายามทำให้เอนโทรปีของคณะกรรมการน้อยลงและพยายามรับรางวัล"

มีอะไรคล้ายกับเรื่องนี้ในการวิจัยปัจจุบันหรือไม่?


ฉันไม่คิดว่าคุณจะให้อาหารโดยตรงกับภาพและหาระยะทาง ... คุณควรป้อนชุดตัวเลขที่แสดงระยะทางระยะทางแนวตั้งระยะทางแนวนอน ฯลฯ
FreezePhoenix

@Pheo ใช่ แต่คุณต้องป้อนค่าที่แตกต่างกันสำหรับ "เกม" ทุกประเภท ในขณะที่สิ่งที่ฉันพูดคือเราสามารถมีค่าระดับโลกบางอย่างที่สูงเมื่อมีการจัดกลุ่มพิกเซลเข้าด้วยกันและต่ำเมื่อมีระยะห่างพิกเซล
zooby

"สิ่งต่อไปที่พวกเขาจะลองคือการย้ายพิกเซลสีแดงไปยังพิกเซลสีน้ำเงิน" อาจจะไม่ "แดง" และ "สีน้ำเงิน" เป็นเวลาส่วนใหญ่เป็นศัตรูดังนั้นคุณจะเริ่มเพิ่มระยะห่างก่อนที่พิกเซลสีฟ้าจะแจ้งให้คุณทราบ
ลี

คำตอบ:


1

ตอบ

ฉันจะเอาคำถามของคุณไปประเมินมูลค่าและลงลึกเข้าไปในหัวข้อนี้

ใช่พวกเขาสามารถ จิตใจมนุษย์ทั่วไปสามารถ แต่พิจารณาจิตใจมนุษย์ ล้านหากไม่พันล้านของเซลล์ประสาท ในความเป็นจริงเราสามารถพิจารณาระยะทางได้ว่าเป็นแนวคิดมนุษย์เพียงแค่ทฤษฎีที่พัฒนาขึ้นจากการมีปฏิสัมพันธ์กับโลก

ดังนั้นเมื่อหนึ่งหรือสองปีโดยมีเซลล์ประสาทจำนวนหนึ่งอยู่ในมือคุณสามารถจำลองสถานการณ์นี้ได้ นั่นคือถ้าคอมพิวเตอร์ของคุณขนานกับจิตใจมนุษย์ คำอธิบายสั้น ๆ ก็คือจิตใจของมนุษย์นั้นขนานกันมาก

อย่างไรก็ตามมันจะง่ายกว่าในการคำนวณระยะทางด้วยโปรแกรมไม่ใช่ AI และเพียงป้อนผลลัพธ์ให้ AI ที่จะทำการตัดสินใจ

พิจารณาระยะเวลาที่คุณใช้ดูหน้าจอ หากคุณสามารถบอกระยะทาง (โดยประมาณ) ระหว่างสองพิกเซลดังนั้นเครือข่ายประสาทสามารถทำได้เช่นเดียวกับคุณ อย่างไรก็ตามเพิ่มเวลาที่คุณใช้ชีวิตและเรียนรู้ในสมการและกลายเป็นหายนะ

อ่านเพิ่มเติม

สมองของมนุษย์นั้นขนานกัน

นี่เป็นผลมาจากความจริงที่ว่าเซลล์ประสาททั้งหมดในสมองมนุษย์มีความเป็นอิสระจากกัน พวกเขาสามารถเรียกใช้การกระทำที่เกิดขึ้นจริงในเวลาเดียวกันดังนั้นการกระทำของการตีความภาพและง่ายขึ้นมากเช่นบล็อกของเซลล์ประสาทสามารถ "คิดว่า" เป็นอิสระจากการดำเนินงานของผู้อื่นที่ จำกัด การสิ่งที่จะ "ล่าช้า" ในจำนวนจิ๋ว


1

คุณสามารถสร้าง AI เพื่อ "เห็น" ในฐานะมนุษย์ ดังที่คุณกล่าวโดยให้กุญแจแก่มนุษย์เขาจะคลิกแบบสุ่ม เขาแค่ต้องรู้ว่าเขากดปุ่มใดที่ทำให้เขาเข้าใกล้วัตถุอื่น ๆ บนหน้าจอมากขึ้น ฉันคิดว่าพื้นฐานของ AI คือการจดจำวัตถุ ฉันจะพยายามสร้างสคริปต์เพื่อแมปวัตถุหน้าจอของเกม มีตัวอย่างทางกฎหมายใน Python

ฉันจะพยายามตามเส้นทางดังนี้:

  • ทำให้ AI เข้าใจว่าการคลิกลูกศรหรือ WASD และอยู่ในบริบท GAME วัตถุที่ย้ายพิกเซลตามทิศทางแสดงถึงผู้แต่งหลัก (ผู้เล่น)

  • ขนาน: แผนที่ขอบเขตทั้งหมดของภูมิภาคและดัชนีวัตถุที่แตกต่างกันภายในภูมิภาคนั้นโดยอัตโนมัติจะมีพิกัดโดเมนและระยะทางวัตถุ AI ต้องการเห็น (สตรีม) เกมและผ่านภาพเพื่อจัดหมวดหมู่วัตถุ คุณเข้าใจสิ่งที่ฉันหมายถึงอะไร

  • ในแบบคู่ขนาน: AI ต้องระวังข้อความและข้อมูลทั้งหมดที่อยู่บนหน้าจอ (แมปทั้งหมดจำได้ไหม?) คุณต้องเข้าใจเมื่อมีการเปลี่ยนแปลงข้อความหรือสิ่งที่แตกต่างเกิดขึ้น ตัวอย่างเช่น: เมื่อใดก็ตามที่เขากลับสู่ตำแหน่งเริ่มต้นของแต่ละเฟสเมื่อใดก็ตามที่เขามีการนับจะเกิดอะไรขึ้นเมื่อศาลถึงศูนย์หรือหมายเลขทั่วไปที่สร้างการเปลี่ยนแปลงประเภทอื่น

  • เขาต้องการที่จะเข้าใจสิ่งที่เกิดซ้ำใน "respawn" ทุกครั้ง คุณต้องเข้าใจว่า "respawn" คืออะไร อาจเป็นตำแหน่งแผนที่ที่แน่นอนในทุก ๆ แผนที่ที่ส่งกลับเมื่อใดก็ตามที่นับบนหน้าจอ หรือเมื่อเทียบกับวัตถุบางชนิด (วัตถุที่แมป)

หากคุณต้องการสร้างหุ่นยนต์อัจฉริยะที่ยอดเยี่ยมคุณสามารถทำตามขั้นตอนทั้งหมดที่ผ่านหัวมนุษย์ต่าง ๆ หรือมนุษย์ที่ดีที่สุดหรือกฎของแต่ละเกม แต่บางครั้งการสร้างบ็อตเฉพาะเจาะจงก็จะง่ายขึ้น ขึ้นอยู่กับสิ่งที่คุณต้องการจะทำ


เขาไม่ได้ถามว่าคุณจะทำอย่างไร แต่คุณสามารถทำได้
FreezePhoenix

เป็นไปได้ที่จะทำได้หลายวิธี ฉันผ่านขั้นตอนการสร้างเทมเพลต ไม่ใช่ทฤษฎีมันเป็นกระบวนการที่สามารถรวมกระบวนการอื่น ๆ ตามวิวัฒนาการของ AI
Guilherme IA

1

สิ่งที่คุณพูดถึงมีตัวอย่างที่สมบูรณ์แบบสำหรับการวางแผนเส้นทางซึ่งมีการวิจัยอย่างกว้างขวางใน AI

โปรดมองหาอัลกอริทึม A-starและวิธีเพิ่มประสิทธิภาพด้วยเครือข่ายประสาทเทียม :)


1

เราสามารถแยกแยะปัญหาได้ดังนี้

ขั้นแรกถ้าคุณมีจุดสองจุดบนระนาบและป้อนพิกัดของจุดเหล่านั้นไปยังเครือข่ายประสาท (เช่นเวกเตอร์ <x0,Y0,x1,Y1>) และฝึกบนฉลากที่ระยะทางจริง (เช่น (x0-Y0)2+(x1-Y1)2) ควรจะสามารถเรียนรู้ความสัมพันธ์นี้ด้วยความแม่นยำที่ปิดโดยพลการ

ถัดไปหากคุณมีภาพคล้ายกับสิ่งที่คุณอธิบายและให้อาหารผ่านเครือข่ายประสาทที่แตกต่างกัน (เช่น CNN) และเป็นป้ายกำกับที่คุณใช้จุดของจุดสองจุด (อีกครั้ง <x0,Y0,x1,Y1>) จากนั้นควรจะสามารถเรียนรู้ความสัมพันธ์นั้นกับความแม่นยำที่ปิดโดยพลการได้อีกครั้ง

แน่นอนว่าไม่มีเหตุผลที่จะทำสิ่งนี้ในสองโครงข่ายประสาทเทียมที่แยกจากกันดังนั้นเราจึงสามารถรวมทั้งสองแบบจากต้นทางถึงปลายทางเข้าด้วยกันได้แบบจำลองที่ใช้ภาพเป็นอินพุตและระยะทางเป็นเอาต์พุต

แบบจำลองนี้จะต้องได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่มีป้ายกำกับดังนั้นคุณอาจจำเป็นต้องสร้างข้อมูลด้วยตัวคุณเองหรือภาพป้ายกำกับ

แต่ถ้าคุณต้องการให้มันเรียนรู้ความคิดของการปิดระยะทางในแบบที่มีผู้ดูแลน้อยกว่าคุณจะต้องใช้การเรียนรู้การเสริมแรง ในกรณีนี้คุณจะต้องตั้งค่าสภาพแวดล้อมที่กระตุ้นให้ตัวแทนลดระยะทาง นี่อาจเป็นเรื่องง่ายเหมือนการได้รับรางวัลถ้าการกระทำลดระยะทาง

อีกแนวทางหนึ่งคือการจูงใจตัวแทนโดยใช้รางวัลในอนาคต นั่นคือรางวัลมันไม่เพียงมาจากผลลัพธ์ของสถานะถัดไปทันที แต่ยังมีส่วนร่วมจากสถานะที่เป็นไปได้ถัดไปและอีกอย่างหนึ่งหลังจากนั้นเป็นต้น นี่เป็นแนวคิดที่อยู่เบื้องหลัง Deep Q-Learning และฉันใช้ตัวอย่างง่ายๆ (คล้ายกับสิ่งที่คุณกำลังอธิบาย) ในสมุดบันทึกนี้นี้

ดังนั้นตอนนี้คำถามคือ: การใช้งานนี้ได้ทำอย่างอื่นนอกเหนือจากการสุ่มย้ายไปรอบ ๆ จนกว่ามันจะเป็นไปตามเส้นทางสู่ความสำเร็จหรือไม่?

ในตัวอย่างของคุณคุณพูดคุยเกี่ยวกับการให้รางวัลตัวแทนเมื่อมันตกลงสู่เป้าหมาย แต่ในสิ่งที่ฉันอธิบายมันได้รับรางวัลโดยขยับเข้าใกล้เป้าหมาย (ผ่านทาง Q-Function หรือจากสภาพแวดล้อมโดยตรง) มันสามารถทำได้โดยการเรียนรู้แนวความคิดที่เป็นนามธรรมของระยะทาง (ซึ่งสามารถแสดงในเวอร์ชันที่ควบคุม)

เมื่อมนุษย์เรียนรู้สิ่งนี้มันก็มีเหตุผลเหมือนกันนั่นคือมนุษย์กำลังได้รับรางวัลสำหรับการเคลื่อนที่ในทิศทางนั้นผ่านความรู้สึกของรางวัลในอนาคต

ฉันจะบอกว่าถ้าได้รับการฝึกอบรมและข้อมูลที่เพียงพอการเรียนรู้เสริมสามารถเรียนรู้แนวคิดนี้ได้อย่างง่ายดาย ตราบใดที่มีของรางวัลอื่น ๆ ปรากฏบนกระดาน (เช่น "ลดจำนวนเอนโทรปีของคณะกรรมการรวมทั้งพยายามรับรางวัล") คุณต้องคิดเกี่ยวกับสิ่งที่คุณขอ คุณต้องการให้ตัวแทนลดระยะทางหรือลดผลตอบแทนสูงสุดหรือไม่ สาเหตุโดยทั่วไปไม่สามารถทำได้ทั้งสองอย่าง หากคุณกำลังมองหาสมดุลระหว่างสองสิ่งนี้จริงๆแล้วคุณแค่กำหนดรางวัลใหม่เพื่อพิจารณาระยะทาง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.