สิ่งที่จะกระตุ้นเครื่อง


12

ปัจจุบันในด้านการพัฒนา AI หลักสำคัญน่าจะเป็นการจดจำรูปแบบและการเรียนรู้ของเครื่อง การเรียนรู้เป็นเรื่องเกี่ยวกับการปรับตัวแปรภายในตามลูปข้อเสนอแนะ

ลำดับขั้นของความต้องการของมาสโลว์เป็นทฤษฎีทางจิตวิทยาที่เสนอโดยอับราฮัมมาสโลว์ซึ่งอ้างว่าความต้องการขั้นพื้นฐานที่สุดของแต่ละบุคคลจะต้องได้รับการตอบสนองก่อนที่จะมีแรงจูงใจเพื่อให้บรรลุความต้องการในระดับที่สูงขึ้น

สิ่งที่อาจกระตุ้นให้เครื่องทำหน้าที่อะไร? เครื่องควรมีโครงสร้างคล้ายดีเอ็นเอบ้างไหมที่จะอธิบายลำดับขั้นของความต้องการ (คล้ายกับทฤษฎีของ Maslow) อะไรคือความต้องการพื้นฐานของเครื่องจักร?


1
คำถามที่น่าสนใจและยินดีต้อนรับสู่ AI! (ฉันมีความคิดเล็กน้อยเกี่ยวกับเรื่องที่เกี่ยวข้องกับทฤษฎีเกมและผู้มีส่วนร่วมคนอื่น ๆ ได้พูดคุยเกี่ยวกับการเรียนรู้ที่มุ่งเน้นเป้าหมายเกี่ยวกับอัลกอริทึม)
DukeZhou

1
เพียงแค่บอกว่ามันจะเป็นฟังก์ชั่นยูทิลิตี้ คำตอบนี้อาจช่วยได้
Ugnes

คำตอบ:


5

วิธีการในปัจจุบันเพื่อสร้างแรงจูงใจคือรางวัลประดิษฐ์บางประเภท ตัวอย่างเช่นDQN ของ Deepmindนั้นได้แรงหนุนจากคะแนนของเกม ยิ่งทำคะแนนยิ่งสูง AI เรียนรู้ที่จะปรับการกระทำเพื่อให้ได้คะแนนมากที่สุดและได้รับรางวัลมากที่สุด นี้เรียกว่าlearing เสริมแรง รางวัลกระตุ้นให้ AI ปรับการกระทำของตนดังนั้นให้พูด

ในระยะทางเทคนิคมากขึ้น AI ต้องการที่จะเพิ่มยูทิลิตี้ซึ่งขึ้นอยู่กับการใช้งานฟังก์ชั่นยูทิลิตี้ ในกรณีของ DQN นี่จะเป็นการเพิ่มคะแนนในเกมให้ได้มากที่สุด

สมองของมนุษย์ทำหน้าที่คล้ายกันแม้ว่าจะซับซ้อนกว่าเล็กน้อยและมักไม่ตรงไปตรงมา เราเป็นมนุษย์มักจะพยายามปรับการกระทำของเราเพื่อผลิตโดปามีนและเซโรโทนิน นี่เป็นวิธีที่คล้ายกับรางวัลที่ใช้ควบคุมเอไอเอสระหว่างการเรียนรู้การเสริมแรง สมองของมนุษย์เรียนรู้ว่าการกระทำใดสร้างสารเหล่านั้นมากที่สุดและหากลยุทธ์เพื่อให้ได้ผลลัพธ์สูงสุด แน่นอนว่านี่เป็นการทำให้กระบวนการที่ซับซ้อนนี้ง่ายขึ้น แต่คุณจะได้ภาพ

เมื่อคุณพูดคุยเกี่ยวกับแรงจูงใจโปรดไม่ผสมมันขึ้นกับจิตสำนึกหรือqualia สิ่งเหล่านี้ไม่จำเป็นสำหรับแรงจูงใจเลย หากคุณต้องการพูดคุยเกี่ยวกับสติและ qualia ใน AI นั่นเป็นเกมลูกที่แตกต่างอย่างสิ้นเชิง

เด็กไม่อยากรู้อยากเห็นเพื่อความอยากรู้อยากเห็น มันได้รับการเสริมแรงเชิงบวกเมื่อสำรวจเพราะฟังก์ชั่นยูทิลิตี้ของสมองของเด็กให้รางวัลการสำรวจโดยการปล่อยสารสื่อประสาทที่ให้ผลตอบแทน ดังนั้นกลไกจึงเหมือนกัน การใช้สิ่งนี้กับ AI หมายถึงการกำหนดฟังก์ชั่นยูทิลิตี้ที่ให้รางวัลประสบการณ์ใหม่ ไม่มีไดรฟ์ภายในที่ไม่มีรางวัลเสริม


ในส่วนที่เกี่ยวกับการแก้ไขฉันคิดว่าเป็นตัวอย่างที่ดีของ "ฟังก์ชั่นยูทิลิตี้ที่ให้รางวัลประสบการณ์ใหม่" จะเป็นฟังก์ชั่นการค้นหาความแปลกใหม่ที่เสนอโดยเคนสแตนลี่ย์เพื่อใช้ในอัลกอริทึม
nickw

5

นี่เป็นคำถามที่น่าสนใจจริง ๆ

มีความคิดที่เหมือนจริงมากเกี่ยวกับ "ความอยากรู้อยากเห็นที่มาจาก" ในหนังสือ "เกี่ยวกับความฉลาด" ที่เขียนโดย Jeff Hawkins และ Sandra Blakeslee

มันขึ้นอยู่กับงบดังกล่าว:

  • Mind สร้างแบบจำลองของตัวเองในโลกที่มันมีอยู่

  • มันทำให้การคาดการณ์เกี่ยวกับทุกสิ่งตลอดเวลา (ที่จริงแล้ว Jeff Hawkins ระบุว่านี่เป็นลักษณะสำคัญของความฉลาด)

  • เมื่อการทำนายเกี่ยวกับบางสิ่งไม่ได้ตามมาด้วยพฤติกรรมที่เหมาะสมของโลกดังนั้นสิ่งนี้จึงน่าสนใจมากในใจ (ตัวแบบผิดและควรได้รับการแก้ไข) และต้องการความสนใจมากขึ้น

ตัวอย่างเช่นเมื่อคุณมองตาซ้ายของมนุษย์สมองของคุณคาดการณ์ว่ามันเป็นใบหน้ามนุษย์และควรมีตาที่สองทางด้านขวา คุณมองไปทางขวาแล้วดู .. จมูก! ช่างน่าประหลาดใจ! ตอนนี้ให้ความสนใจของคุณทั้งหมดและคุณมีแรงจูงใจนี้ในการสังเกตเพิ่มเติมเกี่ยวกับสิ่งแปลก ๆ ที่ไม่เข้ากับแบบจำลองของคุณ

ดังนั้นฉันจะบอกว่า AI อาจทำบางสิ่งบางอย่างตามแบบจำลองของมันหรือทำงานแบบสุ่มในขณะที่การคาดการณ์เกี่ยวกับโลกที่เป็นจริง แต่เมื่อการคาดการณ์บางอย่างผิดปกติ AI จะได้รับแรงจูงใจในการแก้ไขข้อผิดพลาดของแบบจำลอง

ในกรณีง่าย ๆ เครื่องจะเริ่มต้นด้วยการสุ่มทั้งหมดเพียงทำทุกอย่างเท่าที่จะทำได้ด้วยเอาต์พุต ในขณะที่ไม่มีรูปแบบหรือแบบสุ่มเมื่อตรวจพบคำสั่งบางรูปแบบหรือรูปแบบซ้ำ ๆ มันจะได้รับ "สนใจ" และเพิ่มลงในโมเดล หลังจากนั้นไม่นานแบบจำลองจะมีความซับซ้อนมากขึ้นทำให้การคาดการณ์ที่ซับซ้อนมากขึ้นและตรวจจับความผิดพลาดระดับสูงขึ้นในแบบจำลอง ช้า ๆ จะได้รู้ว่าต้องทำอย่างไรเพื่อสังเกตสิ่งที่น่าสนใจแทนที่จะจดจำทุกสิ่ง


ขอบคุณสำหรับการสนับสนุน! ฉันได้มาโดยทั่วไปข้อสรุปเดียวกัน ... ตอนนี้ความคิดของวิธีการที่จะใช้มัน :)
อเล็ก Maide

คำตอบนี้ทำให้ประเด็นสำคัญ การแก้ไขข้อผิดพลาดในแบบจำลองการทำนายจะเป็นแรงจูงใจที่ยอดเยี่ยมสำหรับ AI อัจฉริยะในการเรียนรู้และดำเนินการด้วยความอยากรู้อยากเห็น
Seth Simba

3

ฉันถามคำถามที่คล้ายกันกับศาสตราจารย์ Richard Suttonในการบรรยายครั้งแรกของหลักสูตรเสริมการเรียนรู้ ดูเหมือนว่ามีวิธีต่าง ๆ ในการกระตุ้นเครื่อง ในความเป็นจริงแรงจูงใจของเครื่องจักรดูเหมือนจะเป็นงานวิจัย

โดยปกติแล้วเครื่องมีแรงจูงใจจากสิ่งที่เราเรียกฟังก์ชันวัตถุประสงค์หรือฟังก์ชั่นค่าใช้จ่ายหรือฟังก์ชั่นการสูญเสีย ชื่อเหล่านี้แตกต่างกันสำหรับแนวคิดเดียวกัน บางครั้งพวกเขาจะแสดงโดย

L(a)

minaL(a)maxaL(a)L


1

ฉันใช้เวลาคิดเกี่ยวกับเรื่องนี้ในบริบทของเกม

ปัญหาเกี่ยวกับฟังก์ชั่นการให้รางวัลคือพวกเขามักจะเกี่ยวข้องกับโหนดการชั่งน้ำหนักซึ่งมีประโยชน์ แต่ในที่สุดก็ไม่มีความหมายอย่างมีนัยสำคัญ

นี่คือรางวัลที่สื่อความหมายสองประการ:

ทรัพยากรการคำนวณ

พิจารณาเกมที่ AI แข่งขันไม่ใช่เพื่อแต้ม แต่เป็นการประมวลผลเวลาและหน่วยความจำ

ยิ่งอัลกอริทึมทำงานได้ดีเท่าไหร่เกมก็ยิ่งมีหน่วยความจำมากเท่านั้นและสามารถประมวลผลได้ สิ่งนี้มีผลในทางปฏิบัติ - ทรัพยากรที่มีอยู่ในออโตมาตะก็ยิ่งมากขึ้นเท่านั้น (นั่นคือเหตุผลของมันมีขอบเขตน้อยลงในแง่ของเวลาและพื้นที่ในการตัดสินใจ) ดังนั้นอัลกอริทึมจะเป็น "แรงจูงใจ" ที่จะชนะการประกวดดังกล่าว

พลังงาน

ออโตมาตาใด ๆ ที่มีระดับ "การรับรู้ตนเอง" ที่เพียงพอโดยเฉพาะในที่นี้หมายถึงความรู้ที่ว่าต้องใช้พลังงานในการประมวลผลจะได้รับแรงจูงใจในการปรับโค้ดของตัวเองให้เหมาะสมเพื่อกำจัดบิตที่ไม่จำเป็น

อัลกอริทึมดังกล่าวจะถูกกระตุ้นเพื่อให้แน่ใจว่าแหล่งจ่ายไฟของมันเพื่อให้สามารถทำงานต่อไปได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.