การเรียนรู้แบบมีผู้เรียนการเรียนรู้แบบไม่มีผู้ดูแลและการเสริมแรง: พื้นฐานการทำงาน


30

การเรียนรู้ภายใต้การดูแล

  • 1) มนุษย์สร้างลักษณนามอยู่บนพื้นฐานของการป้อนข้อมูลและการส่งออกข้อมูล
  • 2) ลักษณนามนั้นได้รับการฝึกอบรมพร้อมชุดข้อมูลการฝึกอบรม
  • 3) ลักษณนามนั้นทดสอบด้วยชุดข้อมูลทดสอบ
  • 4) การปรับใช้ถ้าผลลัพธ์เป็นที่น่าพอใจ

หากต้องการใช้เมื่อ "ฉันรู้วิธีจัดประเภทข้อมูลนี้ฉันแค่ต้องการให้คุณ (ตัวจําแนก) เพื่อจัดเรียงข้อมูล"

จุดของวิธีการ: ใช้ป้ายกำกับคลาสหรือสร้างจำนวนจริง

การเรียนรู้ที่ไม่จำเป็น

  • 1) มนุษย์สร้างอัลกอริทึมบนพื้นฐานของการป้อนข้อมูล
  • 2) อัลกอริทึมนั้นทดสอบด้วยชุดทดสอบข้อมูล (ซึ่งอัลกอริทึมสร้างลักษณนาม)
  • 3) การปรับใช้ถ้าลักษณนามเป็นที่น่าพอใจ

เมื่อต้องการใช้เมื่อ "ฉันไม่รู้ว่าจะจัดประเภทข้อมูลนี้ได้อย่างไรคุณ (อัลกอริทึม) สามารถสร้างตัวจําแนกสำหรับฉันได้หรือไม่"

จุดของวิธีการ: ใช้ป้ายกำกับคลาสหรือทำนาย (PDF)

เสริมการเรียนรู้

  • 1) มนุษย์สร้างอัลกอริทึมบนพื้นฐานของการป้อนข้อมูล
  • 2) อัลกอริทึมนั้นนำเสนอสถานะที่ขึ้นอยู่กับข้อมูลอินพุตที่ผู้ใช้ให้รางวัลหรือลงโทษอัลกอริทึมผ่านการกระทำที่อัลกอริทึมดำเนินการซึ่งจะดำเนินต่อไปตามกาลเวลา
  • 3) อัลกอริทึมนั้นเรียนรู้จากการให้รางวัล / การลงโทษและอัปเดตตัวเองซึ่งจะดำเนินต่อไป
  • 4) มันอยู่ในการผลิตเสมอมันต้องเรียนรู้ข้อมูลจริงเพื่อให้สามารถนำเสนอการกระทำจากรัฐ

เพื่อใช้เมื่อ "ฉันไม่รู้ว่าจะจำแนกข้อมูลนี้อย่างไรคุณสามารถจำแนกข้อมูลนี้และฉันจะให้รางวัลแก่คุณหากมันถูกต้องหรือฉันจะลงโทษคุณหากไม่ใช่"

นี่คือการไหลของการปฏิบัติเหล่านี้ฉันได้ยินมามากมายเกี่ยวกับสิ่งที่พวกเขาทำ แต่ข้อมูลที่เป็นประโยชน์และเป็นแบบอย่างนั้นน่ากลัวเล็กน้อย!


ชอบวิธีการนำเสนอคำถามของคุณ ฉันพบคำตอบนี้มีประโยชน์: stats.stackexchange.com/a/522/92255
Ashesh Kumar Singh

คำตอบ:


3

นี่คือการแนะนำขนาดกะทัดรัดที่ดีมากกับแนวคิดพื้นฐาน!

เสริมการเรียนรู้

ฉันคิดว่าคำอธิบายกรณีการใช้งานของการเรียนรู้การเสริมกำลังไม่ถูกต้อง คำว่าการจัดประเภทไม่เหมาะสม คำอธิบายที่ดีกว่าคือ:

ผมไม่ทราบว่าวิธีการที่จะทำหน้าที่ในเรื่องนี้สภาพแวดล้อมที่คุณสามารถหาที่ดีพฤติกรรมและในขณะเดียวกันฉันจะให้ข้อเสนอแนะ

กล่าวอีกนัยหนึ่งเป้าหมายคือค่อนข้างควบคุมสิ่งที่ดีกว่าที่จะจำแนกสิ่งที่ดี

อินพุต

  • สภาพแวดล้อมที่ถูกกำหนดโดย
    • ทุกรัฐที่เป็นไปได้
    • การกระทำที่เป็นไปได้ในรัฐ
  • ฟังก์ชั่นรางวัลขึ้นอยู่กับรัฐและ / หรือการกระทำ

ขั้นตอนวิธี

  • ตัวแทน
    • อยู่ในสถานะ
    • จะใช้เวลาดำเนินการที่จะถ่ายโอนไปยังรัฐอื่น
    • ได้รับรางวัลสำหรับการกระทำในรัฐ

เอาท์พุต

  • ตัวแทนต้องการค้นหานโยบายที่ดีที่สุดซึ่งให้รางวัลมากที่สุด

2

คำเตือน: ฉันไม่มีความเชี่ยวชาญและฉันไม่เคยทำอะไรด้วยการเรียนรู้การเสริมแรง (ยัง) ดังนั้นข้อเสนอแนะใด ๆ ที่จะได้รับการต้อนรับ ...

นี่คือคำตอบที่เพิ่มบันทึกทางคณิตศาสตร์เล็กน้อยในรายการของคุณและความคิดที่แตกต่างกันในการใช้สิ่งที่ ฉันหวังว่าการแจงนับเป็นการอธิบายตนเองได้ดีพอ:

ภายใต้การดูแล

  1. D={(x0,Y0),(x1,Y1),...,(xn,Yn)}
  2. ก.L(Yผม,ก.(xผม))0ผม<ล.
  3. Lล.ผมn

เราสามารถให้ตัวอย่าง แต่เราไม่สามารถให้อัลกอริทึมรับจากอินพุตไปยังเอาต์พุต

การตั้งค่าสำหรับการจำแนกและการถดถอย

ใกล้ชิด

  1. D={x0,x1,...,xn}
  2. ก.ที่ให้ข้อมูลเชิงลึกแก่เรา
  3. เรามีมาตรการเพียงเล็กน้อยที่จะบอกว่าเราทำสิ่งที่มีประโยชน์ / น่าสนใจ

เรามีข้อมูลบางอย่าง แต่เราไม่รู้ว่าจะเริ่มค้นหาสิ่งที่มีประโยชน์ / น่าสนใจได้ที่ไหน

การตั้งค่าสำหรับการทำคลัสเตอร์การลดมิติการค้นหาปัจจัยที่ซ่อนอยู่โมเดลทั่วไป ฯลฯ

การสนับสนุน

  1. เราไม่มีข้อมูล
  2. ก.xผมR(xผม)
  3. เราประเมินโดยใช้ฟังก์ชั่นของรางวัลหลังจากที่มีเวลาเรียนรู้

เราไม่รู้ว่าจะทำอะไร แต่เราสามารถพูดได้ว่ามันถูกหรือผิด

ดูเหมือนว่ามีประโยชน์อย่างยิ่งสำหรับงานการตัดสินใจตามลำดับ

ข้อมูลอ้างอิง:
Si, J. , Barto, A. , Powell, W. และ Wunsch, D. (2004) การเรียนรู้การเสริมแรงและความสัมพันธ์กับการเรียนรู้แบบมีผู้สอนในคู่มือการเรียนรู้และการเขียนโปรแกรมแบบไดนามิกโดยประมาณ John Wiley & Sons, Inc. โฮโบเก้นนิวเจอร์ซีย์สหรัฐอเมริกา ดอย: 10.1002 / 9780470544785.ch2

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.