การเรียนรู้การเสริมแรงแบบมีส่วนร่วม

10

ฉันมีการใช้งานสำหรับตัวแทนเดียวที่ทำงานเกี่ยวกับปัญหาราคาแบบไดนามิกโดยมีเป้าหมายในการเพิ่มรายได้ให้สูงสุด อย่างไรก็ตามปัญหาที่ฉันทำงานด้วยเกี่ยวข้องกับผลิตภัณฑ์ที่แตกต่างกันหลายอย่างซึ่งเป็นการทดแทนกันดังนั้นการกำหนดราคาแบบไดนามิกทั้งหมดกับผู้เรียนอิสระดูเหมือนจะไม่ถูกต้องเนื่องจากราคาหนึ่งมีผลต่อรางวัลของอีกคนหนึ่ง เป้าหมายคือการกำหนดราคาแบบไดนามิกทั้งหมดเพื่อเพิ่มผลรวมของรายได้ของแต่ละบุคคลให้ได้มากที่สุด $Q(\lambda)$

ฉันได้ทำการวิจัยเพื่อค้นหาสิ่งที่ประยุกต์ใช้การเรียนรู้การเสริมแรงด้วยวิธีนี้ แต่การใช้หลายเอเจนต์ที่ฉันพบเน้นไปที่เกมการแข่งขันมากกว่าการร่วมมือกันหรือพวกเขาคิดว่าความรู้ที่ไม่สมบูรณ์ของตัวแทนอื่น ความรู้ของแต่ละตัวแทนในสถานการณ์นี้) มีแอปพลิเคชันที่มีการวิจัย / จัดทำเป็นเอกสารที่ดีเกี่ยวกับการเรียนแบบร่วมมือในลักษณะนี้หรือไม่?

machine-learning reinforcement-learning

— user3704120
แหล่งที่มา

1

คุณสามารถดูกระดาษเหล่านี้ อันแรกค่อนข้างเกี่ยวข้องกับงานของคุณ
http://icamt2016.org/papers/SS-LTMLBDA-06-05.pdf http://researcher.watson.ibm.com/researcher/files/us-kephart/icml00_qrt.pdf

— Prayalankar
แหล่งที่มา

0

สรุปโดยรวมสิ่งที่คุณพยายามเข้าถึงคือประสิทธิภาพของพาเรโต้

เพื่อให้เกิดความร่วมมือคุณต้องกำหนดฟังก์ชั่นรางวัลเดียวที่ผู้เล่นทุกคนแบ่งปัน

อย่างใดคุณจะต้องชั่งน้ำหนักรางวัลที่คุณได้รับจากผลิตภัณฑ์หนึ่งด้วยความเคารพต่อผู้อื่น

— Juan Leni
แหล่งที่มา