การเรียนรู้การเสริมแรงแบบมีส่วนร่วม


10

ฉันมีการใช้งานสำหรับตัวแทนเดียวที่ทำงานเกี่ยวกับปัญหาราคาแบบไดนามิกโดยมีเป้าหมายในการเพิ่มรายได้ให้สูงสุด อย่างไรก็ตามปัญหาที่ฉันทำงานด้วยเกี่ยวข้องกับผลิตภัณฑ์ที่แตกต่างกันหลายอย่างซึ่งเป็นการทดแทนกันดังนั้นการกำหนดราคาแบบไดนามิกทั้งหมดกับผู้เรียนอิสระดูเหมือนจะไม่ถูกต้องเนื่องจากราคาหนึ่งมีผลต่อรางวัลของอีกคนหนึ่ง เป้าหมายคือการกำหนดราคาแบบไดนามิกทั้งหมดเพื่อเพิ่มผลรวมของรายได้ของแต่ละบุคคลให้ได้มากที่สุดQ(λ)

ฉันได้ทำการวิจัยเพื่อค้นหาสิ่งที่ประยุกต์ใช้การเรียนรู้การเสริมแรงด้วยวิธีนี้ แต่การใช้หลายเอเจนต์ที่ฉันพบเน้นไปที่เกมการแข่งขันมากกว่าการร่วมมือกันหรือพวกเขาคิดว่าความรู้ที่ไม่สมบูรณ์ของตัวแทนอื่น ความรู้ของแต่ละตัวแทนในสถานการณ์นี้) มีแอปพลิเคชันที่มีการวิจัย / จัดทำเป็นเอกสารที่ดีเกี่ยวกับการเรียนแบบร่วมมือในลักษณะนี้หรือไม่?

คำตอบ:



0

สรุปโดยรวมสิ่งที่คุณพยายามเข้าถึงคือประสิทธิภาพของพาเรโต้

เพื่อให้เกิดความร่วมมือคุณต้องกำหนดฟังก์ชั่นรางวัลเดียวที่ผู้เล่นทุกคนแบ่งปัน

อย่างใดคุณจะต้องชั่งน้ำหนักรางวัลที่คุณได้รับจากผลิตภัณฑ์หนึ่งด้วยความเคารพต่อผู้อื่น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.