ทำนายลำดับแบบสุ่มหลอก

ข้อจำกัดความรับผิดชอบ: ฉันเป็นนักชีววิทยาดังนั้นขออภัยสำหรับคำถามพื้นฐาน (อาจ) ที่ใช้ถ้อยคำในเงื่อนไขที่หยาบเช่นนั้น

ฉันไม่แน่ใจว่าฉันควรถามคำถามนี้ที่นี่หรือใน DS / SC แต่ CS นั้นใหญ่ที่สุดในสามดังนั้นที่นี่จะไป (หลังจากที่ฉันโพสต์มันเกิดขึ้นกับฉันว่าการตรวจสอบข้ามอาจเป็นสถานที่ที่ดีกว่าสำหรับมัน แต่อนิจจา)

ลองนึกภาพว่ามีเอเจนต์ผู้ทำการตัดสินใจไบนารี และสภาพแวดล้อมซึ่งสำหรับการตัดสินใจของตัวแทนแต่ละคน ("การทดลอง") จะให้รางวัลแก่ตัวแทนหรือไม่ เกณฑ์การให้รางวัลการตัดสินใจของตัวแทนที่มีจะไม่ง่าย ในเกณฑ์ทั่วไปจะสุ่ม แต่มีข้อ จำกัด ตัวอย่างเช่นสิ่งแวดล้อมจะไม่ให้รางวัลมากกว่า 3 ครั้งสำหรับการตัดสินใจเดียวกันและไม่เคยสลับการตัดสินใจที่ให้รางวัลมากกว่า 4 ครั้งในแถว

ลำดับของเกณฑ์อาจมีลักษณะเช่นนี้

0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...

แต่ไม่เคย

0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...

เพราะเกณฑ์รางวัลไม่สามารถทำซ้ำได้มากกว่า 3 ครั้ง

ในเงื่อนไขเหล่านี้มันค่อนข้างง่ายที่จะกำหนดกลยุทธ์ผู้สังเกตการณ์ในอุดมคติที่ควรดำเนินการเพื่อให้ได้รางวัลสูงสุด สิ่งที่ตามสายของ

ตัดสินใจแบบสุ่ม
หากคุณตรวจพบว่ามีการทำซ้ำเกณฑ์ 3 ครั้งให้เลือกตรงกันข้ามกับเกณฑ์สุดท้าย
ถ้าคุณตรวจสอบเกณฑ์ที่สลับไปมา 4 ครั้งตัดสินใจตามเกณฑ์ที่ผ่านมา

ตอนนี้ส่วนที่ยาก ตอนนี้เกณฑ์ในการทดลองแต่ละครั้งไม่เพียง แต่ขึ้นอยู่กับประวัติของเกณฑ์ก่อนหน้านี้เท่านั้น แต่ยังรวมถึงประวัติการตัดสินใจของตัวแทนด้วยเช่นหากตัวแทนเลือกสลับมากกว่า 8 จาก 10 การทดลองครั้งสุดท้าย ถ้าจะกีดกันตัวแทนจากการสลับ) และถ้าตัวแทนซ้ำการตัดสินใจเดิมมากกว่า 8 ครั้งในการทดลอง 10 ครั้งล่าสุดนั่นคือเขาลำเอียงให้ทำเกณฑ์ตรงข้ามของอคติ ลำดับความสำคัญของประวัติศาสตร์ของเกณฑ์เหนือประวัติศาสตร์ของการตัดสินใจมีการระบุไว้ล่วงหน้าจึงไม่เคยมีความกำกวม

ลำดับการตัดสินใจ (d) และเกณฑ์ (c) อาจมีลักษณะเช่นนี้

d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
                       ↑ here criteria counteract bias in decisions

ฉันไม่เห็นวิธีง่ายๆในการประดิษฐ์กลยุทธ์การเพิ่มประสิทธิภาพสูงสุดสำหรับตัวแทน แต่ฉันแน่ใจว่าต้องมีอย่างใดอย่างหนึ่งและอัลกอริทึมการเรียนรู้เครื่องฉลาดบางอย่างควรสามารถระบุได้

คำถามของฉันไม่มากเกี่ยวกับวิธีการแก้ปัญหานี้ (แม้ว่าฉันจะมีความสุขถ้าคุณแนะนำวิธีแก้ปัญหา) แต่ปัญหาเหล่านี้เรียกว่า? ฉันจะอ่านเกี่ยวกับเรื่องนี้ได้ที่ไหน มีวิธีแก้ปัญหาเชิงนามธรรมหรือการจำลองเท่านั้นที่สามารถช่วยได้? โดยทั่วไปแล้วฉันในฐานะนักชีววิทยาสามารถเข้าถึงปัญหาประเภทนี้ได้อย่างไร

machine-learning probability-theory

— Sergey Antopolskiy
แหล่งที่มา

ดูเช่นการวิเคราะห์อนุกรมเวลาอัตโนมัติ มันจะช่วยถ้าคุณมีรายละเอียดเพิ่มเติมเกี่ยวกับข้อมูลอินพุต มันก็มาจากชีววิทยา? มีเทคนิคมาตรฐานสำหรับปัญหามาตรฐาน ANN กำเริบ (อวนประสาทเทียม) ยังจัดการกับเรื่องนี้ อาจลดลงโดยวิทยาการคอมพิวเตอร์แชท

— vzn

ซ่อนจำลองมาร์คอฟอาจจะเป็นเครื่องมือที่มีประโยชน์

— ราฟาเอล

คุณอาจต้องการอ่านข้อมูลเกี่ยวกับ Follow-The-Leader และตัวแปรอื่น ๆ - onlineprediction.net/?n=Main.FollowTheLeader

— MotiN

ผมคิดว่าสิ่งที่คุณกำลังหมายถึงอยู่ใกล้กับสิ่งที่คนใน ML โทรเสริมสร้างการเรียนรู้

— Kaveh

ps: คุณอาจต้องการลองโพสต์ในการตรวจสอบข้ามหากคุณไม่ได้รับคำตอบที่นี่หลังจากเวลา

— Kaveh

คุณสามารถเข้าถึงปัญหานี้ได้โดยใช้การเรียนรู้เสริม

หนังสือคลาสสิกสำหรับหนังสือเล่มนี้คือ Sutton และ Barto:

ฉบับร่างของรุ่นที่สองมีให้บริการฟรี: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

เพื่อให้ปัญหาของคุณกับ Markovian ให้กำหนดแต่ละรัฐเป็นเวกเตอร์ของการตัดสินใจสิบครั้งสุดท้าย การกระทำของคุณจะเป็น 1 หรือ 0

— Juan Leni
แหล่งที่มา