เมื่อการฝึกอบรมแบบจำลองพารามิเตอร์ (เช่นเพื่อเพิ่มโอกาส) ผ่านการไล่ระดับสีแบบสุ่มในชุดข้อมูลบางอย่างก็มักจะสันนิษฐานว่าตัวอย่างการฝึกอบรมจะถูกดึงออกมาจากการกระจายข้อมูลการฝึกอบรม ดังนั้นหากเป้าหมายคือการสร้างแบบจำลองการแจกแจงร่วมดังนั้นตัวอย่างการฝึกอบรมแต่ละตัวอย่างควรถูกดึงออกมาจากการกระจายนั้น( x i , y i )
หากเป้าหมายคือการจำลองแบบการแจกแจงแบบมีเงื่อนไขดังนั้นความต้องการของ iid จะเปลี่ยนไปอย่างไรถ้าหากทั้งหมด
- เราจะต้องดึงตัวอย่างแต่ละตัวอย่าง iid จากการกระจายข้อต่อหรือไม่?
- เราควรจะวาด IID จากแล้ววาด IID จาก ? P ( X ) y i P ( Y | X )
- เราสามารถวาดไม่ IID จาก (เช่นความสัมพันธ์ในช่วงเวลา) แล้ววาด IID จาก ? P ( X ) y i P ( Y | X )
คุณสามารถแสดงความคิดเห็นเกี่ยวกับความถูกต้องของวิธีการทั้งสามนี้สำหรับการไล่ระดับสีแบบลาดสุ่ม (หรือช่วยฉันเรียบเรียงคำถามใหม่หากจำเป็น)
ฉันอยากจะทำ # 3 ถ้าเป็นไปได้ แอปพลิเคชันของฉันอยู่ในการเรียนรู้การเสริมแรงโดยที่ฉันใช้โมเดลเงื่อนไขที่มีพารามิเตอร์เป็นนโยบายการควบคุม ลำดับของสถานะนั้นมีความสัมพันธ์กันสูง แต่การกระทำถูกสุ่มตัวอย่าง iid จากนโยบายสุ่มที่กำหนดไว้ในรัฐ ตัวอย่างผลลัพธ์ (หรือส่วนย่อยของพวกเขา) ถูกใช้เพื่อฝึกอบรมนโยบาย (กล่าวอีกนัยหนึ่งลองนึกภาพการใช้นโยบายการควบคุมเป็นเวลานานในบางสภาพแวดล้อมรวบรวมชุดข้อมูลของรัฐ / ตัวอย่างการกระทำจากนั้นแม้ว่ารัฐจะมีความสัมพันธ์กันเมื่อเวลาผ่านไป นี่ค่อนข้างคล้ายกับสถานการณ์ในบทความนี้y i i ( x i , y i )
ฉันพบกระดาษ Ryabko, 2006, " การจดจำรูปแบบสำหรับข้อมูลที่มีเงื่อนไขแบบอิสระ " ซึ่งตอนแรกดูเหมือนจะมีความเกี่ยวข้อง อย่างไรก็ตามมีสถานการณ์ที่ตรงกันข้ามจากสิ่งที่ฉันต้องการโดยที่ (เลเบล / หมวดหมู่ / แอ็คชั่น) สามารถวาดได้ไม่ใช่ iid จากและ (วัตถุ / รูปแบบ / สถานะ) ถูกดึงจาก iidY) P ( Y ) x i P ( X | Y )
อัปเดต:เอกสารสองฉบับ ( ที่นี่และที่นี่ ) ที่กล่าวถึงในกระดาษ Ryabko ดูเหมือนจะเกี่ยวข้องกันที่นี่ พวกเขาคิดว่ามาจากกระบวนการที่กำหนดเอง (เช่นไม่ใช่ iid, อาจเป็นไปได้ที่จะไม่ใช่) พวกเขาแสดงให้เห็นว่าการประมาณค่าเพื่อนบ้านและเคอร์เนลใกล้เคียงกันนั้นในกรณีนี้ แต่ฉันสนใจมากขึ้นว่าการประมาณค่าโดยใช้การไล่ระดับสีแบบสุ่มนั้นมีผลในสถานการณ์นี้หรือไม่