วิธีทำแบบจำลองลำเอียงที่มีอคติแตกต่างกันไปตามเวลา


10

สินค้าทุกรุ่นของเหรียญลำเอียงมักจะมีพารามิเตอร์หนึ่งtheta) วิธีหนึ่งในการประมาณจากชุดของการจับฉลากคือการใช้เบต้าก่อนหน้านี้และคำนวณการกระจายด้านหลังด้วยความน่าจะเป็นทวินามθ=P(Head|θ)θ

ในการตั้งค่าของฉันเพราะของกระบวนการทางกายภาพบางอย่างแปลกคุณสมบัติเหรียญของฉันจะเปลี่ยนแปลงอย่างช้าๆและกลายเป็นหน้าที่ของเวลาทีข้อมูลของฉันคือชุดของคำสั่งให้ดึงเช่น\} ฉันสามารถพิจารณาว่าฉันมีเพียงหนึ่งวาดสำหรับแต่ละในตารางเวลาไม่ต่อเนื่องและปกติθt{H,T,H,H,H,T,...}t

คุณจะทำแบบนี้อย่างไร ฉันกำลังคิดบางอย่างเช่นตัวกรองคาลมานที่ปรับให้เข้ากับความจริงที่ว่าตัวแปรที่ซ่อนอยู่คือและรักษาโอกาสทวินาม ฉันจะใช้อะไรกับโมเดลเพื่อให้อนุมานได้θP(θ(t+1)|θ(t))

แก้ไขคำตอบต่อไปนี้ (ขอบคุณ!) : ฉันต้องการสร้างแบบจำลองเป็น Markov Chain ของคำสั่งที่ 1 เหมือนที่ทำในตัวกรอง HMM หรือ Kalman ข้อสันนิษฐานเดียวที่ฉันทำได้คือราบรื่น ฉันสามารถเขียนด้วยเสียงแบบเกาส์ขนาดเล็ก (ความคิดตัวกรองคาลมาน) แต่สิ่งนี้จะทำลายข้อกำหนดที่จะต้องยังคงอยู่ใน[0,1]จากแนวคิดต่อไปนี้จาก @J Dav ฉันสามารถใช้ฟังก์ชัน probit เพื่อแมปบรรทัดจริงกับแต่ฉันมีสัญชาตญาณว่าสิ่งนี้จะให้โซลูชันที่ไม่ใช่การวิเคราะห์ การแจกแจงแบบเบต้าพร้อมค่าเฉลี่ยθ(t)θ(t)P(θ(t+1)|θ(t))=θ(t)+ϵϵθ[0,1][0,1]θ(t) และความแปรปรวนที่กว้างขึ้นสามารถทำกลอุบายได้

ฉันถามคำถามนี้เพราะฉันรู้สึกว่าปัญหานี้ง่ายมากจนต้องมีการศึกษามาก่อน


คุณสามารถได้รับการประเมินถ้าคุณมีแบบจำลองสำหรับสัดส่วนความสำเร็จกับเวลา แบบจำลองที่แตกต่างกันหลายแบบอาจใช้งานได้และการประมาณการอาจแตกต่างกันมากตามแบบจำลองที่สันนิษฐาน ฉันไม่คิดว่าความสามารถในการรองรับได้นั้นเป็นเกณฑ์ในทางปฏิบัติสำหรับการเลือกแบบจำลอง ฉันต้องการที่จะเข้าใจกระบวนการและมองหาโมเดลที่แสดงให้เห็นถึงลักษณะที่เห็นด้วยกับพฤติกรรมที่คุณคาดหวัง
Michael R. Chernick

@MichaelChernick: ขอบคุณ ข้อสันนิษฐานเดียวที่ฉันทำได้คือนั้นเคลื่อนไหวได้อย่างราบรื่นและช้า ยิ่งไปกว่านั้นความสามารถในการรองรับได้นั้นเป็นเกณฑ์สำคัญเนื่องจากจริง ๆ แล้วฉันต้องการที่จะขยายการแก้ปัญหาไปยังกรณีหลายตัวแปรที่มีการพึ่งพาระหว่างกันที่ไม่สำคัญ ทางออกที่ดีที่สุดคือการวิเคราะห์และอัปเดตการประเมินพารามิเตอร์แบบออนไลน์เมื่อมีข้อมูลใหม่มาถึง θ
repied2 2

1
คุณสามารถหาปริมาณสิ่งที่คุณหมายถึงโดย "เคลื่อนไหวอย่างราบรื่นและช้าๆ" จำนวนเต็มไม่ต่อเนื่องและมีฟังก์ชั่นที่ราบรื่นซึ่งใช้กับค่าตามอำเภอใจของจำนวนเต็มซึ่งหมายความว่าความราบรื่นไม่มีข้อ จำกัด แนวคิดบางอย่างของ "ช้า" ยังคงไม่ให้ข้อ จำกัด ใด ๆ ในขณะที่บางคนทำ θ
Douglas Zare

"ช้า" เร็วแค่ไหนเช่นการเปลี่ยนแปลงความน่าจะเป็นที่ 0.1 / หน่วยเวลาหรือ 0.001 หรือ ... และคุณคาดหวังว่าจะเรียงลำดับนานแค่ไหน? ช่วงนี้ค่อนข้างแคบ (เช่น 0.2 - 0.4) หรือใกล้กับ (0,1) หรือไม่?
jbowman

@DouglasZare โดย 'smooth' ฉันต้องการระบุว่า E [θ_t + 1 | θ_t] = θ_t (หรือใกล้มาก) และ VAR (θ_t + 1 | θ_t) มีขนาดเล็ก θไม่ได้กระโดดไปมา (ไม่อย่างนั้นจะทำอะไรไม่ได้)
repied2

คำตอบ:


2

ฉันสงสัยว่าคุณสามารถสร้างแบบจำลองด้วยโซลูชันการวิเคราะห์ได้ แต่การอนุมานยังสามารถทำให้เข้าใจง่ายโดยใช้เครื่องมือที่เหมาะสมเนื่องจากโครงสร้างการพึ่งพาของแบบจำลองของคุณนั้นเรียบง่าย ในฐานะนักวิจัยการเรียนรู้ของเครื่องจักรฉันต้องการใช้แบบจำลองต่อไปนี้เนื่องจากการอนุมานสามารถทำได้ค่อนข้างมีประสิทธิภาพโดยใช้เทคนิคของ Expagation Propagation:

ให้เป็นผลลัพธ์ของการทดลอง -th ให้เรากำหนดพารามิเตอร์แปรผันตามเวลาX(t)t

η(t+1)N(η(t),τ2)สำหรับ0t0

หากต้องการเชื่อมโยงกับแนะนำตัวแปรแฝงη(t)X(t)

Y(t)N(η(t),β2) ,

และรุ่นจะเป็นX(t)

X(t)=1ถ้าและอย่างอื่น คุณสามารถเพิกเฉยต่อและแยกพวกเขาออกไปพูดแค่ , (กับ cdf ของ มาตรฐานปกติ) แต่การแนะนำตัวแปรแฝงทำให้การอนุมานง่าย นอกจากนี้ยังทราบว่าในตัวแปรที่เดิมของคุณ\Y(t)0X(t)=0Y(t)P[X(t)=1]=Φ(η(t)/β)Φθ(t)=η(t)/β

หากคุณสนใจที่จะใช้อัลกอริทึมการอนุมานลองดูที่เอกสารนี้ พวกเขาใช้แบบจำลองที่คล้ายกันมากดังนั้นคุณสามารถปรับเปลี่ยนอัลกอริทึมได้อย่างง่ายดาย เพื่อให้เข้าใจ EP หน้าต่อไปนี้อาจพบว่ามีประโยชน์ หากคุณมีความสนใจในการใฝ่หาวิธีนี้แจ้งให้เราทราบ ฉันสามารถให้คำแนะนำโดยละเอียดเพิ่มเติมเกี่ยวกับวิธีใช้อัลกอริทึมการอนุมาน


0

ในการอธิบายความคิดเห็นของฉันแบบจำลองเช่น p (t) = p exp (-t) เป็นรูปแบบที่ง่ายและอนุญาตให้มีการประมาณค่า p (t) โดยการประมาณ pโดยใช้การประมาณความน่าจะเป็นสูงสุด แต่ความน่าจะเป็นนั้นสลายไปจริง ๆ รุ่นนี้จะผิดอย่างชัดเจนถ้าคุณสังเกตช่วงเวลาที่มีความถี่ของความสำเร็จสูงกว่าที่คุณสังเกตเห็นในเวลาก่อนหน้าและในภายหลัง พฤติกรรมการแกว่งสามารถจำลองเป็น p (t) = p | sint | ทั้งสองรุ่นมีความสามารถในการจัดการได้ง่ายและสามารถแก้ไขได้โดยความเป็นไปได้สูงสุด แต่ก็มีวิธีแก้ปัญหาที่แตกต่างกันมาก000


1
ปรากฏว่า OP ที่กำลังมองหารูปแบบความน่าจะประสบความสำเร็จในเวลา ,เป็นกระบวนการมาร์คอฟไม่สามารถระบุรูปแบบการทำงานบางอย่างสำหรับ(t) tθ(t)θ(t)
มาโคร

1
@ แมโครถูกต้องฉันไม่สามารถให้แบบฟอร์มพารามิเตอร์สำหรับและสิ่งนี้ไม่เป็นที่ต้องการเนื่องจากฟังก์ชันนี้อาจเป็นอะไรที่ราบรื่น ฉันต้องการโมเดล Markov อันดับ 1 ซึ่งคล้ายกับ Hidden Markov Model หรือตัวกรองคาลมาน แต่มีตัวแปรที่ซ่อนอยู่ซึ่งใช้ค่าจริงระหว่าง 0 ถึง 1 และมีโอกาสเป็นของ Bernouilli theta(t)
repied2 2

@ เพียร์โอเคก่อนที่จะมีการแก้ไขปรากฏว่าคุณกำลังมองหาที่จะประเมินเวลาที่แตกต่างกัน p และเป็นเพียงการแนะนำ HMM เป็นแนวทางที่เป็นไปได้ ฉันไม่ได้แนะนำแบบฟอร์มการทำงานสำหรับวิธีการเปลี่ยนแปลงด้วย t ฉันกำลังชี้ให้เห็นว่าหากไม่มีข้อมูลเพิ่มเติมสามารถสร้างแบบจำลองประเภทต่าง ๆ ได้มากมายและสองตัวอย่างของฉันแสดงให้เห็นว่าหากไม่มีตัวเลือกรูปแบบข้อมูลเพิ่มเติมอาจให้คำตอบที่แตกต่างกันมาก ทำไมคุณถึงยืนยันใน HMM หากมีใครทำงานและพอดีกับข้อมูลของคุณทำไมปฏิเสธเพราะมันเป็น "ไม่ใช่การวิเคราะห์
Michael R. Chernick

ฉันแนะนำว่าการหาวิธีแก้ปัญหาที่สะดวกไม่ใช่วิธีการแก้ปัญหาเชิงสถิติเชิงปฏิบัติ!
Michael R. Chernick

1
@MichaelChernick สุดท้าย: ฉันต้องการค้นหาโซลูชันการวิเคราะห์เนื่องจากฉันหวังว่านี่เป็นปัญหาที่รู้จักกันดีและผู้คนเสนอวิธีการวิเคราะห์ที่ยืดหยุ่นเพียงพอ แต่ฉันเห็นด้วยกับคำแนะนำของเราว่าการสร้างแบบจำลอง 'พลวัตที่แท้จริง' นั้นสำคัญกว่าค่าใช้จ่ายในการคำนวณโดยทั่วไป น่าเสียดายสำหรับข้อมูลขนาดใหญ่และอัลโกช้าจะไร้ประโยชน์ :-(
repied2

0

ความน่าจะเป็นของคุณเปลี่ยนไปด้วยแต่อย่างที่ Michael พูดคุณไม่รู้ เป็นเส้นตรงหรือไม่? ดูเหมือนว่าปัญหาการเลือกรุ่นที่ความน่าจะเป็นของคุณ :tp

p=Φ(g(t,θ))อาจขึ้นอยู่กับฟังก์ชันไม่ใช่เส้นตรง เป็นเพียงฟังก์ชันขอบเขตที่รับประกันความน่าจะเป็นระหว่าง 0 และ 1g(t,θ)Φ

วิธีการสำรวจอย่างง่ายคือการลองใช้โพรบหลาย ๆ แบบสำหรับไม่ตรงกับและทำการเลือกแบบจำลองตามเกณฑ์ข้อมูลมาตรฐานΦg()g()

หากต้องการตอบคำถามที่ถูกตอบกลับอีกครั้ง :

ดังที่คุณกล่าวว่าการใช้ probit จะหมายถึงการแก้ปัญหาเชิงตัวเลขเท่านั้น แต่คุณอาจใช้ฟังก์ชันโลจิสติกแทน:

ฟังก์ชั่นการขนส่ง:P[θ(t+1)]=11+exp(θ(t)+ϵ)

ทำให้เป็นเชิงเส้นโดย:logP1P=θ(t)+ϵ

ฉันไม่แน่ใจว่าวิธีนี้สามารถทำงานภายใต้วิธีการกรองของคาลมานได้อย่างไร แต่ก็ยังเชื่อว่าข้อกำหนดแบบไม่เชิงเส้นเช่นหรือคนอื่น ๆ ทำงาน อย่างที่คุณเห็นฟังก์ชั่นนี้คือ "smoth" ในแง่ที่ว่ามันต่อเนื่องและแตกต่างกัน แต่น่าเสียดายที่การเพิ่มจะสร้างกระโดดของความน่าจะเกิดซึ่งเป็นสิ่งที่คุณไม่ต้องการดังนั้นคำแนะนำของฉันจะเป็นที่จะออก\ϵ ϵθ(t+1)=at3+bt2+ct+dϵϵ

Logit probablity:P[Coint+1=H|t]=11+exp(θ(t))

คุณมีอยู่แล้ว randomnes ในเหตุการณ์ Bernoulli (Markov Chain) และคุณจะเพิ่มแหล่งที่มาของมันเนื่องจาก\ดังนั้นปัญหาของคุณอาจได้รับการแก้ไขเป็น Probit หรือ Logit ประมาณโดยโอกาสสูงสุดกับเป็นตัวแปรอธิบาย ฉันคิดว่าคุณเห็นด้วยว่าการประหยัดพลังงานนั้นสำคัญมาก เว้นแต่ว่าวัตถุประสงค์หลักของคุณคือการใช้วิธีการที่กำหนด (ตัวกรอง HMM และ Kalman) และไม่ให้วิธีการแก้ปัญหาที่ถูกต้องที่สุดกับปัญหาของคุณtϵt


ถ้าคุณใช้ probit ส่วนขยายหลายตัวแปรจะตรงไปตรงมาเนื่องจากสามารถประมาณ probit หลายตัวแปรได้ การอ้างอิงจะเป็นนัยโดยเมทริกซ์ความแปรปรวนร่วมของการแจกแจงปกติหลายตัวแปรโดยนัย
JDav
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.