อคติของตัวประมาณโมเมนต์ของการแจกแจงล็อก


25

ฉันกำลังทำการทดลองเชิงตัวเลขซึ่งประกอบด้วยการสุ่มตัวอย่างการแจกแจงแบบลอกล็อกและพยายามประเมินช่วงเวลาโดยสองวิธี:XLN(μ,σ)E[Xn]

  1. ดูค่าเฉลี่ยตัวอย่างของXn
  2. การประมาณและโดยใช้ตัวอย่างหมายถึงแล้วใช้ความจริงที่ว่าสำหรับการแจกแจงแบบปกติเรามี2/2)μσ2log(X),log2(X)E[Xn]=exp(nμ+(nσ)2/2)

คำถามคือ :

ฉันพบการทดลองว่าวิธีที่สองมีประสิทธิภาพดีกว่าวิธีแรกเมื่อฉันเก็บจำนวนตัวอย่างไว้และเพิ่มโดยปัจจัยบางตัว T มีคำอธิบายง่ายๆสำหรับข้อเท็จจริงนี้หรือไม่?μ,σ2

ฉันกำลังแนบรูปที่แกน x คือ T ในขณะที่แกน y คือค่าของเปรียบเทียบค่าที่แท้จริงของ (เส้นสีส้ม) ไปยังค่าที่ประมาณไว้ วิธีที่ 1 - จุดสีฟ้าวิธีที่ 2 - จุดสีเขียว แกน y อยู่ในระดับล็อกE [ X 2 ] = exp ( 2 μ + 2 σ 2 )E[X2]E[X2]=exp(2μ+2σ2)

ค่าจริงและโดยประมาณสำหรับ $ \ mathbb {E} [X ^ 2] $  จุดสีฟ้าเป็นตัวอย่างหมายถึง $ \ mathbb {E} [X ^ 2] $ (วิธีที่ 1) ในขณะที่จุดสีเขียวเป็นค่าโดยประมาณโดยใช้วิธีที่ 2 เส้นสีส้มจะคำนวณจาก $ \ mu $, $ \ ที่รู้จัก sigma $ โดยสมการเดียวกับในวิธีที่ 2 แกน y อยู่ในระดับสเกล

แก้ไข:

ด้านล่างเป็นรหัส Mathematica ขั้นต่ำเพื่อสร้างผลลัพธ์สำหรับหนึ่ง T พร้อมกับเอาต์พุต:

   ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample]
(* Define variables *)
n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200;
(* Create log normal data*)
data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations];

(* the moment by theory:*)
rmomentTheory = Exp[(n*mu+(n*sigma)^2/2)*totalTime];

(*Calculate directly: *)
rmomentSample = Mean[data^n];

(*Calculate through estimated mu and sigma *)
muNumerical = Mean[Log[data]]; (*numerical \[Mu] (gaussian mean) *)
sigmaSqrNumerical = Mean[Log[data]^2]-(muNumerical)^2; (* numerical gaussian variance *)
rmomentFromMuSigma = Exp[ muNumerical*n + (n ^2sigmaSqrNumerical)/2];

(*output*)
Log@{rmomentTheory, rmomentSample,rmomentFromMuSigma}

เอาท์พุท:

(*Log of {analytic, sample mean of r^2, using mu and sigma} *)
{140., 91.8953, 137.519}

ด้านบนผลลัพธ์ที่สองคือค่าเฉลี่ยตัวอย่างของr2ซึ่งต่ำกว่าผลลัพธ์สองรายการ


2
ตัวประมาณที่ไม่เอนเอียงไม่ได้หมายความว่าจุดสีฟ้าควรอยู่ใกล้กับค่าที่คาดหวัง (เส้นโค้งสีส้ม) ตัวประมาณสามารถไม่เอนเอียงได้หากมีความน่าจะเป็นสูงที่จะต่ำเกินไปและเล็กน่าจะเป็นต่ำเกินไป นั่นคือสิ่งที่เกิดขึ้นเมื่อ T เพิ่มขึ้นและความแปรปรวนก็ทวีมากขึ้น (ดูคำตอบของฉัน)
Matthew Gunn

สำหรับวิธีการที่จะได้รับประมาณเป็นกลางโปรดดูstats.stackexchange.com/questions/105717 UMVUEs ของค่าเฉลี่ยและความแปรปรวนจะได้รับในคำตอบและความคิดเห็นดังกล่าว
whuber

คำตอบ:


22

มีสิ่งที่ทำให้งงในผลลัพธ์เหล่านั้นตั้งแต่

  1. วิธีแรกจัดเตรียมตัวประมาณที่ไม่เอนเอียงของคือ1E[X2]มีE[X2]เป็นค่าเฉลี่ย ดังนั้นจุดสีฟ้าควรอยู่รอบค่าที่คาดหวัง (เส้นโค้งสีส้ม);
    1Ni=1NXi2
    E[X2]
  2. วิธีที่สองให้ประมาณการลำเอียงของคือE [ ประสบการณ์( n μ + n 2 σ 2 / 2 ) ] > ประสบการณ์( n μ + ( n σ ) 2 / 2 )เมื่อμและเป็นตัวประมาณค่าแบบไม่เอนเอียงของและE[X2]
    E[exp(nμ^+n2σ^2/2)]>exp(nμ+(nσ)2/2)
    μ^σ^²σ ²μσ² ตามลำดับและมันแปลกที่จุดสีเขียวนั้นจะอยู่ในแนวเดียวกับเส้นโค้งสีส้ม

แต่เกิดจากปัญหาและไม่ใช่การคำนวณเชิงตัวเลข: ฉันทำการทดลองซ้ำใน R และได้ภาพต่อไปนี้ด้วยรหัสสีเดียวกันและลำดับเดียวกันของ 's และซึ่งหมายถึงตัวประมาณแต่ละตัวหาร โดยความคาดหวังที่แท้จริง:σ TμTσT

สองช่วงเวลาเชิงประจักษ์สองตาม 10 based บันทึกปกติ - จำลอง

นี่คือรหัส R ที่สอดคล้องกัน:

moy1=moy2=rep(0,200)
mus=0.14*(1:200)
sigs=sqrt(0.13*(1:200))
tru=exp(2*mus+2*sigs^2)
for (t in 1:200){
x=rnorm(1e5)
moy1[t]=mean(exp(2*sigs[t]*x+2*mus[t]))
moy2[t]=exp(2*mean(sigs[t]*x+mus[t])+2*var(sigs[t]*x+mus[t]))}

plot(moy1/tru,col="blue",ylab="relative mean",xlab="T",cex=.4,pch=19)
abline(h=1,col="orange")
lines((moy2/tru),col="green",cex=.4,pch=19)

ดังนั้นจึงมีการล่มสลายของช่วงเวลาเชิงประจักษ์ครั้งที่สองเมื่อและเพิ่มขึ้นซึ่งฉันจะอธิบายถึงการเพิ่มขึ้นอย่างมหาศาลในความแปรปรวนของช่วงเวลาเชิงประจักษ์ที่สองดังกล่าวเมื่อและเพิ่มขึ้นσ μ σμσμσ

คำอธิบายของฉันเกี่ยวกับปรากฏการณ์ประหลาดนี้คือในขณะที่เห็นได้ชัดว่าเป็นค่าเฉลี่ยของ มันไม่ใช่ค่ากลาง: จริง ๆ แล้วค่ามัธยฐานของเท่ากับหมู่} เมื่อเป็นตัวแทนของตัวแปรสุ่มเป็นโดยที่เป็นที่ชัดเจนว่าเมื่อมีขนาดใหญ่ พอตัวแปรสุ่มเกือบจะไม่เคยของขนาดของ 2 กล่าวอีกนัยหนึ่งถ้า คือX 2 X 2 e 2 μ X 2E[X2]X2X2e2μX2exp{2μ+2σϵ}ϵN(0,1)σσϵσ2XLN(μ,σ)

P(X2>E[X2])=P(log{X2}>2μ+2σ2)=P(μ+σϵ>μ+σ2)=P(ϵ>σ)=1Φ(σ)
ซึ่งอาจมีขนาดเล็กโดยพลการ

1
ฉันยังงงงวย ฉันกำลังเพิ่มโค้ดขั้นต่ำพร้อมผลลัพธ์ (Mathematica)
user29918

ตกลง. ขอบคุณ! ตอนนี้ฉันเห็นว่าขนาดตัวอย่างน้อยของฉันไม่เหมาะกับงาน!
user29918

2
@ user29918: ขออภัยฉันไม่เห็นขนาดตัวอย่างว่าเป็นปัญหา แต่ความจริงที่ว่าบันทึกปกติจะเบ้อย่างมากเมื่อเติบโตขึ้นอย่างไม่มีที่สิ้นสุดเนื่องจากค่าเฉลี่ยนั้นไร้ประโยชน์ σ
ซีอาน

2
@ ซีอานสิ่งที่ดี! ซิก) ที่จับในสมการอย่างแม่นยำสิ่งที่ฉันเป็น (ค่อนข้างไม่แน่นอน) พยายามที่จะแสดงออกด้วยคำพูดที่เป็นเพิ่มขึ้นมันมีแนวโน้มมากขึ้น (และสำหรับขนาดใหญ่ใกล้แน่นอน) ว่าการสังเกตอยู่ด้านล่างค่าเฉลี่ย ความน่าจะเป็นสูงมากจนมีโอกาสสูงที่กลุ่มตัวอย่างทั้งหมดจะต่ำกว่าค่าเฉลี่ย! P(X2>E[X2])=1Φ(σ)σσ
Matthew Gunn

2
ประเภทของ asymptotic นี้ไม่ได้เป็นประโยชน์มากในการว่าจำนวนของการจำลองที่จำเป็นในการได้อย่างถูกต้องใกล้เคียงกับช่วงเวลาที่เติบโตขึ้นชี้แจงได้อย่างรวดเร็วด้วย\σ
ซีอาน

13

ฉันคิดว่าฉันจะโยนมะเดื่อขึ้นมาเพื่อแสดงให้เห็นว่าทั้งแผนการของ user29918 และซีอานนั้นสอดคล้องกัน รูปที่ 1 พล็อตสิ่งที่ผู้ใช้ 29918 ทำและรูปที่ 2 (จากข้อมูลเดียวกัน) ทำสิ่งที่ซีอานทำกับพล็อตของเขา ผลลัพธ์เดียวกันการนำเสนอที่แตกต่างกัน

สิ่งที่เกิดขึ้นคือเมื่อ T เพิ่มขึ้นความแปรปรวนจะยิ่งใหญ่และตัวประมาณกลายเป็นเหมือนการพยายามประเมินค่าเฉลี่ยประชากรของ Powerball Lotto โดยการซื้อตั๋ว Lotto! เวลาส่วนใหญ่คุณจะประมาทผลตอบแทน (เพราะไม่มีการสังเกตตัวอย่างที่กระทบแจ็คพอต) และเวลาเพียงเล็กน้อยคุณจะประเมินค่าสูงไปอย่างมาก (เพราะมีผู้ชนะแจ็คพอตในตัวอย่าง) ค่าเฉลี่ยตัวอย่างเป็นการประมาณการแบบไม่เอนเอียง แต่ไม่คาดว่าจะแม่นยำแม้แต่กับการจับรางวัลเป็นพัน ๆ ครั้ง! อันที่จริงแล้วมันจะยากขึ้นและยากขึ้นที่จะได้รับล็อตโต้ค่าเฉลี่ยตัวอย่างของคุณจะต่ำกว่าค่าเฉลี่ยประชากรส่วนใหญ่1nixi2

ความคิดเห็นเพิ่มเติม:

  1. ตัวประมาณที่ไม่เอนเอียงไม่ได้หมายความว่าตัวประมาณจะถูกปิด! จุดสีน้ำเงินไม่จำเป็นต้องอยู่ใกล้ความคาดหมาย เช่น. การสังเกตเพียงครั้งเดียวที่เลือกโดยการสุ่มให้ค่าประมาณที่เป็นกลางของค่าเฉลี่ยประชากร แต่ผู้ประเมินนั้นจะไม่ถูกคาดหวังว่าจะใกล้เคียง
  2. ปัญหากำลังจะเกิดขึ้นเมื่อความแปรปรวนกลายเป็นเรื่องทางดาราศาสตร์อย่างแน่นอน ในขณะที่ความแปรปรวนเป็นจริงการประมาณการสำหรับวิธีแรกนั้นได้รับการผลักดันเป็นเพียงการสังเกตเพียงไม่กี่ข้อ นอกจากนี้คุณยังเริ่มมีความน่าจะเป็นเล็ก ๆ น้อย ๆ ของ INSANELY, INSANELY และ INSANELY จำนวนมาก ...
  3. นี่คือคำอธิบายที่เข้าใจง่าย ซีอานมีรากศัพท์ที่เป็นทางการมากกว่า ผลลัพธ์ของเขาบอกเป็นนัยว่าเมื่อมีขนาดใหญ่ขึ้นมันจะกลายเป็นไม่น่าเชื่ออย่างไม่น่าเชื่อที่จะวาดการสังเกตเหนือค่าเฉลี่ย . ภาษาของฉัน "ชนะล็อตโต้" หมายถึงเหตุการณ์ที่2] σ X 2 > E [ X 2 ]P(X2>E[X2])=1Φ(σ)σX2>E[X2]ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.