สถิติการสั่งซื้อโดยประมาณสำหรับตัวแปรสุ่มปกติ


38

มีสูตรที่รู้จักกันดีสำหรับสถิติการสั่งซื้อของการแจกแจงแบบสุ่มบางอย่างหรือไม่? โดยเฉพาะอย่างยิ่งสถิติลำดับแรกและสุดท้ายของตัวแปรสุ่มปกติ แต่คำตอบทั่วไปก็น่าจะได้รับการชื่นชมเช่นกัน

แก้ไข:เพื่อชี้แจงฉันกำลังมองหาสูตรการประมาณที่สามารถประเมินมากขึ้นหรือน้อยลงอย่างชัดเจนไม่ใช่นิพจน์รวมที่แน่นอน

ตัวอย่างเช่นฉันได้เห็นการประมาณสองค่าต่อไปนี้สำหรับสถิติลำดับแรก (เช่นค่าต่ำสุด) ของ rv ปกติ:

e1:nμn12n1σ

และ

e1:nμ+Φ1(1n+1)σ

ครั้งแรกของเหล่าสำหรับn=200ให้ประมาณe1:200μ10σซึ่งดูเหมือนว่าลำพองผูกไว้หลวม

ประการที่สองให้e1:200μ2.58σขณะที่รวดเร็ว Monte Carlo ให้e1:200μ2.75σดังนั้นมันจึงไม่ได้เป็นประมาณไม่ดี แต่ไม่ดีอย่างใดอย่างหนึ่งและที่สำคัญผมไม่ได้มีสัญชาติญาณใด ๆ เกี่ยวกับ มันมาจากไหน

ความช่วยเหลือใด ๆ


4
หากคุณใช้ R ให้ดูฟังก์ชันppoints
พระคาร์ดินัล

1
@probabilityislogic ให้สัญชาตญาณที่ดีสำหรับการประมาณรายการของคุณ มันจะเป็นประโยชน์หรือไม่ถ้าฉันให้มุมมองเพิ่มเติมหรือคุณพอใจความอยากรู้ของคุณในเรื่องนี้?
พระคาร์ดินัล

คำตอบ:


31

การอ้างอิงแบบคลาสสิกคือ Royston (1982) [1] ซึ่งมีอัลกอริธึมที่เหนือกว่าสูตรที่ชัดเจน นอกจากนี้ยังมีคำพูดสูตรที่รู้จักกันดีโดยบลอม (1958): กับα=0.375 สูตรนี้จะช่วยให้ตัวคูณของ -2.73 สำหรับn=200,R=1E(r:n)μ+Φ1(rαn2α+1)σα=0.375n=200,r=1

[1]: อัลกอริทึม AS 177: สถิติการสั่งซื้อปกติที่คาดหวัง (แน่นอนและโดยประมาณ) JP Royston วารสารสมาคมสถิติ ซีรี่ส์ C (สถิติประยุกต์) ฉบับที่ 31, ฉบับที่ 2 (1982), หน้า 161-165


21

การกระจายของสถิติลำดับที่สุ่มใด ๆ อย่างต่อเนื่อง ตัวแปรที่มี PDF ได้รับจากการกระจายแบบ "beta-F" วิธีที่ง่ายที่จะคิดเกี่ยวกับการกระจายนี้คือการพิจารณาสถิติการสั่งซื้อที่ i ในกลุ่มตัวอย่างของNทีนี้เพื่อให้ค่าของสถิติลำดับ ith ของตัวแปรสุ่มเท่ากับเราต้องการ 3 เงื่อนไข:X xNXx
  1. x F X ( x ) F X ( x ) = P r ( X < x )i1ด้านล่างมีความน่าจะเป็นสำหรับการสังเกตแต่ละครั้งโดยที่คือ CDF ของตัวแปรสุ่ม XxFX(x)FX(x)=Pr(X<x)
  2. x 1 - F X ( x )Niค่าสูงกว่านี่มีความน่าจะเป็นx1FX(x)
  3. 1 ค่าภายในช่วงเวลาเล็กน้อยที่มีนี่มีความน่าจะเป็นโดยที่คือ PDF ของตัวแปรสุ่มf X ( x ) d x f X ( x ) d x = d F X ( x ) = P r ( x < X < x + d x ) XxfX(x)dxfX(x)dx=dFX(x)=Pr(x<X<x+dx)X

มีวิธีในการเลือกนี้ดังนั้นเราจึงมี:(N1)(N1i1)

fi(xi)=N!(i1)!(Ni)!fX(xi)[1FX(xi)]Ni[FX(xi)]i1dx

แก้ไข ในโพสต์ต้นฉบับของฉันฉันพยายามอย่างมากที่จะไปไกลจากจุดนี้และความคิดเห็นด้านล่างสะท้อนถึงสิ่งนี้ ฉันได้พยายามที่จะแก้ไขด้านล่างนี้

ถ้าเราหาค่าเฉลี่ยของ pdf นี้เราจะได้:

E(Xi)=xifi(xi)dxi

และในอินทิกรัลนี้เราทำการเปลี่ยนแปลงตัวแปรต่อไปนี้ (ทำตามคำใบ้ของ @ henry) และอินทิกรัลกลายเป็น:pi=FX(xi)

E(Xi)=01FX1(pi)Beta(pi|i,Ni+1)dpi=EBeta(pi|i,Ni+1)[FX1(pi)]

ดังนั้นนี่คือค่าคาดหวังของ CDF ผกผันซึ่งสามารถประมาณค่าได้อย่างดีโดยใช้เมธอด delta เพื่อให้:

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[EBeta(pi|i,Ni+1)]=FX1[iN+1]

เพื่อให้การประมาณดีขึ้นเราสามารถขยายไปยังลำดับที่ 2 (ไพรม์ denoting differentiation) และสังเกตว่าอนุพันธ์อันดับสองของอินเวอร์สคือ:

2a2FX1(a)=FX(FX1(a))[FX(FX1(a))]3=fX(FX1(a))[fX(FX1(a))]3

ขอให้ขวา] จากนั้นเรามี:νi=FX1[iN+1]

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[νi]VarBeta(pi|i,Ni+1)[pi]2fX(νi)[fX(νi)]3
=νi(iN+1)(1iN+1)2(N+2)fX(νi)[fX(νi)]3

ตอนนี้เชี่ยวชาญกรณีปกติเรามี

fX(x)=1σϕ(xμσ)fX(x)=xμσ3ϕ(xμσ)=xμσ2fX(x)
FX(x)=Φ(xμσ)FX1(x)=μ+σΦ1(x)

โปรดทราบว่าและความคาดหวังโดยประมาณจะกลายเป็น:fX(νi)=1σϕ[Φ1(iN+1)]

E[xi]μ+σΦ1(iN+1)+(iN+1)(1iN+1)2(N+2)σΦ1(iN+1)[ϕ[Φ1(iN+1)]]2

และในที่สุดก็:

E[xi]μ+σΦ1(iN+1)[1+(iN+1)(1iN+1)2(N+2)[ϕ[Φ1(iN+1)]]2]

แม้ว่าตามที่ @whuber ได้ระบุไว้สิ่งนี้จะไม่ถูกต้องในก้อย อันที่จริงฉันคิดว่ามันอาจจะแย่กว่านั้นเพราะความเบ้ของเบต้าที่มีพารามิเตอร์ต่างกัน


1
"ตัวประมาณความน่าจะเป็นสูงสุดของตัวแปรสุ่ม " ไม่แน่ใจว่ามันคืออะไร แต่ฉันคิดว่าคุณ (เกือบ) คำนวณโหมดแล้ว
พระคาร์ดินัล

1
มีเรื่องลึกลับเกิดขึ้นประมาณสองในสามของทางที่เกิดขึ้นทันทีทันใดและปรากฏขึ้นโดยไม่มีการเตือนหรือคำจำกัดความ μσ
whuber

2
ฉันไม่ได้ตั้งใจจะ "กองพะเนินเทินทึก" แต่มันก็ยากสำหรับฉันที่จะเห็นว่าปริมาณในวงเล็บสามารถประมาณด้วยจำนวนลบได้อย่างไร
พระคาร์ดินัล

1
@probabilityislogic ขณะที่ระดับแคลคูลัสคุณอาจบอกว่าในกรณีนี้เรากำลังพิจารณาฟังก์ชั่น bivariate และเพียงแค่เพิ่มตัวแปรให้มากกว่าหนึ่งตัวแปรฉันคิดว่ามันมีเหตุผลทางคณิตศาสตร์สถิติและการสอนไม่เรียกสิ่งที่คุณ เสร็จสิ้น "การประมาณค่าความน่าจะเป็นสูงสุด" พวกมันมีจำนวนเกินกว่าที่จะแจกแจงในพื้นที่นี้ได้ แต่สิ่งหนึ่งที่เรียบง่ายที่ฉันคิดว่าน่าสนใจก็คือเราใช้คำศัพท์เฉพาะที่เป็นความลับในสถิติด้วยเหตุผล การเปลี่ยนแปลงสิ่งนั้นด้วยความตั้งใจสำหรับปัญหาเดียวสามารถนำไปสู่การเข้าใจผิด ... / ...
พระคาร์ดินัล

2
@probabilityislogic (+1) สำหรับคำตอบที่แก้ไขแล้ว คำแนะนำอย่างหนึ่งอาจดีกว่า to หมายถึง "นัย" ใช้เวลาจ้องมองสองสามวินาทีเพื่อตระหนักว่าคุณไม่ได้ทำการอ้างสิทธิ์คอนเวอร์เจนซ์
พระคาร์ดินัล

13

คำตอบ Aniko ต้องอาศัยอยู่กับสูตรที่รู้จักกันดีของบลอมที่เกี่ยวข้องกับการเลือกของ3/8 ปรากฎว่าสูตรนี้เป็นเพียงการประมาณของคำตอบที่แน่นอนเนื่องจาก G. Elfving (1947), การกระจายแบบไม่เชิงเส้นของช่วงในตัวอย่างจากประชากรปกติ , Biometrika, Vol. 34, pp. 111-119 สูตร Elfving จะมุ่งเป้าไปที่ต่ำสุดและสูงสุดของกลุ่มตัวอย่างซึ่งเป็นทางเลือกที่ถูกต้องของอัลฟา 8 ผลการค้นหาสูตรบลอมเมื่อเราใกล้เคียงกับโดย3α=3/8π/8π3

ด้วยการใช้สูตร Elfving แทนที่จะเป็นการประมาณของ Blom เราจะได้ตัวคูณ -2.744165 ตัวเลขนี้ใกล้เคียงกับคำตอบที่แน่นอนของ Erik P. (-2.746) และการประมาณ Monte Carlo (-2.75) มากกว่าการประมาณของ Blom (-2.73) ในขณะที่ใช้งานง่ายกว่าสูตรที่แน่นอน


คุณช่วยให้รายละเอียดเพิ่มเติมเล็กน้อยเกี่ยวกับวิธีที่มาถึงผ่าน Elfving (1947) ได้ไหม มันไม่ชัดเจนในบทความ α=π/8
แอนโธนี

1
แอนโทนี่ - ฉันพึ่งตำราคณิตศาสตร์สถิติโดย Samuel Wilks, pub ไวลีย์ (1962) แบบฝึกหัด 8.21 หน้า p 249 รัฐ: "ถ้า x_ (1), x_ (n) เป็นสถิติลำดับที่เล็กที่สุดและใหญ่ที่สุดของตัวอย่างขนาด n จาก cdf ต่อเนื่อง (x) ... ตัวแปรสุ่ม 2n * sqrt {[F (x_ ( 1))] [1-F (x_ (n))]} มีการแจกแจงแบบ จำกัด เป็น n -> อนันต์โดยมีค่าเฉลี่ย pi / 2 และความแปรปรวน 4- (pi ^ 2) / 4 " (ขออภัยฉันไม่ทราบรหัสมาร์กอัป!) สำหรับการแจกแจงแบบสมมาตร F (x_ (1)) = 1-F (x_ (n)) ดังนั้น F (x_ (n)) จึงเกี่ยวกับ pi / (4n) หรือ x_ (n) เป็นเรื่องเกี่ยวกับ F ^ (- 1) (pi / (4n)) สูตร Blom ใช้การประมาณ 3 / (4n)
Hal M. Switkay

สิ่งนี้ทำให้ฉันนึกถึงการเรียกเก็บเงิน" " อันเนื่องมาจากสภานิติบัญญัติรัฐอินเดียน่า (แม้ว่าบทความวิกิพีเดียแสดงให้เห็นว่าเวอร์ชั่นยอดนิยมของเรื่องไม่ถูกต้อง)π=3
steveo'america

7

ทั้งนี้ขึ้นอยู่กับสิ่งที่คุณต้องการจะทำอย่างไรคำตอบนี้หรืออาจจะไม่ได้ช่วย - ผมได้สูตรที่แน่นอนต่อไปนี้จากแพคเกจสถิติของเมเปิล

with(Statistics):
X := OrderStatistic(Normal(0, 1), 1, n):
m := Mean(X):
m;

1/2_t0n!2e1/2_t02(1/21/2erf(1/2_t02))1+n(1+n)!πd_t0

โดยตัวมันเองมันไม่ได้มีประโยชน์มาก (และมันอาจจะได้มาโดยง่ายด้วยมือเนื่องจากมันเป็นตัวแปรสุ่มขั้นต่ำ ) แต่มันทำให้การประมาณค่ารวดเร็วและแม่นยำมากสำหรับค่าที่กำหนดของ - แม่นยำมากกว่า Monte Carlo:nn

evalf(eval(m, n = 200));
evalf[25](eval(m, n = 200));

ให้ -2.746042447 และ -2.746042447451154492412344 ตามลำดับ

(การเปิดเผยแบบเต็ม - ฉันรักษาแพ็คเกจนี้ไว้)


1
@ProbabilityIsLogic ได้รับอินทิกรัลนี้สำหรับสถิติการสั่งซื้อทั้งหมดในช่วงครึ่งแรกของการตอบกลับของเขา
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.