จำนวนคำศัพท์ที่ใหญ่ที่สุดในเพิ่มขึ้นรวมครึ่งหนึ่งหรือไม่


11

พิจารณา โดยที่X_1, \ ldots, X_Nคือ iid และ CLT ถือ จำนวนคำศัพท์ที่ใหญ่ที่สุดนั้นรวมกันได้ทั้งหมดครึ่งหนึ่งหรือไม่ ตัวอย่างเช่น 10 + 9 + 8 \ ประมาณ (10 + 9 + 8 \ จุด + 1) / 2: 30% ของคำศัพท์เข้าถึงประมาณครึ่งหนึ่งของทั้งหมดi=1N|Xi|X1,,XN

กำหนด
sumbiggest( j;X1XN)sum of the j biggest of |X1||XN|
halfsum(N)the smallest j such that sumbiggest( j )sumbiggest(N)/2.

มีผล asymptotic ทั่วไปสำหรับ halfsum ( N,μ,σ ) หรือไม่
การเรียบง่ายที่ได้มานั้นจะดีมาก

(Monte Carlo ตัวเล็ก ๆ ชี้ให้เห็นว่าบางครั้ง halfsum ( N ) N / 4 หรือมากกว่านั้น
คือX_i 1/4 ที่ใหญ่ที่สุดXiรวมกันเป็น 1/2 ส่วน
ฉันได้ 0.24 Nสำหรับ halfnormal, 0.19 Nสำหรับ เลขชี้กำลังสำหรับN = 20, 50, 100)


3
อย่าคาดหวังผลลัพธ์ที่เป็นสากลของ CLT ยกตัวอย่างเช่นคำตอบสำหรับเครื่องแบบ (0,1) variates จะมากแตกต่างจากคำตอบสำหรับเครื่องแบบ (1000,1001) variates!
whuber

ใช่แน่นอนว่าครึ่งจะขึ้นอยู่กับค่าเฉลี่ยและ sd แต่ทำไม ~ N / 5 สำหรับเลขชี้กำลัง?
ปฏิเสธ

2
Asymptotically, Denis, cutoff สำหรับ halfsum จะเป็นค่าซึ่งโดยที่คือ pdf สำหรับ; คำถามที่ถามสำหรับ (คือ cdf สำหรับ ) ในกรณีของการแจกจ่ายเครื่องแบบคุณจะได้รับคำตอบ @ Dilip สำหรับชี้แจง 5 x 0ทีเอฟ( T ) d T = 1 / 2 | X i | N ( 1 - F ( x ) ) F | X i | [ 0 , 1 ] x 0.186682 N N / 5x0xtf(t)dt=1/2f|Xi|N(1F(x))F|Xi|[0,1]x0.186682NN/5
whuber

คำตอบ:


2

ไม่ไม่มีผลเชิงซีมโทติคทั่วไป ให้เป็นคนสั่งให้โดยที่ใหญ่ที่สุด x ฉันx [ 1 ]x[1]x[N]xix[1]

ลองพิจารณาสองตัวอย่างต่อไปนี้:

1)1 เห็นได้ชัดว่า CLT ถือ คุณต้องการการสังเกตสำหรับ. M = 1 M j = 1 | x [ j ] | 1P(x=0)=1M=1j=1M|x[j]|12N|xi|

2)1 เห็นได้ชัดว่า CLT ถือ คุณต้องการการสังเกตการณ์สำหรับ.P(x=1)=1M=N/2j=1M|x[j]|12N|xi|

สำหรับตัวอย่างที่ไม่น่าสนใจการแจกแจงเบอร์นูลลี:

3)1-P CLT ถืออีกครั้ง คุณต้องการจากการสังเกตเพื่อให้เป็นไปตามเงื่อนไขของคุณ ด้วยการเปลี่ยนแปลงระหว่าง 0 ถึง 1 คุณจะได้ใกล้เคียงกับตัวอย่างที่ 1 หรือ 2 ตามที่คุณต้องการp N / 2 pP(x=1)=p, P(x=0)=1ppN/2p


4
เห็นได้ชัดว่าคำตอบนั้นอยู่ระหว่างถึงแต่ไม่ได้หมายความว่าไม่มีผลลัพธ์ทั่วไป เราควรพิจารณาคำตอบโดยที่เศษส่วนขึ้นอยู่กับคุณสมบัติของการแจกแจงพื้นฐานเช่นค่าเฉลี่ยและ SD เหล่านั้นเพียงพอพร้อมกับ CLT เพื่อให้ข้อมูลที่เฉพาะเจาะจงและเชิงปริมาณเกี่ยวกับวิธีที่ถูกกระจายเมื่อเทียบกับผลรวมของพวกเขาดังนั้นจึงสมเหตุสมผลที่จะหวังผลดังกล่าว N / 2 x [ i ]0N/2x[i]
whuber

1

นี่คือการโต้แย้งอย่างหยาบที่ให้การประเมินแตกต่างกันเล็กน้อยสำหรับตัวแปรสุ่มที่กระจายอย่างสม่ำเสมอ สมมติว่าเป็นตัวแปรสุ่มต่อเนื่องกระจายอย่างสม่ำเสมอบน[0,1]จากนั้นมีค่าเฉลี่ย 2 สมมติว่าโดยบังเอิญแปลกและไม่น่าเชื่อโดยสิ้นเชิงรวมเป็นเท่ากับ 2 ดังนั้นเราจึงต้องการประเมินว่าค่ามากที่สุดรวมเป็นหรือมากกว่านั้น ตอนนี้ histogram ของตัวอย่าง (ขนาดใหญ่มาก) มาจากการกระจาย uniformm คือประมาณแบนจากที่จะ [ 0 , 1 ] i X i N / 2 N / 2 X N / 4 N N U [ 0 , 1 ] 0 1 x 0 < x < 1 ( 1 - x ) N x 1 ( 1 + x ) / x ) / 2 ) = ( 1 - xXi[0,1]iXiN/2N/2XN/4NNU[0,1]01และอื่น ๆ สำหรับการใด ๆ ,มี ตัวอย่างกระจายประมาณสม่ำเสมอระหว่างไป1ตัวอย่างเหล่านี้มีค่าเฉลี่ยและผลรวมเท่ากับ 2 ผลรวมเกินกว่าสำหรับ{2} ดังนั้นผลรวมของตัวอย่างที่ใหญ่ที่สุดเกินกว่า 4x0<x<1(1x)Nx1( 1 - x ) N ( 1 +(1+x)/2N / 4 x 1 / (1x)N(1+x)/2)=(1x2)N/2N/4 (1-1/x1/2N/4(11/2)N0.3NN/4

คุณสามารถลองและสรุปทั่วไปนี้เล็กน้อย หากแล้วสำหรับการใด ๆ ให้เราต้องการจะเป็นเช่นนั้นที่ เป็นเรื่องปกติที่มีค่าเฉลี่ยและแปรปรวนNดังนั้นปรับอากาศในค่าของ ,N)} คูณด้วยความหนาแน่นของและรวม (จากถึง ) เพื่อค้นหาจำนวนเฉลี่ยของกลุ่มตัวอย่างที่ใหญ่ที่สุดที่จะเกินครึ่งหนึ่งของผลรวมแบบสุ่มY x ( 1 - x 2 ) N /iXi=YYxY N / 2 N /(1x2)N/2=Y/2YN/2Y x = N/12Y YY=0Y=Nx=1(Y/N)YY=0Y=N


ระยะห่างระหว่างสองจุด จำกัด ที่จะอยู่ในช่วงเวลาไม่สามารถกระจายชี้แจงเพราะระยะทางที่ต้องน้อยกว่าในขณะที่ใช้เวลาชี้แจงตัวแปรสุ่มค่าที่อยู่ในinfty) สิ่งที่เป็นจริงก็คือว่าถ้ามีความเป็นอิสระตัวแปรสุ่มชี้แจงแล้วปรับอากาศในที่สถิติการสั่งซื้อจะกระจายอย่างสม่ำเสมอในalpha) ดูตัวอย่างคำถามและคำตอบนี้ในเว็บไซต์เพื่อนร่วมทางคณิตศาสตร์ (ต่อ)1 ( 0 , ) Y 1 , Y 2 , , Y n + 1 Y สูงสุด = α Y ( 1 ) , Y ( 2 ) , , Y ( n ) ( 0 , α )(0,1)1(0,)Y1,Y2,,Yn+1Ymax=α Y(1),Y(2),,Y(n)(0,α)
Dilip Sarwate

ไม่ว่าในกรณีใดข้อโต้แย้งของฉันไม่ได้ใช้ระยะห่างระหว่างตัวอย่างที่ได้รับคำสั่งจากการแจกแจงแบบสม่ำเสมอ
Dilip Sarwate

คุณพูดถูกฉันเข้าใจคุณผิด ตามคำถามด้านข้างชิ้นส่วนระหว่างคะแนนแบบสุ่มไม่ได้กระจายกันแบบเอกซ์โพเนนเชียลหลังจากปรับขนาด - การสนทนาของ q + a ของคุณหรือไม่ [Broken Stick Rule จากโครงการ Wolfram Demonstrations Project] ( demo.wolfram.com/BrokenStickRule ) แน่นอนว่ามันมีลักษณะเป็นเลขชี้กำลังต้องมีง่ายไหม? พิสูจน์
ปฏิเสธ

โปรดถามคำถามข้างของคุณเป็นคำถามแยกต่างหาก
Dilip Sarwate

เริ่มต้นแล้วเห็นความน่าจะเป็นการกระจายตัวของความยาวส่วนคุณสามารถแสดงความคิดเห็นได้ที่นั่น
ปฏิเสธ

0

สมมุติว่า X มีค่าเป็นบวกเพื่อกำจัดค่าสัมบูรณ์

ฉันคิดว่าคุณต้องแก้หา k

(1FX(k))E(X|X>=k)=12E(X)โดยที่ F เป็นฟังก์ชันการแจกแจงสะสมสำหรับ X

และแล้วคำตอบจะได้รับจากการค่าสูงสุดn(1FX(k))

ตรรกะของฉันคือ asymtopically ผลรวมของค่าทั้งหมดที่สูงกว่า k ควรจะเกี่ยวกับ

n(1FX(k))E(X|X>=k)

และประมาณครึ่งหนึ่งของผลรวมทั้งหมดเป็นเรื่องเกี่ยวกับ

12nE(X)(X)

แสดงจำลองเชิงตัวเลขว่าผลที่ถือสำหรับกรณีเครื่องแบบ (ในเครื่องแบบ ) ที่และฉันได้รับ{2}) ฉันไม่แน่ใจว่าผลลัพธ์จะคงอยู่เสมอหรือหากสามารถทำให้ง่ายขึ้นได้อีก แต่ฉันคิดว่ามันขึ้นอยู่กับฟังก์ชันการกระจาย F[0,1]k = F(k)=kk=(12)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.