การกระจายตัวของเศษไม้ที่ใหญ่ที่สุด (spacings)


21

ปล่อยให้แท่งที่มีความยาว 1 แตกเป็นชิ้นเล็ก ๆ น้อย ๆ โดยมีการสุ่มk+1การกระจายตัวของความยาวของส่วนที่ยาวที่สุดคืออะไร?

เป็นทางการมากขึ้นให้เป็น IIDและให้เป็นคำสั่งทางสถิติที่เกี่ยวข้องนั่นคือเราเพียงแค่สั่ง ตัวอย่างในลักษณะที่{(k)} ให้ขวา)(ยู1,...ยูk)ยู(0,1)U ( 1 )U ( 2 ), , U ( k ) Z k = สูงสุด( U ( 1 ) , U ( 2 ) - U(ยู(1),...,ยู(k))ยู(1)ยู(2),...,ยู(k)Zk=max(U(1),U(2)U(1),,U(k)U(k1),1U(k))

ฉันสนใจในการกระจายของZ_kช่วงเวลาผลลัพธ์แบบอะซิมโทติคหรือการประมาณสำหรับk \ uparrow \ inftyก็น่าสนใจเช่นกัน k Zkk


9
นี่เป็นปัญหาที่ได้รับการศึกษาเป็นอย่างดี ดู R. Pyke (1965), "Spacings," JRSS (B) 27 : 3, pp. 395-449 ฉันจะพยายามกลับมาเพิ่มข้อมูลในภายหลังเว้นแต่มีคนชนะฉัน นอกจากนี้ยังมีกระดาษ 1972 โดยผู้เขียนคนเดียวกัน (" Spacings revisited ") แต่ฉันคิดว่าสิ่งที่คุณหลังจากนั้นค่อนข้างมากในครั้งแรก มี asymptotics ในDevroye (1981) , "กฎของลอการิทึมซ้ำสำหรับสถิติการสั่งซื้อของชุดอวกาศ" แอน Probab , 9 : 5, 860-867
Glen_b -Reinstate Monica

4
สิ่งเหล่านั้นควรให้คำค้นหาที่ดีเพื่อหางานภายหลังหากคุณต้องการ
Glen_b -Reinstate Monica

3
นี่มันเจ๋งมาก. การอ้างอิงแรกหายาก สำหรับผู้ที่สนใจฉันวางมันลงบนแกรนด์ที
gui11aume

โปรดแก้ไขพิมพ์ผิดไปนี้: Y(k)แทนU(k){(k)}
Viktor

ขอบคุณ @Viktor! สำหรับสิ่งเล็ก ๆ น้อย ๆ อย่าลังเลที่จะแก้ไขด้วยตัวคุณเอง (ฉันคิดว่าผู้ใช้รายอื่นจะได้รับการตรวจสอบเพื่อขออนุมัติ)
gui11aume

คำตอบ:


18

ด้วยข้อมูลที่ได้รับจาก @Glen_b ฉันสามารถหาคำตอบได้ ใช้สัญลักษณ์เดียวกับคำถาม

P(Zkx)=ΣJ=0k+1(k+1J)(-1)J(1-Jx)+k,

โดยที่หากและอย่างอื่น ฉันยังให้ความคาดหวังและการบรรจบกันแบบซีมโทติคกับการกระจายGumbel ( NB : ไม่ใช่เบต้า)a > 0 0a+=aa>00

E(Zk)=1k+1i=1k+11ilog(k+1)k+1,P(Zkx)exp(e(k+1)x+log(k+1)).

เนื้อหาของบทพิสูจน์ถูกนำมาจากสิ่งพิมพ์หลายฉบับที่เชื่อมโยงในเอกสารอ้างอิง ค่อนข้างยาว แต่ตรงไปตรงมา

1. หลักฐานการกระจายที่แน่นอน

Letตัวแปรสุ่ม พ.ศ. IID เครื่องแบบในช่วงเวลา(0,1)โดยการสั่งซื้อพวกเราได้รับสถิติเพื่อแสดง {(k)}) ระยะปลูกเครื่องแบบจะถูกกำหนดเป็นกับและ1 ระยะปลูกที่สั่งซื้อจะสอดคล้องสถิติสั่งซื้อ1)} ตัวแปรที่น่าสนใจคือ1)}( 0 , 1 ) k ( U ( 1 ) , , U ( k ) ) Δ i = U ( i ) - U ( i - 1 ) U(U1,,Uk)(0,1)k(U(1),,U(k))Δi=U(i)U(i1) U ( k + 1 ) =1 Δ ( 1 )U(0)=0U(k+1)=1 Δ ( k + 1 )Δ(1)Δ(k+1)Δ(k+1)

สำหรับการแก้ไขเรากำหนดตัวแปรตัวบ่งชี้\}} โดยสมมาตรเวกเตอร์แบบสุ่มสามารถแลกเปลี่ยนได้ดังนั้นการกระจายตัวของเซตย่อยขนาดจึงเหมือนกับการกระจายข้อต่อของ คนแรกที่เจด้วยการขยายผลิตภัณฑ์เราจึงได้รับ1 i = 1 { Δ i > x } ( 1 1 , , 1 k + 1 ) j jx(0,1)1i=1{Δi>x}(11,,1k+1)jJ

P(Δ(k+1)x)=E(Πผม=1k+1(1-1ผม))=1+ΣJ=1k+1(k+1J)(-1)JE(Πผม=1J1ผม).

ตอนนี้เราจะพิสูจน์ว่าซึ่งจะสร้างการแจกแจงดังกล่าวข้างต้น เราพิสูจน์สิ่งนี้สำหรับเนื่องจากกรณีทั่วไปได้รับการพิสูจน์ในทำนองเดียวกัน j = 2E(i=1j1i)=(1jx)+kj=2

E(i=121i)=P(Δ1>xΔ2>x)=P(Δ1>x)P(Δ2>x|Δ1>x).

หากที่จุดพักอยู่ในช่วงเวลา1) โดยมีเงื่อนไขในเหตุการณ์นี้เบรกพอยต์ยังคงสามารถแลกเปลี่ยนได้ดังนั้นความน่าจะเป็นที่ระยะทางระหว่างจุดที่สองและจุดพักแรกมากกว่าเท่ากับความน่าจะเป็นที่ระยะทางระหว่างจุดพักจุดแรกและจุดกั้นด้านซ้าย (ที่ตำแหน่ง ) มีค่ามากกว่าxดังนั้นk ( x , 1 ) x x xΔ1>xk(x,1)xxx

P(Δ2>x|Δ1>x)=P(all points are in (2x,1)|all points are in (x,1)),soP(Δ2>xΔ1>x)=P(all points are in (2x,1))=(12x)+k.

2. ความคาดหวัง

สำหรับการแจกแจงด้วยการสนับสนุนที่ จำกัด เรามี

E(X)=P(X>x)dx=1P(Xx)dx.

การบูรณาการการกระจายของเราได้รับΔ(k+1)

E(Δ(k+1))=1k+1j=1k+1(k+1j)(1)j+1j=1k+1j=1k+11j.

ความเท่าเทียมกันสุดท้ายเป็นตัวแทนคลาสสิกของตัวเลขฮาร์โมนิซึ่งเราแสดงให้เห็นด้านล่างHi=1+12++1i

Hk+1=011+x++xkdx=011xk+11xdx.

ด้วยการเปลี่ยนแปลงของตัวแปรและการขยายผลิตภัณฑ์เราได้รับu=1x

Hk+1=01j=1k+1(k+1j)(1)j+1uj1du=j=1k+1(k+1j)(1)j+1j.

3. การก่อสร้างทางเลือกของการเว้นระยะสม่ำเสมอ

ในการที่จะได้รับการกระจายเชิงซีมโทติคของชิ้นส่วนที่ใหญ่ที่สุดเราจะต้องแสดงการสร้างแบบดั้งเดิมของการเว้นวรรคแบบสม่ำเสมอเป็นตัวแปรเลขชี้กำลังหารด้วยผลรวมของพวกมัน ความหนาแน่นของความน่าจะเป็นของสถิติคำสั่งซื้อที่เกี่ยวข้อง คือ(U(1),,U(k))

fU(1),U(k)(u(1),,u(k))=k!,0u(1)u(k+1).

หากเราแสดงถึงการเว้นวรรคอย่างสม่ำเสมอ , ด้วยเราจะได้รับ U ( 0 ) = 0Δi=U(i)U(i1)U(0)=0

fΔ1,Δk(δ1,,δk)=k!,0δi++δk1.

โดยการกำหนดเราจะได้รับยู(k+1)=1

fΔ1,Δk+1(δ1,,δk+1)=k!,δ1++δk=1.

ตอนนี้ให้จะ IID ชี้แจงตัวแปรสุ่มที่มีค่าเฉลี่ย 1 และให้1} ด้วยการเปลี่ยนแปลงอย่างง่ายของตัวแปรเราจะเห็นได้ว่าS = X 1 +(X1,,Xk+1)S=X1++Xk+1

fX1,Xk,S(x1,,xk,s)=es.

กำหนดเช่นนั้นโดยการเปลี่ยนแปลงของตัวแปรที่เราได้รับYi=Xi/S

fY1,Yk,S(y1,,yk,s)=skes.

การรวมความหนาแน่นนี้เข้ากับเราจึงได้s

Y1,...Yk,(Y1,...,Yk)=0skอี-sds=k!,0Yผม+...+Yk1,และดังนั้นY1,...Yk+1,(Y1,...,Yk+1)=k!,Y1+...+Yk+1=1

ดังนั้นการกระจายข้อต่อของชุดอวกาศในช่วงเวลาจึงเท่ากับการกระจายตัวแบบร่วมของตัวแปรสุ่มเลขชี้กำลังหารด้วยผลรวมของพวกเขา เรามาถึงความเท่าเทียมกันของการกระจายต่อไปนี้( 0 ,k+1(0,1)k+1

Δ(k+1)X(k+1)X1++Xk+1.

4. การกระจายเชิงเส้นกำกับ

เราได้รับการใช้ความเท่าเทียมกันข้างต้น

P((k+1)Δ(k+1)log(k+1)x)=P(X(k+1)(x+log(k+1))X1++Xk+1k+1)=P(X(k+1)log(k+1)x+(x+log(k+1))Tk+1),

ที่-1 ตัวแปรนี้หายไปในความน่าจะเป็นเพราะและ0 asymptotically กระจายเป็นเช่นเดียวกับที่ของ1) เนื่องจากเป็น IID เราจึงมีTk+1=X1++Xk+1k+11E(Tk+1)=0Var(log(k+1)Tk+1)=(log(k+1))2k+10X(k+1)log(k+1)Xi

P(X(k+1)log(k+1)x)=P(X1x+log(k+1))k+1=(1exlog(k+1))k+1=(1exk+1)k+1exp{ex}.

5. ภาพรวมกราฟิก

พล็อตด้านล่างแสดงการกระจายของชิ้นส่วนที่ใหญ่ที่สุดสำหรับค่าที่แตกต่างของkสำหรับฉันได้ซ้อนการกระจายกัมเบลแบบซีมโทติค (เส้นบาง ๆ ) ด้วย กัมเบลนั้นเป็นค่าประมาณที่แย่มากสำหรับค่าเล็ก ๆ ของดังนั้นฉันจึงไม่ใช้มันเพื่อไม่ให้ภาพเกินพิกัด กัมเบลประมาณเป็นสิ่งที่ดีจาก50kk=10,20,50kk50

การกระจายตัวของเศษไม้ที่ใหญ่ที่สุด

6. การอ้างอิง

หลักฐานข้างต้นมาจากการอ้างอิง 2 และ 3 วรรณกรรมที่อ้างถึงมีผลลัพธ์อีกมากมายเช่นการกระจายของการเว้นวรรคที่ได้รับคำสั่งของตำแหน่งใด ๆ การกระจายขีด จำกัด และการสร้างทางเลือกอื่นของชุดอวกาศที่ได้รับคำสั่ง การอ้างอิงที่สำคัญนั้นไม่สามารถเข้าถึงได้ง่ายดังนั้นฉันจึงให้ลิงก์ไปยังข้อความเต็ม

  1. Bairamov และคณะ (2010) จำกัด ผลลัพธ์สำหรับการเว้นระยะห่างแบบสม่ำเสมอเอกสารสถิติ 51: 1, pp 227-240
  2. โฮลส์ (1980) เมื่อวันที่ความยาวของชิ้นส่วนของไม้ที่เสียที่สุ่มเจ Appl Prob., 17, pp 623-634
  3. Pyke (1965) Spacings , JRSS (B) 27: 3, pp. 395-449
  4. Renyi (1953) ตามทฤษฎีของสถิติการสั่งซื้อ Acta math Hung, 4, pp 191-231

สุกใส มีวิธี asymptotics ที่รู้จักกับไหม? E(Zk2)
Amir Sagiv

@ AmirSagiv นี่เป็นคำถามที่ดี ฉันดูข้อมูลอ้างอิงอย่างรวดเร็วและหาไม่พบ ฉันไม่สามารถปรับหลักฐานข้างต้นได้ นี่ทำให้ฉันรู้ว่าฉันไม่รู้ว่าการกระจายตัวของกัมเบลเป็นอย่างไร อาจเป็นจุดเริ่มต้นที่ดี
gui11aume

1
$ gui11aume ดูที่นี่: mathoverflow.net/a/293381/42864
Amir Sagiv

1
@AmirSagiv นี่เป็นบทความที่ดีมาก ด้วยเหตุผลบางอย่างฉันเข้าใจผิดคำถามของคุณและคิดว่าคุณสนใจในการแจกจ่ายของ (แม้ว่าความคิดเห็นของคุณจะชัดเจนมาก) ดังนั้นความคิดเห็นของฉันด้านบนจึงไม่เกี่ยวข้องกัน Zk2
gui11aume

3

นี่ไม่ใช่คำตอบที่สมบูรณ์ แต่ฉันทำแบบจำลองอย่างรวดเร็วและนี่คือสิ่งที่ฉันได้รับ: ฮิสโตแกรมของส่วนที่ยาวที่สุด

ลักษณะนี้น่าทึ่งเบต้า ish และสิ่งนี้ทำให้บิตของความรู้สึกตั้งแต่สถิติคำสั่งของการกระจายสม่ำเสมอ IID มีเบต้าวิกิพีเดีย

นี่อาจเป็นจุดเริ่มต้นในการรับผล PDF

ฉันจะอัปเดตถ้าฉันไปหาโซลูชันที่ปิดท้าย

ไชโย!


อีกสิ่งหนึ่งรูปร่างของฮิสโตแกรมสำหรับการเพิ่ม k ไม่เปลี่ยนแปลงอย่างมากนอกเหนือจากการ "squished" ใกล้กับ 0
ลิมา

1
ขอบคุณสำหรับความคิดของคุณ @Lima (และยินดีต้อนรับสู่การตรวจสอบข้าม) ฉันคิดว่าคำตอบของคุณจะดีขึ้น ก่อนอื่นฉันจะงดเว้นจากการพูดโดยไม่มีข้อพิสูจน์ หากสิ่งนี้ไม่ถูกต้องคุณอาจทำให้คนที่เห็นกระทู้นี้ไม่ถูกต้อง ประการที่สองฉันจะบันทึกสิ่งที่คุณทำ หากไม่มีค่าที่คุณใช้หรือรหัสตัวเลขจะไม่ช่วยใครเลย ในที่สุดฉันจะคัดลอกแก้ไขคำตอบและลบทุกสิ่งที่ไม่ตอบคำถามโดยตรง k
gui11aume

1
ขอบคุณสำหรับคำแนะนำ พวกมันใช้ได้ดีกว่าการแลกเปลี่ยนแบบสแต็คและฉันจะจำมันได้
ลิมา

1

ผมผลิตคำตอบสำหรับการประชุมในเซียนา (อิตาลี) ที่ในปี 2005 กระดาษ (2006) จะนำเสนอบนเว็บไซต์ของฉันนี่ (PDF) การแจกแจงที่แน่นอนของการเว้นระยะทั้งหมด (น้อยไปหามากที่สุด) พบได้ในหน้า 75 & 76

ฉันหวังว่าจะนำเสนอหัวข้อนี้ในการประชุม RSS Conference ที่แมนเชสเตอร์ (อังกฤษ) ในเดือนกันยายน 2559


2
ยินดีต้อนรับสู่เว็บไซต์ เราพยายามสร้างที่เก็บถาวรของข้อมูลสถิติคุณภาพสูงในรูปแบบของคำถาม & คำตอบ ดังนั้นเราจึงต้องระวังคำตอบเฉพาะลิงก์เนื่องจาก linkrot คุณสามารถโพสต์การอ้างอิงแบบเต็ม & สรุปข้อมูลที่ลิงค์ในกรณีที่มันจะตาย? นอกจากนี้โปรดอย่าเซ็นบทความของคุณที่นี่ ทุกโพสต์มีลิงค์ไปยังหน้าผู้ใช้ของคุณซึ่งคุณสามารถโพสต์ข้อมูลนั้น
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.