ความหนาแน่นของการแจกแจงปกติตามขนาดที่เพิ่มขึ้น


15

คำถามที่ฉันต้องการถามคือ: สัดส่วนของตัวอย่างภายใน 1 SD ของค่าเฉลี่ยของการแจกแจงปกติแตกต่างกันอย่างไรเมื่อจำนวนของตัวแปรเพิ่มขึ้น

(เกือบ) ทุกคนรู้ว่าในการแจกแจงปกติแบบ 1 มิตินั้น 68% ของตัวอย่างสามารถพบได้ในค่าเบี่ยงเบนมาตรฐาน 1 ค่าเฉลี่ย ในมิติที่ 2, 3, 4, ... ฉันรู้ว่ามันลดน้อยลง ... แต่เท่าไหร่ (แม่นยำ)? การมีตารางแสดงตัวเลขสำหรับ 1, 2, 3 ... 10 มิติเช่นเดียวกับ 1, 2, 3 ... 10 SDs ทุกคนสามารถชี้ไปที่ตารางดังกล่าวได้หรือไม่

บริบทเพิ่มเติมเล็กน้อย - ฉันมีเซ็นเซอร์ที่ให้ข้อมูลสูงสุด 128 ช่อง แต่ละช่องอาจมีสัญญาณรบกวนทางไฟฟ้า (เป็นอิสระ) เมื่อฉันรู้สึกถึงวัตถุการปรับเทียบฉันสามารถเฉลี่ยการวัดที่เพียงพอและได้รับค่าเฉลี่ยในช่องสัญญาณ 128 พร้อมกับค่าเบี่ยงเบนมาตรฐานส่วนบุคคล 128 แบบ

แต่ ... เมื่อมันมาถึงการอ่านทันทีของแต่ละบุคคลข้อมูลไม่ตอบสนองมากเช่น 128 การอ่านของแต่ละบุคคลเพราะมันเหมือนกับการอ่านเพียงครั้งเดียวของปริมาณเวกเตอร์ 128-dimensonal (มากถึง) แน่นอนว่านี่เป็นวิธีที่ดีที่สุดในการอ่านค่าวิพากษ์วิจารณ์ที่เราได้รับ (โดยทั่วไปคือ 4-6 จาก 128)

ฉันต้องการที่จะรู้สึกว่าการเปลี่ยนแปลง "ปกติ" คืออะไรและ "ผิดเพี้ยน" ในปริภูมิเวกเตอร์นี้คืออะไร ฉันแน่ใจว่าฉันเห็นตารางแบบเดียวกับที่ฉันอธิบายซึ่งจะนำไปใช้กับสถานการณ์แบบนี้ - ทุกคนสามารถชี้ไปที่หนึ่งได้หรือไม่


ได้โปรด - ฉันสามารถมีคำตอบเชิงประจักษ์เท่านั้น - ฉันไม่เข้าใจสัญกรณ์ทางคณิตศาสตร์ส่วนใหญ่
omatai

คำตอบ:


19

ให้ใช้ :แต่ละปกติและนั้นเป็นอิสระ - ฉันคิดว่านั่นคือสิ่งที่คุณหมายถึงด้วยมิติที่สูงกว่าX=(X1,,Xd)N(0,I) N ( 0 , 1 ) X iXผมยังไม่มีข้อความ(0,1)Xผม

คุณจะบอกว่าอยู่ภายใน 1 sd ของค่าเฉลี่ยเมื่อ| | X | | < 1 (ระยะห่างระหว่าง X และค่าเฉลี่ยต่ำกว่า 1) ตอนนี้| | X | | 2 = X 2 1 + + X 2 dχ 2 ( d )ดังนั้นสิ่งนี้เกิดขึ้นกับความน่าจะเป็นP ( ξ < 1 )โดยที่ξ χ 2 ( d )X||X||<1||X||2=X12++Xd2χ2(d)P(ξ<1)ξχ2(d). คุณสามารถหาได้ในตารางไคที่ดี

นี่คือค่าบางส่วน:

dP(ξ<1)10.6820.3930.2040.09050.03760.01470.005280.001890.00056100.00017

และสำหรับ 2 sd:

dP(ξ<4)10.9520.8630.7440.5950.4560.3270.2280.1490.089100.053

คุณจะได้รับค่าเหล่านี้ใน R กับ commads เหมือนpchisq(1,df=1:10), pchisq(4,df=1:10)ฯลฯ

โพสต์ Scriptumตามที่พระคาร์ดินัลชี้ให้เห็นในความคิดเห็นเราสามารถประเมินพฤติกรรมของซีมโทติคของความน่าจะเป็นเหล่านี้ได้ CDF ของตัวแปรคือ F d ( x ) = P ( d / 2 , x / 2 ) = γ ( d / 2 , x / 2 )χ2(d) ที่γ(s,Y)=Y0Ts-1E-Tdทีเป็นไม่สมบูรณ์γฟังก์ชั่และ classicalyΓ(s)=0Ts-1E-TdT

Fd(x)=P(d/2,x/2)=γ(d/2,x/2)Γ(d/2)
γ(s,y)=0yts1etdtγΓ(s)=0ts1etdt

เมื่อเป็นจำนวนเต็มการรวมซ้ำโดยส่วนต่างๆแสดงให้เห็นว่า P ( s , y ) = e - y k = s y ks ซึ่งเป็นหางของ CDF ของการกระจาย Poisson ที่

P(s,y)=eyk=sykk!,

ตอนนี้ผลรวมนี้ถูกครอบงำโดยคำศัพท์แรก (ต้องขอบคุณพระคาร์ดินัล): P(s,y)yss!eysd

P(ξ<x)=P(d/2,x/2)1(d/2)!(x2)d/2ex/21πde12(dx)(xd)d21πe12xd12d,
dd

ยินดีต้อนรับสู่เว็บไซต์ของเรา Elvis! คำตอบที่ดี (+1)
whuber

1
ξd

ขอบคุณสำหรับความคิดเห็นของคุณ ฉันไม่คิดว่าคำตอบนี้จะได้รับความสนใจมาก! มันเป็นความจริงที่ว่านี่เป็นรูปแบบที่ดีของคำสาปของมิติ ... @cardinal ที่เกี่ยวข้อง (3) ฉันไม่ทราบว่าเทียบเท่า asymptotic ของฟังก์ชันแกมมาที่ไม่สมบูรณ์เมื่อพารามิเตอร์แรกไปไม่มีที่สิ้นสุดที่สองถูกแก้ไขนี้ ไม่ง่าย! ผมสามารถเขียนได้ในภายหลัง
Elvis

2
dd=2kZi=X2i12+X2i2Exp(1/2)X2=i=1kZiX2kP(X2<1)=P(N1/2(0,1)k)=e1/2x=k2x/x!P(X2<1)e1/22k/Γ(k+1)dk=d/2).
cardinal

1
Part of the point of the foregoing comment is that we get an exact answer for all even d. Also, using Stirling's approximation, we get that P(X2<1)e1/22k/Γ(k+1)e(d1)/2d(d+1)/2/π.
cardinal
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.