คำถามติดแท็ก normal-distribution

การแจกแจงแบบปกติหรือแบบเกาส์เซียนนั้นมีฟังก์ชั่นความหนาแน่นซึ่งเป็นเส้นโค้งรูประฆังแบบสมมาตร มันเป็นหนึ่งในการแจกแจงที่สำคัญที่สุดในสถิติ ใช้แท็ก [normality] เพื่อสอบถามเกี่ยวกับการทดสอบหา normality

1
ค่าที่คาดหวังและความแปรปรวนของบันทึก (ก)
ฉันมีตัวแปรสุ่มที่เป็นปกติกระจาย2) สิ่งที่ฉันสามารถพูดเกี่ยวกับและ ? การประมาณจะเป็นประโยชน์เช่นกันN ( μ , σ 2 ) E ( X ) V a r ( X )X( a ) = บันทึก( a )X(a)=log⁡(a)X(a) = \log(a)ยังไม่มีข้อความ( μ , σ2)N(μ,σ2)\mathcal N(\mu,\sigma^2)E( X)E(X)E(X)VR ( X)Var(X)Var(X)

3
ฉันจะใช้การทดสอบอะไรเพื่อยืนยันว่ามีการกระจายสารตกค้างตามปกติ
ฉันมีข้อมูลบางอย่างซึ่งดูจากการพล็อตกราฟของส่วนที่เหลือเทียบกับเวลาเกือบปกติ แต่ฉันต้องการให้แน่ใจ ฉันจะทดสอบความเป็นปกติของข้อผิดพลาดที่เหลือได้อย่างไร?

1
ข้อผิดพลาดในการประมาณการกระจายผลรวมสม่ำเสมอ
วิธีการที่ไร้เดียงสาวิธีหนึ่งสำหรับการประมาณการแจกแจงแบบปกติคือการเพิ่มตัวแปรสุ่ม IID จำนวน IID ที่กระจายกันอย่างสม่ำเสมอใน[ 0 , 1 ]จากนั้นกลับมาอีกครั้งและดำเนินการใหม่โดยอาศัยทฤษฎีบทขีด จำกัด กลาง ( หมายเหตุด้านข้าง : มีวิธีการที่แม่นยำมากขึ้นเช่นการแปลง Box – Muller ) ผลรวมของ IID100100100[0,1][0,1][0,1]U(0,1)U(0,1)U(0,1)ตัวแปรสุ่มเป็นที่รู้จักกันกระจายชุดรวมหรือกระจายเออร์วินฮอลล์ ข้อผิดพลาดมีขนาดใหญ่เพียงใดในการประมาณการกระจายตัวแบบสม่ำเสมอโดยการแจกแจงแบบปกติ เมื่อใดก็ตามที่คำถามประเภทนี้เกิดขึ้นเพื่อประมาณผลรวมของตัวแปรสุ่มของ IID ผู้คน (รวมถึงฉัน) จะนำทฤษฎีบท Berry - Esseenมาใช้ซึ่งเป็นเวอร์ชันที่มีประสิทธิภาพของทฤษฎีขีด จำกัด กลางเนื่องจากช่วงเวลาที่สามมีอยู่: |Fn(x)−Φ(x)|≤Cρσ3n−−√|Fn(x)−Φ(x)|≤Cρσ3n|F_n(x) - \Phi(x)| \le \frac{C \rho}{\sigma^3 \sqrt n} ที่เป็นฟังก์ชันการแจกแจงสะสมสำหรับผลรวมของ rescaled IID ตัวแปรสุ่มเป็นสามช่วงเวลาที่แน่นอนกลาง,เป็นส่วนเบี่ยงเบนมาตรฐานและเป็นค่าคงที่แน่นอนซึ่งสามารถนำไปเป็นหรือแม้กระทั่ง1/2FnFnF_nnnnρρ\rhoE|(X−EX)3|E|(X−EX)3|E|(X-EX)^3|σσ\sigmaCCC1111/21/21/2 สิ่งนี้ไม่น่าพอใจ สำหรับผมแล้วการประมาณ Berry - Esseen นั้นใกล้เคียงที่สุดกับการแจกแจงทวินามที่ไม่ต่อเนื่องโดยมีข้อผิดพลาดที่ใหญ่ที่สุดคือสำหรับการแจกแจงทวินามแบบสมมาตร …

2
ชื่ออะไร: ความแม่นยำ (อินเวอร์สของความแปรปรวน)
สังหรณ์ใจค่าเฉลี่ยเป็นเพียงค่าเฉลี่ยของการสังเกต ความแปรปรวนคือการสังเกตเหล่านี้แตกต่างจากค่าเฉลี่ยเท่าใด ฉันต้องการทราบว่าทำไมการผกผันของความแปรปรวนจึงเป็นที่รู้จักกันอย่างแม่นยำ เราสามารถทำอะไรได้จากสัญชาตญาณนี้ และทำไมเมทริกซ์ความแม่นยำจึงมีประโยชน์เหมือนเมทริกซ์ความแปรปรวนร่วมในการแจกแจงหลายตัวแปร (ปกติ) กรุณาเข้าใจด้วย

2
การเลือกระหว่าง -test และ -test
ความเป็นมา: ฉันกำลังนำเสนอให้กับเพื่อนร่วมงานที่ทำงานเกี่ยวกับการทดสอบสมมติฐานและเข้าใจว่าส่วนใหญ่ดี แต่มีแง่มุมหนึ่งที่ฉันคาดว่าจะเป็นปมพยายามเข้าใจและอธิบายให้ผู้อื่นฟัง นี่คือสิ่งที่ฉันคิดว่าฉันรู้ (โปรดแก้ไขถ้าผิด!) สถิติที่อาจเป็นเรื่องปกติหากทราบความแปรปรวนให้ทำตามการแจกแจงแบบtttหากไม่ทราบความแปรปรวน CLT (ทฤษฎีขีด จำกัด กลาง): การกระจายตัวตัวอย่างของค่าเฉลี่ยตัวอย่างนั้นประมาณปกติสำหรับขนาดใหญ่พอnnn (อาจเป็น303030 , อาจสูงถึง300300300สำหรับการแจกแจงแบบเบ้สูง) ttt -distribution สามารถพิจารณาปกติองศาอิสระ&gt;30&gt;30> 30 คุณใช้การทดสอบถ้า:zzz ประชากรปกติและความแปรปรวนเป็นที่รู้จัก (สำหรับขนาดตัวอย่างใด ๆ ) ประชากรปกติไม่ทราบความแปรปรวนและ (เนื่องจาก CLT)n&gt;30n&gt;30n>30 ประชากรทวินาม, , n q &gt; 10np&gt;10np&gt;10np>10nq&gt;10nq&gt;10nq>10 คุณใช้ -test ถ้า:ttt ประชากรปกติไม่ทราบความแปรปรวนและn&lt;30n&lt;30n<30 ไม่มีความรู้เกี่ยวกับประชากรหรือความแปรปรวนและแต่ข้อมูลตัวอย่างดูเป็นปกติ / ผ่านการทดสอบและอื่น ๆ เพื่อให้ประชากรสามารถสันนิษฐานได้ว่าเป็นปกติn&lt;30n&lt;30n<30 ดังนั้นฉันเหลือ: สำหรับตัวอย่างและ&lt; ≈ 300 (?) ไม่มีความรู้เกี่ยวกับประชากรและความแปรปรวนที่ทราบ / ไม่รู้จัก&gt;30&gt;30>30&lt;≈300&lt;≈300<\approx 300 …

1
การใช้บรรทัดที่สร้างโดย qqline () ใน R คืออะไร?
qqnorm()ฟังก์ชั่น R ผลิตปกติ QQ พล็อตและqqline()เพิ่มสายที่ผ่านควอไทล์แรกและที่สาม จุดกำเนิดของบรรทัดนี้คืออะไร การตรวจสอบสภาพปกติเป็นประโยชน์หรือไม่? นี่ไม่ใช่เส้นคลาสสิค (เส้นทแยงมุมอาจเป็นไปได้หลังจากปรับสเกลเชิงเส้น)Y= xY=xy=x นี่คือตัวอย่าง ครั้งแรกที่ฉันเปรียบเทียบฟังก์ชันการกระจายเชิงประจักษ์ที่มีฟังก์ชั่นการกระจายทางทฤษฎีของ : ตอนนี้ผมพล็อต QQ พล็อตที่มีสายY = μ + σ x ; กราฟนี้มีความสัมพันธ์กับสัดส่วน (ไม่ใช่เชิงเส้น) ของกราฟก่อนหน้า: แต่นี่คือ qq-plot กับ R qqline: กราฟสุดท้ายนี้ไม่แสดงการออกเดินทางเช่นเดียวกับในกราฟแรกยังไม่มีข้อความ( μ^, σ^2)ยังไม่มีข้อความ(μ^,σ^2){\cal N}(\hat\mu,\hat\sigma^2)Y= μ^+ σ^xY=μ^+σ^xy=\hat\mu + \hat\sigma x

2
เครื่องมือประมาณค่าความน่าจะเป็นสูงสุด - แบบเกาส์หลายตัวแปร
บริบท Multivariate Gaussian ปรากฏขึ้นบ่อยครั้งในการเรียนรู้ของเครื่องและผลลัพธ์ต่อไปนี้จะใช้ในหนังสือและหลักสูตร ML หลายหลักสูตรโดยไม่มีการสืบทอด ข้อมูลที่ได้รับในรูปของเมทริกซ์ของมิติ ถ้าเราคิดว่าข้อมูลตามตัวแปรแบบเกาส์ กระจายด้วยพารามิเตอร์หมายถึง ( ) และความแปรปรวนร่วมเมทริกซ์ ( ) เครื่องมือประมาณการความน่าจะเป็นสูงสุดจะได้รับจาก:XX\mathbf{X} m×pm×p m \times ppppμμ\mup×1p×1p \times 1 ΣΣ\Sigmap×pp×pp \times p μ^=1m∑mi=1x(i)=x¯μ^=1m∑i=1mx(i)=x¯\hat \mu = \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}} Σ^=1m∑mi=1(x(i)−μ^)(x(i)−μ^)TΣ^=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T\hat \Sigma = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - \hat \mu) (x^{(i)} -\hat \mu)}^T ฉันเข้าใจว่าความรู้ของหลายตัวแปรเกาส์เซียนนั้นเป็นสิ่งที่จำเป็นสำหรับหลักสูตร ML หลาย ๆ …

4
ทำไมการเพิ่มขนาดตัวอย่างของการโยนเหรียญจึงไม่ทำให้การประมาณส่วนโค้งปกติดีขึ้น?
ฉันกำลังอ่านหนังสือสถิติ (ฟรีแมน, Pisani, Purves) และฉันพยายามสร้างตัวอย่างที่เหรียญถูกโยน 50 ครั้งจำนวนหัวนับและซ้ำ 1,000 ครั้ง ก่อนอื่นฉันเก็บจำนวนของการโยน (ขนาดตัวอย่าง) ที่ 1,000 และเพิ่มการซ้ำ ยิ่งมีการซ้ำซ้อนมากเท่าไหร่ข้อมูลก็จะยิ่งมีความโค้งมากขึ้นเท่านั้น ต่อไปฉันพยายามรักษาจำนวนการทำซ้ำที่ 1,000 และเพิ่มขนาดตัวอย่าง ยิ่งขนาดตัวอย่างใหญ่ขึ้นเท่าไหร่โค้งที่แย่ที่สุดก็ดูเหมือนจะพอดีกับข้อมูล สิ่งนี้ดูเหมือนจะขัดแย้งกับตัวอย่างหนังสือซึ่งใกล้เคียงกับเส้นโค้งปกติมากขึ้นเมื่อขนาดตัวอย่างเพิ่มขึ้น ฉันต้องการดูว่าจะเกิดอะไรขึ้นถ้าฉันเพิ่มขนาดตัวอย่าง แต่ด้วยจำนวนการทำซ้ำที่มากขึ้นซึ่งกำหนดไว้ที่ 10,000 เรื่องนี้ดูเหมือนจะขัดแย้งกับหนังสือ ความคิดเห็นใดที่ฉันทำผิด รหัสและกราฟด้านล่าง %matplotlib inline def plot_hist(num_repetitions, num_tosses): tosses = np.random.randint(0, 2, size=[num_repetitions, num_tosses]) sums = np.apply_along_axis(lambda a: np.sum(a == 1), 1, tosses) xmin, xmax = min(sums), …

3
เป็นวิธีการที่ , พิกัดเชิงขั้วกระจายเมื่อและเมื่อ ?
ให้คาร์ทีเซียนพิกัดของจุดสุ่มจะเลือกเซนต์(-10,10)x,yx,yx,y(x,y)∼U(−10,10)×U(−10,10)(x,y)∼U(−10,10)×U(−10,10)(x,y) \sim U(-10,10) \times U(-10,10) ดังนั้นรัศมีจะไม่กระจายอย่างสม่ำเสมอเป็นโดยนัย 's รูปแบบไฟล์ PDFρ=x2+y2−−−−−−√ρ=x2+y2\rho = \sqrt{x^2 + y^2}ρρ\rho อย่างไรก็ตามฉันคาดว่าเกือบจะเหมือนกันยกเว้นสิ่งประดิษฐ์เนื่องจากมีของเหลือ 4 ชิ้นที่ขอบ:θ=arctanyxθ=arctan⁡yx\theta = \arctan{\frac{y}{x}} ต่อไปนี้เป็นฟังก์ชันความหนาแน่นของความน่าจะเป็นที่คำนวณ grafically ของและ : θθ\thetaρρ\rho ตอนนี้ถ้าฉันปล่อยให้ถูกแจกจ่าย stจากนั้นดูเหมือนกระจายอย่างสม่ำเสมอ:x , y ∼ N ( 0 , 20 2 ) × N ( 0 , 20 2 ) θx,yx,yx,yx,y∼N(0,202)×N(0,202)x,y∼N(0,202)×N(0,202)x,y \sim N(0,20^2)\times N(0,20^2)θθ\theta ทำไมไม่เหมือนกันเมื่อและเป็นชุดเมื่อ ?θθ\theta(x,y)∼U(−10,10)×U(−10,10)(x,y)∼U(−10,10)×U(−10,10)(x,y) \sim …

3
สูตรสำหรับสร้างตัวแปรสุ่มที่สัมพันธ์กันทำงานอย่างไร
หากเรามีตัวแปรสุ่มแบบธรรมดา 2 ตัวตัวแปรที่ไม่เกี่ยวข้องX1,X2X1,X2X_1, X_2เราสามารถสร้างตัวแปรสุ่มที่สัมพันธ์กัน 2 สูตร Y=ρX1+1−ρ2−−−−−√X2Y=ρX1+1−ρ2X2Y=\rho X_1+ \sqrt{1-\rho^2} X_2 แล้วจะมีความสัมพันธ์ρกับX 1YYYρρ\rhoX1X1X_1 บางคนสามารถอธิบายได้ว่าสูตรนี้มาจากไหน

4
สาเหตุของการกระจายข้อมูลตามปกติ
อะไรคือทฤษฎีบทบางอย่างที่อาจอธิบายได้ (เช่นโดยทั่วไป) ว่าทำไมข้อมูลในโลกแห่งความจริงจึงอาจได้รับการกระจายตามปกติ? มีอยู่สองอย่างที่ฉันรู้: ทฤษฎีบทขีด จำกัด กลาง (แน่นอน) ซึ่งบอกเราว่าผลรวมของตัวแปรสุ่มอิสระหลายตัวที่มีค่าเฉลี่ยและความแปรปรวน (แม้ว่าพวกเขาจะไม่กระจายตัวเหมือนกัน) มีแนวโน้มที่จะกระจายตามปกติ Let X และ Y เป็น RV อย่างต่อเนื่องเป็นอิสระที่มีความหนาแน่นอนุพันธ์ดังกล่าวที่มีความหนาแน่นร่วมกันของพวกเขาเท่านั้นขึ้นอยู่กับ + 2 จากนั้น X และ Y เป็นปกติx2x2x^2Y2Y2y^2 (cross-post จากmathexchange ) แก้ไข: เพื่อความกระจ่างแจ้งฉันไม่ได้ทำการอ้างสิทธิ์ใด ๆ เกี่ยวกับจำนวนข้อมูลในโลกแห่งความเป็นจริงที่กระจายตามปกติ ฉันแค่ถามเกี่ยวกับทฤษฎีที่สามารถให้ข้อมูลเชิงลึกเกี่ยวกับกระบวนการที่อาจนำไปสู่การกระจายข้อมูลตามปกติ

1
ทำไมราคาหุ้นถึงเป็นปกติ แต่ผลตอบแทนของหุ้นเป็นปกติ
ยกเว้นความจริงที่ว่าผลตอบแทนอาจเป็นลบในขณะที่ราคาจะต้องเป็นค่าบวกมีเหตุผลอื่นใดที่อยู่เบื้องหลังการสร้างแบบจำลองราคาหุ้นเป็นการกระจายบันทึกปกติ แต่การสร้างแบบจำลองผลตอบแทนหุ้นเป็นการกระจายแบบปกติ

3
อะไรคือความสำคัญของฟังก์ชั่นในสถิติ?
ในชั้นเรียนแคลคูลัสของเราเราพบฟังก์ชันหรือ "bell curve" และฉันถูกบอกว่ามีแอปพลิเคชันบ่อยในสถิติอี- x2อี-x2e^{-x^2} ฉันอยากถามว่า: ฟังก์ชั่นมีความสำคัญในสถิติหรือไม่? ถ้าใช่มันเกี่ยวกับที่ทำให้มีประโยชน์และมีแอปพลิเคชันอะไรบ้าง e - x 2อี- x2อี-x2e^{-x^2}อี-x2อี-x2e^{-x^2} ฉันไม่สามารถหาข้อมูลมากเกี่ยวกับการทำงานบนอินเทอร์เน็ต แต่หลังจากทำวิจัยบางอย่างผมพบความเชื่อมโยงระหว่างเส้นโค้งระฆังทั่วไปและสิ่งที่เรียกว่าการกระจายปกติ หน้าวิกิพีเดียเชื่อมโยงเหล่านี้ประเภทของฟังก์ชั่นเพื่อการประยุกต์ใช้สถิติกับไฮไลต์โดยผมว่าฯ : "การแจกแจงแบบปกติถือเป็นการแจกแจงความน่าจะเป็นที่โดดเด่นที่สุดในสถิติมีหลายเหตุผลสำหรับสิ่งนี้: 1ขั้นแรกการแจกแจงแบบปกติเกิดขึ้นจากทฤษฎีบทขีด จำกัด กลางซึ่งระบุว่าภายใต้เงื่อนไขอ่อนจำนวนผลรวมของตัวแปรสุ่มจำนวนมาก จากการแจกแจงแบบเดียวกันนั้นมีการแจกแจงแบบปกติโดยไม่คำนึงถึงรูปแบบของการแจกแจงดั้งเดิม " ดังนั้นถ้าฉันรวบรวมข้อมูลจำนวนมากจากการสำรวจบางประเภทหรือสิ่งที่คล้ายกันพวกเขาสามารถกระจายอย่างเท่าเทียมกันระหว่างฟังก์ชั่นเช่น ? ฟังก์ชันนั้นมีความสมมาตรดังนั้นความสมมาตรคือประโยชน์ในการแจกแจงแบบปกติอะไรที่ทำให้มันมีประโยชน์ในทางสถิติ? ฉันแค่คาดเดาอี-x2อี-x2e^{-x^2} โดยทั่วไปแล้วอะไรที่ทำให้มีประโยชน์ในด้านสถิติ? หากการแจกแจงแบบปกติเป็นพื้นที่เพียงอย่างเดียวแล้วอะไรทำให้ไม่ซ้ำกันหรือมีประโยชน์โดยเฉพาะในฟังก์ชั่นประเภท gaussian อื่น ๆ ในการแจกแจงแบบปกติ? e - x 2อี- x2อี-x2e^{-x^2}อี- x2อี-x2e^{-x^2}

3
ทำไมการแจกแจงแบบ t จึงปกติมากกว่าเมื่อขนาดตัวอย่างเพิ่มขึ้น?
ตามวิกิพีเดียฉันเข้าใจว่าการแจกแจงแบบ t เป็นการกระจายตัวตัวอย่างของค่า t เมื่อตัวอย่างเป็นการสังเกตแบบ iid จากประชากรที่กระจายตัวตามปกติ อย่างไรก็ตามฉันไม่เข้าใจโดยสัญชาตญาณว่าทำไมทำให้รูปร่างของการแจกแจงแบบ t เปลี่ยนจากไขมันหางเป็นปกติเกือบสมบูรณ์ ฉันได้ว่าถ้าคุณสุ่มตัวอย่างจากการแจกแจงแบบปกติแล้วถ้าคุณลองสุ่มกลุ่มใหญ่มันจะคล้ายกับการกระจายตัวนั้น แต่ฉันไม่เข้าใจว่าทำไมมันเริ่มต้นด้วยรูปร่างอ้วนท้วน

2
การแปลงบันทึกเป็นเทคนิคที่ใช้ได้สำหรับการทดสอบข้อมูลที่ไม่ใช่ข้อมูลปกติหรือไม่
ในการทบทวนกระดาษผู้เขียนกล่าวว่า "ตัวแปรผลลัพธ์อย่างต่อเนื่องที่แสดงการแจกแจงแบบเบ้ถูกแปลงโดยใช้ลอการิทึมธรรมชาติก่อนที่จะทำการทดสอบ t เพื่อให้เป็นไปตามสมมติฐานเบื้องต้นของภาวะปกติ" นี่เป็นวิธีที่ยอมรับได้ในการวิเคราะห์ข้อมูลที่ไม่ใช่ข้อมูลปกติหรือไม่ นี่อาจเป็นคำถามที่ค่อนข้างแปลก แต่ฉันไม่เคยเห็นมาก่อน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.