คำถามติดแท็ก normal-distribution

การแจกแจงแบบปกติหรือแบบเกาส์เซียนนั้นมีฟังก์ชั่นความหนาแน่นซึ่งเป็นเส้นโค้งรูประฆังแบบสมมาตร มันเป็นหนึ่งในการแจกแจงที่สำคัญที่สุดในสถิติ ใช้แท็ก [normality] เพื่อสอบถามเกี่ยวกับการทดสอบหา normality

3
วิธีเปลี่ยนการกระจายเลปโตคอตติกไปสู่ภาวะปกติ?
สมมติว่าฉันมีตัวแปร leptokurtic ที่ฉันต้องการเปลี่ยนเป็นค่าปกติ การเปลี่ยนแปลงอะไรที่ทำให้งานนี้สำเร็จ ฉันตระหนักดีว่าการแปลงข้อมูลอาจไม่เป็นที่ต้องการเสมอไป แต่เป็นการศึกษาเชิงวิชาการสมมติว่าฉันต้องการที่จะ "ตอก" ข้อมูลลงในแบบปกติ นอกจากนี้ดังที่คุณสามารถบอกได้จากพล็อตค่าทั้งหมดเป็นค่าบวกอย่างเคร่งครัด ฉันได้ลองใช้การเปลี่ยนแปลงที่หลากหลาย (สิ่งที่ฉันเคยเห็นมาก่อนรวมถึง, ฯลฯ ) แต่ไม่มีใครทำงานได้ดีเป็นพิเศษ มีการเปลี่ยนแปลงที่รู้จักกันดีในการทำให้การกระจายตัวของเลปโตไคโตริกเป็นปกติมากขึ้นหรือไม่?1X, X--√, Asinh ( X)1X,X,asinh(X)\frac 1 X,\sqrt X,\text{asinh}(X) ดูตัวอย่างพล็อต QQ ปกติด้านล่าง:

4
สมมติฐานการกระจายตัวแบบตกค้าง
ทำไมจึงจำเป็นต้องวางสมมุติฐานการกระจายในข้อผิดพลาดเช่น yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i}กับϵi∼N(0,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) ) ทำไมไม่เขียน yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i}กับyi∼N(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2}) , ที่ว่าในกรณีใดϵi=yi−y^ϵi=yi−y^\epsilon_i = y_i - \hat{y} Y ฉันเคยเห็นมันเน้นว่าข้อสันนิษฐานของการกระจายสินค้าถูกวางไว้บนข้อผิดพลาดไม่ใช่ข้อมูล แต่ไม่มีคำอธิบาย ฉันไม่เข้าใจความแตกต่างระหว่างสูตรทั้งสองนี้จริงๆ บางแห่งที่ฉันเห็นสมมติฐานการกระจายถูกวางไว้บนข้อมูล (Bayesian lit. ดูเหมือนว่าส่วนใหญ่) แต่เวลาส่วนใหญ่ข้อสันนิษฐานที่วางอยู่บนข้อผิดพลาด เมื่อสร้างแบบจำลองทำไม / ควรเลือกที่จะเริ่มต้นด้วยสมมติฐานหนึ่งหรืออื่น ๆ ?

1
ทำไมการทดสอบ F ในแบบจำลองเชิงเส้น Gaussian จึงมีประสิทธิภาพมากที่สุด
สำหรับแบบจำลองเชิงเส้นแบบเกาส์โดยที่ถูกสมมติให้อยู่ในปริภูมิเวกเตอร์และมีการแจกแจงแบบปกติมาตรฐานใน , สถิติของ -test สำหรับโดยที่เป็นปริภูมิเวกเตอร์เป็นการเพิ่มฟังก์ชันหนึ่งต่อหนึ่งของสถิติเบี่ยงเบน : เราจะรู้ได้อย่างไรว่าสถิตินี้ให้การทดสอบที่มีประสิทธิภาพที่สุดสำหรับH_0Y=μ+σGY=μ+σGY=\mu+\sigma Gμμ\muWWWGGGRnRn\mathbb{R}^nFFFH0:{μ∈U}H0:{μ∈U}H_0\colon\{\mu \in U\}U⊂WU⊂WU \subset Wf=ϕ(2logsupμ∈W,σ>0L(μ,σ|y)supμ∈U,σ>0L(μ,σ|y)).f=ϕ(2log⁡supμ∈W,σ>0L(μ,σ|y)supμ∈U,σ>0L(μ,σ|y)).f=\phi\left( 2\log \frac{\sup_{\mu \in W, \sigma>0} L(\mu, \sigma | y)}{\sup_{\mu \in U, \sigma>0} L(\mu, \sigma | y)} \right).H0H0H_0(อาจหลังจากทิ้งกรณีที่ผิดปกติ) หรือไม่ สิ่งนี้ไม่ได้เกิดจากทฤษฎีบทของเนย์แมน - เพียร์สันเพราะทฤษฎีนี้ยืนยันว่าการทดสอบอัตราส่วนความน่าจะเป็นมีประสิทธิภาพมากที่สุดสำหรับจุดสมมุติH0:{μ=μ0,σ=σ0}H0:{μ=μ0,σ=σ0}H_0\colon\{\mu=\mu_0, \sigma=\sigma_0\}และH1:{μ=μ1,σ=σ1}H1:{μ=μ1,σ=σ1}H_1\colon\{\mu=\mu_1,\sigma=\sigma_1\}\}

2
สัญชาตญาณเบื้องหลังฟังก์ชันความหนาแน่นของการแจกแจงแบบ t
ฉันกำลังศึกษาเกี่ยวกับการแจกแจงค่า t ของนักเรียนและฉันเริ่มสงสัยว่าจะได้รับฟังก์ชันความหนาแน่นของการแจกแจงแบบ t (จากวิกิพีเดีย, http://en.wikipedia.org/wiki/Student%27s_t-distribution ) ได้อย่างไร: f(t)=Γ(v+12)vπ−−√Γ(v2)(1+t2v)−v+12f(t)=Γ(v+12)vπΓ(v2)(1+t2v)−v+12f(t) = \frac{\Gamma(\frac{v+1}{2})}{\sqrt{v\pi}\:\Gamma(\frac{v}{2})}\left(1+\frac{t^2}{v} \right)^{-\frac{v+1}{2}} โดยที่คือองศาอิสระและคือฟังก์ชันแกมม่า สัญชาตญาณของฟังก์ชั่นนี้คืออะไร? ฉันหมายถึงถ้าฉันดูฟังก์ชันความน่าจะเป็นแบบกระจายมวลแบบทวินามมันก็สมเหตุสมผลสำหรับฉัน แต่ฟังก์ชั่นความหนาแน่นของการแจกแจงแบบ t ทำให้ฉันไม่เข้าใจเลย ... มันไม่ง่ายเลยตั้งแต่แรกพบ หรือสัญชาตญาณเพียงว่ามันมีรูปทรงระฆังและมันตอบสนองความต้องการของเรา?vvvΓΓ\Gamma ขอบคุณสำหรับความช่วยเหลือใด ๆ :)

2
เมื่อข้อมูลมีการแจกแจงแบบเกาส์ตัวอย่างจะมีลักษณะเป็นจำนวนเท่าใด
ข้อมูลแบบเกาส์กระจายในมิติเดียวต้องใช้พารามิเตอร์สองตัวในการอธิบายลักษณะ (ค่าเฉลี่ยความแปรปรวน) และข่าวลือมีว่าตัวอย่างที่เลือกแบบสุ่มประมาณ 30 ตัวอย่างเพียงพอที่จะประมาณค่าพารามิเตอร์เหล่านี้ แต่จะเกิดอะไรขึ้นเมื่อจำนวนมิติเพิ่มขึ้น ในสองมิติ (เช่นความสูงน้ำหนัก) ใช้เวลา 5 พารามิเตอร์ในการระบุวงรี "ที่ดีที่สุด" ในสามมิตินี้เพิ่มขึ้นเป็น 9 พารามิเตอร์เพื่ออธิบายรูปวงรีและใน 4 มิติใช้เวลา 14 พารามิเตอร์ ฉันสนใจที่จะทราบว่าจำนวนตัวอย่างที่จำเป็นในการประมาณค่าพารามิเตอร์เหล่านี้ยังเพิ่มขึ้นในอัตราที่เทียบเคียงในอัตราที่ช้ากว่าหรือ (โปรดอย่า!) ในอัตราที่สูงขึ้น ยังดีกว่าถ้ามีกฎของหัวแม่มือยอมรับในวงกว้างที่แนะนำจำนวนตัวอย่างที่จำเป็นในการจำแนกลักษณะการแจกแจงแบบเกาส์ในจำนวนมิติที่กำหนดนั่นจะเป็นการดีที่จะรู้ หากต้องการแม่นยำยิ่งขึ้นสมมติว่าเราต้องการกำหนดขอบเขต "แบบที่เหมาะสมที่สุด" แบบสมมาตรซึ่งมีศูนย์กลางอยู่ที่จุดเฉลี่ยภายในซึ่งเรามั่นใจได้ว่า 95% ของตัวอย่างทั้งหมดจะลดลง ฉันต้องการทราบจำนวนตัวอย่างที่ใช้ในการค้นหาพารามิเตอร์เพื่อประมาณขอบเขตนี้ (ช่วงเวลาใน 1-D, วงรีใน 2-D, ฯลฯ ) ด้วยความมั่นใจสูง (> 95%) และความแตกต่างของจำนวนนั้น จำนวนมิติเพิ่มขึ้น

2
อัตราส่วนของผลรวมของปกติต่อผลรวมของลูกบาศก์ของ Normal
โปรดช่วยฉันค้นหาการ จำกัด การกระจาย (ดัง ) ของสิ่งต่อไปนี้: ที่จะ IID(0,1)n→∞n→∞n \rightarrow \inftyUn=X1+X2+…+XnX31+X32+…X3n,Un=X1+X2+…+XnX13+X23+…Xn3, U_n = \frac{X_1 + X_2 + \ldots + X_n}{X_1^3 + X_2^3 + \ldots X_n^3},XiXiX_iN(0,1)N(0,1)N(0,1)

2
ระยะห่างระหว่างส่วนผสม Gaussian จำกัด และ Gaussian จำกัด คืออะไร
สมมติว่าฉันมีส่วนผสมของ Gaussians จำนวนมากที่มีน้ำหนัก, ค่าเฉลี่ย, และค่าเบี่ยงเบนมาตรฐาน วิธีการไม่เท่ากัน แน่นอนว่าค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของการผสมสามารถคำนวณได้เนื่องจากช่วงเวลานั้นมีค่าเฉลี่ยถ่วงน้ำหนักของช่วงเวลาของส่วนประกอบ ส่วนผสมไม่ได้เป็นการกระจายตัวแบบธรรมดา แต่ไกลแค่ไหนจากปกติ? ภาพด้านบนแสดงความหนาแน่นของความน่าจะเป็นที่เป็นไปได้สำหรับส่วนผสมแบบเกาส์พร้อมส่วนประกอบหมายถึงคั่นด้วยส่วนเบี่ยงเบนมาตรฐาน (ของส่วนประกอบ) และแบบเกาส์เดียวที่มีค่าเฉลี่ยและความแปรปรวนเหมือนกัน222 111 แรงจูงใจ:ฉันไม่เห็นด้วยกับคนขี้เกียจบางคนเกี่ยวกับการแจกแจงจริงบางอย่างที่พวกเขาไม่ได้วัดซึ่งพวกเขาคิดว่าใกล้เคียงกับปกติเพราะจะดี ฉันก็ขี้เกียจเหมือนกัน ฉันไม่ต้องการวัดการกระจายตัวเช่นกัน ฉันต้องการที่จะบอกว่าสมมติฐานของพวกเขานั้นไม่สอดคล้องกันเพราะพวกเขาบอกว่าการผสมผสานอัน จำกัด ของ Gaussians ด้วยวิธีการที่แตกต่างกันคือ Gaussian ซึ่งไม่ถูกต้อง ฉันไม่อยากจะบอกว่ารูปร่างของหางนั้นผิดเพราะสิ่งเหล่านี้เป็นเพียงการประมาณซึ่งควรจะมีความแม่นยำพอสมควรภายในค่าเบี่ยงเบนมาตรฐานของค่าเฉลี่ย ฉันอยากจะบอกว่าถ้าส่วนประกอบมีการประมาณค่าปกติจากการแจกแจงปกติแล้วส่วนผสมไม่ได้และฉันต้องการที่จะหาปริมาณนี้ L1L1L^12221/41/41/4

2
มูลค่าที่คาดหวังของความสัมพันธ์ปลอม
เราวาดตัวอย่างแต่ละขนาดอิสระจากปกติการจัดจำหน่ายn ( μ , σ 2 )NNNnnn(μ,σ2)(μ,σ2)(\mu,\sigma^2) จากตัวอย่างเราเลือก 2 ตัวอย่างที่มีความสัมพันธ์แบบเพียร์สันสูงสุด (แบบสัมบูรณ์) กับแต่ละอื่น ๆNNN ค่าที่คาดหวังของความสัมพันธ์นี้คืออะไร? ขอบคุณ [PS นี่ไม่ใช่การบ้าน]

1
แพคเกจหลามสำหรับการทำงานกับแบบจำลองการผสมแบบเกาส์ (GMMs)
ดูเหมือนจะมีหลายตัวเลือกสำหรับการทำงานกับ Gaussian Mixture Models (GMMs) ใน Python ได้อย่างรวดเร็วก่อนมีอย่างน้อย: PyMix - http://www.pymix.org/pymix/index.phpเครื่องมือสำหรับการสร้างแบบจำลองการผสม PyEM - http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/em/ซึ่งเป็นส่วนหนึ่งของกล่อง SciPy และดูเหมือนว่าจะมุ่งเน้นไปที่ GMMs ปรับปรุง: ตอนนี้รู้จักกันในนาม sklearn.mixture PyPR - http://pypr.sourceforge.net/การจดจำรูปแบบและเครื่องมือที่เกี่ยวข้องรวมถึง GMM ... และบางทีคนอื่น ๆ พวกเขาดูเหมือนจะให้ความต้องการขั้นพื้นฐานที่สุดสำหรับ GMMs รวมถึงการสร้างและการสุ่มตัวอย่างการประมาณค่าพารามิเตอร์การจัดกลุ่มและอื่น ๆ ความแตกต่างระหว่างพวกเขาคืออะไรและคนเราควรพิจารณาว่าอะไรเหมาะสมที่สุดสำหรับความต้องการเฉพาะ Ref: http://www.scipy.org/Topical_Software


1
การกระจายแบบเกาส์เป็นกรณีเฉพาะของการแจกแจงแบบเบต้าหรือไม่
หากคุณดูการแจกแจงแบบเบต้าด้วยα=β= 4α=β=4\alpha=\beta=4มันจะดูคล้ายกับการแจกแจงแบบเกาส์มาก แต่มันคืออะไร คุณจะพิสูจน์ได้อย่างไรว่าการแจกแจงแบบเบต้า (4,4) เป็นแบบเกาส์เซสหรือไม่?

2
ค่าที่คาดหวังของ x ในการแจกแจงแบบปกติให้ค่าที่ต่ำกว่าค่าที่แน่นอน
เพียงแค่สงสัยว่าเป็นไปได้หรือไม่ที่จะหาค่าที่คาดหวังของ x หากมีการแจกแจงตามปกติโดยมีค่าต่ำกว่าค่าที่แน่นอน (ตัวอย่างเช่นต่ำกว่าค่าเฉลี่ย)

3
Jeffreys ก่อนหน้าสำหรับการแจกแจงแบบปกติพร้อมค่าเฉลี่ยและความแปรปรวนที่ไม่รู้จัก
ฉันอ่านค่าการกระจายก่อนหน้านี้และฉันคำนวณ Jeffreys ก่อนหน้านี้สำหรับตัวอย่างของตัวแปรสุ่มแบบกระจายที่มีค่าเฉลี่ยไม่ทราบและความแปรปรวนที่ไม่รู้จัก จากการคำนวณของฉันรายการต่อไปนี้ของ Jeffreys ก่อนหน้านี้: ที่นี่เป็นเมทริกซ์ข้อมูลของฟิชเชอร์ ผมp ( μ , σ2) = de t ( ฉัน)-----√= de t ( 1 / σ2001 / ( 2 σ4))------------------√= 12 σ6----√∝ 1σ3.พี(μ,σ2)=dอีเสื้อ(ผม)=dอีเสื้อ(1/σ2001/(2σ4))=12σ6α1σ3. p(\mu,\sigma^2)=\sqrt{det(I)}=\sqrt{det\begin{pmatrix}1/\sigma^2 & 0 \\ 0 & 1/(2\sigma^4)\end{pmatrix}}=\sqrt{\frac{1}{2\sigma^6}}\propto\frac{1}{\sigma^3}.ผมผมI อย่างไรก็ตามฉันได้อ่านสิ่งพิมพ์และเอกสารที่ระบุด้วย p ( μ , σ2) ∝ 1 / σ2พี(μ,σ2)α1/σ2p(\mu,\sigma^2)\propto 1/\sigma^2ดูหัวข้อ 2.2 ในKass …

2
การกระจายความน่าจะเป็นสำหรับคลื่นไซน์ที่มีเสียงดัง
ฉันต้องการวิเคราะห์การกระจายความน่าจะเป็นของจุดสุ่มตัวอย่างจากฟังก์ชันการแกว่งเมื่อมีข้อผิดพลาดในการวัด ฉันได้คำนวณการแจกแจงความน่าจะเป็นสำหรับส่วน "ไม่มีเสียง" แล้ว (ฉันจะใส่ท้ายนี้) แต่ฉันไม่สามารถหาวิธีรวม "เสียง" ได้ การประมาณเชิงตัวเลข เพื่อให้ชัดเจนยิ่งขึ้นลองจินตนาการว่ามีฟังก์ชั่นซึ่งคุณสุ่มเลือกคะแนนจากในรอบเดียว หากคุณได้รับคะแนนในฮิสโตแกรมคุณจะได้รับบางสิ่งที่เกี่ยวข้องกับการแจกแจงy(x)=sin(x)y(x)=sin⁡(x)y(x) = \sin(x) ไม่มีเสียงดังรบกวน ตัวอย่างเช่นนี่คือและฮิสโตแกรมที่เกี่ยวข้องsin(x)sin(x)sin(x) พร้อมเสียงดัง ตอนนี้หากมีข้อผิดพลาดในการวัดบางอย่างมันจะเปลี่ยนรูปร่างของฮิสโตแกรม ตัวอย่างเช่น การคำนวณเชิงวิเคราะห์ ดังนั้นหวังว่าฉันจะทำให้คุณมั่นใจว่ามีความแตกต่างระหว่างสองอย่างนี้ตอนนี้ฉันจะเขียนวิธีคำนวณกรณี "ไม่มีเสียง": ไม่มีเสียงดังรบกวน y(x)=sin(x)y(x)=sin⁡(x) y(x) = \sin(x) จากนั้นถ้าเวลาที่เราสุ่มตัวอย่างกระจายอย่างสม่ำเสมอการแจกแจงความน่าจะเป็นสำหรับyyyจะต้องเป็นไปตาม: P(y)dy=dx2πP(y)dy=dx2π P(y) dy = \frac{dx}{2\pi} ตั้งแต่นั้นมา dxdy=ddy(arcsin(y))=11−y2−−−−−√dxdy=ddy(arcsin⁡(y))=11−y2\frac{dx}{dy} = \frac{d}{dy}\left(\arcsin(y)\right) = \frac{1}{\sqrt{1 - y^{2}}} และอื่น ๆ P(y)=12π1−y2−−−−−√P(y)=12π1−y2 P(y) = \frac{1}{2\pi\sqrt{1 - y^{2}}} ซึ่งการปรับมาตรฐานให้เหมาะสมนั้นเหมาะกับฮิสโตแกรมที่สร้างขึ้นในกรณี "ไม่มีเสียงรบกวน" …

1
การทดสอบชุดข้อมูลขนาดใหญ่เพื่อหาข้อได้เปรียบ - อย่างไรและเชื่อถือได้อย่างไร?
ฉันกำลังตรวจสอบส่วนหนึ่งของชุดข้อมูลของฉันที่มีค่าสองเท่า 46840 ตั้งแต่ 1 ถึง 1690 จัดกลุ่มในสองกลุ่ม เพื่อที่จะวิเคราะห์ความแตกต่างระหว่างกลุ่มเหล่านี้ฉันเริ่มต้นด้วยการตรวจสอบการกระจายของค่าเพื่อเลือกการทดสอบที่ถูกต้อง ทำตามคำแนะนำในการทดสอบความเป็นมาตรฐานฉันทำ qqplot, histogram & boxplot นี่ดูเหมือนจะไม่ใช่การแจกแจงแบบปกติ เนื่องจากไกด์ระบุค่อนข้างถูกต้องว่าการตรวจสอบเชิงกราฟิกล้วนไม่เพียงพอฉันจึงต้องการทดสอบการแจกแจงแบบปกติ เมื่อพิจารณาถึงขนาดของชุดข้อมูลและข้อ จำกัด ของการทดสอบ shapiro-wilks ใน R แล้วการแจกแจงที่ให้มาจะถูกทดสอบเพื่อความเป็นมาตรฐานและพิจารณาขนาดของชุดข้อมูลเป็นสิ่งที่น่าเชื่อถือหรือไม่ ( ดูคำตอบที่ยอมรับสำหรับคำถามนี้ ) แก้ไข: ข้อ จำกัด ของการทดสอบ Shapiro-Wilk ที่ฉันอ้างถึงคือชุดข้อมูลที่จะทดสอบนั้น จำกัด ไว้ที่ 5,000 คะแนน หากต้องการอ้างอิงคำตอบที่ดีอีกข้อเกี่ยวกับหัวข้อนี้: ปัญหาเพิ่มเติมของการทดสอบของ Shapiro-Wilk คือเมื่อคุณป้อนข้อมูลเพิ่มเติมโอกาสในการปฏิเสธสมมติฐานที่ใหญ่กว่านั้นจะกลายเป็นเรื่องใหญ่ ดังนั้นสิ่งที่เกิดขึ้นก็คือสำหรับข้อมูลจำนวนมากแม้จะตรวจพบความเบี่ยงเบนเล็ก ๆ น้อย ๆ จากภาวะปกติซึ่งนำไปสู่การปฏิเสธเหตุการณ์สมมติฐานว่างสำหรับการใช้งานจริงข้อมูลนั้นมากกว่าปกติพอ [... ] โชคดีที่ shapiro.test ปกป้องผู้ใช้จากเอฟเฟกต์ที่อธิบายข้างต้นโดย จำกัด …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.