คำถามติดแท็ก normal-distribution

การแจกแจงแบบปกติหรือแบบเกาส์เซียนนั้นมีฟังก์ชั่นความหนาแน่นซึ่งเป็นเส้นโค้งรูประฆังแบบสมมาตร มันเป็นหนึ่งในการแจกแจงที่สำคัญที่สุดในสถิติ ใช้แท็ก [normality] เพื่อสอบถามเกี่ยวกับการทดสอบหา normality

1
ความหนาแน่นของการแจกแจงปกติตามขนาดที่เพิ่มขึ้น
คำถามที่ฉันต้องการถามคือ: สัดส่วนของตัวอย่างภายใน 1 SD ของค่าเฉลี่ยของการแจกแจงปกติแตกต่างกันอย่างไรเมื่อจำนวนของตัวแปรเพิ่มขึ้น (เกือบ) ทุกคนรู้ว่าในการแจกแจงปกติแบบ 1 มิตินั้น 68% ของตัวอย่างสามารถพบได้ในค่าเบี่ยงเบนมาตรฐาน 1 ค่าเฉลี่ย ในมิติที่ 2, 3, 4, ... ฉันรู้ว่ามันลดน้อยลง ... แต่เท่าไหร่ (แม่นยำ)? การมีตารางแสดงตัวเลขสำหรับ 1, 2, 3 ... 10 มิติเช่นเดียวกับ 1, 2, 3 ... 10 SDs ทุกคนสามารถชี้ไปที่ตารางดังกล่าวได้หรือไม่ บริบทเพิ่มเติมเล็กน้อย - ฉันมีเซ็นเซอร์ที่ให้ข้อมูลสูงสุด 128 ช่อง แต่ละช่องอาจมีสัญญาณรบกวนทางไฟฟ้า (เป็นอิสระ) เมื่อฉันรู้สึกถึงวัตถุการปรับเทียบฉันสามารถเฉลี่ยการวัดที่เพียงพอและได้รับค่าเฉลี่ยในช่องสัญญาณ 128 พร้อมกับค่าเบี่ยงเบนมาตรฐานส่วนบุคคล 128 แบบ แต่ ... …

3
ฉันจะประเมินความน่าจะเป็นของสมาชิกสุ่มจากประชากรหนึ่งที่จะ“ ดีขึ้น” กว่าสมาชิกสุ่มจากประชากรอื่นได้อย่างไร
สมมติว่าฉันมีกลุ่มตัวอย่างจากประชากรสองกลุ่มที่แตกต่างกัน ถ้าฉันวัดว่าสมาชิกแต่ละคนใช้เวลาทำงานนานแค่ไหนฉันสามารถประมาณค่าเฉลี่ยและความแปรปรวนของประชากรแต่ละคนได้อย่างง่ายดาย หากตอนนี้ฉันตั้งสมมติฐานการจับคู่แบบสุ่มกับบุคคลหนึ่งคนจากแต่ละประชากรฉันสามารถประเมินความน่าจะเป็นที่คนแรกเร็วกว่าคนที่สองหรือไม่ ฉันมีตัวอย่างที่เป็นรูปธรรมในใจ: การวัดเป็นการกำหนดเวลาสำหรับฉันขี่จักรยานจาก A ถึง B และประชากรเป็นตัวแทนของเส้นทางที่แตกต่างที่ฉันสามารถทำได้ ฉันพยายามหาว่าความน่าจะเป็นที่การเลือกเส้นทาง A สำหรับรอบต่อไปของฉันจะเร็วกว่าการเลือกเส้นทาง B เมื่อฉันทำวัฏจักรจริง ๆ ฉันได้รับจุดข้อมูลอีกชุดสำหรับชุดตัวอย่างของฉัน :) ฉันรู้ว่านี่เป็นวิธีที่ง่ายอย่างน่ากลัวในการพยายามทำสิ่งนี้ไม่ใช่อย่างน้อยเพราะในวันหนึ่ง ๆ ลมจะมีผลต่อเวลาของฉันมากกว่าสิ่งอื่นดังนั้นโปรดแจ้งให้เราทราบหากคุณคิดว่าฉันกำลังถาม คำถามที่ผิด ...

5
เหตุใดข้อสันนิษฐานเรื่อง Normality ในการถดถอยเชิงเส้น
คำถามของฉันง่ายมาก: ทำไมเราถึงเลือกตามปกติเนื่องจากการแจกแจงที่ข้อผิดพลาดตามมาในข้อสันนิษฐานของการถดถอยเชิงเส้น? ทำไมเราไม่เลือกคนอื่นเหมือนเครื่องแบบเสื้อหรืออะไร?

3
CDF ปกติใดของการแจกแจงแบบแปรผันตามตัวแปรสุ่มเบต้า
สมมติว่าคุณกำหนด: X∼Beta(α,β)X∼Beta(α,β)X\sim\mbox{Beta}(\alpha,\beta) Y∼Φ−1(X)Y∼Φ−1(X)Y\sim \Phi^{-1}(X) ที่Φ−1Φ−1\Phi^{-1}เป็นสิ่งที่ตรงกันข้ามของCDF ของการกระจายแบบปกติมาตรฐาน คำถามของฉันคือมีการกระจายง่ายที่YYYต่อไปนี้หรือที่สามารถใกล้เคียงกับYYY ? ฉันถามเพราะฉันสงสัยอย่างมากจากผลการจำลอง (แสดงด้านล่าง) ที่YYYเปลี่ยนเป็นการแจกแจงแบบปกติเมื่อαα\alphaและββ\betaสูง แต่ฉันไม่รู้ว่าทำไมมันถึงเป็นคณิตศาสตร์ (แน่นอนว่าเมื่อα=1;β=1α=1;β=1\alpha=1;\beta=1 , XXXจะเหมือนกันและYYYจะเป็นมาตรฐานปกติ แต่ทำไมมันจะเป็นจริงสำหรับค่าที่สูงขึ้น?) หากไม่มาบรรจบกันเพื่อปกติสิ่งที่จะพารามิเตอร์ของการที่เป็นปกติในแง่ของαα\alphaและββ\beta ? (ฉันคาดหวังว่าค่าเฉลี่ยจะเป็นΦ−1(αα+β)Φ−1(αα+β)\Phi^{-1}(\frac{\alpha}{\alpha+\beta})เนื่องจากเป็นการเปลี่ยนแปลงของโหมด แต่ฉันไม่รู้ค่าเบี่ยงเบนมาตรฐาน) (วางวิธีอื่นนี้อาจจะถามว่า "ไม่Φ(Norm(μ,σ))Φ(Norm(μ,σ))\Phi(\mbox{Norm}(\mu, \sigma))บรรจบกับการกระจายเบต้าสำหรับทิศทางของบางμμ\muและσσ\sigma " ผมไม่แน่ใจว่าไม่ว่าจะเป็นเรื่องง่ายที่จะตอบ) ผลการจำลอง ที่นี่ฉันแสดงเหตุผลที่ฉันสงสัยว่าผลที่ได้เป็นเรื่องปกติ (เนื่องจากฉันไม่สามารถสำรองด้วยคณิตศาสตร์) การจำลองการสามารถทำได้ใน R กับและ ตัวอย่างเช่นการเลือกพารามิเตอร์สูงα = 3000และβ = 7000 :YYYqnormrnormα=3000α=3000\alpha=3000β=7000β=7000\beta=7000 hist(qnorm(rbeta(5000, 3000, 7000))) สิ่งนี้ดูปกติqqnormและการทดสอบ Shapiro-Wilk (ซึ่งปกติคือสมมุติฐานว่าง) แนะนำเช่น: qqnorm(qnorm(rbeta(5000, 3000, 7000))) shapiro.test(qnorm(rbeta(5000, 3000, 7000))) …

3
การอ้างอิงที่แสดงให้เห็นถึงการใช้ Gaussian Mixtures
แบบจำลองการผสมแบบเกาส์ (GMMs) มีความน่าสนใจเพราะง่ายต่อการทำงานกับทั้งในเชิงวิเคราะห์และในทางปฏิบัติ มีคุณสมบัติการวิเคราะห์เล็กน้อยที่เราควรคาดว่าจะมีซึ่งไม่ชัดเจนโดยทั่วไป โดยเฉพาะอย่างยิ่ง: SnSnS_nnnnPPPnnnPPPlimn→∞infP^∈SnD(P||P^)=0?limn→∞infP^∈SnD(P||P^)=0?\lim_{n\rightarrow \infty}\inf_{\hat{P}\in S_n} D(P||\hat{P})=0? บอกว่าเรามีการกระจายอย่างต่อเนื่องและเราได้พบ -component ผสมแบบเกาส์ซึ่งอยู่ใกล้กับPในรูปแบบรวม: \ เดลต้า (P \ hat {P}) &lt;\ varepsilon เราสามารถผูกD (P || \ hat {P})ในแง่ของ\ epsilon ได้หรือไม่?N P P δ ( P , P ) &lt; ε D ( P | | P ) εPPPNNNP^P^\hat{P}PPPδ(P,P^)&lt;εδ(P,P^)&lt;ε\delta(P,\hat{P})<\varepsilonD(P||P^)D(P||P^)D(P||\hat{P})ϵϵ\epsilon ถ้าเราต้องการสังเกตุผ่านเสียงเพิ่มเติมอิสระY \ sim P_Y …

2
การแปลงข้อมูล: ตัวแปรทั้งหมดหรือเฉพาะที่ไม่ใช่แบบปกติ?
ในการค้นพบสถิติของ Andy Field การใช้ SPSS เขาระบุว่าตัวแปรทั้งหมดจะต้องถูกแปลง อย่างไรก็ตามในสิ่งพิมพ์: "การตรวจสอบความสัมพันธ์เชิงพื้นที่ที่แตกต่างกันระหว่างการใช้ที่ดินและคุณภาพน้ำโดยใช้การถดถอยเชิงน้ำหนัก I: การออกแบบรูปแบบและการประเมินผล" พวกเขาระบุว่าเฉพาะตัวแปรที่ไม่ปกติเท่านั้นที่ถูกเปลี่ยน การวิเคราะห์นี้เฉพาะเจาะจงหรือไม่ ตัวอย่างเช่นในการเปรียบเทียบวิธีการเปรียบเทียบบันทึกกับข้อมูลดิบจะให้ผลที่แตกต่างอย่างเห็นได้ชัดในขณะที่เมื่อใช้บางอย่างเช่นการถดถอยเพื่อตรวจสอบความสัมพันธ์ระหว่างตัวแปรมันจะมีความสำคัญน้อยลง แก้ไข: นี่คือหน้าข้อความเต็มในส่วน "การแปลงข้อมูล": และนี่คือลิงค์ไปยังกระดาษ: http://www.sciencedirect.com/science/article/pii/S0048969708009121

1
ค่าเฉลี่ยเดียวกัน, ความแปรปรวนต่างกัน
สมมติว่าคุณมีนักวิ่งแปดคนวิ่งแข่ง การกระจายตัวของเวลาทำงานส่วนตัวของพวกเขาคือปกติและแต่ละช่วงเวลามีความยาว111111วินาที ค่าเบี่ยงเบนมาตรฐานของรองชนะเลิศอันดับหนึ่งคือค่าที่เล็กที่สุดสองค่าที่สองที่เล็กที่สุดค่าที่สามน้อยที่สุดและแปดค่าที่ใหญ่ที่สุด คำถามสองข้อทำให้ฉันสับสน: (1) ความน่าจะเป็นที่ผู้ชนะคนสุดท้ายคืออะไรและ (2) ใครที่มีแนวโน้มจะชนะการแข่งขันมากที่สุด? คำตอบของฉันมี1/21/21/2และ888ตามลำดับ เนื่องจากพวกเขาแบ่งปันค่าเฉลี่ยเท่ากันน่าจะเป็นที่x¯1−x¯8&lt;0x¯1−x¯8&lt;0\bar x_1-\bar x_8\lt 0เป็นเพียง1/21/21/2ไม่? ฉันจะแสดงให้เห็นถึงส่วนที่สองอย่างจริงจังและสามารถคำนวณความน่าจะเป็นที่แน่นอนได้อย่างไร ขอบคุณล่วงหน้า.

2
การกระจายตัวของความแปรปรวนของตัวแปรกำลังสองและไคสแควร์?
ปัญหาต่อไปนี้เกิดขึ้นเมื่อเร็ว ๆ นี้ขณะวิเคราะห์ข้อมูล หากตัวแปรสุ่ม X ตามการแจกแจงปกติและ Y ตามการแจกแจงχ2nχn2\chi^2_n (ด้วย n dof) Z=X2+Y2Z=X2+Y2Z = X^2 + Y^2กระจายอย่างไร ถึงตอนนี้ฉันมากับ pdf ของY2Y2Y^2 : ψ2n(x)====∂F(x−−√)∂x(∫x√0tn/2−1⋅e−t/22n/2Γ(n/2)dt)′x12n/2Γ(n/2)⋅(x−−√)n/2−1⋅e−x√/2⋅(x−−√)′x12n/2−1Γ(n/2)⋅xn/4−1⋅e−x√/2ψn2(x)=∂F(x)∂x=(∫0xtn/2−1⋅e−t/22n/2Γ(n/2)dt)x′=12n/2Γ(n/2)⋅(x)n/2−1⋅e−x/2⋅(x)x′=12n/2−1Γ(n/2)⋅xn/4−1⋅e−x/2\begin{eqnarray} \psi^2_n(x) &=& \frac{\partial F(\sqrt{x})}{\partial x} \\ &=& \left( \int_0^{\sqrt{x}} \frac{t^{n/2-1}\cdot e^{-t/2}}{2^{n/2}\Gamma(n/2)} \mathrm{d}t \right)^\prime_x \\ &=& \frac{1}{2^{n/2}\Gamma(n/2)} \cdot \left( \sqrt{x} \right)^{n/2-1} \cdot e^{-\sqrt{x}/2} \cdot \left( \sqrt{x} \right)^\prime_x \\ &=& \frac{1}{2^{n/2-1}\Gamma(n/2)} …

3
ฉันสามารถสร้างการแจกแจงแบบปกติจากขนาดตัวอย่างและค่า min และ max ได้หรือไม่ ฉันสามารถใช้จุดกึ่งกลางเพื่อกำหนดค่าเฉลี่ยของพร็อกซี
ฉันรู้ว่านี่อาจจะเป็นค่าเช่าเล็กน้อยสถิติ แต่นี่เป็นปัญหาของฉัน ฉันมีข้อมูลช่วงจำนวนมากกล่าวคือขนาดต่ำสุดสูงสุดและตัวอย่างของตัวแปร สำหรับข้อมูลเหล่านี้บางส่วนฉันก็มีค่าเฉลี่ย แต่ไม่มากนัก ฉันต้องการที่จะเปรียบเทียบช่วงเหล่านี้กับแต่ละอื่น ๆ เพื่อหาปริมาณความแปรปรวนของแต่ละช่วงและเพื่อเปรียบเทียบค่าเฉลี่ย ฉันมีเหตุผลที่ดีที่จะสมมติว่าการกระจายนั้นสมมาตรรอบค่าเฉลี่ยและข้อมูลจะมีการแจกแจงแบบเกาส์ ด้วยเหตุนี้ฉันจึงคิดว่าฉันสามารถพิสูจน์ได้ว่าใช้จุดกึ่งกลางของการแจกแจงเป็นพร็อกซีสำหรับค่าเฉลี่ยเมื่อไม่อยู่ สิ่งที่ฉันต้องการทำคือสร้างการแจกแจงใหม่สำหรับแต่ละช่วงจากนั้นใช้สิ่งนั้นเพื่อให้ค่าเบี่ยงเบนมาตรฐานหรือข้อผิดพลาดมาตรฐานสำหรับการแจกแจงนั้น ข้อมูลเดียวที่ฉันมีคือค่าสูงสุดและต่ำสุดที่สังเกตได้จากตัวอย่างและจุดกลางเป็นพร็อกซีสำหรับค่าเฉลี่ย ด้วยวิธีนี้ฉันหวังว่าจะสามารถคำนวณค่าเฉลี่ยถ่วงน้ำหนักสำหรับแต่ละกลุ่มและคำนวณสัมประสิทธิ์การแปรผันสำหรับแต่ละกลุ่มได้เช่นกันตามข้อมูลช่วงที่ฉันมีและสมมติฐานของฉัน (ของการแจกแจงแบบสมมาตรและปกติ) ฉันวางแผนที่จะใช้ R เพื่อทำสิ่งนี้ดังนั้นความช่วยเหลือเกี่ยวกับโค้ดจะได้รับการชื่นชมเช่นกัน

2
ทำไมความน่าจะเป็นศูนย์สำหรับค่าที่กำหนดจากการแจกแจงแบบปกติคืออะไร?
ฉันสังเกตว่าในการแจกแจงแบบปกติความน่าจะเป็นเท่ากับศูนย์ในขณะที่การแจกแจงปัวซองนั้นจะไม่เท่ากับศูนย์เมื่อเป็นจำนวนเต็มที่ไม่เป็นลบcP( x = c )P(x=c)P(x=c)คcc คำถามของฉันคือความน่าจะเป็นของค่าคงที่ใด ๆ ในการแจกแจงแบบปกติเท่ากับศูนย์หรือไม่เพราะมันหมายถึงพื้นที่ภายใต้โค้งใด ๆ หรือเป็นเพียงกฎที่จะจดจำเท่านั้น?

2
การดำเนินงานเกี่ยวกับวิชาตรีโกณมิติเกี่ยวกับส่วนเบี่ยงเบนมาตรฐาน
การบวกการลบการคูณและการหารของตัวแปรสุ่มปกติมีความหมายที่ดี แต่การดำเนินการเกี่ยวกับวิชาตรีโกณมิติ? ยกตัวอย่างเช่นสมมติว่าฉันพยายามหามุมของสามเหลี่ยมลิ่ม (จำลองเป็นสามเหลี่ยมมุมฉาก) โดยมีสอง catheti ที่มีมิติd1d1d_1และd2d2d_2ทั้งคู่อธิบายว่าเป็นการแจกแจงแบบปกติ ทั้งสัญชาตญาณและการจำลองบอกว่าการกระจายที่เกิดเป็นเรื่องปกติที่มีค่าเฉลี่ยขวา) แต่มีวิธีคำนวณการกระจายตัวของมุมที่เกิดขึ้นหรือไม่? การอ้างอิงเกี่ยวกับที่ฉันจะหาคำตอบ?arctan(mean(d1)mean(d2))arctan⁡(mean(d1)mean(d2))\arctan\left(\frac{\text{mean}(d_1)}{\text{mean}(d_2)}\right) (สำหรับบริบทฉันกำลังทำงานกับความอดทนทางสถิติของชิ้นส่วนเครื่องจักรแรงกระตุ้นแรกของฉันคือการจำลองกระบวนการทั้งหมดเพียงแค่ตรวจสอบว่าผลลัพธ์สุดท้ายนั้นเป็นเรื่องปกติพอสมควรและคำนวณค่าเบี่ยงเบนมาตรฐาน แต่ฉันสงสัยว่า หากอาจมีวิธีวิเคราะห์เชิง neater)

3
คะแนนทดสอบเป็นไปตามการแจกแจงปกติหรือไม่
ฉันพยายามเรียนรู้ว่าการแจกแจงแบบใดที่จะใช้ใน GLMs และฉันสับสนเล็กน้อยเมื่อต้องใช้การแจกแจงแบบปกติ ในส่วนหนึ่งของตำราเรียนของฉันบอกว่าการแจกแจงแบบปกติอาจจะดีสำหรับการทำแบบจำลองคะแนนสอบ ในส่วนถัดไปมันจะถามว่าการจัดจำหน่ายแบบใดที่เหมาะสมในการสร้างแบบจำลองการเคลมประกันรถยนต์ เวลานี้มันบอกว่าการแจกแจงที่เหมาะสมจะเป็นแกมม่าหรืออินเวอร์สเกาส์เนื่องจากพวกมันมีค่าบวกอย่างต่อเนื่องเท่านั้น ฉันเชื่อว่าคะแนนสอบจะต่อเนื่องกับค่าบวกเท่านั้นดังนั้นทำไมเราถึงใช้การแจกแจงแบบปกติที่นั่น? การแจกแจงปกติไม่อนุญาตสำหรับค่าลบหรือไม่

1
Caret glmnet กับ cv.glmnet
ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training &lt;- twoClassSim(50, linearVars = 2) set.seed(849) testing &lt;- twoClassSim(500, linearVars = 2) trainX &lt;- training[, -ncol(training)] testX &lt;- testing[, -ncol(testing)] trainY &lt;- training$Class # Using glmnet to …

2
ข้อใดที่ใหญ่ที่สุดของตัวแปรสุ่มแบบกระจายทั่วไป
ฉันมีตัวแปรสุ่มx_0, มีการแจกแจงแบบปกติที่มีค่าเฉลี่ยและความแปรปรวน1 RVs มีการกระจายตามปกติที่มีค่าเฉลี่ยและความแปรปรวน1ทุกอย่างเป็นอิสระร่วมกันX0,X1,…,XnX0,X1,…,XnX_0,X_1,\dots,X_nX0X0X_0μ&gt;0μ&gt;0\mu>0111X1,…,XnX1,…,XnX_1,\dots,X_n000111 Letหมายถึงกรณีที่เป็นที่ใหญ่ที่สุดของเหล่านี้คือX_n) ฉันต้องการที่จะคำนวณหรือประมาณการ\ Pr [E] ฉันกำลังมองหาการแสดงออกสำหรับ\ Pr [E]เป็นหน้าที่ของ\ หมู่, nหรือประมาณการที่เหมาะสมหรือประมาณสำหรับ\ Pr [E]EEEX0X0X_0X0&gt;max(X1,…,Xn)X0&gt;max(X1,…,Xn)X_0 > \max(X_1,\dots,X_n)Pr[E]Pr[E]\Pr[E]Pr[E]Pr[E]\Pr[E]μ,nμ,n\mu,nPr[E]Pr[E]\Pr[E] ในใบสมัครของฉันnnnได้รับการแก้ไข ( n=61n=61n=61 ) และฉันต้องการค้นหาค่าที่เล็กที่สุดสำหรับμμ\muที่ทำให้Pr[E]≥0.99Pr[E]≥0.99\Pr[E] \ge 0.99แต่ฉันอยากรู้เกี่ยวกับคำถามทั่วไปเช่นกัน

3
ทำไมมันมักจะสันนิษฐานว่าการกระจายแบบเสียน
การอ้างอิงจากบทความ Wikipedia เกี่ยวกับการประมาณค่าพารามิเตอร์สำหรับลักษณนามไร้เดียงสา Bayes : "ข้อสันนิษฐานทั่วไปคือค่าต่อเนื่องที่เกี่ยวข้องกับแต่ละคลาสนั้นถูกแจกจ่ายตามการแจกแจงแบบเกาส์" ฉันเข้าใจว่าการแจกแจงแบบเกาส์นั้นสะดวกสำหรับเหตุผลในการวิเคราะห์ อย่างไรก็ตามมีเหตุผลอื่นใดในโลกแห่งความจริงที่จะทำการคาดคะเนนี้? ถ้าประชากรประกอบด้วยประชากรย่อยสองคน (คนฉลาด / โง่แอปเปิ้ลใหญ่ / เล็ก)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.