คำถามติดแท็ก normal-distribution

การแจกแจงแบบปกติหรือแบบเกาส์เซียนนั้นมีฟังก์ชั่นความหนาแน่นซึ่งเป็นเส้นโค้งรูประฆังแบบสมมาตร มันเป็นหนึ่งในการแจกแจงที่สำคัญที่สุดในสถิติ ใช้แท็ก [normality] เพื่อสอบถามเกี่ยวกับการทดสอบหา normality

1
Pdf ของกำลังสองของตัวแปรสุ่มปกติมาตรฐาน [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน4 ปีที่แล้ว ฉันมีปัญหานี้ที่ฉันจะต้องพบกับรูปแบบไฟล์ PDF ของ 2 ทั้งหมดที่ผมรู้ก็คือว่ามีการกระจาย(0,1) สิ่งที่ชนิดของการกระจายคือ ? เช่นเดียวกับ ? ฉันจะหา pdf ได้อย่างไร X N ( 0 , 1 ) Y = X 2 XY=X2Y=X2Y = X^2XXXN(0,1)N(0,1)N(0,1)Y=X2Y=X2Y = X^2XXX

2
เกณฑ์ปกติร่วมเป็นเงื่อนไขที่จำเป็นสำหรับการรวมของตัวแปรสุ่มปกติให้เป็นปกติหรือไม่?
ในการแสดงความคิดเห็นต่อไปนี้คำตอบของฉันนี้จะเป็นคำถามที่เกี่ยวข้องกับผู้ใช้ ssdecontrol และ Glen_b ถามว่าปกติร่วมกันของและเป็นสิ่งที่จำเป็นสำหรับการเข้าไปยุ่งเกี่ยวกับภาวะปกติของจำนวนเงินที่ ? แน่นอนว่ามาตรฐานร่วมกันนั้นเพียงพอแล้วเป็นที่รู้จักกันดี คำถามเพิ่มเติมนี้ไม่ได้กล่าวถึงที่นั่นและอาจคุ้มค่าที่จะพิจารณาในสิทธิของตนเองXXXYYYX+YX+YX+Y ฉันจึงถาม ทำมีอยู่ตามปกติตัวแปรสุ่มและดังกล่าวว่า เป็นตัวแปรสุ่มปกติ แต่และมีความไม่ ร่วมกันตัวแปรสุ่มปกติ?XXXYYYX+YX+YX+YXXXYYY หากและไม่จำเป็นต้องมีการแจกแจงแบบปกติดังนั้นจึงเป็นเรื่องง่ายที่จะหาตัวแปรสุ่มแบบปกติเช่นนั้น ตัวอย่างหนึ่งสามารถพบได้ในคำตอบก่อนหน้าของฉัน (ลิงค์ด้านบน) ฉันเชื่อว่าคำตอบของคำถามที่เน้นสีด้านบนคือใช่และได้โพสต์ (สิ่งที่ฉันคิดว่าเป็น) เป็นตัวอย่างสำหรับคำตอบของคำถามนี้XXXYYY

1
ทำความเข้าใจกับการทดสอบแบบไคสแควร์และการแจกแจงแบบไคสแควร์
ฉันพยายามเข้าใจตรรกะหลังการทดสอบไคสแควร์ การทดสอบไคสแควร์เป็น{} จะถูกเปรียบเทียบกับการแจกแจงแบบ Chi-squared เพื่อค้นหา p.value เพื่อปฏิเสธหรือไม่สมมุติฐานว่าง : การสังเกตมาจากการแจกแจงที่เราเคยสร้างค่าที่เราคาดหวัง ตัวอย่างเช่นเราสามารถทดสอบความน่าจะเป็นที่จะได้รับจากตามที่เราคาดหวัง ดังนั้นเราจึงพลิก 100 ครั้งและหาและ1เราต้องการเปรียบเทียบการค้นพบของเรากับสิ่งที่คาดหวัง ( ) เราสามารถใช้การแจกแจงทวินามได้ด้วย แต่มันก็ไม่ใช่ประเด็นของคำถาม ... คำถามคือ: χ2H0pnH1-nH100⋅pχ2=∑(obs−exp)2expχ2=∑(obs−exp)2exp\chi ^2 = \sum \frac{(obs-exp)^2}{exp}χ2χ2\chi ^2H0H0H_0headpppnHnHn_H Heads1−nH1−nH1-n_H tails100⋅p100⋅p100 \cdot p คุณช่วยอธิบายได้ไหมว่าทำไมภายใต้สมมติฐานว่างตามหลังการแจกแจงแบบไคสแควร์?∑(obs−exp)2exp∑(obs−exp)2exp\sum \frac{(obs-exp)^2}{exp} สิ่งที่ฉันรู้เกี่ยวกับการกระจายตัวไคสแควร์คือการกระจายตัวไคสแควร์ของดีกรีคือผลรวมของการแจกแจงปกติกำลังสองมาตรฐานkkkkkkk

1
Quantiles จากการรวมการแจกแจงแบบปกติ
ฉันมีข้อมูลเกี่ยวกับการแจกแจงสัดส่วนมิติของร่างกาย (เช่นช่วงไหล่) สำหรับเด็กทุกวัย สำหรับแต่ละอายุและมิติฉันมีค่าเฉลี่ยส่วนเบี่ยงเบนมาตรฐาน (ฉันมีแปดควอนไทล์ แต่ฉันไม่คิดว่าฉันจะได้สิ่งที่ฉันต้องการจากพวกเขา) สำหรับแต่ละมิติฉันต้องการประเมินจำนวนเฉพาะของการกระจายความยาว หากฉันสมมติว่าแต่ละมิติมีการกระจายตามปกติฉันสามารถทำได้ด้วยค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน มีสูตรสวยที่ฉันสามารถใช้เพื่อรับค่าที่เกี่ยวข้องกับ quantile เฉพาะของการกระจายหรือไม่ การย้อนกลับค่อนข้างง่าย: สำหรับค่าใดค่าหนึ่งให้หาพื้นที่ทางด้านขวาของค่าสำหรับการแจกแจงปกติ (อายุ) แต่ละค่า รวมผลลัพธ์และหารด้วยจำนวนการแจกแจง ปรับปรุง : นี่คือคำถามเดียวกันในรูปแบบกราฟิก สมมติว่าการแจกแจงสีแต่ละแบบนั้นปกติจะกระจาย นอกจากนี้ฉันเห็นได้ชัดว่าสามารถลองความยาวหลาย ๆ แบบและเปลี่ยนมันต่อไปเรื่อย ๆ จนกว่าฉันจะได้ค่าที่ใกล้เคียงกับควอนไทล์ที่ต้องการเพื่อความแม่นยำของฉัน ฉันสงสัยว่ามีวิธีที่ดีกว่านี้หรือไม่ และถ้านี่เป็นแนวทางที่ถูกต้องมีชื่อไหม?

11
การแจกแจงนั้นเป็นเรื่องปกติ แต่ก็ถือว่าเบียนเสียนอย่างมากหรือเปล่า?
ฉันมีคำถามนี้คุณคิดว่าการกระจายเวลาที่ใช้ไปกับ YouTube ในแต่ละวันเป็นอย่างไร คำตอบของฉันคือมันอาจกระจายตามปกติและเอียงไปทางซ้ายสูง ฉันคาดหวังว่าจะมีโหมดเดียวที่ผู้ใช้ส่วนใหญ่ใช้เวลาเฉลี่ยและจากนั้นก็ใช้เวลานานพอสมควรเนื่องจากผู้ใช้บางคนมีพลังที่ครอบงำ นั่นเป็นคำตอบที่ยุติธรรมหรือไม่? มีคำพูดที่ดีกว่าสำหรับการแจกแจงแบบนั้นหรือไม่?

3
วันนี้มีใครบางคนที่เร็วกว่า Usain Bolt ไหม?
แก้ไข: ฉันสนใจในปัญหาทางเทคนิคและวิธีการในการกำหนดโอกาสสูงสุด "จริง" ในประชากรที่กำหนดให้สถิติตัวอย่าง มีปัญหาเกี่ยวกับการประเมินความเป็นไปได้ของนักวิ่งที่เร็วกว่า Mr. Bolt จากช่วงเวลาบันทึกการตั้งค่าที่ชัดเจนและละเอียดอ่อน ขำขันฉันด้วยการจินตนาการว่านี่จะไม่เป็นอย่างนั้น Usain Bolt เป็นมนุษย์ที่วัดได้เร็วที่สุดในระยะ 100 เมตร อย่างไรก็ตามจากจำนวนนักกีฬาจำนวนน้อยดูเหมือนว่ามนุษย์ที่เร็วที่สุดที่ "จริง" ยังมีชีวิตอยู่กำลังนั่งบนโซฟาอยู่ที่ไหนสักแห่งและไม่เคยพยายามประกอบอาชีพการแข่งขัน ฉันพยายามใช้ความจริงที่ว่าความแตกต่างระหว่างตัวอย่างที่ส่วนท้ายของการแจกแจงแบบปกตินั้นเล็กลงและเล็กลง ฉันใช้สิ่งนี้เพื่อคำนวณความเป็นไปได้ที่จะมีใครบางคนที่เร็วกว่า Usain Bolt โดยการเปรียบเทียบ Usain กับอันดับที่สองที่เร็วที่สุดอันดับที่ 3 และอื่น ๆ เมื่อต้องการทำสิ่งนี้ฉันพยายามคำนวณค่าที่มากที่สุดที่มีอยู่นอกเหนือจาก "Usain Bolt" โดยการหาอนุพันธ์ของ CDF ของการแจกแจงแบบปกติเทียบกับyyyยกให้เป็นnnn th (โดยที่nnnมีค่าประมาณ 7,000,000,000 หรือจำนวน ตัวอย่างน้อยกว่า "สูงสุด" - ตรรกะที่อยู่เบื้องหลังนี้อธิบายไว้ในหน้าปัญหารถถังเยอรมันวิกิพีเดียซึ่งสรุปการกระจายตัวที่แตกต่างกัน) เช่น: ∫∞0yfYN(y)dy=λn∫∞0y[12[1+erf(y−μσ2√)]]n−112πσ2√e−(y−μ)22σ2dy∫0∞yfYN(y)dy=λn∫0∞y[12[1+erf⁡(y−μσ2)]]n−112πσ2e−(y−μ)22σ2dy\int_{0}^{\infty}y f_{Y_N} (y)dy = \lambda n \int_{0}^{\infty} y …

2
พล็อต QQ ดูปกติ แต่การทดสอบของ Shapiro-Wilk บอกเป็นอย่างอื่น
ใน R ฉันมีตัวอย่างของการวัด 348 รายการและต้องการทราบว่าฉันสามารถสันนิษฐานได้ว่าการกระจายนั้นปกติสำหรับการทดสอบในอนาคต โดยพื้นฐานแล้วทำตามคำตอบสแต็คอื่นฉันกำลังดูพล็อตความหนาแน่นและพล็อต QQ ด้วย: plot(density(Clinical$cancer_age)) qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2) ฉันไม่มีประสบการณ์ที่ดีในด้านสถิติ แต่พวกเขาดูเหมือนตัวอย่างของการแจกแจงแบบปกติที่ฉันเคยเห็น จากนั้นฉันก็ทำการทดสอบ Shapiro-Wilk: shapiro.test(Clinical$cancer_age) > Shapiro-Wilk normality test data: Clinical$cancer_age W = 0.98775, p-value = 0.004952 ถ้าฉันตีความอย่างถูกต้องมันจะบอกฉันว่ามันปลอดภัยที่จะปฏิเสธสมมติฐานว่างซึ่งก็คือการแจกแจงเป็นเรื่องปกติ อย่างไรก็ตามฉันได้พบกับโพสต์สแต็คสองโพสต์ ( ที่นี่และที่นี่ ) ซึ่งบ่อนทำลายประโยชน์ของการทดสอบนี้อย่างมาก ดูเหมือนว่าถ้ากลุ่มตัวอย่างมีขนาดใหญ่ (มีการพิจารณาว่าใหญ่เป็น 348 หรือไม่) มันจะพูดเสมอว่าการแจกแจงไม่ปกติ ฉันจะตีความทั้งหมดนั้นได้อย่างไร ฉันควรติดกับพล็อต QQ และถือว่าการกระจายของฉันเป็นเรื่องปกติหรือไม่?

2
เราจะได้การแจกแจงแบบปกติเป็นอย่างไรถ้าช่วงของค่าของตัวแปรสุ่มของเราถูก จำกัด ขอบเขต
สมมติว่าเรามีตัวแปรสุ่มที่มีช่วงของค่าที่ล้อมรอบด้วยและโดยที่คือค่าต่ำสุดและคือค่าสูงสุดaaabbbaaabbb ฉันบอกว่าเป็นโดยที่คือขนาดตัวอย่างของเราการกระจายตัวตัวอย่างของค่าเฉลี่ยตัวอย่างของเราคือการแจกแจงแบบปกติ นั่นคือการที่เราเพิ่มเราได้ใกล้ชิดและใกล้ชิดกับการกระจายปกติ แต่ขีด จำกัด ที่เกิดขึ้นจริงเป็นคือเท่ากับการกระจายปกติn→∞n→∞n \to \inftynnnnnnn→∞n→∞n \to \infty อย่างไรก็ตามไม่ได้เป็นส่วนหนึ่งของคำจำกัดความของการแจกแจงแบบปกติที่จะต้องขยายจากเป็น ?−∞−∞- \infty∞∞\infty ถ้าสูงสุดของช่วงของเราคือแล้วตัวอย่างค่าเฉลี่ยสูงสุด (โดยไม่คำนึงถึงขนาดของกลุ่มตัวอย่าง) เป็นไปได้เท่ากับและตัวอย่างขั้นต่ำเฉลี่ยเท่ากับbbbbbbaaa ดังนั้นจึงดูเหมือนว่าฉันว่าแม้ว่าเราจะใช้วงเงินเป็นแนวทางอินฟินิตี้จัดจำหน่ายของเราไม่ได้มีการกระจายปกติที่เกิดขึ้นจริงเพราะมันมีขอบเขตโดยและขnnnaaabbb ฉันกำลังคิดถึงอะไร

1
การประเมินผลของ“ ประมาณปกติ” สำหรับการทดสอบที
ฉันกำลังทดสอบวิธีการที่เท่าเทียมกันโดยใช้การทดสอบ t ของ Welch การแจกแจงพื้นฐานอยู่ไกลจากปกติ (บิดเบือนมากกว่าตัวอย่างในการสนทนาที่เกี่ยวข้องที่นี่ ) ฉันสามารถรับข้อมูลเพิ่มเติมได้ แต่ต้องการวิธีที่มีหลักการในการพิจารณาว่าจะทำเช่นไร มีฮิวริสติกที่ดีสำหรับการประเมินว่าการแจกตัวอย่างเป็นที่ยอมรับหรือไม่? การเบี่ยงเบนใด ๆ จากภาวะปกติที่เกี่ยวข้องกับอะไรมากที่สุด มีวิธีการอื่น ๆ - เช่นอาศัยช่วงความเชื่อมั่นบูตสำหรับสถิติตัวอย่าง - ซึ่งจะทำให้รู้สึกมากขึ้น?

1
การกระจายผลิตภัณฑ์โดยประมาณของ N iid ปกติ? กรณีพิเศษμ≈0
รับ iid X n ≈ N ( μ X , σ 2 X ) , และμ X ≈ 0 , ค้นหา:ยังไม่มีข้อความ≥ 30N≥30N\geq30Xn≈ N( μX, σ2X)Xn≈N(μX,σX2)X_n\approx\mathcal{N}(\mu_X,\sigma_X^2)μX≈ 0μX≈0\mu_X \approx 0 การประมาณการแจกแจงแบบฟอร์มปิดที่แม่นยำของ Yยังไม่มีข้อความ= ∏1ยังไม่มีข้อความXnYN=∏1NXnY_N=\prod\limits_{1}^{N}{X_n} asymptotic ( exponential ?) การประมาณของผลิตภัณฑ์เดียวกัน นี้เป็นกรณีพิเศษของขึ้นคำถามทั่วไปμX≈ 0μX≈0\mu_X \approx 0

1
ANOVA: การทดสอบสมมติฐานของภาวะปกติสำหรับหลาย ๆ กลุ่มที่มีตัวอย่างไม่กี่ตัวอย่างต่อกลุ่ม
สมมติว่าสถานการณ์ต่อไปนี้: เรามีจำนวนมาก (เช่น 20) กับกลุ่มขนาดเล็ก (เช่น n = 3) ฉันสังเกตเห็นว่าถ้าฉันสร้างค่าจากการกระจายแบบสม่ำเสมอส่วนที่เหลือจะดูปกติประมาณแม้ว่าการกระจายข้อผิดพลาดจะเหมือนกัน รหัส R ต่อไปนี้แสดงให้เห็นถึงพฤติกรรมนี้: n.group = 200 n.per.group = 3 x <- runif(n.group * n.per.group) gr <- as.factor(rep(1:n.group, each = n.per.group)) means <- tapply(x, gr, mean) x.res <- x - means[gr] hist(x.res) ถ้าฉันดูตัวอย่างที่เหลือในกลุ่มที่สามเหตุผลของพฤติกรรมชัดเจน: r1=x1−mean(x1,x2,x3)=x1−x1+x2+x33=23x1−x2−x3.r1=x1−mean(x1,x2,x3)=x1−x1+x2+x33=23x1−x2−x3. r_1 = x_1 - \text{mean}(x1, x2, x3) …

4
อัตราส่วนของการแจกแจงอิสระให้การกระจายแบบปกติคืออะไร?
อัตราส่วนของการแจกแจงปกติสองแบบอิสระให้การแจกแจงแบบโคชี การแจกแจงแบบ t เป็นการแจกแจงแบบปกติหารด้วยการแจกแจงแบบไคสแควร์อิสระ อัตราส่วนของการแจกแจงแบบไคสแควร์อิสระสองตัวนั้นให้การกระจายแบบ F ฉันกำลังมองหาอัตราส่วนของการแจกแจงแบบต่อเนื่องอิสระที่ให้ตัวแปรสุ่มแบบกระจายที่มีค่าเฉลี่ยและความแปรปรวน ?μμ\muσ2σ2\sigma^2 อาจมีคำตอบที่เป็นไปได้จำนวนมาก คุณสามารถให้คำตอบที่เป็นไปได้เหล่านี้ให้ฉันได้ไหม ฉันจะซาบซึ้งเป็นพิเศษหากทั้งสองการแจกแจงอิสระซึ่งการคำนวณอัตราส่วนนั้นเหมือนกันหรืออย่างน้อยก็มีความแปรปรวนที่คล้ายกัน

2
การกระจายแบบปกติ X และ Y มีแนวโน้มที่จะส่งผลให้เกิดการตกค้างแบบกระจายตามปกติหรือไม่
ที่นี่การตีความที่ผิดของสมมติฐานของภาวะปกติในการถดถอยเชิงเส้นถูกกล่าวถึง (ที่ 'ปกติ' หมายถึง X และ / หรือ Y มากกว่าที่เหลือ) และโปสเตอร์ถามว่ามันเป็นไปได้ที่จะมีการกระจาย X และ Y ไม่ปกติ และยังคงมีการกระจายสารตกค้างตามปกติ คำถามของฉันคือ: โดยทั่วไปมีการกระจาย X และ Y มีแนวโน้มที่จะส่งผลให้ส่วนที่เหลือกระจายตามปกติ? มีการโพสต์ที่เกี่ยวข้องมากมาย แต่ฉันไม่เชื่อว่ามีใครถามคำถามนี้โดยเฉพาะ ฉันรู้ว่านี่อาจเป็นจุดที่น่าสนใจหากมีเพียงการถดถอยเพียงครั้งเดียวที่ต้องทำ แต่ก็น้อยลงหากมีการทดสอบหลายครั้ง สมมติว่าฉันมีตัวแปร 100 X ซึ่งทั้งหมดมีความเบ้เหมือนกันและฉันต้องการทดสอบพวกเขาทั้งหมด ถ้าฉันเปลี่ยนพวกมันทั้งหมดเป็นการกระจายตัวแบบปกติมันจะเป็นไปได้ไหมที่ฉันจะมีตัวแปร X น้อยกว่าที่ต้องการการตรวจสอบอีกครั้ง (โดยไม่มีการแปลงที่ต่างกัน / ไม่มีการเปลี่ยนแปลง) เนื่องจากเศษซากที่ไม่กระจายตามปกติ

3
วิธีทำให้ข้อมูลของการแจกจ่ายที่ไม่รู้จักเป็นมาตรฐาน
ฉันพยายามค้นหาการกระจายลักษณะเฉพาะที่เหมาะสมที่สุดของข้อมูลการวัดซ้ำประเภทหนึ่ง โดยพื้นฐานแล้วในสาขาธรณีวิทยาของฉันเรามักจะใช้การตรวจสอบด้วยรังสีของแร่ธาตุจากตัวอย่าง (ก้อนหิน) เพื่อหาว่านานแค่ไหนที่มีเหตุการณ์เกิดขึ้น (หินเย็นลงต่ำกว่าอุณหภูมิที่กำหนด) โดยทั่วไปการวัดหลาย ๆ (3-10) จะทำจากตัวอย่างแต่ละตัวอย่าง จากนั้นค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานσจะถูกนำ นี่คือธรณีวิทยาดังนั้นอายุการระบายความร้อนของตัวอย่างสามารถปรับได้ตั้งแต่10 5ถึง10 9ปีขึ้นอยู่กับสถานการณ์μμ\muσσ\sigma10510510^510910910^9 อย่างไรก็ตามฉันมีเหตุผลที่เชื่อได้ว่าการวัดไม่ใช่ Gaussian: 'Outliers' ไม่ว่าจะเป็นการประกาศโดยพลการหรือผ่านเกณฑ์บางอย่างเช่นเกณฑ์ของ Peirce [Ross, 2003]หรือการทดสอบ Q ของ Dixon [Dean and Dixon, 1951]นั้นค่อนข้างยุติธรรม ทั่วไป (พูด 1 ใน 30) และสิ่งเหล่านี้เกือบจะเก่ากว่าทุกครั้งซึ่งบ่งชี้ว่าการวัดเหล่านี้มีลักษณะเอียงไปทางขวา มีเหตุผลที่เข้าใจกันดีเกี่ยวกับสิ่งสกปรกที่เกี่ยวกับแร่วิทยา μμ\muσσ\sigma ฉันสงสัยว่าวิธีที่ดีที่สุดในการทำเช่นนี้คืออะไร ถึงตอนนี้ฉันมีฐานข้อมูลประมาณ 600 ตัวอย่างและ 2-10 (หรือมากกว่านั้น) ทำซ้ำการวัดต่อตัวอย่าง ฉันได้ลองทำตัวอย่างให้เป็นมาตรฐานโดยการหารค่าเฉลี่ยหรือค่ามัธยฐานแล้วดูที่ฮิสโตแกรมของข้อมูลที่ทำให้เป็นมาตรฐาน สิ่งนี้สร้างผลลัพธ์ที่สมเหตุสมผลและดูเหมือนว่าบ่งชี้ว่าข้อมูลนั้นเป็นลักษณะเฉพาะของ Laplacian: อย่างไรก็ตามฉันไม่แน่ใจว่านี่เป็นวิธีการที่เหมาะสมหรือไม่หรือมีข้อแม้ที่ฉันไม่ทราบว่าอาจทำให้เกิดผลลัพธ์ของฉันดังนั้นพวกเขาจึงมีลักษณะเช่นนี้ ใครบ้างมีประสบการณ์กับสิ่งนี้และรู้วิธีปฏิบัติที่ดีที่สุด?

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.