คำถามติดแท็ก normality-assumption

วิธีการทางสถิติหลายอย่างสมมติว่ามีการกระจายข้อมูลตามปกติ ใช้แท็กนี้สำหรับคำถามเกี่ยวกับสมมติฐานและการทดสอบความเป็นมาตรฐานหรือเกี่ยวกับความปกติเป็นคุณสมบัติ * ใช้ [การแจกแจงแบบปกติ] สำหรับคำถามเกี่ยวกับการแจกแจงแบบปกติ

2
เราสามารถเห็นรูปร่างของเส้นโค้งปกติที่ใดที่หนึ่งในธรรมชาติหรือไม่?
ฉันไม่ต้องการทราบว่าปรากฏการณ์บางอย่างในธรรมชาติมีการแจกแจงแบบปกติหรือไม่ แต่เราสามารถเห็นรูปร่างของเส้นโค้งปกติที่ใดที่หนึ่งที่เราสามารถเห็นได้ในกล่อง Galton หรือไม่ ดูรูปนี้จากWikipedia โปรดทราบว่ารูปร่างหรือเส้นโค้งทางคณิตศาสตร์จำนวนมากสามารถมองเห็นได้โดยตรงในธรรมชาติตัวอย่างเช่นค่าเฉลี่ยสีทองและเกลียวลอการิทึมสามารถพบได้ในหอยทาก คำตอบที่ไร้เดียงสาอันดับแรกคือไม่ว่าเนินเขาที่ไม่ถูกต้องมักจะ "พอดี" การกระจายแบบปกติ :-)

4
การเปลี่ยนรูปเพื่อเพิ่มความโด่งและความเบ้ของค่าปกติ
ฉันกำลังทำงานกับอัลกอริทึมที่อาศัยข้อเท็จจริงที่ว่าการสังเกตของนั้นได้รับการแจกแจงตามปกติและฉันต้องการที่จะทดสอบความทนทานของอัลกอริทึมกับสมมติฐานนี้โดยประจักษ์YYY การทำเช่นนี้ผมกำลังมองหาลำดับของการเปลี่ยนแปลงที่จะมีความก้าวหน้าทำลายปกติของYตัวอย่างเช่นถ้าเป็นเรื่องปกติพวกเขาจะมีความเบ้และ kurtosisและมันจะเป็นการดีที่จะหาลำดับของการเปลี่ยนแปลงที่เพิ่มขึ้นอย่างต่อเนื่องY Y = 0 = 3T1( ) , … , Tn( )T1(),…,Tn()T_1(), \dots, T_n()YYYYYY= 0=0= 0= 3=3= 3 ความคิดของฉันคือการจำลองข้อมูลที่กระจายโดยประมาณประมาณและทดสอบอัลกอริทึมในนั้น กว่าอัลกอริธึมการทดสอบในชุดข้อมูลที่ถูกแปลงแต่ละชุดเพื่อดูว่าเอาต์พุตมีการเปลี่ยนแปลงมากน้อยเพียงใดYYYT1( Y) , … , Tn( y)T1(Y),…,Tn(y)T_1(Y), \dots, T_n(y) โปรดสังเกตว่าฉันไม่ได้ควบคุมการกระจายตัวของจำลองดังนั้นฉันไม่สามารถจำลองพวกมันโดยใช้การแจกแจงที่วางตัวแบบปกติ (เช่นการกระจายข้อผิดพลาดทั่วไปแบบเบ้)YYY

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
ตัวอย่างการแจกแจงที่จำเป็นต้องใช้ขนาดตัวอย่างขนาดใหญ่สำหรับทฤษฎีบทขีด จำกัด กลาง
หนังสือบางเล่มระบุขนาดของกลุ่มตัวอย่างที่มีขนาด 30 หรือสูงกว่าเป็นสิ่งที่จำเป็นสำหรับเซ็นทรัล จำกัด ทฤษฎีบทที่จะให้ประมาณการที่ดีสำหรับ{X} X¯X¯\bar{X} ฉันรู้ว่านี่ไม่เพียงพอสำหรับการแจกแจงทั้งหมด ฉันต้องการเห็นตัวอย่างของการแจกแจงที่ถึงแม้จะมีขนาดตัวอย่างขนาดใหญ่ (อาจเป็น 100 หรือ 1,000 หรือสูงกว่า) การกระจายตัวของค่าเฉลี่ยตัวอย่างก็ยังค่อนข้างเบ้ ฉันรู้ว่าฉันเคยเห็นตัวอย่างเหล่านี้มาก่อน แต่ฉันจำไม่ได้ว่าอยู่ที่ไหนและหาไม่พบ

2
วิธีการทดสอบความแตกต่างระหว่างสองกลุ่มหมายถึงเมื่อข้อมูลไม่กระจายตามปกติ?
ฉันจะกำจัดรายละเอียดและการทดลองทางชีวภาพทั้งหมดและเสนอราคาเพียงปัญหาในมือและสิ่งที่ฉันทำทางสถิติ ฉันอยากจะรู้ว่ามันถูกต้องหรือไม่และจะทำอย่างไรต่อไป หากข้อมูล (หรือคำอธิบายของฉัน) ไม่ชัดเจนเพียงพอฉันจะพยายามอธิบายให้ดีขึ้นโดยแก้ไข สมมติว่าฉันมีสองกลุ่ม / สังเกต X และ Y มีขนาดNx=215Nx=215N_x=215และNy=40Ny=40N_y=40 40 ฉันต้องการทราบว่าค่าเฉลี่ยของการสังเกตทั้งสองนี้เท่ากันหรือไม่ คำถามแรกของฉันคือ: หากสมมติฐานเป็นที่พอใจจะต้องใช้การทดสอบสองตัวอย่างพารามิเตอร์ที่นี่? ฉันถามสิ่งนี้เพราะจากความเข้าใจของฉันมันมักจะใช้เมื่อขนาดเล็ก? ฉันพล็อตฮิสโทแกรมของทั้ง X และ Y และพวกมันไม่ได้กระจายตามปกติซึ่งเป็นหนึ่งในสมมติฐานของการทดสอบสองตัวอย่าง ความสับสนของฉันคือว่าฉันคิดว่าพวกเขาเป็นสองประชากรและนั่นคือเหตุผลที่ฉันตรวจสอบการกระจายปกติ แต่ฉันกำลังจะทำการทดสอบสองตัวอย่าง ... นี่ถูกไหม? จากทฤษฎีบทขีด จำกัด กลางฉันเข้าใจว่าถ้าคุณทำการสุ่มตัวอย่าง (โดยมี / ไม่มีการซ้ำซ้อนขึ้นอยู่กับขนาดประชากรของคุณ) หลาย ๆ ครั้งและคำนวณค่าเฉลี่ยของตัวอย่างในแต่ละครั้งมันจะกระจายโดยประมาณปกติ และค่าเฉลี่ยของตัวแปรสุ่มนี้จะเป็นการประมาณค่าเฉลี่ยของประชากรที่ดี ดังนั้นฉันจึงตัดสินใจทำทั้ง X และ Y 1,000 ครั้งและได้รับตัวอย่างและฉันกำหนดตัวแปรสุ่มให้กับค่าเฉลี่ยของแต่ละตัวอย่าง พล็อตนั้นกระจายตามปกติอย่างมาก ค่าเฉลี่ยของ X และ Y เท่ากับ 4.2 และ …

4
พื้นฐานสำหรับคำจำกัดความ Box และ Whisker Plot ของค่าผิดปกติคืออะไร?
นิยามมาตรฐานของค่าผิดปกติสำหรับพล็อต Box และ Whisker คือจุดที่อยู่นอกช่วงโดยที่และเป็นควอไทล์ตัวแรกและคือควอไทล์ที่สามของข้อมูล{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 พื้นฐานสำหรับคำจำกัดความนี้คืออะไร ด้วยคะแนนจำนวนมากแม้การแจกแจงแบบปกติที่สมบูรณ์แบบก็จะส่งกลับค่าผิดปกติ ตัวอย่างเช่นสมมติว่าคุณเริ่มต้นด้วยลำดับ: xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025) ลำดับนี้สร้างการจัดอันดับเปอร์เซ็นต์ของข้อมูล 4,000 จุด การทดสอบภาวะปกติสำหรับqnormผลลัพธ์ในซีรี่ส์นี้: shapiro.test(qnorm(xseq)) Shapiro-Wilk normality test data: qnorm(xseq) W = 0.99999, p-value = 1 ad.test(qnorm(xseq)) Anderson-Darling normality test data: qnorm(xseq) A = 0.00044273, p-value = 1 ผลลัพธ์เป็นไปตามที่คาดไว้: ปกติของการแจกแจงแบบปกติเป็นเรื่องปกติ การสร้างการสร้างข้อมูลแบบตรงqqnorm(qnorm(xseq))(ตามที่คาดไว้): หาก boxplot ของข้อมูลเดียวกันถูกสร้างขึ้นboxplot(qnorm(xseq))ให้สร้างผลลัพธ์: Boxplot แตกต่างshapiro.test, ad.testหรือ …

1
เหตุใดเราจึงคิดว่าข้อผิดพลาดนั้นกระจายตามปกติ
ฉันสงสัยว่าทำไมเราจึงใช้สมมติฐาน Gaussian เมื่อทำแบบจำลองข้อผิดพลาด ในหลักสูตร ML ของสแตนฟอร์ดศาสตราจารย์อึ้งได้อธิบายถึงมารยาทสองประการ: มันสะดวกในเชิงคณิตศาสตร์ (มันเกี่ยวข้องกับ Least Squares ที่เหมาะสมและง่ายต่อการแก้ไขด้วย pseudoinverse) เนื่องจากทฤษฎีบทขีด จำกัด กลางเราอาจสันนิษฐานว่ามีข้อเท็จจริงพื้นฐานมากมายที่ส่งผลกระทบต่อกระบวนการและผลรวมของข้อผิดพลาดส่วนบุคคลเหล่านี้จะมีแนวโน้มที่จะทำงานเหมือนในการแจกแจงปกติแบบศูนย์ ในทางปฏิบัติดูเหมือนว่าจะเป็นเช่นนั้น ฉันสนใจส่วนที่สองจริง ๆ ทฤษฎีบทขีด จำกัด กลางใช้ได้กับตัวอย่าง iid เท่าที่ฉันรู้ แต่เราไม่สามารถรับประกันได้ว่าตัวอย่างต้นแบบจะเป็น iid คุณมีความคิดเห็นเกี่ยวกับข้อผิดพลาดของเกาส์เซียนหรือไม่?

2
ทำไมการทดสอบ F ถึงมีความละเอียดอ่อนมากสำหรับการสันนิษฐานของภาวะปกติ?
ทำไมเป็นF -test สำหรับความแตกต่างในความแปรปรวนเพื่อให้มีความไวต่อสมมติฐานของการกระจายปกติแม้สำหรับขนาดใหญ่NNN ? ฉันพยายามค้นหาเว็บและเยี่ยมชมห้องสมุด แต่ก็ไม่มีคำตอบที่ดีเลย มันบอกว่าการทดสอบมีความละเอียดอ่อนมากสำหรับการละเมิดสมมติฐานสำหรับการแจกแจงแบบปกติ แต่ฉันไม่เข้าใจว่าทำไม ใครบ้างมีคำตอบที่ดีสำหรับเรื่องนี้?

5
การกระจายตัวตัวอย่างของกลุ่มตัวอย่างมีความหมายอย่างไรกับค่าเฉลี่ยประชากร
ฉันพยายามเรียนรู้สถิติเพราะฉันพบว่ามันแพร่หลายมากจนห้ามไม่ให้ฉันเรียนรู้บางสิ่งหากฉันไม่เข้าใจอย่างถูกต้อง ฉันมีปัญหาในการทำความเข้าใจแนวคิดเรื่องการกระจายตัวตัวอย่างของค่าเฉลี่ยตัวอย่าง ฉันไม่เข้าใจวิธีที่หนังสือและเว็บไซต์อธิบาย ฉันคิดว่าฉันมีความเข้าใจ แต่ไม่แน่ใจว่าถูกต้องหรือไม่ ด้านล่างนี้เป็นความพยายามของฉันที่จะเข้าใจ เมื่อเราพูดถึงปรากฏการณ์บางอย่างที่เกิดจากการแจกแจงแบบปกติมันเป็นเรื่องปกติ (ไม่เสมอไป) เกี่ยวกับประชากร เราต้องการใช้สถิติเชิงอนุมานเพื่อทำนายบางสิ่งเกี่ยวกับประชากรบางคน แต่ไม่มีข้อมูลทั้งหมด เราใช้การสุ่มตัวอย่างและแต่ละตัวอย่างของขนาด n เท่ากันน่าจะเลือก เราเอาตัวอย่างจำนวนมากมาบอกว่า 100 แล้วการกระจายตัวของตัวอย่างเหล่านั้นจะเป็นปกติประมาณตามทฤษฎีลิมิตที่ศูนย์กลาง ค่าเฉลี่ยของค่าเฉลี่ยตัวอย่างจะประมาณค่าเฉลี่ยของประชากร ตอนนี้สิ่งที่ฉันไม่เข้าใจคือหลายครั้งที่คุณเห็น "ตัวอย่าง 100 คน ... " เราจะไม่ต้องการตัวอย่าง 10s หรือ 100s จาก 100 คนเพื่อประมาณค่าเฉลี่ยประชากรหรือไม่ หรือเป็นกรณีที่เราสามารถนำตัวอย่างเดียวที่มีขนาดใหญ่พอบอก 1,000 แล้วบอกว่าค่าเฉลี่ยจะประมาณค่าเฉลี่ยประชากรหรือไม่ หรือเราใช้ตัวอย่าง 1,000 คนจากนั้นสุ่ม 100 ตัวอย่าง 100 คนในแต่ละตัวอย่างจากเดิม 1,000 คนที่เราเอามาแล้วใช้เป็นการประมาณของเรา การใช้ตัวอย่างที่มีขนาดใหญ่พอที่จะประมาณค่าเฉลี่ย (เกือบ) ใช้ได้หรือไม่ ประชากรจำเป็นต้องเป็นปกติหรือเปล่าสำหรับการทำงานนี้?

2
ANOVA ใช้มาตรการซ้ำ ๆ : สมมติฐานด้านภาวะปกติคืออะไร?
ฉันสับสนเกี่ยวกับสมมติฐานเชิงบรรทัดฐานในการวัดซ้ำ ANOVA โดยเฉพาะอย่างยิ่งฉันสงสัยว่าสิ่งที่เป็นบรรทัดฐานควรจะพึงพอใจ ในการอ่านวรรณกรรมและคำตอบเกี่ยวกับประวัติฉันพบคำศัพท์ที่แตกต่างกันสามข้อของข้อสันนิษฐานนี้ ตัวแปรตามภายในแต่ละเงื่อนไข (ซ้ำ) ควรกระจายตามปกติ มันมักจะระบุว่า rANOVA มีสมมติฐานเช่นเดียวกับ ANOVA รวมถึงความกลม นั่นคือการเรียกร้องในสนามของสถิติการค้นพบเช่นเดียวกับในวิกิพีเดียบทความในเรื่องและข้อความของโลว์รีย์ ควรกระจายความแตกต่างระหว่างคู่ที่เป็นไปได้ทั้งหมดหรือไม่? ฉันพบคำสั่งนี้หลายคำตอบใน CV ( 1 , 2 ) โดยการเปรียบเทียบ rANOVA กับt-test ที่จับคู่สิ่งนี้อาจดูเข้าใจได้ง่าย เกณฑ์ปกติหลายตัวแปรควรมีความพึงพอใจ Wikipedia และแหล่งข้อมูลนี้พูดถึงสิ่งนี้ นอกจากนี้ฉันรู้ว่า ranova สามารถสลับกับ MANOVA ซึ่งอาจได้รับการอ้างสิทธิ์นี้ สิ่งเหล่านี้เทียบเท่ากันหรือไม่? ฉันรู้ว่ากฎเกณฑ์หลายตัวแปรหมายความว่าชุดค่าผสมเชิงเส้นใด ๆของ DV จะถูกกระจายตามปกติดังนั้น 3. จะรวม 2 ตามธรรมชาติถ้าฉันเข้าใจอย่างถูกต้องหลัง หากสิ่งเหล่านี้ไม่เหมือนกันข้อสันนิษฐานที่แท้จริงของ rANOVA คืออะไร คุณสามารถให้การอ้างอิงได้หรือไม่? ดูเหมือนว่าฉันมีการสนับสนุนมากที่สุดสำหรับการเรียกร้องครั้งแรก อย่างไรก็ตามคำตอบนี้ไม่ตรงกับคำตอบปกติ แบบผสมเชิงเส้น เนื่องจากคำใบ้ของ …

1
R: ทดสอบค่าปกติของส่วนที่เหลือของตัวแบบเชิงเส้น - ซึ่งส่วนที่เหลือที่จะใช้
ฉันต้องการทำการทดสอบ W ของ Shapiro Wilk และการทดสอบ Kolmogorov-Smirnov กับส่วนที่เหลือของแบบจำลองเชิงเส้นเพื่อตรวจสอบความเป็นไปได้ ฉันแค่สงสัยว่าสิ่งที่เหลือควรใช้สำหรับการนี้ - ส่วนที่เหลือดิบ, เพียร์สันที่เหลือ, นักเรียนที่เหลืออยู่หรือนักเรียนที่ได้มาตรฐาน? สำหรับการทดสอบ W ของ Shapiro-Wilk นั้นปรากฏว่าผลลัพธ์สำหรับส่วนที่เหลือและเพียร์สันดิบนั้นเหมือนกัน แต่ไม่ใช่สำหรับคนอื่น ๆ fit=lm(mpg ~ 1 + hp + wt, data=mtcars) res1=residuals(fit,type="response") res2=residuals(fit,type="pearson") res3=rstudent(fit) res4=rstandard(fit) shapiro.test(res1) # W = 0.9279, p-value = 0.03427 shapiro.test(res2) # W = 0.9279, p-value = 0.03427 shapiro.test(res3) # …

1
แพคเกจ GBM กับ Caret ใช้ GBM
ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

2
ออกเดินทางจากสมมติฐานปกติใน ANOVA: kurtosis หรือความเบ้สำคัญกว่าหรือไม่?
ประยุกต์แบบจำลองเชิงสถิติเชิงเส้นโดย Kutner และคณะ ระบุเกี่ยวกับการออกเดินทางต่อไปนี้จากสมมติฐานปกติของแบบจำลอง ANOVA: ความโด่งของการกระจายข้อผิดพลาด (อย่างใดอย่างหนึ่งมากหรือน้อยกว่ายอดการกระจายปกติ) มีความสำคัญมากกว่าเบ้ของการกระจายในแง่ของผลกระทบต่อการวินิจฉัย ฉันรู้สึกสับสนนิดหน่อยจากคำแถลงนี้และไม่สามารถหาข้อมูลที่เกี่ยวข้องได้ทั้งในหนังสือหรือออนไลน์ ฉันสับสนเพราะฉันยังได้เรียนรู้ว่าแผนการ QQ ที่มีหางหนาเป็นข้อบ่งชี้ว่าสมมติฐานเชิงบรรทัดฐานคือ "ดีพอ" สำหรับโมเดลการถดถอยเชิงเส้นในขณะที่ QQ แปลงที่เบ้เป็นเรื่องที่น่าเป็นห่วงมากกว่า (เช่นการเปลี่ยนแปลงอาจเหมาะสม) . ฉันถูกต้องหรือไม่ว่าการใช้เหตุผลเดียวกันสำหรับ ANOVA และการเลือกคำศัพท์ของพวกเขา ( สำคัญกว่าในแง่ของผลกระทบที่มีต่อการอนุมาน ) ได้รับการคัดเลือกไม่ดี? นั่นคือการแจกแจงแบบเบ้มีผลกระทบที่รุนแรงกว่าและควรหลีกเลี่ยงในขณะที่ปริมาณเคิร์ตซีสปริมาณเล็กน้อยสามารถยอมรับ แก้ไข: ตามที่ได้รับการยอมรับจาก rolando2 มันยากที่จะกล่าวว่าสิ่งหนึ่งสำคัญกว่าอีกกรณีในทุกกรณี แต่ฉันแค่มองหาข้อมูลเชิงลึกทั่วไป ปัญหาหลักของฉันคือฉันได้รับการสอนว่าในการถดถอยเชิงเส้นอย่างง่าย QQ-plot ที่มีหางที่หนักกว่า (= kurtosis?) ก็โอเคเนื่องจากการทดสอบ F นั้นค่อนข้างแข็งแกร่งเทียบกับเรื่องนี้ ในทางกลับกัน QQ-แผนการแปลง (รูปทรงพาราโบลา) มักเป็นปัญหาที่ใหญ่กว่า สิ่งนี้ดูเหมือนจะขัดแย้งกับแนวทางที่ตำราเรียนของฉันให้ ANOVA แม้ว่าแบบจำลอง ANOVA สามารถแปลงเป็นแบบจำลองการถดถอยและควรมีสมมติฐานเดียวกัน ฉันเชื่อว่าฉันมองอะไรบางอย่างหรือมีสมมติฐานที่ผิดพลาด แต่ฉันไม่สามารถเข้าใจได้ว่ามันจะเป็นอะไร

1
ทำไมไม่ใช้ bootstrap CIs เสมอไป
ฉันสงสัยว่า bootstrap CIs (และ BCa เป็น barticular) ทำงานกับข้อมูลที่กระจายแบบปกติได้อย่างไร ดูเหมือนว่าจะมีงานจำนวนมากที่ตรวจสอบประสิทธิภาพการทำงานของพวกเขาในการแจกแจงแบบต่าง ๆ แต่ไม่พบข้อมูลใด ๆ เกี่ยวกับข้อมูลที่กระจายตามปกติ เนื่องจากดูเหมือนเป็นสิ่งที่ชัดเจนในการศึกษาก่อนฉันจึงคิดว่าเอกสารนั้นเก่าเกินไป ฉันทำแบบจำลอง Monte Carlo โดยใช้แพ็คเกจการบูต R และพบว่า bootstrap CIs สอดคล้องกับ CIs ที่แน่นอนแม้ว่าสำหรับกลุ่มตัวอย่างขนาดเล็ก (N <20) พวกเขามีแนวโน้มที่จะเสรีเล็กน้อย (CIs ที่เล็กกว่า) สำหรับตัวอย่างที่มีขนาดใหญ่พอพวกมันจะเหมือนกัน นี้ทำให้ผมสงสัยว่ามีเหตุผลที่ดีใด ๆ ที่จะไม่เสมอใช้ความร่วมมือ ด้วยความยากลำบากในการประเมินว่าการแจกแจงเป็นเรื่องปกติหรือไม่และข้อผิดพลาดมากมายที่อยู่เบื้องหลังสิ่งนี้ดูเหมือนว่ามีเหตุผลที่จะไม่ตัดสินใจและรายงาน bootstrap CIs โดยไม่คำนึงถึงการกระจาย ฉันเข้าใจแรงจูงใจที่ไม่ใช้การทดสอบที่ไม่ใช่พารามิเตอร์อย่างเป็นระบบเนื่องจากมีพลังงานน้อยกว่า แต่การจำลองของฉันบอกฉันว่านี่ไม่ใช่กรณีของ bootstrap CIs พวกมันเล็กลง คำถามที่คล้ายกันที่ทำให้ฉันเป็นบ้าคือทำไมไม่ใช้ค่ามัธยฐานเป็นมาตรวัดแนวโน้มกลางเสมอไป ผู้คนมักจะแนะนำให้ใช้มันเพื่อจำแนกลักษณะข้อมูลที่ไม่ได้กระจายแบบปกติ แต่เนื่องจากค่ามัธยฐานเป็นเช่นเดียวกับค่าเฉลี่ยสำหรับข้อมูลที่กระจายตามปกติทำไมถึงแตกต่าง? มันจะมีประโยชน์มากถ้าเราสามารถกำจัดขั้นตอนการตัดสินใจว่าการแจกแจงเป็นเรื่องปกติหรือไม่ ฉันอยากรู้มากเกี่ยวกับความคิดของคุณเกี่ยวกับปัญหาเหล การอ้างอิงจะได้รับการชื่นชมอย่างมาก ขอบคุณ! …

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.