คำถามติดแท็ก heteroscedasticity

ความแปรปรวนแบบไม่คงที่พร้อมบางอย่างต่อเนื่องในกระบวนการสุ่ม

1
MLE เทียบกับกำลังสองน้อยที่สุดในการแจกแจงความน่าจะเป็นที่เหมาะสม
ความประทับใจที่ฉันได้รับจากบทความหนังสือและบทความต่าง ๆ ที่ฉันอ่านคือวิธีที่แนะนำในการกระจายความน่าจะเป็นในชุดของข้อมูลที่แนะนำโดยใช้การประมาณความน่าจะเป็นสูงสุด (MLE) อย่างไรก็ตามในฐานะนักฟิสิกส์วิธีที่ง่ายกว่าคือการใส่ pdf ของโมเดลให้ตรงกับ pdf เชิงประจักษ์ของข้อมูลโดยใช้กำลังสองน้อยที่สุด ทำไม MLE จึงดีกว่ากำลังสองน้อยที่สุดในการแจกแจงความน่าจะเป็นที่เหมาะสม? ใครช่วยกรุณาชี้ให้ฉันไปที่กระดาษ / หนังสือวิทยาศาสตร์ที่ตอบคำถามนี้ ลางสังหรณ์ของฉันเป็นเพราะ MLE ไม่คิดว่ารูปแบบเสียงและ "เสียง" ในรูปแบบไฟล์ PDF ประจักษ์เป็น heteroscedastic และไม่ปกติ

2
ฉันจะตีความพล็อตส่วนที่เหลือเทียบกับส่วนที่เหลือนี้ได้อย่างไร
ฉันไม่เข้าใจความแตกต่างอย่างแท้จริง ฉันต้องการทราบว่าโมเดลของฉันเหมาะสมหรือไม่ตามพล็อตนี้

2
มาตรการต่าง ๆ ของความต่างระดับ
ลิงค์วิกิพีเดียนี้แสดงเทคนิคต่าง ๆ ในการตรวจสอบความหลงไหลของ OLS ที่เหลืออยู่ ฉันต้องการเรียนรู้ว่าเทคนิคการลงมือปฏิบัติแบบใดที่มีประสิทธิภาพมากกว่าในการตรวจจับภูมิภาคที่ได้รับผลกระทบจากความแตกต่างทางเพศ ตัวอย่างเช่นที่นี่พื้นที่ภาคกลางในพล็อตเรื่อง 'Residuals vs vs Fitted' ของ OLS เห็นว่ามีความแปรปรวนสูงกว่าด้านข้างของพล็อต (ฉันไม่แน่ใจในข้อเท็จจริงทั้งหมด เพื่อยืนยันการดูป้ายข้อผิดพลาดในพล็อต QQ เราจะเห็นว่าพวกเขาตรงกับป้ายข้อผิดพลาดในใจกลางของพล็อตที่เหลือ แต่เราจะหาปริมาณส่วนที่เหลือที่มีความแปรปรวนสูงกว่าอย่างมีนัยสำคัญได้อย่างไร?

2
วิธีการใช้งาน ANOVA แบบสองทางกับข้อมูลที่ไม่มีค่าปกติและความแปรปรวนใน R ได้อย่างไร?
ฉันกำลังทำวิทยานิพนธ์หลักของฉันในขณะนี้และวางแผนที่จะใช้สถิติด้วย SigmaPlot อย่างไรก็ตามหลังจากใช้เวลากับข้อมูลของฉันฉันได้ข้อสรุปว่า SigmaPlot อาจไม่เหมาะกับปัญหาของฉัน (ฉันอาจเข้าใจผิด) ดังนั้นฉันจึงเริ่มต้นความพยายามครั้งแรกใน R ซึ่งไม่ได้ทำให้ง่ายขึ้นอย่างแน่นอน แผนคือการใช้ TWO-WAY-ANOVA แบบง่าย ๆ กับข้อมูลของฉันซึ่งเป็นผลมาจากโปรตีน 3 ชนิดและการรักษา 8 แบบที่แตกต่างกันดังนั้นสองปัจจัยของฉันคือโปรตีนและการรักษา ฉันทดสอบความเป็นมาตรฐานโดยใช้ทั้งสองอย่าง > shapiro.test(time) และ > ks.test(time, "norm", mean=mean(time), sd=sqrt(var(time))) ในทั้งสองกรณี (อาจไม่แปลกใจ) ฉันลงเอยด้วยการแจกแจงแบบไม่ธรรมดา ที่เหลือฉันด้วยคำถามแรกของการทดสอบที่จะใช้เพื่อความเท่าเทียมกันของความแปรปรวน ฉันมาด้วย > chisq.test(time) และผลลัพธ์ก็คือว่าฉันไม่มีความเท่าเทียมกันของความแปรปรวนในข้อมูลของฉันเช่นกัน ฉันลองการแปลงข้อมูลที่แตกต่างกัน (log, center, standardization) ซึ่งทั้งหมดไม่ได้แก้ปัญหาด้วยความแปรปรวน ตอนนี้ฉันกำลังตกอยู่ในความสูญเสียวิธีดำเนินการ ANOVA สำหรับการทดสอบว่าโปรตีนและการรักษาใดแตกต่างกัน ฉันพบบางอย่างเกี่ยวกับ Kruskal-Walis-Test แต่มีเพียงปัจจัยเดียวเท่านั้น (?) ฉันยังพบสิ่งต่าง ๆ เกี่ยวกับการจัดอันดับหรือการทำให้เสียโฉม …

5
การตรวจสอบสมมติฐานของโนวา
ไม่กี่เดือนที่ผ่านมาฉันโพสต์คำถามเกี่ยวกับการทดสอบความเป็นเนื้อเดียวกันใน R บน SO และ Ian Fellows ตอบว่า (ฉันจะถอดความคำตอบของเขาอย่างหลวม ๆ ): การทดสอบความเป็นเนื้อเดียวกันนั้นไม่ใช่เครื่องมือที่ดีเมื่อทำการทดสอบความดีของแบบจำลองของคุณ ด้วยตัวอย่างขนาดเล็กคุณไม่มีพลังมากพอที่จะตรวจจับขาออกจากกระเทยขณะที่กลุ่มตัวอย่างขนาดใหญ่คุณมี "พลังมากมาย" ดังนั้นคุณจึงมีแนวโน้มที่จะคัดกรองแม้กระทั่งการออกเดินทางเล็กน้อยจากความเท่าเทียมกัน คำตอบที่ยอดเยี่ยมของเขามาเป็นตบหน้าฉัน ฉันเคยตรวจสอบความเป็นมาตรฐานและข้อสมมุติฐานเรื่องความเป็นเนื้อเดียวกันทุกครั้งที่ฉันใช้ ANOVA ในความเห็นของคุณคือวิธีปฏิบัติที่ดีที่สุดเมื่อตรวจสอบสมมติฐานของ ANOVA

3
การทำนายความแปรปรวนของข้อมูล heteroscedastic
ฉันพยายามทำการถดถอยกับข้อมูลแบบเฮเทอโรเซสติกซึ่งฉันพยายามทำนายความแปรปรวนข้อผิดพลาดรวมถึงค่าเฉลี่ยในแง่ของตัวแบบเชิงเส้น บางสิ่งเช่นนี้ y(x,t)ξ(x,t)y¯(x,t)σ(x,t)=y¯(x,t)+ξ(x,t),∼N(0,σ(x,t)),=y0+ax+bt,=σ0+cx+dt.y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim N\left(0,\sigma\left(x,t\right)\right),\\ \bar{y}\left(x,t\right) &= y_{0}+ax+bt,\\ \sigma\left(x,t\right) &= \sigma_{0}+cx+dt. \end{align} ในคำพูดของข้อมูลที่ประกอบด้วยวัดซ้ำของที่ค่าต่างๆของxและเสื้อ ฉันถือว่าการวัดเหล่านี้ประกอบด้วยค่า "จริง" หมายถึงค่าˉ y ( x , t )ซึ่งเป็นฟังก์ชันเชิงเส้นของxและtพร้อมกับเสียงเกาส์แบบเติมadd ( x , t )ซึ่งค่าเบี่ยงเบนมาตรฐาน (หรือความแปรปรวนฉันไม่ได้ ตัดสินใจ) นอกจากนี้ยังขึ้นอยู่กับเส้นตรงกับx ,เสื้อ (ฉันอาจอนุญาตการพึ่งพาที่ซับซ้อนมากขึ้นในxและy(x,t)y(x,t)y(x,t)xxxttty¯(x,t)y¯(x,t)\bar{y}(x,t)xxxtttξ(x,t)ξ(x,t)\xi(x,t)x,tx,เสื้อx,txxx - ไม่มีแรงกระตุ้นเชิงทฤษฎีที่แข็งแกร่งสำหรับรูปแบบเชิงเส้น - แต่ฉันไม่อยากจะเข้าใจสิ่งต่าง ๆ ในตอนนี้)ttt ฉันรู้ว่าคำค้นหาที่นี่คือ "heteroscedasticity" แต่ทั้งหมดที่ฉันสามารถค้นหาได้คือการอภิปรายเกี่ยวกับวิธีการลด / ลบคำศัพท์เพื่อทำนายดีขึ้นแต่ไม่มีอะไรในแง่ของการพยายามทำนายσในแง่ของ ตัวแปรอิสระ. ฉันต้องการประมาณy 0 …

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
เปรียบเทียบระหว่าง Newey-West (1987) และ Hansen-Hodrick (1980)
คำถาม:อะไรคือความแตกต่างที่สำคัญและความคล้ายคลึงกันระหว่างการใช้ข้อผิดพลาดมาตรฐานของ Newey-West (1987) และ Hansen-Hodrick (1980) ในสถานการณ์ใดสถานการณ์หนึ่งควรเป็นที่นิยมมากกว่าสถานการณ์อื่น หมายเหตุ: ฉันรู้ว่าแต่ละขั้นตอนการปรับเหล่านี้ทำงานอย่างไร; อย่างไรก็ตามฉันยังไม่พบเอกสารใด ๆ ที่จะเปรียบเทียบพวกเขาทั้งแบบออนไลน์และในตำราเรียนของฉัน ยินดีต้อนรับการอ้างอิง! Newey-West มีแนวโน้มที่จะใช้เป็นข้อผิดพลาดมาตรฐาน "catch-all" HAC ในขณะที่ Hansen-Hodrick เกิดขึ้นบ่อยครั้งในบริบทของจุดข้อมูลที่ทับซ้อนกัน (เช่นดูคำถามนี้หรือคำถามนี้ ) ดังนั้นหนึ่งในสิ่งสำคัญของคำถามของฉันคือจะมีอะไรที่เกี่ยวกับแฮนเซน-Hodrick ที่ทำให้มันมากขึ้นเหมาะกับการจัดการกับข้อมูลที่ทับซ้อนกันกว่า Newey เวสต์? (ท้ายที่สุดแล้วการซ้อนทับข้อมูลในที่สุดนำไปสู่ข้อผิดพลาดที่มีความสัมพันธ์แบบลำดับซึ่ง Newey-West จัดการกับ) สำหรับบันทึกฉันรู้ถึงคำถามที่คล้ายกันนี้แต่มันค่อนข้างแย่โพสต์ลงและท้ายที่สุดคำถามที่ฉันถามที่นี่ไม่ได้รับคำตอบ (เฉพาะส่วนที่เกี่ยวข้องกับการเขียนโปรแกรมเท่านั้นที่ได้รับคำตอบ)

2
คำอธิบายสำหรับองศาอิสระที่ไม่ใช่จำนวนเต็มในการทดสอบ t กับผลต่างที่ไม่เท่ากัน
ขั้นตอนการทดสอบ SPSS รายงานการวิเคราะห์ 2 เมื่อเปรียบเทียบวิธีอิสระ 2 วิธีการวิเคราะห์หนึ่งที่มีความแปรปรวนเท่ากันและหนึ่งที่มีผลต่างไม่เท่ากัน องศาอิสระ (df) เมื่อถือว่าผลต่างเท่ากันนั้นถือเป็นค่าจำนวนเต็มเสมอ (และเท่ากับ n-2) df เมื่อความแปรปรวนที่เท่ากันจะไม่ถือว่าไม่ใช่จำนวนเต็ม (เช่น 11.467) และไม่มีที่ไหนใกล้ n-2 ฉันกำลังหาคำอธิบายเกี่ยวกับตรรกะและวิธีการที่ใช้ในการคำนวณ df ที่ไม่ใช่จำนวนเต็มเหล่านี้

2
เหตุใดการวินิจฉัยจากการทดสอบทรงกลมของ Bartlett จึงหมายความว่า PCA ไม่เหมาะสม
ฉันเข้าใจว่าการทดสอบของ Bartlett เกี่ยวข้องกับการพิจารณาว่าตัวอย่างของคุณมาจากประชากรที่มีความแปรปรวนเท่ากันหรือไม่ หากตัวอย่างนั้นมาจากประชากรที่มีความแปรปรวนเท่ากันเราจะไม่ปฏิเสธสมมติฐานว่างของการทดสอบดังนั้นการวิเคราะห์องค์ประกอบหลักนั้นไม่เหมาะสม ฉันไม่แน่ใจว่าปัญหาของสถานการณ์นี้อยู่ที่ใด (มีชุดข้อมูลแบบ homoskedastic) อยู่ มีปัญหาอะไรกับการมีชุดข้อมูลที่การกระจายของข้อมูลทั้งหมดของคุณเหมือนกัน? ฉันไม่เห็นเรื่องใหญ่ถ้าเงื่อนไขนี้มีอยู่ เหตุใดจึงทำให้ PCA ไม่เหมาะสม ฉันไม่สามารถหาข้อมูลที่ดีได้ทุกที่ทางออนไลน์ ใครบ้างมีประสบการณ์ในการตีความว่าเพราะเหตุใดการทดสอบนี้จึงเกี่ยวข้องกับ PCA

1
ความผิดพลาดในการบู๊ตแบบมาตรฐานและช่วงความเชื่อมั่นเหมาะสมหรือไม่ในกรณีที่การอนุมานแบบ homoscedasticity ถูกละเมิด?
ถ้าใน OLS regressions สองข้อสันนิษฐานว่ามีการละเมิด (การแจกแจงแบบปกติของข้อผิดพลาด homoscedasticity) การ bootstrapping ข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นเป็นทางเลือกที่เหมาะสมเพื่อให้ได้ผลลัพธ์ที่มีความหมายโดยคำนึงถึงความสำคัญของสัมประสิทธิ์ regressor การทดสอบอย่างมีนัยสำคัญที่มีข้อผิดพลาดมาตรฐานที่บูตสแตรปและช่วงความมั่นใจยังคง "ทำงาน" อยู่กับความแตกต่างระหว่าง ถ้าใช่จะมีช่วงความเชื่อมั่นที่เกี่ยวข้องอะไรบ้างที่สามารถใช้ในสถานการณ์นี้ (เปอร์เซ็นต์ไทล์, BC, BCA) ท้ายที่สุดถ้าการบูตสแตรปมีความเหมาะสมในสถานการณ์นี้วรรณกรรมที่เกี่ยวข้องที่จำเป็นต้องอ่านและอ้างถึงข้อสรุปนี้คืออะไร คำใบ้ใด ๆ ที่จะได้รับการชื่นชมอย่างมาก!

1
คำนวณข้อผิดพลาดมาตรฐาน Newey-West โดยไม่มีวัตถุ lm ใน R
ฉันถามคำถามนี้เมื่อวานนี้ใน StackOverflow และได้รับคำตอบ แต่เราเห็นพ้องกันว่ามันดูค่อนข้างแฮ็คและอาจมีวิธีที่ดีกว่าในการดู คำถาม: ฉันต้องการคำนวณข้อผิดพลาดมาตรฐาน Newey-West (HAC) สำหรับเวกเตอร์ (ในกรณีนี้เวกเตอร์ที่มีผลตอบแทนสต็อก) ฟังก์ชั่นNeweyWest()ในsandwichแพ็คเกจทำสิ่งนี้ แต่รับlmวัตถุเป็นอินพุต วิธีการแก้ไธ MEYS นำเสนอเป็นโครงการเวกเตอร์บน 1 NeweyWest()ซึ่งจะเปลี่ยนเวกเตอร์ของฉันเป็นสิ่งตกค้างที่จะป้อนเข้าสู่ นั่นคือ: as.numeric(NeweyWest(lm(rnorm(100) ~ 1))) สำหรับความแปรปรวนของค่าเฉลี่ย ฉันควรจะทำอย่างนี้ไหม หรือมีวิธีที่จะทำสิ่งที่ฉันต้องการโดยตรงมากกว่านี้อีกไหม ขอบคุณ!

3
ทางเลือกสำหรับการแปรปรวนแบบทางเดียว ANOVA
ฉันต้องการเปรียบเทียบค่าเฉลี่ยในสามกลุ่มที่มีขนาดเท่ากัน (ขนาดตัวอย่างที่เท่ากันคือเล็ก 21) วิธีการของแต่ละกลุ่มมีการกระจายตามปกติ แต่ความแปรปรวนของพวกเขาไม่เท่ากัน (ผ่านการทดสอบของ Levene) การเปลี่ยนแปลงเป็นเส้นทางที่ดีที่สุดในสถานการณ์นี้หรือไม่? ฉันควรพิจารณาสิ่งอื่นก่อนไหม?

1
เงื่อนไข homoskedasticity เทียบกับ heteroskedasticity
จากเศรษฐมิติโดย Fumio Hayashi (Chpt 1): ไม่มีเงื่อนไข Homoskedasticity: ช่วงเวลาที่สองของข้อผิดพลาด E (εᵢ²) เป็นค่าคงที่ตลอดการสังเกต รูปแบบการทำงาน E (εᵢ² | xi) เป็นค่าคงที่ตลอดการสังเกต เงื่อนไข Homoskedasticity: ข้อ จำกัด ที่ช่วงเวลาที่สองของข้อผิดพลาด E (εᵢ²) เป็นค่าคงที่ตลอดการสังเกตถูกยกขึ้น ดังนั้นช่วงเวลาที่สองตามเงื่อนไข E (εᵢ² | xi) สามารถแตกต่างกันในการสังเกตผ่านการพึ่งพาที่เป็นไปได้ในxᵢ ดังนั้นคำถามของฉัน: เงื่อนไข Homoskedasticity แตกต่างจาก Heteroskedasticity อย่างไร ความเข้าใจของฉันคือว่ามี heteroskedasticity เมื่อช่วงเวลาที่สองแตกต่างจากการสังเกต (xᵢ)

1
การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric
ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.