คำถามติดแท็ก heteroscedasticity

ความแปรปรวนแบบไม่คงที่พร้อมบางอย่างต่อเนื่องในกระบวนการสุ่ม

8
สร้างตัวแปรสุ่มที่มีความสัมพันธ์ที่กำหนดไว้กับตัวแปรที่มีอยู่
สำหรับการศึกษาการจำลองฉันต้องสร้างตัวแปรสุ่มที่แสดง prefined (ประชากร) ความสัมพันธ์กับตัวแปรที่มีอยู่YYYY ฉันดูในRแพ็คเกจcopulaและCDVineสามารถสร้างการแจกแจงหลายตัวแปรแบบสุ่มด้วยโครงสร้างการพึ่งพาที่กำหนด อย่างไรก็ตามเป็นไปไม่ได้ที่จะแก้ไขหนึ่งในตัวแปรที่เป็นผลลัพธ์ของตัวแปรที่มีอยู่ ความคิดและลิงก์ไปยังฟังก์ชั่นที่มีอยู่นั้นได้รับการชื่นชม! สรุป: คำตอบที่ถูกต้องสองคำขึ้นมาพร้อมกับโซลูชันที่แตกต่าง: R สคริปต์โดย Caracal ซึ่งจะคำนวณตัวแปรสุ่มกับที่แน่นอน (ตัวอย่าง) ความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า R ฟังก์ชั่นฉันพบตัวเองซึ่งจะคำนวณตัวแปรสุ่มที่มีการกำหนดประชากรความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า [@ttnphns 'นอกจากนี้: ฉันใช้เสรีภาพในการขยายชื่อคำถามจากกรณีตัวแปรคงที่เดียวเป็นจำนวนคงที่ของตัวแปรคงที่; เช่นวิธีการสร้างตัวแปรที่มีคอร์เรชั่นที่กำหนดไว้ล่วงหน้าพร้อมกับตัวแปรคงที่บางตัวที่มีอยู่]

2
“ ความแปรปรวนคงที่” ในแบบจำลองการถดถอยเชิงเส้นหมายความว่าอะไร?
การมี "ความแปรปรวนคงที่" ในคำที่ผิดพลาดหมายถึงอะไร อย่างที่ฉันเห็นเรามีข้อมูลที่มีตัวแปรตามหนึ่งตัวแปรและตัวแปรอิสระหนึ่งตัว ความแปรปรวนคงที่เป็นหนึ่งในสมมติฐานของการถดถอยเชิงเส้น ฉันสงสัยว่า homoscedasticity หมายถึงอะไร เนื่องจากแม้ว่าฉันมี 500 แถวฉันจะมีค่าความแปรปรวนเดียวซึ่งแน่นอนว่าคงที่ ฉันควรเปรียบเทียบความแปรปรวนแบบใดกับตัวแปรใด

7
เมื่อทำการทดสอบแบบทีทำไมคนเราต้องการสมมติ (หรือทดสอบ) ความแปรปรวนที่เท่ากันแทนที่จะใช้การประมาณเวลช์ของ df เสมอ
ดูเหมือนว่าเมื่อข้อสันนิษฐานของความเป็นเนื้อเดียวกันของความแปรปรวนพบว่าผลลัพธ์จาก Welch ที่ปรับ t-test และ t-test มาตรฐานจะใกล้เคียงกัน ทำไมไม่ใช้ Welch ที่ปรับแล้วเสมอ

1
ทางเลือกแทน ANOVA ทางเดียวสำหรับข้อมูล heteroskedastic
ฉันมีข้อมูลจากชีวมวลสาหร่าย 3 กลุ่ม ( , , ) ซึ่งมีขนาดตัวอย่างไม่เท่ากัน ( , , ) และฉันต้องการเปรียบเทียบว่ากลุ่มเหล่านี้มาจากประชากรเดียวกันหรือไม่B C n A = 15 n B = 13 n C = 12AAABBBCCCnA= 15nA=15n_A=15nB= 13nB=13n_B=13nC= 12nC=12n_C=12 การวิเคราะห์ความแปรปรวนแบบทางเดียวจะเป็นวิธีที่แน่นอนอย่างไรก็ตามเมื่อทำการทดสอบความเป็นไปได้ในข้อมูลของฉัน heteroskedascity ดูเหมือนจะเป็นประเด็นหลัก ข้อมูลดิบของฉันโดยไม่มีการแปลงทำให้อัตราส่วนของความแปรปรวน ( ) ซึ่งสูงกว่าค่าวิกฤติมาก ( F _ {\ rm crit} = 4.16 ) ดังนั้นฉันจึงไม่สามารถทำการวิเคราะห์ความแปรปรวนแบบทางเดียวได้ .Fสูงสุด= 19.1Fmax=19.1F_{\max} = 19.1Fc …

5
ทำไมถึงมีการสะกดสองแบบของ "heteroskedastic" หรือ "heteroscedastic"?
ฉันมักจะเห็นทั้งการสะกดคำ "heteroskedastic" และ "heteroscedastic" และในทำนองเดียวกันสำหรับ "homoscedastic" และ "homoskedastic" ดูเหมือนว่าจะไม่มีความแตกต่างในความหมายระหว่าง "c" และ "k" หลากหลายรูปแบบเพียงความแตกต่างที่เกี่ยวข้องกับออโธกราฟกรีกนิรุกติศาสตร์ของคำ ต้นกำเนิดของการสะกดที่แตกต่างกันสองอย่างคืออะไร การใช้งานครั้งเดียวมีความธรรมดามากกว่าอีกการใช้งานหนึ่ง ๆ และพวกเขาสะท้อนให้เห็นถึงการเปลี่ยนแปลงระหว่างภูมิภาคหรือเขตข้อมูลการวิจัยหรือไม่มากกว่าการตั้งค่าที่เป็นทางการ ในขณะที่ภาษาอื่นมีนโยบายที่แตกต่างกันในการแปลภาษากรีกเป็นภาษาละติน: ฉันทราบว่าในภาษาฝรั่งเศสฉันคิดว่า "hétéroscédasticité" เสมอในขณะที่ภาษาเยอรมันจะเป็น "Heteroskedastizität" เสมอ ดังนั้นฉันจะไม่แปลกใจถ้าผู้เขียนที่มีภาษาอังกฤษเป็นภาษาที่สองอาจมีการตั้งค่าสำหรับการสะกดคำภาษาอังกฤษที่สอดคล้องกับภาษาแม่ของพวกเขา บางทีการทดสอบที่แท้จริงคือสิ่งที่นักสถิติชาวกรีกเรียกมันว่าเมื่อเขียนเป็นภาษาอังกฤษ!

5
อะไรคืออันตรายของการละเมิดข้อสันนิษฐานเกี่ยวกับความเป็นเนื้อเดียวกันสำหรับการถดถอยเชิงเส้น?
ยกตัวอย่างเช่นพิจารณาChickWeightชุดข้อมูลในอาร์ความแปรปรวนเพิ่มขึ้นตามกาลเวลาดังนั้นหากฉันใช้การถดถอยเชิงเส้นอย่างง่ายเช่น: m <- lm(weight ~ Time*Diet, data=ChickWeight) คำถามของฉัน: รูปแบบใดที่จะเป็นที่น่าสงสัย? ปัญหา จำกัด อยู่ที่การประมาณนอกTimeช่วงหรือไม่? การถดถอยเชิงเส้นมีความอดทนต่อการละเมิดสมมติฐานนี้อย่างไร (กล่าวคือมันจะต้องทำให้เกิดปัญหาแบบ heteroscedastic อย่างไร)

3
แบบจำลองการถดถอยที่มีความแปรปรวนไม่เท่ากัน
ฉันต้องการให้พอดีกับโมเดลเชิงเส้น (lm) ซึ่งความแปรปรวนของค่าคงที่นั้นขึ้นอยู่กับตัวแปรอธิบายอย่างชัดเจน วิธีที่ฉันรู้ว่าการทำเช่นนี้คือการใช้ GLM กับครอบครัวแกมมาในการจำลองความแปรปรวนและแล้วใส่ลงไปในสิ่งที่ตรงกันข้ามน้ำหนักในการทำงาน LM (ตัวอย่าง: http://nitro.biosci.arizona.edu/r/chapter31 .pdf ) ฉันสงสัยว่า: นี่เป็นเทคนิคเดียวหรือไม่ วิธีการอื่นใดที่เกี่ยวข้อง? แพ็คเกจ / ฟังก์ชัน R ใดที่เกี่ยวข้องกับการสร้างแบบจำลองนี้? (อื่น ๆ แล้ว glm, lm)

2
คุณจะหาน้ำหนักสำหรับการถดถอยกำลังสองน้อยที่สุดได้อย่างไร?
ฉันหลงทางเล็กน้อยในกระบวนการถดถอยของ WLS ฉันได้รับชุดข้อมูลแล้วและหน้าที่ของฉันคือการทดสอบว่ามีความแตกต่างที่แน่นอนและถ้าเป็นเช่นนั้นฉันควรรัน WLS regression ฉันได้ทำการทดสอบและพบหลักฐานเกี่ยวกับความแตกต่างระหว่างดังนั้นฉันจึงต้องเรียกใช้ WLS ฉันได้รับแจ้งว่า WLS นั้นโดยทั่วไปแล้วการถดถอย OLS ของโมเดลที่แปลงแล้ว แต่ฉันสับสนเล็กน้อยเกี่ยวกับการค้นหาฟังก์ชันการแปลง ฉันได้อ่านบทความที่แนะนำว่าการเปลี่ยนแปลงสามารถเป็นหน้าที่ของส่วนที่เหลือกำลังสองจากการถดถอย OLS แต่ฉันจะขอบคุณถ้ามีคนสามารถช่วยฉันในการติดตามที่ถูกต้อง

1
ทำไมต้องทดสอบ Levene ของความแตกต่างของความแปรปรวนมากกว่าอัตราส่วน F
SPSS ใช้การทดสอบ Levene เพื่อประเมินความสม่ำเสมอของความแปรปรวนในขั้นตอนการทดสอบกลุ่มอิสระ ทำไมการทดสอบ Levene ถึงดีกว่าอัตราส่วน F อย่างง่ายของอัตราส่วนของความแปรปรวนของทั้งสองกลุ่ม?

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
สัญชาตญาณตัวประเมินแซนวิช
วิกิพีเดียและ R แพคเกจแซนวิชบทความให้ข้อมูลที่ดีเกี่ยวกับสมมติฐานที่สนับสนุน OLS ค่าสัมประสิทธิ์ข้อผิดพลาดมาตรฐานและพื้นหลังทางคณิตศาสตร์ของประมาณแซนวิช ฉันยังไม่ชัดเจนว่าปัญหาของ heteroscedasticity ได้รับการแก้ไขอย่างไร แต่อาจเป็นเพราะฉันไม่เข้าใจการประมาณค่าสัมประสิทธิ์ความแปรปรวนของ OLS มาตรฐานในตอนแรก สัญชาตญาณเบื้องหลังตัวประมาณแซนวิชคืออะไร

2
การแปลงข้อมูลสัดส่วน: เมื่อ arcsin สแควร์รูทไม่เพียงพอ
มีทางเลือก (ที่แข็งแกร่งกว่า) ในการแปลงอาร์ซินสแควร์รูทสำหรับข้อมูลเปอร์เซ็นต์ / สัดส่วนหรือไม่ ในชุดข้อมูลที่ฉันกำลังทำงานอยู่ในขณะนี้การทำเครื่องหมายเฮเทอโรเซซิติกยังคงอยู่หลังจากฉันใช้การแปลงนี้นั่นคือพล็อตของค่าคงค้างเทียบกับค่าติดตั้งยังคงเป็นรูปสี่เหลี่ยมด้านขนานมาก แก้ไขเพื่อตอบกลับความคิดเห็น: ข้อมูลเป็นการตัดสินใจลงทุนโดยผู้เข้าร่วมทดลองซึ่งอาจลงทุน 0-100% ของเงินบริจาคในทวีคูณ 10% ฉันได้ดูข้อมูลเหล่านี้โดยใช้การถดถอยแบบลอจิสติกอันดับแล้ว แต่ต้องการดูว่า GLM ที่ถูกต้องจะผลิตอะไร ฉันเห็นคำตอบว่ามีประโยชน์สำหรับการทำงานในอนาคตเนื่องจากอาร์ซินสแควร์รูทดูเหมือนจะถูกใช้เป็นโซลูชั่นขนาดเดียวที่เหมาะกับทุกสาขาของฉันและฉันไม่ได้เจอทางเลือกอื่นใด

6
รายงานข้อผิดพลาดมาตรฐานที่แข็งแกร่ง (ขาว) เสมอหรือไม่
ได้รับการแนะนำโดย Angrist และ Pischke ว่า Robust (เช่นมีความทนทานต่อ heteroskedasticity หรือความแปรปรวนไม่เท่ากัน) มีการรายงานข้อผิดพลาดมาตรฐานเป็นเรื่องของหลักสูตรมากกว่าการทดสอบ สองคำถาม: อะไรคือผลกระทบต่อข้อผิดพลาดมาตรฐานของการทำเช่นนั้นเมื่อมีความเป็นรักร่วมเพศ มีใครทำสิ่งนี้ในงานของพวกเขาบ้างไหม?

4
ในทางปฏิบัติผู้คนจัดการกับ ANOVA อย่างไรเมื่อข้อมูลไม่เป็นไปตามสมมติฐาน
นี่ไม่ใช่คำถามเกี่ยวกับสถิติอย่างเด็ดขาด - ฉันสามารถอ่านหนังสือเรียนทั้งหมดเกี่ยวกับสมมติฐานของ ANOVA ได้ - ฉันพยายามคิดว่านักวิเคราะห์การทำงานจริงจัดการกับข้อมูลที่ไม่ตรงตามสมมติฐาน ฉันได้ผ่านคำถามมากมายในเว็บไซต์นี้เพื่อค้นหาคำตอบและฉันค้นหาโพสต์เกี่ยวกับเวลาที่จะไม่ใช้ ANOVA (ในบริบททางคณิตศาสตร์นามธรรมในอุดมคติ) หรือวิธีการทำสิ่งที่ฉันอธิบายด้านล่างใน R. พยายามคิดให้ดีว่าการตัดสินใจของผู้คนเป็นอย่างไรและทำไม ฉันกำลังทำการวิเคราะห์ข้อมูลที่จัดกลุ่มจากต้นไม้ (ต้นไม้จริงไม่ใช่ต้นไม้ทางสถิติ) ในสี่กลุ่ม ฉันได้รับข้อมูลเกี่ยวกับคุณลักษณะ 35 รายการสำหรับต้นไม้แต่ละต้นและฉันจะผ่านแต่ละแอตทริบิวต์เพื่อตรวจสอบว่ากลุ่มแตกต่างกันอย่างมีนัยสำคัญในคุณลักษณะนั้นหรือไม่ อย่างไรก็ตามในสองกรณีสมมติฐาน ANOVA นั้นถูกละเมิดเล็กน้อยเนื่องจากความแปรปรวนไม่เท่ากัน (ตามการทดสอบของ Levene โดยใช้ alpha = .05) ตามที่ฉันเห็นตัวเลือกของฉันคือ: 1. พลังแปลงข้อมูลและดูว่ามันเปลี่ยน Levene p-val หรือไม่ 2. ใช้การทดสอบแบบไม่อิงพารามิเตอร์เช่น Wilcoxon (ถ้าเป็นเช่นนั้นแบบไหน?) 3. การแก้ไขผลลัพธ์ ANOVA บางอย่างเช่น Bonferroni (ฉันไม่แน่ใจว่ามีอะไรเช่นนี้หรือไม่) ฉันได้ลองสองตัวเลือกแรกและได้ผลลัพธ์ที่แตกต่างกันเล็กน้อย - ในบางกรณีวิธีการหนึ่งมีความสำคัญและอีกวิธีหนึ่งไม่ ฉันกลัวที่จะตกอยู่ในกับดักจับปลา p-value และฉันกำลังมองหาคำแนะนำที่จะช่วยให้ฉันพิสูจน์ว่าวิธีการใช้งานแบบใด …

4
วิธีที่ดีที่สุดในการจัดการกับ heteroscedasticity?
ฉันมีพล็อตของค่าที่เหลืออยู่ของตัวแบบเชิงเส้นในการทำงานของค่าติดตั้งที่ความแตกต่างแบบเฮเทอโรเซสติกมีความชัดเจนมาก อย่างไรก็ตามฉันไม่แน่ใจว่าฉันควรทำอย่างไรต่อไปเพราะเท่าที่ฉันเข้าใจความแตกต่างแบบนี้ทำให้โมเดลเชิงเส้นของฉันไม่ถูกต้อง (นั่นถูกต้องใช่ไหม?) ใช้การติดตั้งเชิงเส้นที่มีประสิทธิภาพโดยใช้rlm()ฟังก์ชั่นของMASSแพคเกจเพราะเห็นได้ชัดว่ามีความทนทานต่อความแข็งแรงที่ต่างกัน ในฐานะที่เป็นข้อผิดพลาดมาตรฐานของสัมประสิทธิ์ของฉันผิดเนื่องจากความแตกต่างแบบ heteroscedasticity ฉันสามารถปรับข้อผิดพลาดมาตรฐานให้มีความทนทานต่อความแตกต่างแบบ heteroscedasticity ได้หรือไม่ ใช้วิธีการโพสต์ใน Stack Overflow ที่นี่: การถดถอยด้วย Heteroskedasticity แก้ไขข้อผิดพลาดมาตรฐาน วิธีใดดีที่สุดที่จะใช้เพื่อจัดการกับปัญหาของฉัน หากฉันใช้โซลูชันที่ 2 ความสามารถในการทำนายรุ่นของฉันไร้ประโยชน์อย่างสมบูรณ์หรือไม่ การทดสอบ Breusch-Pagan ยืนยันว่าความแปรปรวนไม่คงที่ ค่าคงที่ของฉันในฟังก์ชันของค่าติดตั้งมีลักษณะดังนี้: (รุ่นใหญ่กว่า)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.