คำถามติดแท็ก sums-of-squares

ผลรวมของกำลังสองมีบทบาทสำคัญในแบบจำลองทางสถิติตามการแจกแจงปกติเช่น ANOVA

1
วิธีการตีความ type I, type II และ type III ANOVA และ MANOVA
คำถามหลักของฉันคือวิธีการตีความเอาท์พุท (ค่าสัมประสิทธิ์ F, P) เมื่อดำเนินการวิเคราะห์ความแปรปรวนแบบที่ 1 (เรียงลำดับ)? ปัญหาการวิจัยเฉพาะของฉันซับซ้อนกว่าเล็กน้อยดังนั้นฉันจะแบ่งตัวอย่างเป็นส่วน ๆ ก่อนอื่นถ้าฉันสนใจผลของความหนาแน่นของแมงมุม (X1) ต่อการเจริญเติบโตของพืช (Y1) และฉันปลูกต้นกล้าในเปลือกและความหนาแน่นของแมงมุมที่จัดการแล้วฉันสามารถวิเคราะห์ข้อมูลด้วยการวิเคราะห์ความแปรปรวนแบบง่ายหรือเชิงเส้น ถ้าเช่นนั้นฉันจะใช้ Type I, II หรือ III Sum of Squares (SS) สำหรับ ANOVA ของฉัน ในกรณีของฉันฉันมี 4 ซ้ำของ 5 ระดับความหนาแน่นดังนั้นฉันสามารถใช้ความหนาแน่นเป็นปัจจัยหรือเป็นตัวแปรต่อเนื่อง ในกรณีนี้ฉันชอบที่จะตีความว่ามันเป็นตัวแปรอิสระ (ทำนาย) อย่างต่อเนื่อง ใน RI อาจเรียกใช้สิ่งต่อไปนี้: lm1 <- lm(y1 ~ density, data = Ena) summary(lm1) anova(lm1) การใช้งานฟังก์ชั่น anova …

7
วิธีการหนึ่งทำ Type-III SS ANOVA ใน R ด้วยรหัสความคมชัด?
โปรดระบุรหัส R ซึ่งอนุญาตให้บุคคลหนึ่งทำการวิเคราะห์ความแปรปรวนระหว่างอาสาสมัครที่มี -3, -1, 1, 3 ตรงกันข้าม ฉันเข้าใจว่ามีการถกเถียงกันเกี่ยวกับประเภทผลรวมของกำลังสอง (SS) ที่เหมาะสมสำหรับการวิเคราะห์ดังกล่าว อย่างไรก็ตามเนื่องจากประเภทเริ่มต้นของ SS ที่ใช้ใน SAS และ SPSS (Type III) ถือเป็นมาตรฐานในพื้นที่ของฉัน ดังนั้นฉันต้องการให้ผลลัพธ์ของการวิเคราะห์นี้ตรงกับสิ่งที่สร้างขึ้นโดยโปรแกรมสถิติเหล่านั้น หากต้องการได้รับคำตอบคำตอบจะต้องโทร aov () โดยตรง แต่คำตอบอื่น ๆ อาจได้รับการโหวต (espeically ถ้าพวกเขาเข้าใจง่าย / ใช้งาน) sample.data <- data.frame(IV=rep(1:4,each=20),DV=rep(c(-3,-3,1,3),each=20)+rnorm(80)) แก้ไข:โปรดทราบความแตกต่างที่ฉันขอไม่ใช่ความคมชัดเชิงเส้นหรือพหุนามที่เรียบง่าย แต่เป็นความแตกต่างที่ได้จากการทำนายเชิงทฤษฎีคือประเภทของความแตกต่างที่กล่าวถึงโดย Rosenthal และ Rosnow

2
ลำดับของตัวแปรใน ANOVA นั้นสำคัญหรือไม่
ฉันถูกต้องหรือไม่ที่จะเข้าใจว่าลำดับของตัวแปรที่ระบุในการวิเคราะห์ความแปรปรวนทำให้เกิดความแตกต่าง แต่ลำดับนั้นไม่สำคัญเมื่อทำการถดถอยเชิงเส้นหลายครั้ง? ดังนั้นสมมติว่าผลลัพธ์เช่นการสูญเสียเลือดที่วัดได้ yและตัวแปรเด็ดขาดสองอย่าง วิธี adenoidectomy a , bวิธีการผ่าตัด โมเดลy~a+bแตกต่างจากโมเดลy~b+a(หรือดังนั้นการนำไปใช้ของฉันใน R ดูเหมือนจะบ่งบอก) ฉันถูกต้องหรือไม่ที่จะเข้าใจว่าคำนี้คือ ANOVA เป็นรูปแบบลำดับขั้นเนื่องจากมันเป็นคุณลักษณะแรกที่มีความแปรปรวนมากที่สุดเท่าที่จะเป็นไปได้สำหรับปัจจัยแรกก่อนที่จะลองคำนวณความแปรปรวนที่เหลือกับปัจจัยที่สอง ในตัวอย่างข้างต้นลำดับชั้นทำให้รู้สึกเพราะฉันมักจะทำ adenoidectomy ก่อนที่จะทำต่อมทอนซิล แต่สิ่งที่จะเกิดขึ้นหากมีสองตัวแปรที่ไม่มีคำสั่งโดยธรรมชาติ?

4
ฉันควรรวมอาร์กิวเมนต์เพื่อขอผลบวกของสี่เหลี่ยมจัตุรัส III ใน ezANOVA หรือไม่
ฉันพัฒนาแพ็กเกจ ez สำหรับ R เพื่อช่วยให้ผู้คนเปลี่ยนจากแพคเกจสถิติเช่น SPSS เป็น R นี่คือ (หวังว่า) ทำได้โดยการลดความซับซ้อนของ ANOVA และให้ผลลัพธ์คล้าย SPSS (รวมถึงขนาดเอฟเฟกต์และสมมติฐาน การทดสอบ) ในคุณสมบัติอื่น ๆ ezANOVA()ฟังก์ชั่นส่วนใหญ่ทำหน้าที่เป็นเสื้อคลุมไปcar::Anova()แต่รุ่นปัจจุบันของezANOVA()การดำเนินการเพียงพิมพ์-II ผลรวมของสี่เหลี่ยมในขณะที่car::Anova()สเปคใบอนุญาตทั้งประเภท II หรือ -III ผลรวมของสี่เหลี่ยม อย่างที่ฉันควรจะคาดหวังผู้ใช้หลายคนขอให้ฉันโต้แย้งezANOVA()ที่อนุญาตให้ผู้ใช้ร้องขอ Type-II หรือ Type-III ฉันลังเลที่จะทำเช่นนั้นและสรุปเหตุผลของฉันที่ด้านล่าง แต่ฉันจะขอขอบคุณที่ชุมชนให้ความเห็นเกี่ยวกับเหตุผลของฉันหรือเหตุผลอื่น ๆ ที่เกี่ยวกับเรื่องนี้ สาเหตุที่ไม่รวมอาร์กิวเมนต์ "SS_type" ในezANOVA(): ความแตกต่างระหว่างผลรวมสี่เหลี่ยมจัตุรัสประเภท I, II และ III จะปลูกพืชเฉพาะเมื่อข้อมูลไม่สมดุลเท่านั้นซึ่งในกรณีนี้ฉันจะบอกว่าประโยชน์เพิ่มเติมนั้นมาจากการแก้ไขความไม่สมดุลโดยการรวบรวมข้อมูลเพิ่มเติม ความแตกต่างระหว่าง Type II และ III ใช้กับเอฟเฟกต์ลำดับต่ำที่ผ่านการรับรองโดยเอฟเฟกต์ที่สูงกว่าซึ่งในกรณีนี้ฉันพิจารณาถึงเอฟเฟกต์ลำดับล่างที่ไม่น่าสนใจทางวิทยาศาสตร์ (แต่ดูด้านล่างเพื่อหาข้อโต้แย้งที่อาจเกิดขึ้นได้) สำหรับสถานการณ์ที่หายากเหล่านั้นเมื่อ (1) …

1
ผลลัพธ์ที่ขัดแย้งกันของผลรวมกำลังสองของ Type III ใน ANOVA ใน SAS และ R
ผมวิเคราะห์ข้อมูลจากการทดลองปัจจัยที่ไม่สมดุลทั้งที่มีและSAS Rทั้งสองSASและRให้ผลรวมของสี่เหลี่ยมจัตุรัสประเภท I ที่คล้ายกัน แต่ผลรวมสี่เหลี่ยมจัตุรัส Type III ของพวกเขานั้นแตกต่างกัน ด้านล่างนี้SASและRรหัสและผลลัพธ์ DATA ASD; INPUT Y T B; DATALINES; 20 1 1 25 1 2 26 1 2 22 1 3 25 1 3 25 1 3 26 2 1 27 2 1 22 2 2 31 2 3 ; PROC GLM DATA=ASD; …
15 r  anova  sas  sums-of-squares 

3
เหตุใดเราจึงใช้การทดสอบ F-test แบบหางเดียวในการวิเคราะห์ความแปรปรวน (ANOVA)
คุณสามารถให้เหตุผลในการใช้การทดสอบแบบหางเดียวในการวิเคราะห์การทดสอบความแปรปรวนได้หรือไม่? เหตุใดเราจึงใช้การทดสอบแบบหางเดียว - การทดสอบ F - ใน ANOVA

1
พีชคณิตของ LDA อำนาจการแยกแยะฟิชเชอร์ของตัวแปรและการวิเคราะห์จำแนกเชิงเส้น
เห็นได้ชัดว่า การวิเคราะห์แบบฟิชเชอร์มีจุดมุ่งหมายที่จะเพิ่มการแยกระหว่างคลาสให้สูงสุดพร้อม ๆ กับลดการกระจายตัวของคลาสภายใน วัดที่มีประโยชน์ของอำนาจจำแนกของตัวแปรจึงจะได้รับโดยปริมาณเส้นทแยงมุม: ฉันBฉันฉัน/ WฉันฉันBii/WiiB_{ii}/W_{ii} http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html ผมเข้าใจว่าขนาด ( p x p) ของระหว่าง ( B ) และภายใน-Class ( W ) pการฝึกอบรมจะได้รับจากจำนวนของตัวแปรการป้อนข้อมูล ให้นี้วิธีที่สามารถจะเป็น "วัดที่มีประโยชน์ของอำนาจจำแนก" ของตัวแปรเดียว? ต้องมีตัวแปรอย่างน้อยสองตัวในการสร้างเมทริกซ์ B และ W ดังนั้นการติดตามที่เกี่ยวข้องจะเป็นตัวแทนของตัวแปรมากกว่าหนึ่งตัวBฉันฉัน/ WฉันฉันBii/WiiB_{ii}/W_{ii} ปรับปรุง: ฉันขวาในการคิดว่าไม่ได้เป็นร่องรอยกว่าร่องรอยที่รวมเป็นนัย แต่องค์ประกอบเมทริกซ์B ฉันฉันBฉันฉัน/ WฉันฉันBii/WiiB_{ii}/W_{ii}BฉันฉันBiiB_{ii}หารด้วย ? ปัจจุบันเป็นวิธีเดียวที่ฉันสามารถปรับการแสดงออกด้วยแนวคิดWฉันฉันWiiW_{ii}

2
ความแตกต่างในค่า p รายงานระหว่าง lm และ aov ใน R
อะไรอธิบายถึงความแตกต่างของค่า p ในค่าต่อไปนี้aovและการlmโทร? ความแตกต่างนั้นเกิดจากการคำนวณผลรวมจำนวนสแควร์ประเภทต่างๆหรือไม่ set.seed(10) data=rnorm(12) f1=rep(c(1,2),6) f2=c(rep(1,6),rep(2,6)) summary(aov(data~f1*f2)) summary(lm(data~f1*f2))$coeff

2
จะระบุความแตกต่างที่เฉพาะเจาะจงสำหรับการวัด ANOVA ซ้ำโดยใช้รถยนต์ได้อย่างไร
ฉันพยายามเรียกใช้มาตรการ Anova ใน R ซ้ำแล้วตามด้วยความแตกต่างเฉพาะบนชุดข้อมูลนั้น ฉันคิดว่าวิธีที่ถูกต้องน่าจะใช้ Anova()จากแพ็คเกจรถ ช่วยให้แสดงคำถามของฉันพร้อมตัวอย่างที่นำมาจากการ?Anovaใช้ OBrienKaiserข้อมูล (หมายเหตุ: ฉันสรุปปัจจัยทางเพศจากตัวอย่าง): เรามีการออกแบบที่มีปัจจัยหนึ่งระหว่างวิชาการรักษา (3 ระดับ: การควบคุม A, B) และซ้ำ 2 - วัด (ภายในวิชา) ปัจจัยระยะ (3 ระดับ: แบบทดสอบก่อนเรียนหลังการติดตาม) และชั่วโมง (5 ระดับ: 1 ถึง 5) ตาราง ANOVA มาตรฐานมอบให้โดย (แตกต่างจากตัวอย่าง (Anova) ฉันเปลี่ยนเป็น Type 3 Sums of Squares นั่นคือสิ่งที่สาขาของฉันต้องการ): require(car) phase <- factor(rep(c("pretest", "posttest", "followup"), …

2
การแจกแจงผลรวมของกำลังสองของตัวแปรสุ่มแบบกระจาย T
ฉันกำลังมองหาที่การกระจายตัวของผลรวมของสี่เหลี่ยมของตัวแปรสุ่ม T-กระจายที่มีหางตัวแทนααα\alphaที่ X คือ RV ที่ฟูเรียร์สำหรับX2X2X^2 , F(t)F(t)\mathscr{F}(t)ทำให้ผมมีวิธีแก้ปัญหาสำหรับตารางก่อนที่จะบิดF(t)nF(t)n\mathscr{F}(t)^n n F(t)=∫∞0exp(itx2)⎛⎝⎜⎜⎜(αα+x2)α+12α−−√ B(α2,12)⎞⎠⎟⎟⎟dxF(t)=∫0∞exp⁡(itx2)((αα+x2)α+12α B(α2,12))dx\mathscr{F}(t)=\int_0^{\infty } \exp \left(i\, t\, x^2\right)\left(\frac{\left(\frac{\alpha }{\alpha +x^2}\right)^{\frac{\alpha +1}{2}} }{\sqrt{\alpha }\ B\left(\frac{\alpha }{2},\frac{1}{2}\right)}\right) \, \mathrm{d}x ด้วยα=3α=3\alpha=3 , การแก้ปัญหาเป็นไปได้ แต่เทอะทะและไม่สามารถที่จะผกผันที่จะทำสิ่งที่ตรงกันข้ามฟูริเยร์สำหรับF(t)nF(t)n\mathscr{F}(t)^n n ดังนั้นคำถามคือ: มีการทำงานกับการแจกแจงความแปรปรวนตัวอย่างหรือค่าเบี่ยงเบนมาตรฐานของตัวแปรสุ่มแบบกระจายทีหรือไม่? (สำหรับนักศึกษา T สิ่ง Chi-square คือไปยังเกาส์เซียน) ขอบคุณ. (วิธีแก้ปัญหาที่เป็นไปได้) ฉันพบว่าX2X2X^2คือฟิชเชอร์F(1,α)F(1,α)F(1,\alpha)กระจายดังนั้นจะดูที่ผลรวมของตัวแปรกระจายฟิชเชอร์ (วิธีแก้ปัญหาที่เป็นไปได้) จากฟังก์ชั่นลักษณะค่าเฉลี่ยของ summed X 2 มีช่วงเวลาเดียวกันสองช่วงแรกของการแจกแจงแบบF ( n , …

2
ความสัมพันธ์ระหว่างตัวแปรเด็ดขาด
มีจำนวนมากเกี่ยวกับ collinearity ที่เกี่ยวกับการทำนายแบบต่อเนื่อง แต่ไม่มากนักที่ฉันสามารถค้นหาในตัวทำนายแบบหมวดหมู่ ฉันมีข้อมูลประเภทนี้แสดงไว้ด้านล่าง ปัจจัยแรกคือตัวแปรทางพันธุกรรม (นับอัลลีล) ปัจจัยที่สองคือประเภทของโรค เห็นได้ชัดว่ายีนนำหน้าโรคและเป็นปัจจัยในการแสดงอาการที่นำไปสู่การวินิจฉัย อย่างไรก็ตามการวิเคราะห์อย่างสม่ำเสมอโดยใช้ผลบวกของสี่เหลี่ยมจัตุรัสที่มีประเภท II หรือ III ดังเช่นที่ใช้กันทั่วไปในทางจิตวิทยากับ SPSS คิดถึงผลกระทบที่เกิดขึ้น การวิเคราะห์สแควร์สจำนวนหนึ่งเป็นการวิเคราะห์แบบหยิบมันขึ้นมาเมื่อป้อนคำสั่งที่เหมาะสมเพราะมันขึ้นอยู่กับลำดับ นอกจากนี้มีแนวโน้มว่าจะมีส่วนประกอบเพิ่มเติมในกระบวนการของโรคซึ่งไม่เกี่ยวข้องกับยีนที่ไม่ได้ระบุอย่างดีกับประเภท II หรือ III ดูanova (lm1)ด้านล่าง vs lm2 หรือ Anova ข้อมูลตัวอย่าง: set.seed(69) iv1 <- sample(c(0,1,2), 150, replace=T) iv2 <- round(iv1 + rnorm(150, 0, 1), 0) iv2 <- ifelse(iv2<0, 0, iv2) iv2 <- ifelse(iv2>2, …

3
ความแปรปรวนร่วมที่ใช้ร่วมกันระหว่าง IV ทั้งหมดในสมการการถดถอยเชิงเส้นหลายเชิงเส้นคืออะไร?
ในสมการการถดถอยหลายแบบเชิงเส้นหากตุ้มน้ำหนักเบต้าสะท้อนการมีส่วนร่วมของตัวแปรอิสระแต่ละตัวมากกว่าและสูงกว่าการมีส่วนร่วมของ IV อื่น ๆ ทั้งหมดซึ่งในสมการการถดถอยคือความแปรปรวนที่แบ่งปันโดย IV ทั้งหมดที่ทำนาย DV? ตัวอย่างเช่นหากแผนภาพ Venn แสดงด้านล่าง (และนำมาจากหน้า 'เกี่ยวกับ' ของ CV ที่นี่: https://stats.stackexchange.com/about ) ได้รับการติดป้ายใหม่เป็น 3 IV และ 1 DV พื้นที่ที่มีเครื่องหมายดอกจันจะใส่เข้าไป ในสมการการถดถอยแบบหลายค่า?

1
เหตุใดจึงมีการรายงานในเอกสารที่ใช้ผลบวกของรูปสี่เหลี่ยมในผลลัพธ์ Anova บ่อยครั้ง
จากประสบการณ์สั้น ๆ ของฉันในสถิติดูเหมือนว่าชนิดของผลรวมของสแควร์ส (ประเภท I, II, III, IV ... ) ที่ใช้ในการรับผลลัพธ์ ANOVA สามารถสร้างความแตกต่างอย่างมากในผลการทดสอบ (โดยเฉพาะรุ่นที่มีปฏิสัมพันธ์ ข้อมูล). อย่างไรก็ตามฉันยังไม่เห็นกระดาษรายงานเลย เหตุผลที่เป็นเช่นนั้น? ฉันจะขอบคุณจริง ๆ หากมีตัวอย่างกระดาษรายงาน (ไม่ใช่สถิติเอง) ไม่ทางใดก็ทางหนึ่งหรือเหตุผลที่ไม่ธรรมดา

2
การถดถอยเชิงเส้น: * ทำไม * คุณสามารถแบ่งผลรวมของช่องสี่เหลี่ยมได้?
โพสต์นี้หมายถึงรูปแบบการถดถอย bivariate เชิงเส้น\ ฉันมักจะแบ่งพาร์ติชันของผลรวมของกำลังสอง (SSTO) เป็นผลรวมของกำลังสองสำหรับข้อผิดพลาด (SSE) และผลรวมของกำลังสองสำหรับโมเดล (SSR) โดยความเชื่อ แต่เมื่อฉันเริ่มคิดจริงๆฉันไม่เข้าใจทำไมมันถึงทำงาน ...Yi=β0+β1xiYi=β0+β1xiY_i = \beta_0 + \beta_1x_i ส่วนที่ผมไม่เข้าใจ yiyiy_i : ค่าที่สังเกตได้ของ y y¯y¯\bar{y} : ค่าเฉลี่ยของyiyiy_i s ที่สังเกตได้ทั้งหมด y^iy^i\hat{y}_i : ค่าติดตั้ง / ทำนายของ y สำหรับการสังเกตของ x yi−y^iyi−y^iy_i - \hat{y}_i : ส่วนที่เหลือ / ข้อผิดพลาด (ถ้ายกกำลังสองและบวกกันสำหรับการสังเกตทั้งหมดนี่คือ SSE) y^i−y¯y^i−y¯\hat{y}_i - \bar{y} : ค่าติดตั้งโมเดลแตกต่างจากค่าเฉลี่ย (ถ้ายกกำลังสองและบวกสำหรับการสังเกตทั้งหมดนี่คือ SSR) …

2
ทำไมยอดรวมยกกำลังสองที่ไม่เพิ่มเมื่อเพิ่มตัวแปรอธิบาย?
ในหนังสือเรียนเศรษฐมิติของฉัน (เศรษฐมิติเบื้องต้น) ครอบคลุม OLS ผู้เขียนเขียนว่า "SSR จะต้องล้มลงเมื่อมีการเพิ่มตัวแปรอธิบายอื่น" ทำไมล่ะ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.