ลำดับของตัวแปรใน ANOVA นั้นสำคัญหรือไม่


20

ฉันถูกต้องหรือไม่ที่จะเข้าใจว่าลำดับของตัวแปรที่ระบุในการวิเคราะห์ความแปรปรวนทำให้เกิดความแตกต่าง แต่ลำดับนั้นไม่สำคัญเมื่อทำการถดถอยเชิงเส้นหลายครั้ง?

ดังนั้นสมมติว่าผลลัพธ์เช่นการสูญเสียเลือดที่วัดได้ yและตัวแปรเด็ดขาดสองอย่าง

  1. วิธี adenoidectomy a ,
  2. bวิธีการผ่าตัด

โมเดลy~a+bแตกต่างจากโมเดลy~b+a(หรือดังนั้นการนำไปใช้ของฉันใน R ดูเหมือนจะบ่งบอก)

ฉันถูกต้องหรือไม่ที่จะเข้าใจว่าคำนี้คือ ANOVA เป็นรูปแบบลำดับขั้นเนื่องจากมันเป็นคุณลักษณะแรกที่มีความแปรปรวนมากที่สุดเท่าที่จะเป็นไปได้สำหรับปัจจัยแรกก่อนที่จะลองคำนวณความแปรปรวนที่เหลือกับปัจจัยที่สอง

ในตัวอย่างข้างต้นลำดับชั้นทำให้รู้สึกเพราะฉันมักจะทำ adenoidectomy ก่อนที่จะทำต่อมทอนซิล แต่สิ่งที่จะเกิดขึ้นหากมีสองตัวแปรที่ไม่มีคำสั่งโดยธรรมชาติ?


12
การสั่งซื้อมีความสำคัญใน ANOVAs ด้วยการออกแบบที่ไม่สมดุลเช่นเมื่อมีขนาดเซลล์ไม่เท่ากัน หัวข้อนี้มักได้รับการปฏิบัติภายใต้พาดหัวของ "ประเภทผลบวกของกำลังสอง" ดูepm.sagepub.com/content/38/3/621.full.pdf+htmlและคำตอบของ chl ต่อstats.stackexchange.com/questions/11209/…
caracal

1
ดูคำตอบที่ยัง Gung ในstats.stackexchange.com/questions/20452
อะมีบาพูดว่า Reinstate Monica

ฉันเพิ่งขยายการสนทนาเก่าของฉันหวังว่ามันจะหลั่งน้ำตาแสงในเรื่องอื่น แน่นอนว่ามันยังคงต้องใช้งานอยู่และอาจมีบางคนที่มีเส้นประสาทมาช่วยในการแก้ไข นี่คือสิ่งที่ฉันมีอยู่: go.helms-net.de/stat/div/%28SSE%29%20ANovaRegression_SPSS_R.htmอาจเป็นไปได้ว่ามีบางสิ่งที่น่าสนใจที่มีศักยภาพที่จะดึงคำตอบที่ชัดเจนสำหรับคำถามนั้นออกมาได้
หมวกกัน

คำตอบ:


17

คำถามนี้ชัดเจนมาจากการศึกษาที่มีการออกแบบสองทางที่ไม่สมดุลวิเคราะห์ใน R ด้วยaov()ฟังก์ชั่น; หน้านี้แสดงตัวอย่างล่าสุดและรายละเอียดเพิ่มเติมของปัญหานี้

คำตอบทั่วไปของคำถามนี้มีหลายคำถามเช่น: "มันขึ้นอยู่กับ" ที่นี่มันขึ้นอยู่กับว่าการออกแบบมีความสมดุลและถ้าไม่ได้ซึ่งเลือก ANOVA รสชาติใด

ก่อนขึ้นอยู่กับว่าการออกแบบมีความสมดุล ในโลกที่ดีที่สุดเท่าที่จะเป็นไปได้โดยมีจำนวนผู้ป่วยเท่ากันในทุกเซลล์ของการออกแบบแบบแฟกทอเรียลจะไม่มีความแตกต่างเนื่องจากลำดับของการป้อนปัจจัยเข้าสู่โมเดลโดยไม่คำนึงว่า ANOVA จะดำเนินการอย่างไร เห็นได้ชัดจากการวิจัยทางคลินิกย้อนหลังดูเหมือนจะมาจากโลกแห่งความจริงที่ไม่พบความสมดุลดังกล่าว ดังนั้นลำดับอาจสำคัญ

ประการที่สองมันขึ้นอยู่กับวิธีการดำเนินการ ANOVA ซึ่งเป็นประเด็นที่ถกเถียงกันอยู่บ้าง ประเภทของ ANOVA สำหรับการออกแบบที่ไม่สมดุลนั้นแตกต่างกันไปตามลำดับของการประเมินผลหลักและการโต้ตอบ การประเมินการโต้ตอบเป็นพื้นฐานของการวิเคราะห์ความแปรปรวนสองทางและระดับสูงกว่าดังนั้นจึงมีข้อพิพาทเกี่ยวกับวิธีที่ดีที่สุดในการดำเนินการ ดูหน้าไขว้ที่ผ่านการตรวจสอบสำหรับคำอธิบายและการสนทนาเดียว ดูรายละเอียดและคำเตือนสำหรับAnova()ฟังก์ชั่น (พร้อมตัวพิมพ์ใหญ่ "A") ในคู่มือสำหรับcarแพ็คเกจสำหรับมุมมองที่ต่างออกไป

คำสั่งของปัจจัยไม่ว่าในรูปแบบที่ไม่สมดุลภายใต้การเริ่มต้นaov()ในการวิจัยซึ่งใช้สิ่งที่เรียกว่าการทดสอบประเภท-I สิ่งเหล่านี้คือการอ้างเหตุผลแบบเรียงลำดับของความแปรปรวนของปัจจัยต่างๆในลำดับการเข้าสู่แบบจำลองตามที่คำถามปัจจุบันจินตนาการ คำสั่งซื้อไม่เกี่ยวข้องกับการทดสอบ type-II หรือ type-III ที่จัดทำโดยAnova()ฟังก์ชันในcarแพ็คเกจใน R อย่างไรก็ตามตัวเลือกเหล่านี้มีข้อเสียที่เป็นไปได้ที่ระบุไว้ในลิงก์ด้านบน

ในที่สุดให้พิจารณาความสัมพันธ์กับการถดถอยเชิงเส้นหลายแบบเช่นเดียวกับlm()ใน R ซึ่งเป็นรูปแบบเดียวกันกับชนิดถ้าคุณรวมคำที่ใช้โต้ตอบ ลำดับการเข้าของตัวแปรในlm()ไม่สำคัญในแง่ของสัมประสิทธิ์การถดถอยและค่าp ที่รายงานโดยsummary(lm())ซึ่งปัจจัยการจัดหมวดหมู่ระดับ k ถูกเขียนรหัสเป็นตัวแปรหุ่นจำลอง (k-1) และค่าสัมประสิทธิ์การถดถอยสำหรับแต่ละตัวจำลอง .

อย่างไรก็ตามเป็นไปได้ที่จะห่อlm()ผลลัพธ์ด้วยanova()(ตัวพิมพ์เล็ก "a," จากstatsแพ็คเกจR ) หรือAnova()เพื่อสรุปอิทธิพลของแต่ละปัจจัยในทุกระดับของมันตามที่เราคาดหวังใน ANOVA แบบดั้งเดิม จากนั้นการสั่งซื้อของปัจจัยที่จะมีความสำคัญกับanova()กับการและจะไม่สำคัญกับaov() Anova()ในทำนองเดียวกันข้อพิพาทที่เกี่ยวกับประเภทของ ANOVA ที่จะใช้จะกลับมา ดังนั้นจึงไม่ปลอดภัยที่จะถือว่าเป็นอิสระจากคำสั่งซื้อของการป้อนปัจจัยด้วยการใช้lm()โมเดลดาวน์สตรีมทั้งหมด


* การมีจำนวนการสังเกตที่เท่ากันในทุกเซลล์นั้นเพียงพอ แต่อย่างที่ฉันเข้าใจมันไม่จำเป็นสำหรับลำดับของปัจจัยที่ไม่เกี่ยวข้อง ประเภทของความต้องการที่น้อยลงอาจทำให้เกิดความเป็นอิสระในการสั่งซื้อ


ใช่แน่นอนข้อมูลการสังเกตไม่สมดุลและไม่สมดุลมาก
Farrel

หวังว่าความคิดเห็นนี้ยังคงได้รับคำตอบที่นี่: คุณบอกว่าภายใต้การออกแบบการศึกษาที่สมดุลการประเมิน SS จะไม่ขึ้นอยู่กับการสั่งซื้อโดยไม่คำนึงถึงประเภทของการทดสอบ anova (typeI, II, III) ฉันไม่แน่ใจว่าฉันเข้าใจสิ่งนี้หรือไม่ การใช้ฟังก์ชั่น 'anova' ใน R (ซึ่งใช้การทดสอบประเภทที่ 1) กับโมเดลเชิงเส้นซึ่งขึ้นอยู่กับข้อมูลที่มีความสมดุล
PejoPhylo

1
@PejoPhylo เมื่อข้อมูลมีความสมดุลจากนั้นคุณสามารถมีสิ่งที่เรียกว่าการออกแบบมุมฉาก ด้วยการออกแบบมุมฉากมีวิธีหนึ่งที่ไม่ซ้ำกันในการแบ่งผลรวมของสแควร์สระหว่างการรักษาและปฏิสัมพันธ์ของพวกเขาดังนั้นลำดับของการเข้ารักษาจะไม่สำคัญกับการประมาณของผลกระทบและค่า p ของพวกเขา หน้านี้ให้คำอธิบายทางคณิตศาสตร์ สิ่งนี้ไม่ชัดเจนในทันที คำถามที่ฉันเพิ่งเชื่อมโยงถูกถามโดยสมาชิกของไซต์นี้ที่มีชื่อเสียงมากที่สุด ข้อมูลที่ไม่สมดุลสามารถทำลายความตั้งฉากได้
EDM

ขอบคุณมากสำหรับคำตอบของคุณ @EdM
PejoPhylo

0

แบบจำลองลำดับชั้นคำว่าหมายถึงโครงสร้างระหว่างปัจจัย ตัวอย่างเช่นการศึกษาแบบหลายศูนย์เป็นแบบลำดับชั้น: คุณมีผู้ป่วยซ้อนอยู่ภายในโรงพยาบาลที่ให้การรักษาพวกเขา โรงพยาบาลแต่ละแห่งให้การรักษาผู้ป่วยด้วยยาหลอกและ verum แต่การรักษาแต่ละคนในโรงพยาบาล A หรือ B นั้นแตกต่างกันเล็กน้อยเนื่องจากผลที่พบบ่อยของโรงพยาบาลที่มีผลต่อผู้ป่วยทุกคน (อาจเป็นผลกระทบกับตัวแทนการทดลอง) ดังนั้นมันจึงเรียกว่าเอฟเฟกต์แบบลำดับชั้น

ทีนี้วิธี ectomy ของคุณอาจเป็นลำดับชั้น: เป็นไปได้ไหมที่วิธีการต่อมทอนซิลมีบางอย่างที่แตกต่างกันเล็กน้อย (ในตัวเอง แต่ยังไม่ได้ผลเพราะนั่นคือสิ่งที่คุณจะประเมินและทดสอบ) ขึ้นอยู่กับวิธี adenoidectomy อดทน? ถ้าใช่คุณควรระบุไว้ในแบบจำลองของคุณ

การสังเกตของคุณว่า y ~ a + b อาจแตกต่างจาก y ~ b + a แสดงว่ามีบางอย่างผิดปกติ การเติมเอฟเฟกต์การเดินทางดังนั้นไม่ควรมีความแตกต่าง (นอกเหนือจากความแตกต่างของตัวเลขเล็กน้อย) มันเป็นไปไม่ได้และไม่เป็นที่ต้องการว่าผลของวิธีการผ่าตัดอาจขึ้นอยู่กับลำดับที่นักสถิติระบุผลกระทบในภายหลัง ดังนั้นคุณอาจเลือกวิธีที่ไม่ถูกต้องในการดึงRข้อมูล


1
ฉันไม่แน่ใจว่าฉันทำตามย่อหน้าสุดท้าย ใน ANOVA แบบแฟคทอเรียลที่ไม่สมดุลค่า p สำหรับแต่ละปัจจัยที่คำนวณผ่านผลรวมสี่เหลี่ยมจัตุรัส Type I (เรียงลำดับ) จะขึ้นอยู่กับลำดับของปัจจัยอย่างแน่นอน ฉันเชื่อว่านี่เป็นประเด็นทั้งหมดของคำถาม
อะมีบาพูดว่า Reinstate Monica

ฉันไม่แน่ใจว่า @Farrel ได้รับ Type I SS หรือไม่ ฉันจำได้ว่าครั้งหนึ่งฉันสังเกตว่า SAS เพื่อส่งออก Type III SS เนื่องจากการเรียงลำดับที่แตกต่างกันในชุดข้อมูลและคำสั่งโมเดล บางทีนี่อาจเกิดขึ้นกับ R ด้วยใช่ไหม
Horst Grünbusch

2
ฉันไม่รู้ความจริงและเขาอาจจำตัวเองไม่ได้เมื่อถามว่าเมื่อห้าปีก่อน แต่ผมคิดว่านี่คือไกลโดยการตีความเค็มมากที่สุดของคำพูดของเขา "รุ่น Y ~ A + B จะแตกต่างกับรุ่นวาย ~ B + (หรือเพื่อให้การดำเนินงานของฉันใน R ดูเหมือนจะบ่งบอก)" โดยเฉพาะอย่างยิ่งให้ความจริงaovคำสั่งนั้นใน R ใช้ Type I SS เป็นค่าเริ่มต้น เมื่อฉันเสนอเงินรางวัลฉันคาดหวังว่าจะได้รับคำตอบอธิบายปัญหาที่อยู่เบื้องหลังการออกแบบ anova ที่ไม่สมดุลความแตกต่างระหว่าง Type I / II / III SS และความคิดเห็นบางอย่างเกี่ยวกับการถดถอยเชิงเส้นว่ามีหรือไม่มีปัญหาเดียวกัน
อะมีบาพูดว่า Reinstate Monica

1
ไม่การออกแบบเมทริกซ์นั้นเป็นเอกพจน์ใน anova แม้ว่าจะมีความสมดุลเมื่อไม่มีความแตกต่างระหว่าง SS I / II / III SS I / II / III นั้นจะแตกต่างกันเฉพาะในกรณีที่ไม่สมดุลเนื่องจากปัจจัยนั้นไม่ใช่แบบมุมฉาก (ต่างจากในกรณีที่สมดุล) ในความเข้าใจของฉันสิ่งนี้สอดคล้องกับการถดถอยเชิงเส้นกับตัวทำนายที่สัมพันธ์กันซึ่งเป็นสถานการณ์ที่พบบ่อยมาก คำตอบของฉันคือปัญหาเดียวกันนี้เกิดขึ้นในการถดถอยด้วยเช่นกันเป็นเพียงมาตรฐานในการคำนวณค่า p ของตัวทำนายหนึ่งตัวหลังจากการบัญชีสำหรับผลกระทบของตัวทำนายอื่น ๆ ทั้งหมด สิ่งนี้สอดคล้องกับ Type III SS ใน anova
อะมีบาพูดว่า Reinstate Monica

1
คำถามดังกล่าวเกี่ยวกับลำดับของตัวแปรใน ANOVA ยังคงดำเนินต่อไปเช่นเดียวกับที่ย้ายมาจาก Stack Overflow เมื่อวานนี้ ฉันคิดว่ามันปลอดภัยที่จะสมมติว่าคำถาม 5 ปีนี้คล้ายกันaovมากกว่าlmและจะเป็นประโยชน์หากมีคำตอบสำหรับคำถามประเภทนี้ที่ @amoeba ระบุไว้ในความคิดเห็นตั้งแต่วันที่ 12 พฤษภาคม 14:31 .
EdM
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.