ANOVA นั้นขึ้นอยู่กับวิธีการของช่วงเวลาและไม่ใช่โอกาสสูงสุดหรือไม่?


13

ฉันเห็นว่ามีการพูดถึงในสถานที่ต่าง ๆ ที่ ANOVA ทำการประมาณโดยใช้วิธีการของช่วงเวลา

ฉันสับสนกับคำยืนยันดังกล่าวเพราะแม้ว่าฉันจะไม่คุ้นเคยกับวิธีการของช่วงเวลา แต่ความเข้าใจของฉันคือมันเป็นสิ่งที่แตกต่างจากและไม่เทียบเท่ากับวิธีการของโอกาสสูงสุด; ในอีกทางหนึ่งการวิเคราะห์ความแปรปรวนสามารถถูกมองว่าเป็นการถดถอยเชิงเส้นด้วยตัวพยากรณ์เชิงหมวดหมู่และการประมาณค่า OLS ของพารามิเตอร์การถดถอยเป็นโอกาสสูงสุด

ดังนั้น:

  1. สิ่งที่มีคุณสมบัติขั้นตอนการวิเคราะห์ความแปรปรวนเป็นวิธีการของช่วงเวลา?

  2. ระบุว่า ANOVA นั้นเทียบเท่ากับ OLS ที่มีตัวพยากรณ์หมวดหมู่ไม่ได้หรือไม่?

  3. หากทั้งสองวิธีใดที่กลายเป็นสิ่งที่เทียบเท่าในกรณีพิเศษของ ANOVA ปกติจะมีสถานการณ์ ANOVA เฉพาะบางอย่างหรือไม่เมื่อความแตกต่างมีความสำคัญ? การออกแบบที่ไม่สมดุล? มาตรการซ้ำแล้วซ้ำอีก? การออกแบบแบบผสม (ระหว่างวิชา + ภายในวิชา)?


4
ในการตั้งค่าอย่างง่ายและโดยง่ายฉันหมายถึงหนึ่งและสองทาง ANOVA, ANOVA นั้นได้มาจาก LRT ภายใต้การแจกแจงแบบปกติที่มีความแปรปรวนเท่ากันดังนั้นจึงเป็นโอกาสสูงสุดที่จะใช้ แน่นอนสำหรับกรณีปกติตัวประมาณค่า mle และ mom นั้นตรงกันดังนั้นความแตกต่างจึงไม่สำคัญ อย่างไรก็ตามในการตั้งค่าที่ซับซ้อนยิ่งกว่าแทนที่จะได้รับ LRT เราต้องพึ่งพาการถดถอยแบบ OLS OLS เป็นเพียงค่า mle ภายใต้การแจกแจงแบบปกติและเป็นตัวประมาณค่าแม่ในการตั้งค่าทั่วไปที่มากขึ้นถ้าเรากำหนด orthogonality ด้วยค่าคงที่นั่น
JohnK

1
@ JohnK ขอบคุณมากสำหรับความคิดเห็นของคุณ แต่ฉันมีเวลายากที่จะเข้าใจบางส่วนของมันโดยเฉพาะอย่างยิ่งในส่วนที่สอง: อะไรคือ "การตั้งค่าที่ซับซ้อนมากขึ้น" ซึ่ง ANOVA อาศัย OLS แทนที่จะเป็น LRT (และทำไม) เหตุใด OLS จึงไม่ MLE ใน "การตั้งค่าทั่วไปที่มากกว่านี้" - ฉันคิดว่าข้อผิดพลาดปกติจะถูกสันนิษฐานเสมอในทุกสถานการณ์ของ ANOVA orthogonality กับส่วนที่เหลือต้องทำอะไร? ฉันจะขอบคุณมากถ้าคุณขยายความคิดเห็นของคุณเป็นคำตอบ
อะมีบาพูดว่า Reinstate Monica

2
@อะมีบา. ฉันแก้ไขคำตอบของฉันเพื่อพูดถึงประเด็นแรกของคุณเกี่ยวกับ ANOVA ว่าเป็นวิธีการประมาณค่าช่วงเวลา นั่นเป็นเรื่องจริงสำหรับเอฟเฟกต์แบบสุ่มเท่านั้น
Placidia

คำตอบ:


12

ฉันพบ ANOVA เป็นครั้งแรกเมื่อฉันเป็นนักเรียนปริญญาโทที่ Oxford ในปี 1978 วิธีการที่ทันสมัยโดยการสอนตัวแปรอย่างต่อเนื่องและจัดหมวดหมู่เข้าด้วยกันในรูปแบบการถดถอยหลายแบบทำให้นักสถิติรุ่นเยาว์ยากที่จะเข้าใจว่าเกิดอะไรขึ้น ดังนั้นการกลับไปสู่ช่วงเวลาที่ง่ายกว่านั้นมีประโยชน์

ในรูปแบบดั้งเดิม ANOVA เป็นการออกกำลังกายในแบบเลขคณิตโดยที่คุณจะแบ่งผลรวมของกำลังสองออกเป็นส่วน ๆ ที่เกี่ยวข้องกับการรักษาบล็อกการโต้ตอบอะไรก็ตาม ในการตั้งค่าที่สมดุลจำนวนสแควร์สที่มีความหมายที่ใช้งานง่าย (เช่น SSB และ SST) จะรวมกันเป็นผลรวมของสแควร์สที่ปรับทั้งหมด ทั้งหมดนี้ต้องขอบคุณการทำงานทฤษฎีบทค็อชฮาน การใช้ Cochran คุณสามารถคำนวณค่าที่คาดหวังของคำเหล่านี้ภายใต้สมมติฐานว่างปกติและโฟลว์สถิติ F จากที่นั่น

เป็นโบนัสเมื่อคุณเริ่มคิดเกี่ยวกับ Cochran และผลรวมของช่องสี่เหลี่ยมมันทำให้รู้สึกถึงการแบ่งและการแบ่งสี่เหลี่ยมของการรักษาของคุณโดยใช้ความแตกต่างมุมฉาก ทุกรายการในตาราง ANOVA ควรมีการตีความที่น่าสนใจต่อสถิติและให้สมมติฐานที่ทดสอบได้

ฉันเพิ่งเขียนคำตอบที่ความแตกต่างระหว่างวิธี MOM และ ML เกิดขึ้น คำถามเปิดใช้การประมาณแบบจำลองเอฟเฟกต์แบบสุ่ม ณ จุดนี้วิธีการแบบดั้งเดิมของ ANOVA ได้รวมส่วน บริษัท ทั้งหมดไว้ด้วยการประเมินความเป็นไปได้สูงสุดและการประเมินผลกระทบจะไม่เหมือนกันอีกต่อไป เมื่อการออกแบบไม่สมดุลกันคุณจะไม่ได้รับสถิติ F เหมือนกัน

ย้อนกลับไปในวันที่เมื่อนักสถิติต้องการคำนวณผลกระทบแบบสุ่มจากการแยกส่วนหรือการออกแบบมาตรการซ้ำความแปรปรวนแบบสุ่มถูกคำนวณจากค่าเฉลี่ยกำลังสองของตาราง ANOVA ดังนั้นหากคุณมีพล็อตที่มีความแปรปรวนและความแปรปรวนที่เหลือคือคุณอาจมีค่าที่คาดหวังของสแควร์เฉลี่ย ("สแควร์เฉลี่ยที่คาดหวัง", EMS) สำหรับพล็อตคือมีจำนวนแยกในพล็อต คุณตั้งค่าสแควร์เฉลี่ยเท่ากับความคาดหวังและแก้หา σ 2 σ 2 + n σ 2 P n ^ σ 2 σp2σ2σ2+nσp2nσb2^. ANOVA ให้วิธีประมาณค่าโมเมนต์สำหรับความแปรปรวนของเอฟเฟกต์แบบสุ่ม ตอนนี้เรามีแนวโน้มที่จะแก้ปัญหาดังกล่าวด้วยโมเดลเอฟเฟกต์ผสมและส่วนประกอบความแปรปรวนได้จากการประมาณค่าความน่าจะเป็นสูงสุดหรือ REML

การวิเคราะห์ความแปรปรวนดังกล่าวไม่ใช่วิธีการของขั้นตอนช่วงเวลา มันเปิดการแยกผลรวมของช่องสี่เหลี่ยม (หรือโดยทั่วไปรูปแบบสมการกำลังสองของการตอบสนอง) เป็นส่วนประกอบที่ให้สมมติฐานที่มีความหมาย มันขึ้นอยู่กับกฎเกณฑ์อย่างมากเนื่องจากเราต้องการให้ผลบวกของกำลังสองมีการแจกแจงแบบไคสแควร์สำหรับการทดสอบ F ในการทำงาน

กรอบความน่าจะเป็นสูงสุดนั้นกว้างกว่าและนำไปใช้กับสถานการณ์เช่นตัวแบบเชิงเส้นแบบทั่วไปที่ไม่ใช้ผลบวกของกำลังสอง ซอฟต์แวร์บางตัว (เช่น R) เชื้อเชิญความสับสนด้วยการระบุวิธี anova เพื่อทดสอบอัตราส่วนความน่าจะเป็นด้วยการแจกแจงแบบไคสแควร์แบบ asymptotic หนึ่งสามารถปรับการใช้คำว่า "anova" แต่พูดอย่างเคร่งครัดทฤษฎีหลังมันแตกต่างกัน


2
F-การทดสอบของทางเดียวและสองทาง ANOVA คือการทดสอบอัตราส่วนและคุณสามารถปรึกษาฮอและเครก, Intrduction คณิตศาสตร์สถิติบทที่ 9 ถ้าคุณไม่เชื่อฉัน ยิ่งกว่านั้นการทดสอบ F ที่ใช้ในการถดถอยปกติก็เป็น LRT ซึ่งมีการอ้างอิงมากมาย
JohnK

1
ฉันจะตรวจสอบ. สำหรับตอนนี้ฉันได้ลบวรรค
Placidia

1
+1 ขอบคุณมากสำหรับคำตอบ มันเป็นคำตอบที่เชื่อมโยงของคุณที่ทำให้เกิดคำถามของฉัน มีหลายสิ่งที่ฉันไม่เข้าใจในสิ่งที่คุณเขียน ฉันจะเดินทางข้ามปีใหม่และจะไม่มีเวลาคิดเกี่ยวกับมัน แต่ฉันจะกลับมาที่หัวข้อนี้เมื่อฉันกลับมาในเดือนมกราคม ในระหว่างนี้ฉันอยากจะสนับสนุน @JohnK อีกครั้งเพื่อโพสต์คำตอบที่เพิ่มขึ้นในประเด็นที่เขาแสดงความคิดเห็น ฉันขอขอบคุณคำอธิบายทางเทคนิคเพิ่มเติมโดยเฉพาะอย่างยิ่งบางทีอาจมีตัวอย่างเฉพาะ สุขสันต์วันคริสต์มาสและสวัสดีปีใหม่สำหรับทุกท่าน!
อะมีบาพูดว่า Reinstate Monica

1
สุขสันต์วันคริสต์มาสให้คุณด้วย ในโพสต์ที่เชื่อมโยงของฉันฉันแค่คิดเกี่ยวกับการประเมินความแปรปรวนของผลแบบสุ่มซึ่งเป็น MOM ในแนวทางดั้งเดิม ขออภัยถ้าคำพูดของฉันฟังโดยทั่วไปมากกว่าที่ฉันตั้งใจไว้
Placidia

2
หลังจาก 1.5 ปีฉันอ่านคำตอบของคุณอีกครั้งและรู้ว่ามันค่อนข้างชัดเจนดังนั้นในที่สุดฉันก็ทำเครื่องหมายว่าเป็น :-) ไชโย
อะมีบาพูดว่า Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.