ANOVA ตอบคำถามอะไร


10

ฉันต้องการเรียนรู้ ANOVA ก่อนที่ฉันจะเริ่มเรียนรู้วิธีการทำงานของอัลกอริธึม (การคำนวณแบบใดที่ต้องทำ) และสาเหตุที่ได้ผลฉันต้องรู้ก่อนว่าเราแก้ปัญหาอะไรกับ ANOVA หรือเราพยายามตอบคำถามใด กล่าวอีกนัยหนึ่ง: อินพุตคืออะไรและเอาต์พุตของอัลกอริทึมคืออะไร

ฉันเข้าใจสิ่งที่เราใช้เป็นอินพุต เรามีชุดของตัวเลข แต่ละหมายเลขมาพร้อมกับค่าของตัวแปรเด็ดขาดอย่างน้อยหนึ่งตัวแปร (หรือเรียกอีกอย่างว่า "ปัจจัย") ตัวอย่างเช่น:

+------------+------------+-------+
|   factor 1 |   factor 2 | value |
+------------+------------+-------+
|     "A"    |     "a"    |  1.0  |
|     "A"    |     "a"    |  2.4  |
|     "A"    |     "b"    |  0.3  |
|     "A"    |     "b"    |  7.4  |
|     "B"    |     "a"    |  1.2  |
|     "B"    |     "a"    |  8.4  |
|     "B"    |     "b"    |  0.4  |
|     "B"    |     "b"    |  7.2  |
+------------+------------+-------+

มันถูกต้องหรือไม่ที่จะบอกว่า ANOVA คำนวณค่า p-value ของสมมติฐานว่างที่ระบุว่าไม่มีผลกระทบของปัจจัยที่มีต่อค่าเฉลี่ยของค่าหรือไม่ กล่าวอีกนัยหนึ่งเราให้ข้อมูลที่ระบุข้างต้นกับอัลกอริทึมและด้วยเหตุนี้เราจึงได้ค่า p-value ของสมมติฐานว่าง?

หากเป็นกรณีนี้เราใช้การวัดจริงเพื่อคำนวณค่า p ตัวอย่างเช่นเราสามารถพูดได้ว่าเนื่องจากสมมติฐานว่าง M สามารถสูงได้เท่าที่สังเกต (หรือสูงกว่า) โดยบังเอิญใน 1% ของกรณี เอ็มคืออะไร

เราไม่ได้ตรวจสอบปัจจัยต่างๆใน ANOVA แยกกันด้วยใช่ไหม ANOVA สามารถพูดได้ว่า factor_1 มีผล แต่ factor_2 ไม่ได้หรือไม่ ANOVA สามารถพูดได้หรือไม่ว่าสำหรับค่าปัจจัยที่กำหนดซึ่งสอดคล้องกับค่า "A", "B" และ "C" นั้นไม่สามารถแยกสถิติได้ (มีค่าเฉลี่ยเดียวกันตัวอย่าง) แต่ค่า "D" มีผลหรือไม่?

คำตอบ:


6

ANOVA หมายถึง "การวิเคราะห์ความแปรปรวน" ค่อนข้างแปลกใจมันวิเคราะห์ความแปรปรวน

เรามาดูเพิ่มเติมอีกเล็กน้อย ข้อสังเกตของคุณจะแสดงความแปรปรวนบางอย่าง หากคุณจัดกลุ่มการสังเกตของคุณตามปัจจัยที่ 1 ความแปรปรวนภายในกลุ่มที่กำหนดโดยปัจจัยที่ 1 จะเล็กกว่าความแปรปรวนโดยรวม ตัวประกอบ 1 "อธิบายความแปรปรวน"

อย่างไรก็ตามนี่ไม่เพียงพอที่จะสรุปได้ว่าปัจจัย 1 จริง ๆ แล้วมีความสัมพันธ์กับการสังเกตของคุณ ... เนื่องจากการจัดกลุ่มตามสิ่งใดก็ตามจะ "อธิบาย" ความแปรปรวน สิ่งที่ดีคือเรารู้ว่าจะอธิบายความแปรปรวนได้มากน้อยเพียงใดภายใต้สมมติฐานว่างที่ปัจจัยของคุณทำในความเป็นจริงไม่มีส่วนเกี่ยวข้องกับการสังเกตของคุณ จำนวนความแปรปรวนนี้อธิบายภายใต้ค่าN อธิบายโดยการแจกแจงแบบF

ดังนั้นกลยุทธ์ในการวิเคราะห์ความแปรปรวนคือการประเมินความแปรปรวนโดยรวมและความแปรปรวนภายในกลุ่ม (โดยใช้ผลบวกของกำลังสอง) และการคำนวณอัตราส่วนของความแปรปรวนโดยประมาณเหล่านี้ อัตราส่วนนี้คือสถิติจากนั้นเราเปรียบเทียบสถิตินี้กับค่าวิกฤตของการแจกแจงในการทดสอบด้านเดียวซึ่งให้ค่าของคุณ จำนวนระดับปัจจัยเข้าสู่พารามิเตอร์หนึ่งของการแจกแจงแบบ (ระดับตัวประกอบจะอธิบายความแปรปรวนได้มากขึ้นภายใต้สมมติฐานว่าง) และจำนวนการสังเกตและจำนวนระดับที่จะเข้าสู่อีกระดับหนึ่ง คำถามก่อนหน้านี้อาจมีประโยชน์FFFpF

(ทำไมด้านเดียวทดสอบ? เพราะเป็นข้างต้นใด ๆการจัดกลุ่มจะอธิบายความแปรปรวนบางอย่างเพื่อให้มันมี แต่จะทำให้ความรู้สึกที่จะตรวจสอบว่าปัจจัยที่คุณอธิบายอย่างมีนัยสำคัญที่มีขนาดใหญ่ปริมาณของความแปรปรวน.)

ส่วน"ตัวอย่างที่สร้างแรงบันดาลใจ" ของรายการ Wikipediaมีภาพประกอบที่ดีมากของปัจจัยที่อธิบายเพียงเล็กน้อยบางอย่างและความแปรปรวนโดยรวมจำนวนมาก

การวิเคราะห์ความแปรปรวนสองทางและการโต้ตอบเช่นเดียวกับตัวอย่างของคุณเช่นเดียวกับ ANCOVA นั้นเป็นเพียงภาพรวมของธีมนี้ ในแต่ละกรณีเราตรวจสอบว่าการเพิ่มตัวแปรอธิบายอธิบายความแปรปรวนจำนวนมากอย่างมีนัยสำคัญหรือไม่

เมื่อเรามีการทดสอบโดยรวมที่สำคัญแล้วเราสามารถตรวจสอบได้ว่าการสังเกตระดับปัจจัยบางอย่างนั้นแตกต่างจากการทดสอบโพสต์เฉพาะกิจหรือไม่ ตัวอย่างเช่น D อาจแตกต่างจาก A, B และ C แต่อาจไม่แตกต่างกันอย่างมีนัยสำคัญ โดยทั่วไปคุณจะใช้การทดสอบสำหรับสิ่งนี้ คำถามนี้ก่อนหน้านี้อาจจะมีประโยชน์เช่นเดียวกับคนนี้Ft


ดังนั้นเราใช้ตัวเลขทั้งหมดเพื่อคำนวณความแปรปรวนโดยรวมจากนั้นเราคำนวณความแปรปรวนสำหรับแต่ละกลุ่มและสุดท้ายเรารวมความแปรปรวนเหล่านี้ทั้งหมด (อาจรวมถึงขนาดกลุ่ม) เพื่อรับ "การวัด":n_k) จากนั้นเราคำนวณความน่าจะเป็นของ M ให้ใหญ่เท่ากับหรือใหญ่กว่าภายใต้สมมติฐานว่าสมมติฐานว่างนั้นถูกต้อง VviM=M(V,v1,v2,...,vk,n1,n2,...,nk)
Roman

เผง M เป็นของคุณ Fสถิติ. นี่คือสูตรจริง
Stephan Kolassa

พูดตามตรงฉันก็ยังสับสนอยู่ เท่าที่ฉันได้รับคุณ ANOVA จะส่งกลับค่า p ของสมมติฐานว่าง แต่ในอีกทางหนึ่งจาก "ตัวอย่างการสร้างแรงจูงใจ" จาก Wikipedia เราสามารถสรุปได้ว่า ANOVA ให้ปัจจัยที่ดีที่สุดแก่เรา (หรือการรวมกันของปัจจัย) ซึ่ง "อธิบาย" ข้อมูลที่ดีที่สุด ดังนั้นในตัวอย่าง ANOVA กล่าวว่าสายพันธุ์นั้นเป็นปัจจัยที่ดีที่สุดในการอธิบายน้ำหนักของสุนัข
Roman

1
โหลด "ดีที่สุด" แล้ว สิ่งนี้เล็ดลอดเข้ามาในอาณาเขตตามตัวเลือกแบบขั้นตอนตามขั้นตอนและนั่นเป็นปัญหา อย่าอ่านตัวอย่างที่สร้างแรงบันดาลใจมากเกินไป สิ่งที่ดีที่สุดเกี่ยวกับมันคือการอธิบายความแปรปรวนที่อธิบายไว้ (ศูนย์น้อยมาก) ดีกว่าที่จะลงไปและอ่านเกี่ยวกับวิธีการFสถิติคำนวณจากผลรวมของกำลังสองและจำไว้ว่าผลบวกของกำลังสองเหล่านั้นเป็นเพียงตัวประมาณความแปรปรวน
Stephan Kolassa
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.