เหตุใดสมมติฐานของ ANOVA (ความเท่าเทียมกันของความแปรปรวน, ความปกติของเศษวัสดุ) จึงมีความสำคัญ?


15

เมื่อเรียกใช้ ANOVA เราจะได้รับการบอกกล่าวว่าสมมติฐานบางข้อของการทดสอบจะต้องมีอยู่เพื่อให้สามารถใช้กับข้อมูลได้ ฉันไม่เคยเข้าใจเหตุผลว่าทำไมจึงจำเป็นต้องใช้สมมติฐานต่อไปนี้ในการทดสอบการทำงาน:

  1. ความแปรปรวนของตัวแปรตาม (ส่วนที่เหลือ) ของคุณควรจะเท่ากันในแต่ละเซลล์ของการออกแบบ

  2. ตัวแปร (ส่วนที่เหลือ) ของคุณควรกระจายตามปกติสำหรับแต่ละเซลล์ของการออกแบบ

ฉันเข้าใจว่ามีบางส่วนของพื้นที่สีเทาที่จะต้องพบกับสมมติฐานเหล่านี้ แต่เพื่อประโยชน์ของการโต้แย้งหากสมมติฐานเหล่านี้ไม่ได้พบกันอย่างเต็มที่ในชุดข้อมูลที่กำหนดสิ่งที่จะเป็นปัญหากับการใช้ ANOVA ?


เป้าหมายของการศึกษาของคุณคืออะไร?
Subhash C. Davar

คำตอบ:


8

สมมติฐานมีความสำคัญตราบเท่าที่พวกมันส่งผลกระทบต่อคุณสมบัติของการทดสอบสมมติฐาน (และช่วงเวลา) ที่คุณอาจใช้ซึ่งมีคุณสมบัติการคำนวณการกระจายภายใต้โมฆะโดยอาศัยสมมติฐานเหล่านั้น

โดยเฉพาะอย่างยิ่งสำหรับการทดสอบสมมติฐานสิ่งที่เราอาจสนใจคือระดับความสำคัญที่แท้จริงอาจมาจากสิ่งที่เราต้องการให้เป็นและสิ่งที่ว่าพลังต่อต้านทางเลือกที่น่าสนใจเป็นสิ่งที่ดี

เกี่ยวกับสมมติฐานที่คุณถามเกี่ยวกับ:

1. ความเท่าเทียมกันของความแปรปรวน

ความแปรปรวนของตัวแปรตาม (ส่วนที่เหลือ) ของคุณควรจะเท่ากันในแต่ละเซลล์ของการออกแบบ

สิ่งนี้สามารถส่งผลกระทบต่อระดับนัยสำคัญอย่างน้อยที่สุดเมื่อขนาดตัวอย่างไม่เท่ากัน

(แก้ไข :) ANOVA F-statistic คืออัตราส่วนของการประมาณค่าความแปรปรวนสองครั้ง (การแบ่งและการเปรียบเทียบความแปรปรวนคือสาเหตุที่เรียกว่าการวิเคราะห์ความแปรปรวน) ตัวหารเป็นค่าประมาณของความแปรปรวนข้อผิดพลาดที่พบได้ทั่วไปทั่วทุกเซลล์ (คำนวณจากส่วนที่เหลือ) ในขณะที่ตัวเศษตามการแปรผันของค่าเฉลี่ยของกลุ่มจะมีสององค์ประกอบหนึ่งจากการแปรผันของค่าเฉลี่ยของประชากรและหนึ่ง เนื่องจากความแปรปรวนข้อผิดพลาด หากค่า Null เป็นจริงค่าความแปรปรวนสองค่าที่ประมาณจะเหมือนกัน (ค่าประมาณสองค่าของความแปรปรวนข้อผิดพลาดทั่วไป); ค่าทั่วไป แต่ไม่ทราบค่านี้ยกเลิก (เพราะเราเอาอัตราส่วน) ออกจากสถิติ F ที่ขึ้นอยู่กับการแจกแจงของข้อผิดพลาดเท่านั้น (ซึ่งภายใต้สมมติฐานที่เราสามารถแสดงได้มีการแจกแจงแบบ F (ความเห็นที่คล้ายกันใช้กับ t- ทดสอบที่ฉันใช้เป็นภาพประกอบ)

[มีรายละเอียดเพิ่มเติมเล็กน้อยเกี่ยวกับข้อมูลบางส่วนในคำตอบของฉันที่นี่ ]

อย่างไรก็ตามที่นี่ประชากรทั้งสองความแปรปรวนของแตกต่างกันไปตามตัวอย่างขนาดแตกต่างกันสองแบบ พิจารณาตัวหาร (ของ F-statistic ใน ANOVA และ t-statistic ใน t-test) - มันประกอบด้วยการประมาณค่าความแปรปรวนสองแบบที่แตกต่างกันไม่ใช่หนึ่งดังนั้นมันจะไม่มีการกระจาย "ถูกต้อง" - สี่เหลี่ยมสำหรับ F และรากที่สองของมันในกรณีของ at - ทั้งรูปร่างและมาตราส่วนเป็นปัญหา)

ด้วยเหตุนี้สถิติ F หรือสถิติ t จะไม่มีการกระจาย F หรือ t อีกต่อไป แต่ลักษณะที่ได้รับผลกระทบจะแตกต่างกันไปขึ้นอยู่กับว่ากลุ่มตัวอย่างขนาดใหญ่หรือขนาดเล็กถูกดึงมาจากประชากรด้วย ความแปรปรวนที่ใหญ่กว่า สิ่งนี้จะส่งผลกระทบต่อการกระจายของค่า p

ภายใต้ null (เช่นเมื่อค่าเฉลี่ยประชากรเท่ากัน) การกระจายของค่า p ควรกระจายอย่างสม่ำเสมอ อย่างไรก็ตามหากความแปรปรวนและขนาดตัวอย่างไม่เท่ากัน แต่ค่าเฉลี่ยเท่ากัน (ดังนั้นเราไม่ต้องการปฏิเสธค่า null) ค่า p จะไม่กระจายอย่างสม่ำเสมอ ฉันจำลองเล็ก ๆ เพื่อแสดงให้คุณเห็นว่าเกิดอะไรขึ้น ในกรณีนี้ฉันใช้เพียง 2 กลุ่มดังนั้น ANOVA จึงเท่ากับ t-test สองตัวอย่างที่มีสมมติฐานความแปรปรวนเท่ากัน ดังนั้นผมจึงจำลองตัวอย่างจากการแจกแจงปกติสองอันที่มีค่าเบี่ยงเบนมาตรฐานสิบเท่าใหญ่กว่าอีกอัน แต่ค่าเฉลี่ยเท่ากัน

สำหรับพล็อตด้านซ้ายค่าเบี่ยงเบนมาตรฐานขนาดใหญ่ ( ประชากร ) สำหรับ n = 5 และค่าเบี่ยงเบนมาตรฐานที่เล็กกว่าสำหรับ n = 30 สำหรับพล็อตด้านขวาส่วนเบี่ยงเบนมาตรฐานที่ใหญ่ขึ้นไปด้วย n = 30 และเล็กลงด้วย n = 5 ฉันจำลองแต่ละ 10,000 ครั้งและพบค่า p ในแต่ละครั้ง ในแต่ละกรณีคุณต้องการให้ฮิสโตแกรมแบนอย่างสมบูรณ์ (รูปสี่เหลี่ยมผืนผ้า) เนื่องจากนี่หมายถึงการทดสอบทั้งหมดที่ดำเนินการในระดับนัยสำคัญพร้อมกับได้รับอัตราความผิดพลาดประเภทที่ 1 โดยเฉพาะอย่างยิ่งมันเป็นสิ่งสำคัญที่สุดที่ส่วนซ้ายสุดของฮิสโตแกรมจะอยู่ใกล้กับเส้นสีเทา:α

ฮิสโทแกรมของค่า p สำหรับตัวอย่างที่จำลอง

ดังที่เราเห็นพล็อตด้านซ้าย (ความแปรปรวนที่มากขึ้นในกลุ่มตัวอย่างขนาดเล็ก) ค่า p มีแนวโน้มที่จะเล็กมาก - เราจะปฏิเสธสมมติฐานว่างบ่อยมาก (เกือบครึ่งเวลาในตัวอย่างนี้) แม้ว่าค่า null จะเป็นจริง . นั่นคือระดับความสำคัญของเรานั้นใหญ่กว่าที่เราร้องขอ ในพล็อตด้านขวาเราเห็นว่าค่า p ส่วนใหญ่มีขนาดใหญ่ (และระดับความสำคัญของเรานั้นเล็กกว่าที่เราถาม) - อันที่จริงไม่ได้จำลองเพียงครั้งเดียวในหมื่นหมื่นครั้งที่เราปฏิเสธในระดับ 5% (เล็กที่สุด ค่า p นี่คือ 0.055) [สิ่งนี้อาจฟังดูไม่ดีเลยจนกระทั่งเราจำได้ว่าเราจะมีพลังงานต่ำเช่นกันในการก้าวไปสู่ระดับนัยสำคัญที่ต่ำมากของเรา]

นั่นเป็นผลที่ตามมา นี่เป็นเหตุผลที่เป็นความคิดที่ดีที่จะใช้ Welch-Satterthwaite type t-test หรือ ANOVA เมื่อเราไม่มีเหตุผลที่ดีที่จะสมมติว่าความแปรปรวนจะใกล้เคียงกัน - โดยการเปรียบเทียบมันแทบจะไม่ได้รับผลกระทบในสถานการณ์เหล่านี้ (ฉัน จำลองกรณีนี้เช่นกันการแจกแจงค่า p- สองค่า - ซึ่งฉันไม่ได้แสดงที่นี่ - ออกมาค่อนข้างใกล้เคียงกับแฟลต)

2. การกระจายการตอบสนองแบบมีเงื่อนไข (DV)

ตัวแปร (ส่วนที่เหลือ) ของคุณควรกระจายตามปกติสำหรับแต่ละเซลล์ของการออกแบบ

สิ่งนี้ค่อนข้างมีความสำคัญน้อยกว่าโดยตรง - สำหรับการเบี่ยงเบนระดับปานกลางจากภาวะปกติระดับความสำคัญนั้นไม่ได้รับผลกระทบมากนักในกลุ่มตัวอย่างขนาดใหญ่

นี่คือตัวอย่างหนึ่งที่ค่าที่มีการกระจายชี้แจง (กับการกระจายเหมือนกันและขนาดตัวอย่าง) ที่เราสามารถเห็นปัญหาระดับนัยสำคัญนี้เป็นอย่างมากที่มีขนาดเล็กแต่ลดขนาดใหญ่nnn

ฮิสโทแกรมของค่า p เมื่อ H0 เป็นจริง แต่การแจกแจงในแต่ละกลุ่มเป็นเลขยกกำลัง

เราเห็นว่าที่ n = 5 มีค่า p น้อยมากน้อยมาก (ระดับนัยสำคัญสำหรับการทดสอบ 5% น่าจะประมาณครึ่งหนึ่งที่ควรจะเป็น) แต่ที่ n = 50 ปัญหาจะลดลง - สำหรับ 5% การทดสอบในกรณีนี้ระดับนัยสำคัญที่แท้จริงคือประมาณ 4.5%

ดังนั้นเราอาจถูกล่อลวงให้พูดว่า "เอาละดีแล้วถ้า n ใหญ่พอที่จะทำให้ระดับความสำคัญใกล้เคียงกันมาก" แต่เราอาจจะทิ้งพลังที่ดีเช่นกัน โดยเฉพาะอย่างยิ่งเป็นที่ทราบกันว่าประสิทธิภาพเชิงสัมพัทธ์ของซีมโทติคของ t-test เทียบกับทางเลือกที่ใช้กันอย่างแพร่หลายสามารถไปที่ 0 ซึ่งหมายความว่าตัวเลือกการทดสอบที่ดีกว่าจะได้รับพลังงานเดียวกันโดยใช้เศษตัวอย่างเล็ก ๆ น้อย ๆ การทดสอบที คุณไม่ต้องการอะไรออกไปจากสามัญเพื่อที่จะต้องการมากกว่าสองเท่าของข้อมูลที่จะมีกำลังเท่ากันกับ t ตามที่คุณต้องการด้วยการทดสอบทางเลือก - หางที่หนักกว่าปกติในการกระจายประชากร และตัวอย่างที่มีขนาดใหญ่พอสมควรก็เพียงพอที่จะทำได้

(ตัวเลือกการกระจายอื่น ๆ อาจทำให้ระดับนัยสำคัญสูงกว่าที่ควรจะเป็นหรือต่ำกว่าที่เราเห็นที่นี่)


ขอบคุณ Glen สำหรับการตอบกลับอย่างละเอียด ฉันอยากรู้ว่าทำไมข้อผิดพลาดที่คุณอธิบายจะเกิดขึ้นหากสมมติฐานไม่เป็นไปตามเงื่อนไขที่เท่าเทียมกันของความแปรปรวนฉันต้องแก้ไขจากการเขียนของคุณต่อไปนี้หรือไม่: ปัญหาที่เกิดขึ้นจากการมีกลุ่มตัวอย่างขนาดเล็กลง ความแปรปรวนที่ใหญ่กว่าคือ (เช่นเดียวกับจำนวนจุดข้อมูลที่มีขนาดเล็กโดยทั่วไปนั่นคือ n = 5) ที่ความแปรปรวนที่ใหญ่กว่าที่สังเกตได้ในกลุ่มตัวอย่างขนาดเล็กนั้นจะถูกคำนวณในฐานะตัวแทนของความแปรปรวนในระดับประชากร
PaperRockBazooka

(ตอนที่ 2) เป็นการเปรียบเทียบที่ไม่ยุติธรรมระหว่างตัวอย่างตัวแทนกับตัวอย่างที่อยู่ภายใต้ตัวแทน (ค่อนข้างพูด) ซึ่งอาจนำไปสู่ข้อผิดพลาดประเภท 1 เนื่องจากวิธีการประมวลผล ANOVA
PaperRockBazooka

@ กระดาษฉันไม่คิดว่านั่นเป็นปัญหาที่นี่ มันไม่ได้เป็นตัวแทนของความแปรปรวนตัวอย่างในตัวอย่างเล็ก ๆ (เช่นถ้าทั้งสองตัวอย่างมีขนาดเล็กเท่ากันคุณจะมีปัญหาสองเท่ากับการเป็นตัวแทน แต่ปัญหานี้จะหายไป) ฉันได้เพิ่มย่อหน้าสองสามย่อหน้าลงในคำตอบของฉันเพื่ออธิบายว่าปัญหาเกิดขึ้นอย่างละเอียดมากขึ้นได้อย่างไร
Glen_b -Reinstate Monica

4

สั้น, ANOVA จะเพิ่ม , squaringและเฉลี่ย เหลือ ส่วนที่เหลือบอกคุณว่าแบบจำลองของคุณเหมาะสมกับข้อมูลอย่างไร สำหรับตัวอย่างนี้ฉันใช้PlantGrowthชุดข้อมูลในR:

ผลลัพธ์จากการทดลองเพื่อเปรียบเทียบผลผลิต (วัดจากน้ำหนักแห้งของพืช) ที่ได้รับภายใต้การควบคุมและเงื่อนไขการรักษาสองแบบ

พล็อตแรกนี้แสดงให้คุณเห็นถึงความหมายที่ยิ่งใหญ่ของทั้งสามระดับการรักษา:

ป้อนคำอธิบายรูปภาพที่นี่

เส้นสีแดงเป็นคลาดเคลื่อน ตอนนี้ด้วยการยกกำลังสองและการเพิ่มความยาวของแต่ละบรรทัดคุณจะได้รับค่าที่บอกคุณว่าค่าเฉลี่ย (โมเดลของเรา) อธิบายข้อมูลได้ดีเพียงใด จำนวนน้อยบอกค่าเฉลี่ยอธิบายจุดข้อมูลของคุณดีขึ้นตัวเลขที่ใหญ่กว่าบอกค่าเฉลี่ยอธิบายข้อมูลของคุณไม่ค่อยดี หมายเลขนี้เรียกว่าผลรวมของกำลังสอง :

SSเสื้อโอเสื้อaล.=Σ(xผม-x¯ก.Rand)2xผมx¯ก.Randหมายถึงแกรนด์ทั่วชุดข้อมูล

ตอนนี้คุณทำสิ่งเดียวกันกับส่วนที่เหลือในการรักษาของคุณ ( Residual Sums of Squaresซึ่งเป็นที่รู้จักกันว่าเสียงในระดับการรักษา):

ป้อนคำอธิบายรูปภาพที่นี่

และสูตร:

SSRอีsผมdยูaล.s=Σ(xผมk-x¯k)2xผมkผมkx¯k

สุดท้ายเราต้องกำหนดสัญญาณในข้อมูลซึ่งเป็นที่รู้จักกันในชื่อModel Sums of Squaresซึ่งจะถูกนำมาใช้ในการคำนวณว่าวิธีการรักษาแตกต่างจากค่าเฉลี่ยขนาดใหญ่หรือไม่:

ป้อนคำอธิบายรูปภาพที่นี่

และสูตร:

SSม.โอdอีล.=Σnk(x¯k-x¯ก.Rand)2nknkx¯kx¯ก.Randค่าเฉลี่ยภายในและระหว่างระดับการรักษาตามลำดับ

ตอนนี้ข้อเสียของผลบวกของสี่เหลี่ยมจัตุรัสคือพวกมันใหญ่ขึ้นเมื่อขนาดตัวอย่างเพิ่มขึ้น ในการแสดงจำนวนสแควร์สเหล่านั้นที่สัมพันธ์กับจำนวนการสังเกตในชุดข้อมูลคุณแบ่งพวกมันด้วยองศาความอิสระของพวกเขาทำให้พวกมันกลายเป็นความแปรปรวน ดังนั้นหลังจากยกกำลังสองและเพิ่มจุดข้อมูลของคุณคุณกำลังเฉลี่ยพวกเขาโดยใช้องศาอิสระ:

dเสื้อโอเสื้อaล.=(n-1)

dRอีsผมdยูaล.=(n-k)

dม.โอdอีล.=(k-1)

nkระดับการรักษา

สิ่งนี้ส่งผลให้Model Mean SquareและResidual Mean Square (ทั้งคู่เป็นความแปรปรวน) หรืออัตราส่วนสัญญาณต่อสัญญาณรบกวนซึ่งเป็นที่รู้จักกันในชื่อ F-value:

MSม.โอdอีล.=SSม.โอdอีล.dม.โอdอีล.

MSRอีsผมdยูaล.=SSRอีsผมdยูaล.dRอีsผมdยูaล.

F=MSม.โอdอีล.MSRอีsผมdยูaล.

ค่า F อธิบายค่าอัตราส่วนสัญญาณต่อสัญญาณรบกวนหรือไม่ว่าวิธีการรักษาจะแตกต่างจากค่าเฉลี่ยขนาดใหญ่หรือไม่ ตอนนี้ค่า F ถูกใช้ในการคำนวณค่า p และผู้ที่จะตัดสินใจว่าอย่างน้อยหนึ่งในวิธีการรักษาจะแตกต่างอย่างมีนัยสำคัญจากค่าเฉลี่ยที่ยิ่งใหญ่หรือไม่

ตอนนี้ฉันหวังว่าคุณจะเห็นว่าข้อสันนิษฐานนั้นขึ้นอยู่กับการคำนวณด้วยส่วนที่เหลือและสาเหตุที่สำคัญ เนื่องจากเราเพิ่ม , squaringและเฉลี่ยเหลือ, เราควรตรวจสอบให้แน่ใจว่าก่อนที่เรากำลังทำนี้ข้อมูลในบรรดากลุ่มการรักษาพฤติกรรมที่คล้ายกันหรืออื่น ๆ F-ค่าอาจจะลำเอียงในระดับหนึ่งและหาข้อสรุปมาจากนี้ F-ค่าอาจ ไม่ถูกต้อง

แก้ไข: ฉันเพิ่มวรรคสองที่จะตอบคำถามของ OP 2 และ 1 มากขึ้นโดยเฉพาะ

สมมติฐานทั่วไป : ค่าเฉลี่ย (หรือค่าที่คาดหวัง) มักใช้ในสถิติเพื่ออธิบายจุดศูนย์กลางของการแจกแจงอย่างไรก็ตามมันไม่ได้มีความแข็งแกร่งและได้รับอิทธิพลจากผู้ผิด ค่าเฉลี่ยเป็นแบบจำลองที่ง่ายที่สุดที่เราสามารถพอดีกับข้อมูล เนื่องจากใน ANOVA เราใช้ค่าเฉลี่ยในการคำนวณจำนวนเงินที่เหลือและผลรวมของกำลังสอง (ดูสูตรด้านบน) ข้อมูลควรจะกระจายอย่างประมาณปกติ (สมมุติฐานเชิงกฎเกณฑ์) หากไม่เป็นเช่นนั้นค่าเฉลี่ยอาจไม่ใช่แบบจำลองที่เหมาะสมสำหรับข้อมูลเนื่องจากมันจะไม่ให้ตำแหน่งที่ถูกต้องของศูนย์กลางการกระจายตัวตัวอย่าง แทนที่จะสามารถใช้ค่ามัธยฐานแทนได้ (ดูขั้นตอนการทดสอบที่ไม่ใช่พารามิเตอร์)

ความสม่ำเสมอของข้อสมมติฐานความแปรปรวน : ต่อมาเมื่อเราคำนวณค่าเฉลี่ยกำลังสอง (โมเดลและส่วนที่เหลือ) เรากำลังรวมผลรวมของกำลังสองแต่ละตัวจากระดับการรักษาและเฉลี่ย (ดูสูตรด้านบน) ด้วยการรวมกำไรและค่าเฉลี่ยเรากำลังสูญเสียข้อมูลของความแปรปรวนของระดับการรักษาของแต่ละบุคคลและการมีส่วนร่วมกับค่าเฉลี่ยกำลังสอง ดังนั้นเราควรมีความแปรปรวนแบบเดียวกันในทุกระดับการรักษาเพื่อให้การมีส่วนร่วมของกำลังสองเฉลี่ยมีความคล้ายคลึงกัน หากความแตกต่างระหว่างระดับการรักษาเหล่านั้นแตกต่างกันดังนั้นค่าเฉลี่ยสี่เหลี่ยมที่เกิดขึ้นและค่า F จะมีอคติและจะมีผลต่อการคำนวณค่า p เพื่อทำการอนุมานที่ดึงมาจากค่า p เหล่านี้ที่น่าสงสัย (ดูความเห็นของ @whuber และ คำตอบของ @Glen_b)

นี่คือวิธีที่ฉันเห็นด้วยตัวเอง มันอาจไม่ถูกต้อง 100% (ฉันไม่ใช่นักสถิติ) แต่มันช่วยให้ฉันเข้าใจว่าทำไมการทำตามสมมติฐานของ ANOVA จึงเป็นสิ่งสำคัญ


บัญชีของคุณดี แต่คุณหยุดตอบคำถามสั้น ๆ ! Fสถิติเป็นคำอธิบายที่เป็นประโยชน์ของ ANOVA ไม่ว่าจะเกิดอะไรขึ้น ข้อสมมุติฐานเรื่องความเป็นเนื้อเดียวกันและความเป็นบรรทัดฐานเป็นสิ่งจำเป็นเพื่อให้F สถิติจะมี Fการกระจายอัตราส่วน นอกจากนี้การละเมิดข้อสันนิษฐานทั้งสองมีแนวโน้มที่จะทำให้F การกระจายของสถิติออกอย่างชัดเจนจาก Fการกระจายอัตราส่วนทำให้เกิดข้อสงสัยในค่า p ใด ๆ ที่คำนวณได้ นั่นคือเหตุผลที่คำตอบอื่น ๆ เช่นโดย @Glen_b มุ่งเน้นไปที่การแจกจ่ายนี้
whuber

@ เมื่อไรฉันขอขอบคุณความคิดเห็นของคุณมันช่วยให้ฉันเรียนรู้ ฉันจะต้องปล่อยให้จมนี้และใช้เวลาดูF อัตราส่วนกับ Fการแจกแจงเชิงสถิติและวิธีที่พวกเขามีอิทธิพลต่อการคำนวณค่า p
Stefan

ขอบคุณสเตฟาน ฉันต้องการดูว่าฉันเข้าใจคุณถูกต้องหรือไม่ ANOVA สร้างค่าเฉลี่ยที่ยิ่งใหญ่จากจุดข้อมูลทั้งหมดของชุดและเปรียบเทียบว่าแต่ละกลุ่มนั้นแตกต่างจากค่าเฉลี่ยอันยิ่งใหญ่นี้เพื่อทำความเข้าใจอย่างไรหากความแตกต่างของพวกเขามีนัยสำคัญทางสถิติ หากสมมติฐานที่กล่าวมาไม่เป็นไปตามนั้นค่าเฉลี่ยที่ยิ่งใหญ่นั้นไม่ได้สะท้อนอย่างมากของกลุ่มที่ถูกเปรียบเทียบและนำไปสู่ความยากลำบากในการเปรียบเทียบ
PaperRockBazooka

@PaperRockBazooka ใน ANOVA คุณกำลังเปรียบเทียบสัญญาณกับเสียง หากคุณไม่สามารถตรวจจับสัญญาณได้เช่นผลกระทบจากการรักษาของคุณที่มีต่อผลลัพธ์คุณอาจใช้ค่าเฉลี่ยที่ยิ่งใหญ่เป็นแบบจำลองเพื่ออธิบายข้อมูล เรากำลังใช้ความแตกต่างของจุดข้อมูลไปยังค่าเฉลี่ยที่ยิ่งใหญ่ (SSเสื้อโอเสื้อaล.) ความแตกต่างของข้อมูลชี้ไปที่การรักษาหมายถึง (SSRอีsผมdยูaล.) และความแตกต่างของการรักษาหมายถึงค่าเฉลี่ยที่ยิ่งใหญ่ (SSม.โอdอีล.) เพื่อกำหนดอัตราส่วนสัญญาณต่อสัญญาณรบกวน ลองคำนวณ ANOVA แบบวันเวย์ง่ายๆด้วยมือ นั่นช่วยให้ฉันเข้าใจได้ดีขึ้น
Stefan

0

ANOVA เป็นเพียงวิธีการคำนวณ F-test จากตัวอย่างของคุณและเปรียบเทียบกับการกระจาย F คุณต้องการสมมติฐานบางอย่างเพื่อตัดสินใจว่าคุณต้องการเปรียบเทียบและคำนวณค่า p

หากคุณไม่ตรงตามสมมติฐานคุณสามารถคำนวณสิ่งอื่น ๆ ได้ แต่มันจะไม่ใช่ ANOVA

การกระจายที่มีประโยชน์มากที่สุดคือการแจกแจงแบบปกติ (เนื่องจาก CLT) นั่นคือสาเหตุที่มันถูกใช้บ่อยที่สุด หากข้อมูลของคุณไม่ได้กระจายตามปกติคุณอย่างน้อยต้องรู้ว่าการกระจายของข้อมูลนั้นคืออะไรเพื่อคำนวณบางอย่าง

Homoscedasticity เป็นข้อสันนิษฐานทั่วไปในการวิเคราะห์การถดถอยมันทำให้ทุกอย่างง่ายขึ้น เราต้องการสมมติฐานบางอย่างเพื่อเริ่มต้น

หากคุณไม่มีความเป็นเนื้อเดียวกันคุณสามารถลองแปลงข้อมูลของคุณให้เป็นจริงได้

ANOVA F-test เป็นที่รู้จักกันว่าเกือบจะดีที่สุดในแง่ของการลดข้อผิดพลาดเชิงลบที่ผิดพลาดเพื่อลดอัตราข้อผิดพลาดบวกที่ผิดพลาด


"ANOVA" หมายถึงกระบวนการของการแยกจำนวนสแควร์สออกเป็นส่วนประกอบที่ตีความได้ โดยไม่คำนึงถึงสมมติฐานการกระจายดังนั้น ANOVA คือ ANOVA
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.