สถิติของ Chi Squared ของ Pearson ประมาณว่าการกระจายตัวของ Chi Squared อย่างไร


10

ดังนั้นหากได้รับสถิติ Chi Squared ของ Pearson สำหรับตารางรูปแบบของมันคือ:1×N

i=1n(OiEi)2Ei

จากนั้นสิ่งนี้จะประมาณการกระจาย Chi-Squared ที่มีอิสระขององศาเมื่อขนาดตัวอย่างมีขนาดใหญ่ขึ้น χn12n1N

สิ่งที่ฉันไม่เข้าใจก็คือวิธีการประมาณ asymptotic นี้ทำงานอย่างไร ฉันรู้สึกเหมือน 's ในหารจะถูกแทนที่ด้วย{} นับได้ว่าจะให้คุณสำหรับ(0,1) แต่แน่นอนว่ามันมีอิสระแบบองศาไม่ใช่ดังนั้นจึงมีบางอย่างที่ชัดเจนเกิดขึ้นEisi2niχn2=i=1nZi2Zin(0,1)nn1


แม้ว่าสิ่งนี้จะไม่ตอบคำถามของคุณแต่มันอาจทำให้เกิดปัญหา
whuber

คำตอบ:


11

ฉันจะกระตุ้นสิ่งนี้อย่างสังหรณ์ใจและระบุว่ามันเกิดขึ้นได้อย่างไรสำหรับกรณีพิเศษของสองกลุ่มโดยสมมติว่าคุณมีความสุขที่จะยอมรับการประมาณค่าปกติกับทวินาม

หวังว่ามันจะเพียงพอสำหรับคุณที่จะเข้าใจว่าทำไมมันถึงทำงานได้ดี

คุณกำลังพูดถึงความเหมาะสมของไคสแควร์ สมมติว่ามีกลุ่ม (คุณมีมันเป็นแต่มีเหตุผลที่ฉันมักจะชอบเรียกมันว่า )n kknk

ในโมเดลที่ใช้สำหรับสถานการณ์นี้การนับ ,เป็นหลายค่าฉัน= 1 , 2 , . . , kOii=1,2,...,k

ให้O_i การนับมีเงื่อนไขในผลรวม (ยกเว้นในบางสถานการณ์ที่ค่อนข้างหายาก); และมีบางชุด prespecified ของความน่าจะเป็นสำหรับแต่ละประเภทซึ่งรวมไป1 N p i , i = 1 , 2 , , k 1N=i=1kOiNpi,i=1,2,,k1

เช่นเดียวกับทวินามนั่นก็คือการประมาณค่าปกติแบบเชิงสัญลักษณ์สำหรับ multinomials แน่นอนถ้าคุณพิจารณาเฉพาะจำนวนในเซลล์ที่ระบุ ("ในหมวดหมู่นี้" หรือไม่) มันก็จะเป็นแบบทวินาม เช่นเดียวกับทวินามความแปรปรวนของการนับ (เช่นเดียวกับโควาเรียสของพวกเขาในพหุนาม) เป็นหน้าที่ของและ ; คุณไม่ได้ประเมินความแปรปรวนแยกกันหน้าNp

นั่นคือถ้านับที่คาดว่าจะมีขนาดใหญ่พอเวกเตอร์ของการนับจะอยู่ที่ประมาณปกติที่มีค่าเฉลี่ยE_iอย่างไรก็ตามเนื่องจากการนับมีเงื่อนไขในการกระจายจะลดลง (มีอยู่ในไฮเปอร์เพลนของมิติเนื่องจากการระบุของการนับเป็นการแก้ไขส่วนที่เหลือ) ความแปรปรวน - ความแปรปรวนร่วมเมทริกซ์มีรายการในแนวทแยงและปิดองค์ประกอบในแนวทแยงและมันเป็นของอันดับเพราะความเสื่อมEi=NpiNk1k1Npi(1pi)Npipjk1

เป็นผลให้สำหรับแต่ละเซลล์และคุณสามารถเขียน(1-p_i)}} อย่างไรก็ตามข้อตกลงนั้นขึ้นอยู่กับ (มีความสัมพันธ์เชิงลบ) ดังนั้นหากคุณหาผลรวมกำลังสองของเหล่านั้นมันจะไม่มีการ (เหมือนที่มันเป็นตัวแปรมาตรฐานที่เป็นอิสระ) แต่เราสามารถสร้างชุดของตัวแปรอิสระจากต้นฉบับซึ่งเป็นอิสระและยังคงปกติ (ปกติเชิงเส้นกำกับ) ถ้าเราสรุปของพวกเขา (มาตรฐาน) สี่เหลี่ยมที่เราต้องการได้รับ{k-1} มีวิธีการสร้างชุดVar(Oi)=Npi(1pi)zi=OiEiEi(1pi)ziχk2k1kχk12k1 ตัวแปรอย่างชัดเจน แต่โชคดีที่มีช็อตคัตที่เรียบร้อยมาก ๆ ที่จะหลีกเลี่ยงความพยายามจำนวนมากและให้ผลลัพธ์ที่เหมือนกัน (ค่าเดียวกันของสถิติ) ราวกับว่าเรามีปัญหา

พิจารณาเพื่อความง่ายความดีของความพอดีกับสองประเภท (ซึ่งตอนนี้เป็นทวินาม) ความน่าจะเป็นของการอยู่ในเซลล์แรกคือและในเซลล์ที่สองคือ1-P มีการสังเกตในเซลล์แรกและในเซลล์ที่สองp1=pp2=1pX=O1NX=O2

สังเกตการนับเซลล์แรกเป็น asymptotically(1-P)) เราสามารถสร้างมาตรฐานเป็น(1-P)}} จากนั้นมีค่าประมาณ (asymptotically )XN(Np,Np(1p))z=XNpNp(1p)z2=(XNp)2Np(1p)χ12χ12

สังเกตว่า

i=12(OiEi)2Ei=[XNp]2Np+[(NX)(NNp)]2N(1p)=[XNp]2Np+[XNp]2N(1p)=(XNp)2[1Np+1N(1p)]P)}]

แต่

1Np+1N(1p)=Np+N(1p)Np.N(1p)=1Np(1p)(1-P)}

ดังนั้นซึ่งเป็นเราเริ่มต้นด้วย - ซึ่ง asymptotically จะเป็นตัวแปรสุ่มการพึ่งพาระหว่างเซลล์ทั้งสองเป็นเช่นนั้นโดยการดำน้ำโดยแทนที่จะเป็นเราชดเชยการพึ่งพาระหว่างทั้งสองอย่างแน่นอนและได้รับตัวแปรสุ่มแบบสี่เหลี่ยมจัตุรัสประมาณปกติi=12(OiEi)2Ei=(XNp)2Np(1p)z2χ12EiEi(1pi)

ผลรวมของการพึ่งพาแบบเดียวกันนั้นได้รับการดูแลโดยวิธีเดียวกันเมื่อมีมากกว่าสองประเภท - โดยการรวมแทนในทุก ๆคำศัพท์คุณจะชดเชยผลกระทบจากการพึ่งพาอาศัยกันอย่างแน่นอนและได้รับผลรวมเทียบเท่ากับผลรวมของบรรทัดฐานอิสระ(OiEi)2Ei(OiEi)2Ei(1pi)kk1

มีหลากหลายวิธีในการแสดงสถิติที่มีการแจกแจงแบบ asymptoticallyสำหรับขนาดใหญ่(มันครอบคลุมในหลักสูตรสถิติระดับปริญญาตรีบางหลักสูตรและสามารถพบได้ในตำราระดับปริญญาตรีจำนวนหนึ่ง) แต่ฉันไม่ต้องการที่จะนำคุณไปไกลเกินกว่าระดับที่คำถามของคุณแนะนำ อันที่จริงการค้นพบนั้นง่ายต่อการค้นหาในบันทึกบนอินเทอร์เน็ตเช่นมีการสืบทอดสองแบบที่แตกต่างกันในพื้นที่ประมาณสองหน้าที่นี่χk12k


ขอบคุณมันสมเหตุสมผลแล้ว นี่เป็นเรื่องบังเอิญ / อุบัติเหตุทางคณิตศาสตร์หรือเปล่าที่มันเป็นไปได้ที่จะแบ่งออกตามค่าที่คาดหวัง? หรือมีคำอธิบายทางสถิติที่เข้าใจง่ายว่าทำไมจึงเป็นเช่นนี้
Thoth

มีคำอธิบายหลายอย่างที่อาจจะใช่หรือไม่เข้าใจโดยขึ้นอยู่กับสิ่งที่แตกต่างกันไปในแต่ละบุคคล ตัวอย่างเช่นหากการนับที่สังเกตไว้เป็นตัวแปรปัวซองอิสระ แต่เดิมความแปรปรวนสำหรับจะทำให้คุณหารด้วย (& ปัวซงก็เป็นปกติเชิงเส้นกำกับด้วย) หากคุณกำหนดเงื่อนไขตามยอดรวม (ตามด้านบน) คุณจะได้รับพหุนาม ไม่ว่าคุณจะกำหนดเงื่อนไขโดยรวมหรือไม่ (เช่นคุณถือว่าเป็น Poisson หรือ Multinomial) ตัวประมาณค่า ML จะเหมือนกันดังนั้นความแปรปรวนของตัวประมาณค่านั้นก็เหมือนกัน - (ctd)zEi
Glen_b

(ctd) ... ดังนั้นคุณควรหารด้วยและความแปรปรวนควรออกมาอย่างถูกต้อง [คุณยังมี df อยู่เท่านั้น]Eik1
Glen_b

0

ต้นฉบับhttp://sites.stat.psu.edu/~~Vต้นฉบับหน้าเดียว ~~hunter/asymp/lectures/p175to184.pdf ที่อ้างอิงโดยผู้ใช้ @Glen_b ในที่สุดแสดงให้เห็นว่าสถิติสามารถเขียนใหม่เป็นHotelling ด้วยอันดับความแปรปรวนร่วม = (ดูสมการที่ 9.6) จากนั้นเราอาจเรียกใช้ผลลัพธ์แบบคลาสสิกของSJ Sepanski (1994)เพื่อให้ได้การแจกแจงเชิงซีมโทติคในรูปแบบไคสแควร์ที่มีองศาอิสระT2k1k - 1k1

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.