ฉันจะกระตุ้นสิ่งนี้อย่างสังหรณ์ใจและระบุว่ามันเกิดขึ้นได้อย่างไรสำหรับกรณีพิเศษของสองกลุ่มโดยสมมติว่าคุณมีความสุขที่จะยอมรับการประมาณค่าปกติกับทวินาม
หวังว่ามันจะเพียงพอสำหรับคุณที่จะเข้าใจว่าทำไมมันถึงทำงานได้ดี
คุณกำลังพูดถึงความเหมาะสมของไคสแควร์ สมมติว่ามีกลุ่ม (คุณมีมันเป็นแต่มีเหตุผลที่ฉันมักจะชอบเรียกมันว่า )n kknk
ในโมเดลที่ใช้สำหรับสถานการณ์นี้การนับ ,เป็นหลายค่าฉัน= 1 , 2 , . . , kOii=1,2,...,k
ให้O_i การนับมีเงื่อนไขในผลรวม (ยกเว้นในบางสถานการณ์ที่ค่อนข้างหายาก); และมีบางชุด prespecified ของความน่าจะเป็นสำหรับแต่ละประเภทซึ่งรวมไป1 N p i , i = 1 , 2 , … , k 1N=∑ki=1OiNpi,i=1,2,…,k1
เช่นเดียวกับทวินามนั่นก็คือการประมาณค่าปกติแบบเชิงสัญลักษณ์สำหรับ multinomials แน่นอนถ้าคุณพิจารณาเฉพาะจำนวนในเซลล์ที่ระบุ ("ในหมวดหมู่นี้" หรือไม่) มันก็จะเป็นแบบทวินาม เช่นเดียวกับทวินามความแปรปรวนของการนับ (เช่นเดียวกับโควาเรียสของพวกเขาในพหุนาม) เป็นหน้าที่ของและ ; คุณไม่ได้ประเมินความแปรปรวนแยกกันหน้าNp
นั่นคือถ้านับที่คาดว่าจะมีขนาดใหญ่พอเวกเตอร์ของการนับจะอยู่ที่ประมาณปกติที่มีค่าเฉลี่ยE_iอย่างไรก็ตามเนื่องจากการนับมีเงื่อนไขในการกระจายจะลดลง (มีอยู่ในไฮเปอร์เพลนของมิติเนื่องจากการระบุของการนับเป็นการแก้ไขส่วนที่เหลือ) ความแปรปรวน - ความแปรปรวนร่วมเมทริกซ์มีรายการในแนวทแยงและปิดองค์ประกอบในแนวทแยงและมันเป็นของอันดับเพราะความเสื่อมEi=NpiNk−1k−1Npi(1−pi)−Npipjk−1
เป็นผลให้สำหรับแต่ละเซลล์และคุณสามารถเขียน(1-p_i)}} อย่างไรก็ตามข้อตกลงนั้นขึ้นอยู่กับ (มีความสัมพันธ์เชิงลบ) ดังนั้นหากคุณหาผลรวมกำลังสองของเหล่านั้นมันจะไม่มีการ (เหมือนที่มันเป็นตัวแปรมาตรฐานที่เป็นอิสระ) แต่เราสามารถสร้างชุดของตัวแปรอิสระจากต้นฉบับซึ่งเป็นอิสระและยังคงปกติ (ปกติเชิงเส้นกำกับ) ถ้าเราสรุปของพวกเขา (มาตรฐาน) สี่เหลี่ยมที่เราต้องการได้รับ{k-1} มีวิธีการสร้างชุดVar(Oi)=Npi(1−pi)zi=Oi−EiEi(1−pi)√ziχ2kk−1kχ2k−1k−1 ตัวแปรอย่างชัดเจน แต่โชคดีที่มีช็อตคัตที่เรียบร้อยมาก ๆ ที่จะหลีกเลี่ยงความพยายามจำนวนมากและให้ผลลัพธ์ที่เหมือนกัน (ค่าเดียวกันของสถิติ) ราวกับว่าเรามีปัญหา
พิจารณาเพื่อความง่ายความดีของความพอดีกับสองประเภท (ซึ่งตอนนี้เป็นทวินาม) ความน่าจะเป็นของการอยู่ในเซลล์แรกคือและในเซลล์ที่สองคือ1-P มีการสังเกตในเซลล์แรกและในเซลล์ที่สองp1=pp2=1−pX=O1N−X=O2
สังเกตการนับเซลล์แรกเป็น asymptotically(1-P)) เราสามารถสร้างมาตรฐานเป็น(1-P)}} จากนั้นมีค่าประมาณ (asymptotically )XN(Np,Np(1−p))z=X−NpNp(1−p)√z2=(X−Np)2Np(1−p)∼χ21∼χ21
สังเกตว่า
∑2i=1(Oi−Ei)2Ei=[X−Np]2Np+[(N−X)−(N−Np)]2N(1−p)=[X−Np]2Np+[X−Np]2N(1−p)=(X−Np)2[1Np+1N(1−p)]P)}]
แต่
1Np+1N(1−p)=Np+N(1−p)Np.N(1−p)=1Np(1−p)(1-P)}
ดังนั้นซึ่งเป็นเราเริ่มต้นด้วย - ซึ่ง asymptotically จะเป็นตัวแปรสุ่มการพึ่งพาระหว่างเซลล์ทั้งสองเป็นเช่นนั้นโดยการดำน้ำโดยแทนที่จะเป็นเราชดเชยการพึ่งพาระหว่างทั้งสองอย่างแน่นอนและได้รับตัวแปรสุ่มแบบสี่เหลี่ยมจัตุรัสประมาณปกติ∑2i=1(Oi−Ei)2Ei=(X−Np)2Np(1−p)z2χ21EiEi(1−pi)
ผลรวมของการพึ่งพาแบบเดียวกันนั้นได้รับการดูแลโดยวิธีเดียวกันเมื่อมีมากกว่าสองประเภท - โดยการรวมแทนในทุก ๆคำศัพท์คุณจะชดเชยผลกระทบจากการพึ่งพาอาศัยกันอย่างแน่นอนและได้รับผลรวมเทียบเท่ากับผลรวมของบรรทัดฐานอิสระ(Oi−Ei)2Ei(Oi−Ei)2Ei(1−pi)kk−1
มีหลากหลายวิธีในการแสดงสถิติที่มีการแจกแจงแบบ asymptoticallyสำหรับขนาดใหญ่(มันครอบคลุมในหลักสูตรสถิติระดับปริญญาตรีบางหลักสูตรและสามารถพบได้ในตำราระดับปริญญาตรีจำนวนหนึ่ง) แต่ฉันไม่ต้องการที่จะนำคุณไปไกลเกินกว่าระดับที่คำถามของคุณแนะนำ อันที่จริงการค้นพบนั้นง่ายต่อการค้นหาในบันทึกบนอินเทอร์เน็ตเช่นมีการสืบทอดสองแบบที่แตกต่างกันในพื้นที่ประมาณสองหน้าที่นี่χ2k−1k