ทำไมการทดสอบไคสแควร์จึงใช้การนับที่คาดหวังเป็นความแปรปรวน


18

ในการพื้นฐานสำหรับการใช้สแควร์รูทของการนับที่คาดไว้เป็นส่วนเบี่ยงเบนมาตรฐาน (เช่นการนับที่คาดไว้เป็นความแปรปรวน) ของการแจกแจงปกติแต่ละรายการคืออะไร สิ่งเดียวที่ฉันจะได้พูดคุยเกี่ยวกับเรื่องนี้ก็คือhttp://www.physics.csbsju.edu/stats/chi-square.htmlและมันก็กล่าวถึงการแจกแจงปัวซองχ2

เป็นตัวอย่างง่ายๆของความสับสนของฉันจะเกิดอะไรขึ้นถ้าเราทดสอบว่ากระบวนการสองอย่างนั้นแตกต่างกันอย่างมากหรือไม่ซึ่งสร้างขึ้นมา 500 As และ 500 Bs ที่มีความแปรปรวนน้อยมากและอีกอันที่สร้าง 550 As และ 450 Bs 551 As และ 449 Bs)? ความแปรปรวนที่นี่ไม่ใช่ค่าที่คาดหวังอย่างชัดเจนไม่ใช่หรือ?

(ฉันไม่ใช่นักสถิติดังนั้นกำลังมองหาคำตอบที่ไม่สามารถเข้าถึงได้โดยผู้เชี่ยวชาญ)


นี่อาจจะเกี่ยวข้องกับความจริงที่ว่าความแปรปรวนของตัวแปรสุ่มคือและด้วยความจริงที่ว่าสถิติจะต้องคูณด้วย 2 เพื่อให้มีการแจกแจงที่ถูกต้อง (เช่นใน การทดสอบอัตราส่วนความน่าจะเป็น) บางทีมีคนรู้เรื่องนี้อย่างเป็นทางการมากกว่า χk22k
มาโคร

คำตอบ:


16

รูปแบบทั่วไปสำหรับสถิติการทดสอบจำนวนมากคือ

observedexpectedstandarderror

ในกรณีของตัวแปรปกติข้อผิดพลาดมาตรฐานจะขึ้นอยู่กับความแปรปรวนประชากรที่รู้จัก (z-stats) หรือการประมาณจากตัวอย่าง (t-stats) ด้วยทวินามข้อผิดพลาดมาตรฐานจะขึ้นอยู่กับสัดส่วน (สัดส่วนสมมติฐานสำหรับการทดสอบ)

ในตารางฉุกเฉินจำนวนในแต่ละเซลล์สามารถคิดว่ามาจากการแจกแจงปัวซงด้วยค่าเฉลี่ยเท่ากับค่าที่คาดหวัง (ภายใต้ค่า null) ความแปรปรวนสำหรับการแจกแจงปัวซงเท่ากับค่าเฉลี่ยดังนั้นเราจึงใช้ค่าที่คาดหวังสำหรับการคำนวณข้อผิดพลาดมาตรฐานเช่นกัน ฉันได้เห็นสถิติที่ใช้ในการสังเกตแทน แต่ก็มีเหตุผลทางทฤษฎีน้อยลงและไม่ได้มาบรรจบกันเช่นเดียวกับกระจายχ2


1
ฉันติดอยู่กับการเชื่อมต่อกับปัวซอง / ทำความเข้าใจว่าทำไมแต่ละเซลล์สามารถคิดได้ว่ามาจากปัวซอง ฉันรู้ว่าค่าเฉลี่ย / ความแปรปรวนของ Poissons และฉันรู้ว่ามันเป็นตัวแทนของจำนวนเหตุการณ์ที่กำหนดในอัตรา ฉันยังรู้ว่าการแจกแจงแบบไคสแควร์เป็นตัวแทนของผลรวมของกำลังสองมาตรฐาน (ความแปรปรวน 1) มาตรฐาน ฉันแค่พยายามคลุมหัวของฉันเกี่ยวกับเหตุผลของการนำค่าที่คาดไว้กลับมาใช้ใหม่เพื่อเป็นข้อสันนิษฐานของ "สเปรด" ของแต่ละบรรทัดฐาน นี่เป็นเพียงเพื่อให้ทุกอย่างสอดคล้องกับการแจกแจงแบบไคสแควร์ / กับ "บรรทัดฐานมาตรฐาน" หรือไม่?
ยาง

3
มีปัญหาอยู่สองสามข้อการแจกแจงปัวซองนั้นเป็นเรื่องปกติสำหรับการนับเมื่อสิ่งต่าง ๆ เป็นอิสระ แทนที่จะคิดเกี่ยวกับตารางว่ามีผลรวมคงที่และคุณกำลังกระจายค่าระหว่างเซลล์ของตารางลองคิดเพียงเซลล์เดียวของตารางและคุณกำลังรอเวลากำหนดเพื่อดูจำนวนการตอบสนองที่ตกอยู่ในเซลล์นั้น มันสอดคล้องกับแนวคิดทั่วไปของปัวซอง สำหรับวิธีการที่มีขนาดใหญ่คุณสามารถคะเน Poisson มีการกระจายปกติดังนั้นสถิติทดสอบทำให้รู้สึกเป็นปกติประมาณไป Poisson แล้วแปลงเป็นχ2 2
เกร็กสโนว์

1
(+1) สมมติว่าเซลล์นับเป็นตัวแปรสุ่มปัวซองอิสระโดยมีค่าเฉลี่ยn πXผม,...,Xkฉัน จากนั้นแน่นอนk i = 1 ( X i - n π i ) 2nπผมในการกระจาย แต่ปัญหาของสิ่งนี้คือnคือพารามิเตอร์และไม่ใช่จำนวนที่สังเกตได้จริง จำนวนที่สังเกตได้ทั้งหมดคือN= k i = 1 XiPoΣผม=1k(Xผม-nπผม)2nπผมχk2n ) แม้ว่า N / n 1เกือบจะแน่นอนโดย SLLN งานบางอย่างจะต้องทำเพื่อเปลี่ยนฮิวริสติกเป็นสิ่งที่ใช้การได้ ยังไม่มีข้อความ=Σผม=1kXผม~Pโอผม(n)N/n1
พระคาร์ดินัล

เป็นตัวอย่างง่ายๆของความสับสนของฉันจะเกิดอะไรขึ้นถ้าเราทดสอบว่ากระบวนการสองอย่างนั้นแตกต่างกันอย่างมากหรือไม่ซึ่งสร้าง 500 As และ 500 Bs ที่มีความแปรปรวนน้อยมากและอีกอันที่สร้าง 550 As และ 450 Bs กับความแปรปรวนน้อยมาก 551 As และ 449 Bs)? ความแปรปรวนที่นี่ไม่ใช่ค่าที่คาดหวังอย่างชัดเจนไม่ใช่หรือ?
หยาง

1
@ หยาง: ดูเหมือนว่าข้อมูลของคุณ --- ซึ่งคุณยังไม่ได้อธิบาย --- ไม่สอดคล้องกับโมเดลที่ใช้สถิติไคสแควร์ แบบจำลองมาตรฐานเป็นหนึ่งในการสุ่มตัวอย่างแบบหลายส่วน การพูดอย่างเคร่งครัดไม่ครอบคลุมถึงการสุ่มตัวอย่างปัวซอง (ไม่มีเงื่อนไข) ซึ่งเป็นสิ่งที่เกร็กตอบไว้ ฉันได้ทำการอ้างอิงถึงสิ่งนี้ในความคิดเห็นก่อนหน้าของฉัน
พระคาร์ดินัล

17

ลองจัดการกรณีที่ง่ายที่สุดเพื่อพยายามให้สัญชาตญาณมากที่สุด ให้เป็นตัวอย่าง iid จากการกระจายแบบไม่ต่อเนื่องกับผลลัพธ์ให้เป็นความน่าจะเป็นของผลลัพธ์แต่ละอย่าง เรามีความสนใจในการกระจาย (asymptotic) ของสถิติไคสแควร์ นี่เป็นจำนวนที่คาดหวังของการนับของผลบริบูรณ์ k π 1 , , π k X 2 = k i = 1 ( S i - n π i ) 2X1,X2,,Xnkπ1,,πkn π ฉันฉัน

X2=i=1k(Sinπi)2nπi.
nπii

ฮิวริสติกแบบชี้นำ

กำหนดดังนั้นที่U_k) X2=iU 2 i =U 2 2 U=(U1,,Uk)Ui=(Sinπi)/nπiX2=iUi2=U22U=(U1,,Uk)

เนื่องจากคือจากนั้นโดย The Central Limit Theorem , ด้วยเหตุนี้เรายังมีที่pi_i)B i n ( n , π i ) T i = U iSiBin(n,πi)U i d N ( 0 , 1 - π i )

Ti=Ui1πi=Sinπinπi(1πi)dN(0,1),
UidN(0,1πi)

ตอนนี้ถ้าคือ (asymptotically) อิสระ (ซึ่งพวกเขาไม่ได้) แล้วเราสามารถยืนยันว่า ถูก asymptoticallyกระจาย แต่โปรดทราบว่าเป็นฟังก์ชันที่กำหนดขึ้นจากดังนั้นตัวแปรจึงไม่สามารถเป็นอิสระได้Σ ฉันT 2 ฉัน χ 2 k T k ( T 1 , ... , T k - 1 ) T ฉันTiiTi2χk2Tk(T1,,Tk1)Ti

ดังนั้นเราต้องคำนึงถึงความแปรปรวนร่วมระหว่างพวกเขาอย่างใด ปรากฎว่าวิธี "ถูกต้อง" ในการทำเช่นนี้คือการใช้แทนและความแปรปรวนร่วมระหว่างองค์ประกอบของยังเปลี่ยนการกระจายแบบซีมโทติคจากสิ่งที่เราอาจคิดว่าเป็นเป็นสิ่งที่ ในความเป็นจริง 2U χ 2 k χ 2 k - 1UiUχk2χk12

รายละเอียดบางอย่างเกี่ยวกับการติดตามนี้

การรักษาที่เข้มงวดมากขึ้น

มันไม่ได้เป็นเรื่องยากที่จะตรวจสอบว่าในความเป็นจริง สำหรับเจฉันjCov(Ui,Uj)=πiπjij

ดังนั้นความแปรปรวนร่วมของA = I - Uคือ ที่pi_k}) โปรดทราบว่า เป็นสมมาตรและ idempotent คือ T ดังนั้นโดยเฉพาะถ้ามีองค์ประกอบมาตรฐานแบบมาตรฐาน iid แล้ว . ( NBการกระจายตัวแบบหลายตัวแปรปกติในกรณีนี้แย่ลง )

A=IππT,
π=(π1,,πk)AA=A2=ATZ=(Z1,,Zk)AZN(0,A)

ตอนนี้โดยหลายตัวแปรทฤษฎีขีด จำกัด กลาง , เวกเตอร์มี asymptotic กระจายปกติหลายตัวแปรที่มีค่าเฉลี่ยและแปรปรวน aU0A

ดังนั้นจึงมีการกระจายเชิงซีมที่เหมือนกันกับดังนั้นการกระจายแบบซีมโทติคแบบเดียวกับ จะเหมือนกับการกระจายตัวของโดยทฤษฎีบทแผนที่อย่างต่อเนื่องUAZX2=UTUZTATAZ=ZTAZ

แต่นั้นสมมาตรและ idempotent ดังนั้น ( a ) มันมีค่ามุมฉาก eigenvectors, ( b ) ค่าลักษณะเฉพาะทั้งหมดของมันคือ 0 หรือ 1 และ (A c ) หลายหลากของ eigenvalue 1 คือ . นี่หมายความว่าสามารถแยกย่อยเป็นโดยที่คือ orthogonal และเป็นเมทริกซ์แนวทแยงที่มีอยู่บน เส้นทแยงมุมและรายการเส้นทแยงมุมที่เหลือเป็นศูนย์rank(A)AA=QDQTQDrank(A)

ดังนั้นต้องเป็นกระจายเนื่องจาก มีอันดับในกรณีของเราZTAZχk12Ak1

การเชื่อมต่ออื่น ๆ

สถิติไคสแควร์ยังเกี่ยวข้องอย่างใกล้ชิดกับสถิติอัตราส่วนความน่าจะเป็น อันที่จริงมันเป็นสถิติคะแนน Raoและสามารถดูได้ประมาณเทย์เลอร์ซีรีส์ของสถิติอัตราส่วนความน่าจะเป็น

อ้างอิง

นี่คือการพัฒนาของฉันเองตามประสบการณ์ แต่เห็นได้ชัดว่าได้รับอิทธิพลจากตำราดั้งเดิม สถานที่ที่ดีในการมองหาเพื่อเรียนรู้เพิ่มเติมคือ

  1. GAF Seber และ AJ Lee (2003), การวิเคราะห์การถดถอยเชิงเส้น , 2nd ed., Wiley
  2. E. Lehmann และ J. Romano (2005), การทดสอบสมมติฐานทางสถิติ , 3 ed., Springer มาตรา 14.3โดยเฉพาะ
  3. DR Cox และ DV Hinkley (1979), สถิติเชิงทฤษฎี , แชปแมนและฮอลล์

(+1) ฉันคิดว่ามันยากที่จะหาหลักฐานนี้ในตำราการวิเคราะห์ข้อมูลหมวดหมู่มาตรฐานเช่น Agresti, A. (2002) การวิเคราะห์ข้อมูลเชิงหมวดหมู่ จอห์นไวลีย์-
suncoolsu

ขอบคุณสำหรับความคิดเห็น ฉันรู้ว่ามีการรักษาสถิติไคสแควร์ใน Agresti แต่จำไม่ได้ว่าเขาใช้เวลาเท่าไหร่ เขาอาจจะดึงดูดความเท่าเทียมเชิงซีมโทติคกับสถิติอัตราส่วนความน่าจะเป็น
พระคาร์ดินัล

ฉันไม่รู้ว่าคุณจะพบหลักฐานข้างต้นในข้อความใด ๆ ฉันไม่เคยเห็นการใช้เมทริกซ์ความแปรปรวนร่วมเต็มรูปแบบ (เสื่อม) และคุณสมบัติอื่น ๆ การรักษาตามปกติจะดูที่การกระจายตัวแบบไม่ nondegenerate ของพิกัดแรกจากนั้นใช้เมทริกซ์ความแปรปรวนร่วมผกผัน (ซึ่งมีรูปแบบที่ดี แต่ไม่ชัดเจนทันที) และพีชคณิตน่าเบื่อบางตัวเพื่อสร้างผลลัพธ์ . k1
พระคาร์ดินัล

คำตอบของคุณเริ่มต้นด้วยการกำหนดชุดของ 's แต่แล้วกำหนดสถิติในแง่ของ ' s คุณสามารถรวมบางสิ่งบางอย่างในคำตอบที่ระบุว่าตัวแปรที่คุณกำหนดเมื่อเริ่มต้นและตัวแปรในสถิติเกี่ยวข้องกันอย่างไร XS
Glen_b -Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.