ลองจัดการกรณีที่ง่ายที่สุดเพื่อพยายามให้สัญชาตญาณมากที่สุด ให้เป็นตัวอย่าง iid จากการกระจายแบบไม่ต่อเนื่องกับผลลัพธ์ให้เป็นความน่าจะเป็นของผลลัพธ์แต่ละอย่าง เรามีความสนใจในการกระจาย (asymptotic) ของสถิติไคสแควร์
นี่เป็นจำนวนที่คาดหวังของการนับของผลบริบูรณ์ k π 1 , … , π k X 2 = k ∑ i = 1 ( S i - n π i ) 2X1,X2,…,Xnkπ1,…,πkn π ฉันฉัน
X2=∑i=1k(Si−nπi)2nπi.
nπii
ฮิวริสติกแบบชี้นำ
กำหนดดังนั้นที่U_k) X2=∑iU 2 i =‖U‖ 2 2 U=(U1,…,Uk)Ui=(Si−nπi)/nπi−−−√X2=∑iU2i=∥U∥22U=(U1,…,Uk)
เนื่องจากคือจากนั้นโดย The Central Limit Theorem ,
ด้วยเหตุนี้เรายังมีที่pi_i)B i n ( n , π i ) T i = U iSiBin(n,πi)U i d → N ( 0 , 1 - π i )
Ti=Ui1−πi−−−−−√=Si−nπinπi(1−πi)−−−−−−−−−√→dN(0,1),
Ui→dN(0,1−πi)
ตอนนี้ถ้าคือ (asymptotically) อิสระ (ซึ่งพวกเขาไม่ได้) แล้วเราสามารถยืนยันว่า
ถูก asymptoticallyกระจาย แต่โปรดทราบว่าเป็นฟังก์ชันที่กำหนดขึ้นจากดังนั้นตัวแปรจึงไม่สามารถเป็นอิสระได้Σ ฉันT 2 ฉัน χ 2 k T k ( T 1 , ... , T k - 1 ) T ฉันTi∑iT2iχ2kTk(T1,…,Tk−1)Ti
ดังนั้นเราต้องคำนึงถึงความแปรปรวนร่วมระหว่างพวกเขาอย่างใด ปรากฎว่าวิธี "ถูกต้อง" ในการทำเช่นนี้คือการใช้แทนและความแปรปรวนร่วมระหว่างองค์ประกอบของยังเปลี่ยนการกระจายแบบซีมโทติคจากสิ่งที่เราอาจคิดว่าเป็นเป็นสิ่งที่ ในความเป็นจริง 2U χ 2 k χ 2 k - 1UiUχ2kχ2k−1
รายละเอียดบางอย่างเกี่ยวกับการติดตามนี้
การรักษาที่เข้มงวดมากขึ้น
มันไม่ได้เป็นเรื่องยากที่จะตรวจสอบว่าในความเป็นจริง
สำหรับเจฉัน≠jCov(Ui,Uj)=−πiπj−−−−√i≠j
ดังนั้นความแปรปรวนร่วมของA = I - √Uคือ
ที่pi_k}) โปรดทราบว่า
เป็นสมมาตรและ idempotent คือ T ดังนั้นโดยเฉพาะถ้ามีองค์ประกอบมาตรฐานแบบมาตรฐาน iid แล้ว . ( NBการกระจายตัวแบบหลายตัวแปรปกติในกรณีนี้แย่ลง )√
A=I−π−−√π−−√T,
π−−√=(π1−−√,…,πk−−√)AA=A2=ATZ=(Z1,…,Zk)AZ∼N(0,A)
ตอนนี้โดยหลายตัวแปรทฤษฎีขีด จำกัด กลาง , เวกเตอร์มี asymptotic กระจายปกติหลายตัวแปรที่มีค่าเฉลี่ยและแปรปรวน aU0A
ดังนั้นจึงมีการกระจายเชิงซีมที่เหมือนกันกับดังนั้นการกระจายแบบซีมโทติคแบบเดียวกับ
จะเหมือนกับการกระจายตัวของโดยทฤษฎีบทแผนที่อย่างต่อเนื่องUAZX2=UTUZTATAZ=ZTAZ
แต่นั้นสมมาตรและ idempotent ดังนั้น ( a ) มันมีค่ามุมฉาก eigenvectors, ( b ) ค่าลักษณะเฉพาะทั้งหมดของมันคือ 0 หรือ 1 และ (A c ) หลายหลากของ eigenvalue 1 คือ . นี่หมายความว่าสามารถแยกย่อยเป็นโดยที่คือ orthogonal และเป็นเมทริกซ์แนวทแยงที่มีอยู่บน เส้นทแยงมุมและรายการเส้นทแยงมุมที่เหลือเป็นศูนย์rank(A)AA=QDQTQDrank(A)
ดังนั้นต้องเป็นกระจายเนื่องจาก
มีอันดับในกรณีของเราZTAZχ2k−1Ak−1
การเชื่อมต่ออื่น ๆ
สถิติไคสแควร์ยังเกี่ยวข้องอย่างใกล้ชิดกับสถิติอัตราส่วนความน่าจะเป็น อันที่จริงมันเป็นสถิติคะแนน Raoและสามารถดูได้ประมาณเทย์เลอร์ซีรีส์ของสถิติอัตราส่วนความน่าจะเป็น
อ้างอิง
นี่คือการพัฒนาของฉันเองตามประสบการณ์ แต่เห็นได้ชัดว่าได้รับอิทธิพลจากตำราดั้งเดิม สถานที่ที่ดีในการมองหาเพื่อเรียนรู้เพิ่มเติมคือ
- GAF Seber และ AJ Lee (2003), การวิเคราะห์การถดถอยเชิงเส้น , 2nd ed., Wiley
- E. Lehmann และ J. Romano (2005), การทดสอบสมมติฐานทางสถิติ , 3 ed., Springer มาตรา 14.3โดยเฉพาะ
- DR Cox และ DV Hinkley (1979), สถิติเชิงทฤษฎี , แชปแมนและฮอลล์