ทฤษฎีที่คุณอ้างถึง (ส่วนการลดลงตามปกติ "การลดองศาอิสระตามปกติเนื่องจากพารามิเตอร์โดยประมาณ") ได้รับการสนับสนุนโดย RA Fisher เป็นส่วนใหญ่ ใน 'การตีความของ Chi Square จากตารางฉุกเฉินและการคำนวณของ P' (1922) เขาแย้งที่จะใช้กฎและใน 'ความดีของแบบฟอร์มการถดถอย' ( 2465) เขาระบุว่าจะลดองศาอิสระด้วยจำนวนพารามิเตอร์ที่ใช้ในการถดถอยเพื่อให้ได้ค่าที่คาดหวังจากข้อมูล (เป็นที่น่าสนใจที่จะทราบว่าคนใช้การทดสอบไคสแควร์ในทางที่ผิดกับองศาอิสระที่ไม่ถูกต้องมานานกว่ายี่สิบปีนับตั้งแต่เปิดตัวในปี 1900)(R−1)∗(C−1)
กรณีของคุณเป็นประเภทที่สอง (การถดถอย) และไม่ใช่ประเภทเดิม (ตารางความเป็นไปได้) แม้ว่าทั้งสองจะเกี่ยวข้องกันว่าเป็นข้อ จำกัด เชิงเส้นของพารามิเตอร์
เนื่องจากคุณจำลองค่าที่คาดไว้ตามค่าที่สังเกตได้ของคุณและคุณทำสิ่งนี้กับแบบจำลองที่มีพารามิเตอร์สองตัวการลดลงขององศาปกติตามปกติคือสองบวกหนึ่ง (เพิ่มอีกหนึ่งเนื่องจาก O_i ต้องรวมถึง ผลรวมซึ่งเป็นข้อ จำกัด เชิงเส้นอีกเส้นหนึ่งและคุณจะจบลงอย่างมีประสิทธิภาพด้วยการลดลงสองแทนที่จะเป็นสามเพราะ 'ประสิทธิภาพในการใช้งาน' ของค่าที่คาดหวังจากแบบจำลอง)
การทดสอบไคสแควร์ใช้เป็นเครื่องวัดระยะทางเพื่อแสดงว่าผลลัพธ์ใกล้เคียงกับข้อมูลที่คาดหวังมากเพียงใด ในหลาย ๆ เวอร์ชั่นของการทดสอบไคสแควร์การกระจายตัวของ 'ระยะทาง' นี้เกี่ยวข้องกับผลรวมของการเบี่ยงเบนในตัวแปรกระจายแบบปกติ (ซึ่งเป็นจริงในขีด จำกัด เท่านั้นและเป็นการประมาณถ้าคุณจัดการกับข้อมูลที่ไม่ปกติ .χ2
สำหรับการแจกแจงปกติหลายตัวแปรฟังก์ชันความหนาแน่นจะสัมพันธ์กับโดยχ2
f(x1,...,xk)=e−12χ2(2π)k|Σ|√
ด้วยดีเทอร์มีแนนต์ของเมทริกซ์ความแปรปรวนร่วมของx|Σ|x
และคือระยะทาง Mahalanobis ซึ่งจะช่วยลดระยะทางในการ Euclidian ถ้าΣ =ฉันχ2=(x−μ)TΣ−1(x−μ)Σ=I
ในบทความของเขา 1900 เพียร์สันที่ถกเถียงกันอยู่ว่า -levels มี spheroids และบอกว่าเขาสามารถเปลี่ยนพิกัดทรงกลมเพื่อรวมค่าเช่นP ( χ 2 > ) ซึ่งกลายเป็นส่วนประกอบสำคัญเดียวχ2P(χ2>a)
มันคือการแสดงเชิงเรขาคณิต, เป็นระยะทางและเป็นฟังก์ชันความหนาแน่นที่สามารถช่วยให้เข้าใจการลดลงขององศาอิสระเมื่อมีข้อ จำกัด เชิงเส้นχ2
กรณีแรกของตาราง 2x2 ฉุกเฉินที่ คุณควรสังเกตว่าทั้งสี่ค่าไม่ใช่ตัวแปรกระจายแบบอิสระอิสระสี่ตัว พวกเขาจะเกี่ยวข้องกันแทนและต้มลงไปเป็นตัวแปรเดียวOi−EiEi
ให้ใช้ตาราง
Oij=o11o21o12o22
ถ้าค่าคาดหวัง
Eij=e11e21e12e22
ที่ได้รับการแก้ไขแล้วจะถูกกระจายเป็นการกระจายแบบไคสแควร์ที่มีอิสระสี่องศา แต่บ่อยครั้งที่เราประมาณค่าeijตามoijและการแปรผันนั้นไม่เหมือนกับตัวแปรอิสระสี่ตัว เรากลับได้รับความแตกต่างทั้งหมดระหว่างoและeเหมือนกัน∑oij−eijeijeijoijoe
−−(o11−e11)(o22−e22)(o21−e21)(o12−e12)====o11−(o11+o12)(o11+o21)(o11+o12+o21+o22)
และพวกเขาเป็นตัวแปรเดียวอย่างมีประสิทธิภาพมากกว่าสี่ ทางเรขาคณิตคุณสามารถเห็นสิ่งนี้เป็นค่าไม่รวมอยู่ในทรงกลมสี่มิติ แต่ในบรรทัดเดียวχ2
โปรดทราบว่าการทดสอบตารางฉุกเฉินนี้ไม่ใช่กรณีของตารางฉุกเฉินในการทดสอบ Hosmer-Lemeshow (ใช้การทดสอบสมมติฐานที่แตกต่างกัน!) ดูเพิ่มเติมในส่วน 2.1 'กรณีเมื่อและβ _เป็นที่รู้จักกันในบทความของฮอสเมอร์และ Lemshow ในกรณีของพวกเขาคุณจะได้รับอิสรภาพ 2g-1 องศาและไม่ใช่ g-1 องศาอิสระตามกฎ (R-1) (C-1) กฎ (R-1) (C-1) นี้เป็นกรณีเฉพาะสำหรับสมมติฐานว่างว่าตัวแปรแถวและคอลัมน์เป็นอิสระ (ซึ่งสร้างข้อ จำกัด R + C-1 ในo i - e iβ0β––oi−eiค่า) การทดสอบ Hosmer-Lemeshow เกี่ยวข้องกับสมมติฐานที่ว่าเซลล์ถูกเติมเต็มตามความน่าจะเป็นของแบบจำลองการถดถอยโลจิสติกตามพารามิเตอร์ในกรณีของสมมติฐานการกระจายแบบ A และp + 1ในกรณีของสมมติฐานการกระจายขfourp+1
สองกรณีของการถดถอย การถดถอยทำบางสิ่งที่คล้ายกับความแตกต่างของเป็นตารางฉุกเฉินและลดมิติของความแปรปรวน มีการแสดงทางเรขาคณิตที่ดีสำหรับการนี้เป็นค่าเป็นY ฉันสามารถแสดงเป็นผลรวมของระยะรุ่นβ x ฉันและที่เหลือ (ไม่ผิด) แง่εฉัน เทอมโมเดลและเทอมที่เหลือแต่ละอันแทนมิติของพื้นที่ซึ่งตั้งฉากซึ่งกันและกัน นั่นหมายถึงข้อกำหนดที่เหลือϵ io−eyiβxiϵiϵiไม่สามารถรับค่าใด ๆ ที่เป็นไปได้! กล่าวคือพวกเขาลดลงโดยส่วนที่โครงการในรูปแบบและโดยเฉพาะอย่างยิ่ง 1 มิติสำหรับแต่ละพารามิเตอร์ในรูปแบบ
บางทีภาพต่อไปนี้อาจช่วยได้บ้าง
ด้านล่างนี้คือ 400 ครั้งสาม (uncorrelated) ตัวแปรจากการแจกแจงทวินาม ) พวกเขาเกี่ยวข้องกับตัวแปรกระจายปกติN ( μ = n * P , σ 2 = n * P * ( 1 - P ) ) ในภาพเดียวกันเราวาดพื้นผิว iso สำหรับχ 2 = 1B(n=60,p=1/6,2/6,3/6)N(μ=n∗p,σ2=n∗p∗(1−p))χ2=1,2,6χ∫a0e−12χ2χd−1dχχd−1χ
ภาพด้านล่างนี้สามารถใช้เพื่อรับแนวคิดเกี่ยวกับการลดขนาดในส่วนที่เหลือ มันอธิบายวิธีการปรับกำลังสองน้อยที่สุดในรูปทรงเรขาคณิต
ในสีน้ำเงินคุณมีการวัด ในสีแดงคุณมีสิ่งที่แบบจำลองช่วยให้ การวัดมักจะไม่เท่ากันกับตัวแบบและมีความเบี่ยงเบนบ้าง คุณสามารถพิจารณาสิ่งนี้ได้ในเชิงเรขาคณิตเป็นระยะทางจากจุดที่วัดไปยังพื้นผิวสีแดง
mu1 and mu2 have values (1,1,1) and (0,1,2) and could be related to some linear model as x = a + b * z + error or
⎡⎣⎢x1x2x3⎤⎦⎥=a⎡⎣⎢111⎤⎦⎥+b⎡⎣⎢012⎤⎦⎥+⎡⎣⎢ϵ1ϵ2ϵ3⎤⎦⎥
so the span of those two vectors (1,1,1) and (0,1,2) (the red plane) are the values for x that are possible in the regression model and ϵ is a vector that is the difference between the observed value and the regression/modeled value. In the least squares method this vector is perpendicular (least distance is least sum of squares) to the red surface (and the modeled value is the projection of the observed value onto the red surface).
So this difference between observed and (modelled) expected is a sum of vectors that are perpendicular to the model vector (and this space has dimension of the total space minus the number of model vectors).
In our simple example case. The total dimension is 3. The model has 2 dimensions. And the error has a dimension 1 (so no matter which of those blue points you take, the green arrows show a single example, the error terms have always the same ratio, follow a single vector).
I hope this explanation helps. It is in no way a rigorous proof and there are some special algebraic tricks that need to be solved in these geometric representations. But anyway I like these two geometrical representations. The one for the trick of Pearson to integrate the χ2 by using the spherical coordinates, and the other for viewing the sum of least squares method as a projection onto a plane (or larger span).
I am always amazed how we end up with o−ee, this is in my point of view not trivial since the normal approximation of a binomial is not a devision by e but by np(1−p) and in the case of contingency tables you can work it out easily but in the case of the regression or other linear restrictions it does not work out so easily while the literature is often very easy in arguing that 'it works out the same for other linear restrictions'. (An interesting example of the problem. If you performe the following test multiple times 'throw 2 times 10 times a coin and only register the cases in which the sum is 10' then you do not get the typical chi-square distribution for this "simple" linear restriction)