ถ้าฉันคำนวณอย่างถูกต้องการถดถอยโลจิสติก asymptotically มีอำนาจเช่นเดียวกับการทดสอบ t หากต้องการดูสิ่งนี้ให้เขียนบันทึกความน่าจะเป็นของบันทึกและคำนวณความคาดหวังของ Hessian ที่ระดับสูงสุดของโลก อย่าไปสนใจกับการกำหนดพารามิเตอร์โลจิสติกส์ตามปกติ: มันง่ายกว่าที่จะกำหนดพารามิเตอร์ด้วยความน่าจะเป็นที่สอง รายละเอียดจะขึ้นอยู่กับวิธีที่คุณทดสอบความสำคัญของสัมประสิทธิ์การถดถอยโลจิสติก (มีหลายวิธี)
การทดสอบเหล่านี้มีพลังคล้ายกันไม่น่าแปลกใจมากนักเนื่องจากทฤษฎีไคสแควร์สำหรับการประเมิน ML นั้นตั้งอยู่บนพื้นฐานการประมาณค่าปกติของความน่าจะเป็นของล็อกและการทดสอบ t-based จะขึ้นอยู่กับการแจกแจงแบบปกติ ประเด็นสำคัญของเรื่องนี้ก็คือทั้งสองวิธีทำการประมาณค่าเดียวกันของสองสัดส่วนและการประมาณการทั้งสองมีข้อผิดพลาดมาตรฐานเดียวกัน
การวิเคราะห์ที่แท้จริงอาจน่าเชื่อถือมากขึ้น ลองใช้คำศัพท์ทั่วไปสำหรับค่าในกลุ่มที่กำหนด (A หรือ B):
- คือความน่าจะเป็นที่ 1p
- คือขนาดของชุดการจับแต่ละครั้งn
- คือจำนวนชุดของการจับm
- คือจำนวนข้อมูลN=mn
- (เท่ากับ 0หรือ 1 ) เป็นค่าของเจTHผลในฉันTHชุดดึงkij01jthith
- คือจำนวนของคนที่อยู่ใน ฉันTHชุดดึงkiith
- คือจำนวนทั้งหมดk
การถดถอยโลจิสติกเป็นหลักประมาณ ML ของพีลอการิทึมของมันถูกกำหนดโดยp
log(L)=klog(p)+(N−k)log(1−p).
อนุพันธ์ของมันเทียบกับพารามิเตอร์คือp
∂log(L)∂p=kp−N−k1−p and
−∂2log(L)∂p2=kp2+N−k(1−p)2.
การตั้งค่าผลผลิตแรกที่จะเป็นศูนย์ ML ประมาณการP = k / Nและการอุดตันที่เป็นซึ่งกันและกันในการแสดงออกที่สองผลตอบแทนถัวเฉลี่ยความแปรปรวนP ( 1 - P ) / Nซึ่งเป็นตารางของข้อผิดพลาดมาตรฐานp^=k/Np^(1−p^)/N
เสื้อสถิติจะได้รับจากการประมาณค่าบนพื้นฐานของข้อมูลที่จัดกลุ่มตามชุดดึง; กล่าวคือเนื่องจากความแตกต่างของค่าเฉลี่ย (หนึ่งจากกลุ่ม A และอีกกลุ่มจากกลุ่ม B) หารด้วยข้อผิดพลาดมาตรฐานของความแตกต่างนั้นซึ่งได้มาจากการเบี่ยงเบนมาตรฐานของค่าเฉลี่ย ลองดูค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานสำหรับกลุ่มที่กำหนดแล้ว เท่ากับค่าเฉลี่ยซึ่งเป็นเหมือน ML ประมาณการP ค่าเบี่ยงเบนมาตรฐานในคำถามคือค่าเบี่ยงเบนมาตรฐานของวิธีการวาด นั่นคือมันเป็นค่าเบี่ยงเบนมาตรฐานของการตั้งค่าของk ฉัน/ n นี่คือประเด็นสำคัญของเรื่องนี้ดังนั้นเรามาสำรวจความเป็นไปได้บ้างk/Np^ki/n
สมมติว่าข้อมูลยังไม่ได้แบ่งออกเป็นดึงที่ทั้งหมด: นั่นคือและม. = N k ฉันเป็นวิธีการวาด ของพวกเขาตัวอย่างแปรปรวนเท่ากับN / ( N - 1 )ครั้งหน้า ( 1 - P ) จากนี้จึงเกิดข้อผิดพลาดมาตรฐานเหมือนกับข้อผิดพลาดมาตรฐาน ML นอกเหนือจากปัจจัยของ√n=1m=NkiN/(N−1)p^(1−p^)ซึ่งเป็นหลักที่ 1เมื่อN=1800 ดังนั้น - นอกเหนือจากความแตกต่างเล็ก ๆ น้อย ๆ - การทดสอบใด ๆ ที่อิงกับการถดถอยโลจิสติกจะเหมือนกับ t-test และเราจะได้รับพลังเดียวกันเป็นหลักN/(N−1)−−−−−−−−−√1N=1800
เมื่อข้อมูลถูกจัดกลุ่มความแปรปรวน (จริง) ของเท่ากับp ( 1 - p ) / nเพราะสถิติk iแสดงถึงผลรวมของตัวแปรn Bernoulli ( p ) แต่ละอันมีความแปรปรวนp ( 1 - p ) . ดังนั้นข้อผิดพลาดมาตรฐานที่คาดหวังของค่าเฉลี่ยของmของค่าเหล่านี้คือสแควร์รูทของp ( 1 - p ) / n / m =ki/np(1−p)/nkinpp(1−p)mเหมือนเมื่อก่อนp(1−p)/n/m=p(1−p)/N
หมายเลข 2 บ่งบอกถึงพลังของการทดสอบไม่ควรเปลี่ยนแปลงอย่างมีนัยสำคัญกับวิธีการจับรางวัล (นั่นคือวิธีที่และnแปรผันตามm n = N ) อาจแตกต่างจากผลกระทบเล็กน้อยจากการปรับตัวอย่าง ความแปรปรวน (ยกเว้นว่าคุณโง่เขลาจนใช้ชุดการดึงน้อยมากภายในแต่ละกลุ่ม)mnmn=N
แบบจำลองที่ จำกัดเพื่อเปรียบเทียบถึงp = 0.74 (กับ 10,000 ซ้ำละคน) ที่เกี่ยวข้องกับ m = 900 , n = 1 (การถดถอยโลจิสติกเป็นหลัก); m = n = 30 ; และm = 2 , n = 450 (การปรับค่าความแปรปรวนตัวอย่างสูงสุด) รับสิ่งนี้: กำลัง (ที่α = 0.05p=0.70p=0.74m=900,n=1m=n=30m=2,n=450α=0.05ด้านเดียวในสองกรณีแรกคือ 0.59 ในขณะที่ในส่วนที่สามซึ่งปัจจัยการปรับเปลี่ยนทำให้การเปลี่ยนแปลงวัสดุ (ตอนนี้มีเพียงสององศาอิสระแทน 1798 หรือ 58) มันลดลงถึง 0.36 การทดสอบอื่นเปรียบเทียบถึงp = 0.52ให้พลังของ 0.22, 0.21, และ 0.15 ตามลำดับ: อีกครั้งเราสังเกตเพียงเล็กน้อยจากไม่มีการจัดกลุ่มเป็นวาด (= การถดถอยโลจิสติก) เพื่อจัดกลุ่มเป็น 30 กลุ่มและหล่นลงอย่างมาก เพียงสองกลุ่มp=0.50p=0.52
คุณธรรมของการวิเคราะห์นี้คือ:
- คุณจะไม่สูญเสียอะไรมากเมื่อคุณแบ่งพาร์ติชันค่าข้อมูลของคุณเป็นกลุ่มm "กลุ่ม" ขนาดเล็กจำนวนมากNm
- คุณสามารถสูญเสียพลังงานที่สามารถประเมินได้โดยใช้กลุ่มจำนวนน้อย ( มีขนาดเล็กn - จำนวนข้อมูลต่อกลุ่ม - มีขนาดใหญ่)mn
- คุณไม่ควรจัดกลุ่มค่าข้อมูลของคุณเป็น "ดึง" เลย เพียงวิเคราะห์ตามที่เป็นอยู่ (ใช้การทดสอบที่สมเหตุสมผลใด ๆ รวมถึงการถดถอยโลจิสติกและการทดสอบ t)N