มีข้อสมมติฐานเกี่ยวกับการถดถอยโลจิสติกหรือไม่


18

มีข้อสันนิษฐานเกี่ยวกับตัวแปรตอบสนองของการถดถอยโลจิสติก

ตัวอย่างเช่นสมมติว่าเรามีจุดข้อมูลจุด ดูเหมือนว่าการตอบสนองY ฉันมาจากการกระจาย Bernoulli กับหน้าฉัน = logit ( β 0 + β 1 x ฉัน ) ดังนั้นเราจึงควรมี1,000กระจาย Bernoulli กับพารามิเตอร์ที่แตกต่างกันP1000Yipi=logit(β0+β1xi)1000p

ดังนั้นพวกเขาจึงเป็น "อิสระ" แต่ไม่ได้ "เหมือนกัน"

ฉันถูกไหม?


PS ฉันเรียนรู้การถดถอยแบบลอจิสติกจากวรรณกรรม "การเรียนรู้ของเครื่อง" ซึ่งเราทำหน้าที่ของวัตถุประสงค์ให้เหมาะสมและตรวจสอบว่ามันดีในการทดสอบข้อมูลโดยไม่พูดถึงสมมติฐานมากเกินไปหรือไม่

คำถามของฉันเริ่มต้นด้วยโพสต์นี้ทำความเข้าใจกับฟังก์ชั่นการเชื่อมโยงในโมเดลเชิงเส้นทั่วไปที่ฉันพยายามเรียนรู้เพิ่มเติมเกี่ยวกับสมมติฐานทางสถิติ


1
"สมมติฐาน" เป็นสิ่งที่ทฤษฎีบทสามารถมีได้ การถดถอยเชิงเส้นมี "ข้อสันนิษฐาน" ของข้อผิดพลาดของ iid (ไม่ใช่ที่เป็น "สันนิษฐาน" ที่จะเป็น iid ในการถดถอยเชิงเส้น! มันเป็นข้อผิดพลาด) ในแง่ที่ว่าทฤษฎีบท Gauss-Markov มีสมมติฐานนี้ ทีนี้มีทฤษฏีใดบ้างที่มีความคิดในการถดถอยโลจิสติกส์? ถ้าไม่เช่นนั้นจะไม่มี "สมมติฐาน" y
อะมีบาพูดว่า Reinstate Monica

7
@ Amoeba, hxd ถูกต้องในการสังเกตการกระจายไม่เหมือนกัน: "iid" ไม่ได้ใช้ หากมีใครใช้การถดถอยโลจิสติกเพียงเพื่อความเหมาะสมแล้ว (ตามที่คุณเขียน) อาจจำเป็นต้องใช้สมมติฐานบางอย่าง แต่ทันทีที่หนึ่งทำให้การใช้เมทริกซ์ความแปรปรวนโดยประมาณของค่าสัมประสิทธิ์หรือความปรารถนาที่จะสร้างช่วงเวลาที่ทำนาย (หรือสำหรับเรื่องที่ข้ามการตรวจสอบคาดการณ์ค่า) แล้วว่าต้องใช้สมมติฐานความน่าจะเป็น สิ่งปกติคือการตอบสนองเป็นอิสระ
whuber

4
@amoeba เมื่อคุณต้องการทำการอนุมาน (การทดสอบสมมติฐาน, ช่วงความมั่นใจ ฯลฯ ) แทนที่จะคำนวณค่าประมาณของพารามิเตอร์คุณจะต้องทำการตั้งสมมติฐาน (สำคัญยิ่งกว่าที่อื่น) เพื่อให้ได้การแจกแจงโมฆะที่เกี่ยวข้องของ สถิติการทดสอบหรือการคำนวณที่จำเป็นสำหรับช่วงเวลาที่มีความครอบคลุมที่ต้องการ แม้กระบวนการสันนิษฐานที่ค่อนข้างต่ำยังมีข้อสันนิษฐานและหากเราใส่ใจในการอนุมานเราจะสนใจว่าพวกเขามีแนวโน้มที่จะมีบางสิ่งบางอย่างใกล้เคียงกับคุณสมบัติที่กำหนดหรือไม่
Glen_b -Reinstate Monica

1
@ amoeba ฉันชอบทฤษฎีบทที่แสดงให้เห็นถึงภาวะปกติเชิงเส้นกำกับของ MLE ฉันยังชอบการทดสอบอัตราส่วนความน่าจะเป็น
หญิงชรา

2
การกระจายขอบของพวกเขาจะไม่เหมือนกันเว้นแต่ว่าพวกเขาทั้งหมดจะมีค่าตัวทำนายที่เหมือนกันซึ่งในกรณีนี้คุณมีการทดลอง IID bernoulli การแจกแจงแบบมีเงื่อนไขของพวกเขา (จากตัวทำนาย) เหมือนกันหมด แต่ฉันไม่คิดว่าคุณจะพูดว่าในกรณีนี้ปกติคือ IID Yi
หญิงชรา

คำตอบ:


11

จากคำถามก่อนหน้านี้คุณได้เรียนรู้ว่า GLM ถูกอธิบายในแง่ของการแจกแจงความน่าจะเป็น, ตัวทำนายเชิงเส้นและฟังก์ชันลิงก์gและถูกอธิบายว่าเป็นηg

η=XβE(Y|X)=μ=ก.-1(η)

โดยที่คือฟังก์ชันการเชื่อมโยง logit และYสันนิษฐานว่าเป็นไปตามการแจกแจงเบอร์นูลลีก.Y

YiB(μi)

แต่ละต่อไปนี้การกระจาย Bernoulli มีเป็นของตัวเองเฉลี่ยμ ฉันที่เป็นเงื่อนไขในการX เราจะไม่ได้สมมติว่าแต่ละY ฉันมาจากการกระจายเดียวกันกับค่าเฉลี่ยเท่ากัน (นี้จะเป็นตัดเท่านั้นรูปแบบY ฉัน = กรัม- 1 ( μ ) ) แต่ที่พวกเขาทั้งหมดมีวิธีการที่แตกต่างกัน เราคิดว่าY ฉัน 's เป็นอิสระเช่นเราไม่ต้องกังวลเกี่ยวกับสิ่งต่างๆเช่นอัตระหว่างภายหลังY ฉันค่า ฯลฯYi μiXYiYi=g1(μ)YiYi

IIDสมมติฐานที่เกี่ยวข้องกับความผิดพลาดในการถดถอยเชิงเส้น (เช่น Gaussian GLM) ซึ่งรูปแบบคือ

yi=β0+β1xi+εi=μi+εi

ที่เพื่อให้เรามีIIDเสียงรอบμฉัน นี่คือเหตุผลที่มีความสนใจในการวินิจฉัยที่เหลือและให้ความสนใจกับสิ่งตกค้างกับติดตั้งพล็อต ตอนนี้ในกรณีของ GLM เช่นการถดถอยโลจิสติกก็ไม่ง่ายเพราะไม่มีสารเติมแต่งระยะเสียงเช่นเดียวกับรูปแบบเกาส์ (ดูที่นี่ , ที่นี่และที่นี่εiN(0,σ2)μi) เรายังต้องการให้ส่วนที่เหลือเป็นแบบ "สุ่ม" รอบศูนย์และเราไม่ต้องการที่จะเห็นแนวโน้มใด ๆ ในพวกเขาเพราะพวกเขาจะแนะนำว่ามีผลกระทบบางอย่างที่ไม่ได้รับการพิจารณาในรูปแบบ แต่เราไม่คิดว่ามันเป็น ปกติและ / หรือIID ดูเพิ่มเติมที่ความสำคัญของสมมติฐาน iid ในชุดการเรียนรู้ทางสถิติ

ในฐานะที่เป็น sidenote ที่แจ้งให้ทราบว่าเราสามารถแม้แต่จะวางสมมติฐานที่ว่าแต่ละมาจากชนิดเดียวกันของการกระจาย มีรูปแบบ (ไม่ใช่ GLM) ที่คิดว่าแตกต่างกันY ฉัน 's สามารถมีการกระจายที่แตกต่างกันกับพารามิเตอร์ที่แตกต่างกันคือว่าข้อมูลของคุณมาจากส่วนผสมของการกระจายที่แตกต่างกัน ในกรณีเช่นนี้เราจะสมมติว่าค่าY iนั้นเป็นอิสระเนื่องจากค่าที่ขึ้นต่อกันมาจากการแจกแจงที่แตกต่างกันด้วยพารามิเตอร์ที่แตกต่างกัน (เช่นข้อมูลโลกแห่งความเป็นจริงทั่วไป) เป็นสิ่งที่ในกรณีส่วนใหญ่จะซับซ้อนเกินไป .YiYiYi


6

ดังที่ได้กล่าวไว้ในขณะที่เรามักจะพิจารณากรณีของข้อผิดพลาดของ iid ในการถดถอยเชิงเส้นสิ่งนี้ไม่ได้มีความเท่าเทียมกันโดยตรงในโมเดลเชิงเส้นทั่วไปส่วนใหญ่ ในการถดถอยโลจิสติกเรามักจะใช้สมมติฐานของความเป็นอิสระของผลลัพธ์ที่ทุกคนมีความสัมพันธ์ที่เข้มงวดมาก (เช่นผลเชิงเส้นในความน่าจะเป็นบันทึก) แต่ผลลัพธ์เหล่านี้ในตัวแปรสุ่มที่ไม่เหมือนกันและจะไม่แยกออกเป็นคำคงที่บวกกับข้อผิดพลาด iid เช่นเดียวกับกรณีที่มีการถดถอยเชิงเส้น

หากคุณจริงๆต้องการที่จะแสดงให้เห็นว่าการตอบสนองที่มีการเรียงลำดับของความสัมพันธ์ IID บางส่วนแล้วตามฉันสำหรับย่อหน้าถัดไป เพิ่งรู้ว่าความคิดนี้ออกนอกเส้นทางที่ถูกตีเล็กน้อย คุณอาจไม่ได้รับเครดิตเต็มสำหรับการตอบสนองนี้ในขั้นสุดท้ายหากอาจารย์ของคุณขาดความอดทน

คุณอาจคุ้นเคยกับวิธี inverse-cdf สำหรับการสร้างตัวแปรแบบสุ่ม ถ้าไม่ใช่นี่คือการทบทวน: ถ้ามีฟังก์ชันการแจกแจงสะสมF Xจากนั้นฉันสามารถสร้างการสุ่มจับจากXโดยการสุ่มจับครั้งแรกq เครื่องแบบ (0,1)จากนั้นคำนวณX = F - 1 X ( q )XFXXquniform(0,1)X=FX1(q). สิ่งนี้เกี่ยวข้องกับการถดถอยโลจิสติกอย่างไร เราคิดว่ากระบวนการสร้างคำตอบของเรามีสองส่วน ชิ้นส่วนคงที่ที่เกี่ยวข้องกับค่าความแปรปรวนร่วมกับความน่าจะเป็นของความสำเร็จและส่วนที่สุ่มที่กำหนดค่าของตัวแปรสุ่มแบบมีเงื่อนไขในส่วนที่คงที่ ส่วนที่คงถูกกำหนดโดยฟังก์ชั่นการเชื่อมโยงของการถดถอยโลจิสติกคือ ) สำหรับส่วนที่สุ่มให้มีกำหนดF Y ( Y | P )จะเป็น CDF สำหรับการกระจาย Bernoulli กับความน่าจะพี จากนั้นเราสามารถคิดถึงตัวแปรตอบสนองYp=expit(βo+β1x)FY(y|p)pYi

pi=expit(βo+β1xi)

qiuniform(0,1)

Yi=F1(qi|pi)

qi


1
qiYผม~B(พีผม)โดยที่ตัวเองถือว่า Yผมเป็นแบบสุ่มของ Bernoulli ด้วยค่าเฉลี่ย พีผม. กำหนดไว้ในแง่ของQผมทำให้มันซับซ้อนเพราะ "สัญญาณรบกวน" นั้นเหมือนกัน แต่ไม่ใช่แบบเชิงเส้นดังนั้นมันจึงน่าเกลียด
ทิม

@Tim: ใช่ส่วนที่สองของคำตอบนั้นน่าสนใจกว่าคำตอบที่สั้นกว่า แต่อาจเป็นวิธีที่มีประโยชน์ในการดู; ท้ายที่สุดนั่นคือวิธีที่คอมพิวเตอร์ของคุณจำลองข้อมูลจากแบบจำลองเหล่านี้!
หน้าผา AB
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.