ว่ามีข้อผิดพลาดเกิดขึ้นในการถดถอยโลจิสติกส์ (และการกระจายที่สันนิษฐาน) ฉันได้อ่านในสถานที่ต่าง ๆ ที่:
- ไม่มีข้อผิดพลาดอยู่
- คำผิดพลาดมีการแจกแจงแบบทวินาม (ตามการกระจายของตัวแปรตอบสนอง)
- คำผิดพลาดมีการกระจายโลจิสติก
มีคนช่วยอธิบายได้ไหม?
ว่ามีข้อผิดพลาดเกิดขึ้นในการถดถอยโลจิสติกส์ (และการกระจายที่สันนิษฐาน) ฉันได้อ่านในสถานที่ต่าง ๆ ที่:
มีคนช่วยอธิบายได้ไหม?
คำตอบ:
ในการสังเกตการถดถอยเชิงเส้นจะถือว่าเป็นไปตามการแจกแจงแบบเกาส์พร้อมกับพารามิเตอร์ค่าเฉลี่ยตามเงื่อนไขบนค่าตัวทำนาย หากคุณลบค่าเฉลี่ยออกจากการสังเกตคุณจะได้รับข้อผิดพลาด : การแจกแจงแบบเกาส์ที่มีค่าเฉลี่ยเป็นศูนย์และไม่ขึ้นกับค่าของตัวทำนาย - นั่นคือข้อผิดพลาดที่ชุดของค่าตัวทำนายใด ๆ
ในการสังเกตการถดถอยโลจิสติกจะถือว่าเป็นไปตามการกระจาย Bernoulli †ด้วยพารามิเตอร์ค่าเฉลี่ย (ความน่าจะเป็น) ตามเงื่อนไขในค่าตัวทำนาย ดังนั้นสำหรับค่าทำนายใด ๆ การกำหนดค่าเฉลี่ยπมีเพียงสองข้อผิดพลาดที่เป็นไปได้: 1 - πที่เกิดขึ้นกับความน่าจะπและ0 - πที่เกิดขึ้นกับความน่าจะเป็น1 - π สำหรับค่าตัวทำนายอื่น ๆ ข้อผิดพลาดจะเป็น1 - π ′ที่เกิดขึ้นกับความน่าจะเป็นπ ′และที่เกิดขึ้นกับความน่าจะเป็น1 - π ' ดังนั้นจึงไม่มีการแจกแจงข้อผิดพลาดทั่วไปที่เป็นอิสระจากค่าตัวทำนายซึ่งเป็นสาเหตุที่ผู้คนพูดว่า "ไม่มีคำผิดพลาด" (1)
"คำผิดพลาดมีการแจกแจงแบบทวินาม" (2) เป็นเพียงความสะเพร่า - "แบบเกาส์เซียนมีข้อผิดพลาดแบบเกาส์, แบบจำลองแบบทวินามของเออร์โกนั้นมีข้อผิดพลาดแบบทวินาม" (หรือ @whuber ชี้ให้เห็นว่ามันอาจจะหมายถึง "ความแตกต่างระหว่างการสังเกตและความคาดหวังของมันมีการแจกแจงทวินามที่แปลโดยความคาดหวัง")
"คำผิดพลาดมีการแจกแจงแบบโลจิสติกส์" (3) เกิดขึ้นจากการได้มาของการถดถอยแบบโลจิสติกจากแบบจำลองที่คุณสังเกตว่าตัวแปรแฝงที่มีข้อผิดพลาดหลังจากการกระจายแบบโลจิสติกเกินขีด จำกัด หรือไม่ ดังนั้นจึงไม่ใช่ข้อผิดพลาดเดียวกันที่กำหนดไว้ข้างต้น (ดูเหมือนเป็นเรื่องแปลกที่จะพูดว่า IMO นอกบริบทนั้นหรือไม่มีการอ้างอิงตัวแปรแฝงอย่างชัดเจน)
†ถ้าคุณมีสังเกตด้วยค่าทำนายเดียวกันให้ความน่าจะเป็นแบบเดียวกันπสำหรับแต่ละแล้วผลรวมของพวกเขาΣ ปีต่อไปนี้การกระจายทวินามด้วยความน่าจะπและไม่มีการ การทดลองk . พิจารณา∑ y - k πเนื่องจากข้อผิดพลาดนำไปสู่ข้อสรุปเดียวกัน
สิ่งนี้ได้รับการคุ้มครองมาก่อน รูปแบบที่เป็นข้อ จำกัด ที่จะมีการคาดการณ์ค่าในไม่อาจมีข้อผิดพลาดในระยะสารเติมแต่งที่จะทำให้การคาดการณ์ไปข้างนอก[ 0 , 1 ] คิดว่าเป็นตัวอย่างที่ง่ายที่สุดของแบบจำลองลอจิสติกไบนารี - แบบจำลองที่มีเพียงการสกัดกั้น นี่เทียบเท่ากับปัญหาตัวอย่างหนึ่งของ Bernoulli ซึ่งมักเรียกว่า (ในกรณีง่าย ๆ ) ปัญหาทวินามเพราะ (1) ข้อมูลทั้งหมดมีอยู่ในขนาดตัวอย่างและจำนวนเหตุการณ์หรือ (2) การกระจาย Bernoulli เป็นกรณีพิเศษ ของการแจกแจงทวินามด้วยn = 1. ข้อมูลดิบในสถานการณ์นี้คือชุดของค่าไบนารีและแต่ละรายการมีการแจกแจงเบอร์นูลลี่พร้อมพารามิเตอร์ที่ไม่รู้จักแสดงถึงความน่าจะเป็นของเหตุการณ์ ไม่มีคำผิดพลาดในการแจกแจงเบอร์นูลีมีเพียงความน่าจะเป็นที่ไม่รู้จัก ตัวแบบลอจิสติกเป็นตัวแบบความน่าจะเป็น
สำหรับผมแล้วการรวมกันของลอจิสติกส์เชิงเส้นการถดถอยปัวซอง ฯลฯ ... ได้รับในแง่ของการกำหนดค่าเฉลี่ยและความแปรปรวนในกรอบโมเดลเชิงเส้นแบบทั่วไป เราเริ่มต้นด้วยการระบุการแจกแจงความน่าจะเป็นสำหรับข้อมูลของเราปกติสำหรับข้อมูลต่อเนื่อง Bernoulli สำหรับ dichotomous, Poisson สำหรับการนับและอื่น ๆ ... จากนั้นเราระบุฟังก์ชันเชื่อมโยงที่อธิบายว่าค่าเฉลี่ยเกี่ยวข้องกับตัวทำนายเชิงเส้นอย่างไร
สำหรับการถดถอยเชิงเส้นฉัน
สำหรับการถดถอยโลจิสติก )
สำหรับ Poisson ถดถอย )
สิ่งเดียวที่อาจพิจารณาได้ในแง่ของการเขียนข้อผิดพลาดคือระบุว่า: