พฤติกรรมที่คุณสังเกตเป็นกรณี "ทั่วไป" ในการถดถอยโลจิสติก แต่ไม่เป็นความจริงเสมอไป มันยังคงมีอยู่ทั่วไปมากขึ้น (ดูด้านล่าง) มันเป็นผลมาจากการบรรจบกันของข้อเท็จจริงสามประการที่แยกกัน
- ทางเลือกของการสร้างแบบจำลองอัตราเดิมพันเป็นฟังก์ชันเชิงเส้นของตัวทำนาย
- การใช้โอกาสสูงสุดในการประเมินค่าสัมประสิทธิ์ในแบบจำลองการถดถอยโลจิสติกและ
- การรวมคำดักจับในโมเดล
หากไม่มีข้อใดข้อหนึ่งข้างต้นค่าเฉลี่ยความน่าจะเป็นโดยประมาณจะไม่ตรงกับสัดส่วนของความน่าจะเป็นในตัวอย่าง
อย่างไรก็ตาม (เกือบ) ซอฟต์แวร์เชิงสถิติทั้งหมดใช้การประมาณค่าความน่าจะเป็นสูงสุดสำหรับโมเดลดังกล่าวดังนั้นในทางปฏิบัติรายการ 1 และ 2 มักปรากฏอยู่เสมอและรายการ 3 มักปรากฏอยู่ยกเว้นในกรณีพิเศษ
รายละเอียดบางอย่าง
ในกรอบการถดถอยโลจิสติกโดยทั่วไปเราสังเกตผลของการทดลองทวินามอิสระที่มีความน่าจะเป็นฉัน ขอให้ปีฉันจะตอบสนองข้อสังเกต โอกาสทั้งหมดคือ
L = n ∏ i = 1 p y ฉันฉัน ( 1 - p i ) 1 - y ฉัน = n ∏ i = 1 exp ( y i log ( p i / ( 1 - p i)พีผมYผม
และเพื่อให้เข้าสู่ระบบความน่าจะเป็น
ℓ = n Σฉัน= 1 Y ฉันเข้าสู่ระบบ( P ฉัน/ ( 1 - P ฉัน ) ) + n Σฉัน= 1ล็อก( 1 - P ฉัน )
L = ∏i = 1nพีYผมผม( 1 - pผม)1 - yผม= ∏i = 1nประสบการณ์( yผมเข้าสู่ระบบ( หน้าผม/ (1- pผม) ) + บันทึก( 1 - pผม) ),
ℓ = ∑i = 1nYผมเข้าสู่ระบบ( หน้าผม/ (1- pผม) ) + ∑i = 1nเข้าสู่ระบบ( 1 - pผม).
ตอนนี้เรามีเวกเตอร์ของการพยากรณ์สำหรับแต่ละการสังเกตและจากข้อเท็จจริงที่ 1 ข้างต้นโลจิสติก posits แบบการถดถอยที่
บันทึกหน้าฉันxผม
สำหรับบางคนที่ไม่รู้จักเวกเตอร์ของพารามิเตอร์β หมายเหตุ: โดยการจัดเรียงนี้เราได้รับที่หน้าฉัน = 1 / ( 1 + E - β T xฉัน )
เข้าสู่ระบบพีผม1 - หน้าผม= βTxผม,
βพีผม= 1 / ( 1 + e- βTxผม)
ใช้โอกาสสูงสุดเพื่อให้พอดีกับรูปแบบ (Fact 2) อัตราผลตอบแทนชุดของสมการเพื่อแก้ปัญหาจากการพิจารณา 0 สังเกตว่า
∂ ℓ∂ℓ / ∂β= 0
∂ℓ∂β= ∑ผมYผมxผม- ∑ผมxผม1 + ประสบการณ์( - βTxผม)= ∑ผมYผมxผม- ∑ผมพีผมxผม,
ΣผมYผมxผม= ∑ผมพี^ผมxผม,
พี^ผม= ( 1 + ประสบการณ์( - β^Txผม) )- 1
xผมJผมΣผมYผมxฉันเจ= ∑ผมYผม= ∑ผมพี^ผม
การจำลอง
R
x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )
กรณีทั่วไป : ตามที่กล่าวถึงข้างต้นคุณสมบัติที่การตอบสนองหมายถึงเท่ากับค่าเฉลี่ยที่คาดการณ์ไว้โดยทั่วไปในชั้นเรียนของตัวแบบเชิงเส้นทั่วไปที่พอดีโดยความเป็นไปได้สูงสุดโดยใช้ฟังก์ชันลิงก์แบบบัญญัติและรวมถึงการสกัดกั้นใน แบบ
อ้างอิง
การอ้างอิงที่ดีสำหรับทฤษฎีที่เกี่ยวข้องมีดังต่อไปนี้
- A. Agresti (2002), การวิเคราะห์ข้อมูลอย่างละเอียด , 2nd ed., Wiley
- P. McCullagh และ JA Nelder (1989), โมเดลเชิงเส้นทั่วไป , 2nd ed., Chapman & Hall (ข้อความจากผู้แต่งดั้งเดิมของวิธีการทั่วไป)