การถดถอยโลจิสติก - ข้อผิดพลาดและการกระจาย


31

ว่ามีข้อผิดพลาดเกิดขึ้นในการถดถอยโลจิสติกส์ (และการกระจายที่สันนิษฐาน) ฉันได้อ่านในสถานที่ต่าง ๆ ที่:

  1. ไม่มีข้อผิดพลาดอยู่
  2. คำผิดพลาดมีการแจกแจงแบบทวินาม (ตามการกระจายของตัวแปรตอบสนอง)
  3. คำผิดพลาดมีการกระจายโลจิสติก

มีคนช่วยอธิบายได้ไหม?


6
ด้วยการถดถอยโลจิสติก - หรือ GLMs โดยทั่วไป - โดยทั่วไปแล้วมันไม่มีประโยชน์ที่จะคิดในแง่ของการสังเกตเป็น "Mean + error" ดีกว่าที่จะคิดในแง่ของการกระจายตามเงื่อนไข ฉันจะไม่พูดถึงคำว่า 'ไม่มีคำผิดพลาด' เนื่องจาก 'มันไม่เป็นประโยชน์ที่จะคิดในแง่เหล่านั้น' ดังนั้นฉันจะไม่พูดมากว่ามันเป็นตัวเลือกระหว่าง 1 หรือ 2 ตามที่ฉันจะบอกว่าโดยทั่วไปดีกว่าที่จะพูดว่า "ไม่มีข้อใดข้อหนึ่ง" อย่างไรก็ตามโดยไม่คำนึงถึงระดับที่หนึ่งอาจโต้เถียงสำหรับ "1. " หรือ "2. " ถึงแม้ว่า "3. " มันผิดอย่างแน่นอน คุณเห็นที่ไหน Yผม|x
Glen_b -Reinstate Monica

1
@Glen_b: หนึ่งอาจโต้แย้งสำหรับ (2)? ฉันรู้จักคนพูด แต่ก็ไม่เคยปกป้องมันเมื่อถูกสอบสวน
Scortchi - Reinstate Monica

3
@Glen_b ทั้งสามข้อความมีการตีความเชิงสร้างสรรค์ที่เป็นจริง (3) เป็น addressed ที่en.wikipedia.org/wiki/Logistic_distribution#Applicationsและen.wikipedia.org/wiki/Discrete_choice#Binary_Choice
whuber

@whuber: ฉันได้แก้ไขคำตอบของฉัน wrt (3) ซึ่งไม่ได้คิดอย่างนั้น แต่ก็ยังงงกับความรู้สึกที่เหมาะสม (2)
Scortchi - Reinstate Monica

2
@Scortchi แม้ว่าคุณจะถูกต้องที่ (2) ไม่ถูกต้องหากเราตีความว่าเป็นการบอกว่าความแตกต่างระหว่างการสังเกตและความคาดหวังนั้นมีการแจกแจงแบบทวินามที่แปลโดยความคาดหวังแล้วมันจะถูกต้อง (เล็กน้อย) ข้อความสอดแทรกใน (2) ชี้ให้เห็นอย่างชัดเจนว่านี่เป็นการตีความที่ตั้งใจไว้ โปรดทราบว่าประโยชน์ "เงื่อนไขข้อผิดพลาด" อื่น ๆ ที่สามารถกำหนดได้อีกด้วยเช่นและเบี่ยงเบนเงื่อนไขข้อผิดพลาดที่อธิบายไว้ในฮอสเมอร์ & Lemeshow (และอาจมีการเตือนที่เหมาะสมกล่าวถึงมีสี่เหลี่ยมของพวกเขาได้โดยประมาณกระจาย) . χ 2χ2χ2
whuber

คำตอบ:


25

ในการสังเกตการถดถอยเชิงเส้นจะถือว่าเป็นไปตามการแจกแจงแบบเกาส์พร้อมกับพารามิเตอร์ค่าเฉลี่ยตามเงื่อนไขบนค่าตัวทำนาย หากคุณลบค่าเฉลี่ยออกจากการสังเกตคุณจะได้รับข้อผิดพลาด : การแจกแจงแบบเกาส์ที่มีค่าเฉลี่ยเป็นศูนย์และไม่ขึ้นกับค่าของตัวทำนาย - นั่นคือข้อผิดพลาดที่ชุดของค่าตัวทำนายใด ๆ

ในการสังเกตการถดถอยโลจิสติกจะถือว่าเป็นไปตามการกระจาย Bernoulli ด้วยพารามิเตอร์ค่าเฉลี่ย (ความน่าจะเป็น) ตามเงื่อนไขในค่าตัวทำนาย ดังนั้นสำหรับค่าทำนายใด ๆ การกำหนดค่าเฉลี่ยπมีเพียงสองข้อผิดพลาดที่เป็นไปได้: 1 - πที่เกิดขึ้นกับความน่าจะπและ0 - πที่เกิดขึ้นกับความน่าจะเป็น1 - π สำหรับค่าตัวทำนายอื่น ๆ ข้อผิดพลาดจะเป็น1 - π ′ที่เกิดขึ้นกับความน่าจะเป็นπ Y{0,1}π1-ππ0-π1-π1-π'π'และที่เกิดขึ้นกับความน่าจะเป็น1 - π ' ดังนั้นจึงไม่มีการแจกแจงข้อผิดพลาดทั่วไปที่เป็นอิสระจากค่าตัวทำนายซึ่งเป็นสาเหตุที่ผู้คนพูดว่า "ไม่มีคำผิดพลาด" (1)0-π'1-π'

"คำผิดพลาดมีการแจกแจงแบบทวินาม" (2) เป็นเพียงความสะเพร่า - "แบบเกาส์เซียนมีข้อผิดพลาดแบบเกาส์, แบบจำลองแบบทวินามของเออร์โกนั้นมีข้อผิดพลาดแบบทวินาม" (หรือ @whuber ชี้ให้เห็นว่ามันอาจจะหมายถึง "ความแตกต่างระหว่างการสังเกตและความคาดหวังของมันมีการแจกแจงทวินามที่แปลโดยความคาดหวัง")

"คำผิดพลาดมีการแจกแจงแบบโลจิสติกส์" (3) เกิดขึ้นจากการได้มาของการถดถอยแบบโลจิสติกจากแบบจำลองที่คุณสังเกตว่าตัวแปรแฝงที่มีข้อผิดพลาดหลังจากการกระจายแบบโลจิสติกเกินขีด จำกัด หรือไม่ ดังนั้นจึงไม่ใช่ข้อผิดพลาดเดียวกันที่กำหนดไว้ข้างต้น (ดูเหมือนเป็นเรื่องแปลกที่จะพูดว่า IMO นอกบริบทนั้นหรือไม่มีการอ้างอิงตัวแปรแฝงอย่างชัดเจน)

†ถ้าคุณมีสังเกตด้วยค่าทำนายเดียวกันให้ความน่าจะเป็นแบบเดียวกันπสำหรับแต่ละแล้วผลรวมของพวกเขาΣ ปีต่อไปนี้การกระจายทวินามด้วยความน่าจะπและไม่มีการ การทดลองk . พิจารณาy - k πเนื่องจากข้อผิดพลาดนำไปสู่ข้อสรุปเดียวกันkπΣYπkΣY-kπ


1
คุณสามารถให้ตัวอย่างง่ายๆเกี่ยวกับส่วน 'ไม่มีคำผิดพลาด' ฉันมีปัญหาในการทำความเข้าใจวิธีการเขียน
quirik

@Scortchi ฉันมีปัญหาในการติดตามกรณีเมื่อในทางปฏิบัติรูปแบบที่ใช้กับเกณฑ์บางอย่างพูด 0.5 จากนั้นข้อผิดพลาดคือ 1 หรือ 0 จะถือว่าเป็นตัวแปรสุ่มของ Bernoulli ที่มีพารามิเตอร์ 1- เมื่อฉลากที่แท้จริงคือ 1 หรือไม่ π
wabbit

17

สิ่งนี้ได้รับการคุ้มครองมาก่อน รูปแบบที่เป็นข้อ จำกัด ที่จะมีการคาดการณ์ค่าในไม่อาจมีข้อผิดพลาดในระยะสารเติมแต่งที่จะทำให้การคาดการณ์ไปข้างนอก[ 0 , 1 ] คิดว่าเป็นตัวอย่างที่ง่ายที่สุดของแบบจำลองลอจิสติกไบนารี - แบบจำลองที่มีเพียงการสกัดกั้น นี่เทียบเท่ากับปัญหาตัวอย่างหนึ่งของ Bernoulli ซึ่งมักเรียกว่า (ในกรณีง่าย ๆ ) ปัญหาทวินามเพราะ (1) ข้อมูลทั้งหมดมีอยู่ในขนาดตัวอย่างและจำนวนเหตุการณ์หรือ (2) การกระจาย Bernoulli เป็นกรณีพิเศษ ของการแจกแจงทวินามด้วยn = 1[0,1][0,1]n=1. ข้อมูลดิบในสถานการณ์นี้คือชุดของค่าไบนารีและแต่ละรายการมีการแจกแจงเบอร์นูลลี่พร้อมพารามิเตอร์ที่ไม่รู้จักแสดงถึงความน่าจะเป็นของเหตุการณ์ ไม่มีคำผิดพลาดในการแจกแจงเบอร์นูลีมีเพียงความน่าจะเป็นที่ไม่รู้จัก ตัวแบบลอจิสติกเป็นตัวแบบความน่าจะเป็นθ


9

สำหรับผมแล้วการรวมกันของลอจิสติกส์เชิงเส้นการถดถอยปัวซอง ฯลฯ ... ได้รับในแง่ของการกำหนดค่าเฉลี่ยและความแปรปรวนในกรอบโมเดลเชิงเส้นแบบทั่วไป เราเริ่มต้นด้วยการระบุการแจกแจงความน่าจะเป็นสำหรับข้อมูลของเราปกติสำหรับข้อมูลต่อเนื่อง Bernoulli สำหรับ dichotomous, Poisson สำหรับการนับและอื่น ๆ ... จากนั้นเราระบุฟังก์ชันเชื่อมโยงที่อธิบายว่าค่าเฉลี่ยเกี่ยวข้องกับตัวทำนายเชิงเส้นอย่างไร

ก.(μผม)=α+xผมTβ

สำหรับการถดถอยเชิงเส้นฉันก.(μผม)=μผม

สำหรับการถดถอยโลจิสติก )ก.(μผม)=เข้าสู่ระบบ(μผม1-μผม)

สำหรับ Poisson ถดถอย )ก.(μผม)=เข้าสู่ระบบ(μผม)

สิ่งเดียวที่อาจพิจารณาได้ในแง่ของการเขียนข้อผิดพลาดคือระบุว่า:

Yผม=ก.-1(α+xผมTβ)+อีผมE(อีผม)=0VaR(อีผม)=σ2(μผม)σ2(μผม)=μผม(1-μผม)=ก.-1(α+xผมTβ)(1-ก.-1(α+xผมTβ))อีผม

อีผม


0
  1. ไม่มีข้อผิดพลาด เรากำลังสร้างแบบจำลองค่าเฉลี่ย! ค่าเฉลี่ยเป็นเพียงจำนวนจริง
  2. มันไม่สมเหตุสมผลสำหรับฉัน
  3. คิดว่าตัวแปรตอบกลับเป็นตัวแปรแฝง หากคุณคิดว่าคำผิดพลาดนั้นถูกแจกจ่ายตามปกติโมเดลจะกลายเป็นโมเดล probit หากคุณสมมติว่าการแจกแจงของข้อผิดพลาดคือโลจิสติกโมเดลจะเป็นการถดถอยโลจิสติก

2
ฉันไม่เห็นว่าสิ่งนี้จะช่วยให้เราเข้าใจรูปแบบความน่าจะเป็นอย่างไร โมเดลความน่าจะเป็นนั้นง่ายกว่าที่คิด
Frank Harrell
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.