การถดถอยเชิงเส้นของล็อกเทียบกับการถดถอยโลจิสติก


21

ใครสามารถให้รายการที่ชัดเจนของความแตกต่างระหว่างการถดถอยเชิงเส้นและการถดถอยโลจิสติก? ฉันเข้าใจว่าอดีตเป็นรูปแบบการถดถอยเชิงเส้นอย่างง่าย แต่ฉันไม่ชัดเจนว่าเมื่อใดควรใช้แต่ละอัน

คำตอบ:


19

ชื่อนี้เป็นชื่อเรียกผิดเล็กน้อย แบบจำลองเชิงเส้นล็อกถูกนำมาใช้ในการวิเคราะห์ข้อมูลในรูปแบบตารางฉุกเฉิน ในขณะที่ "นับข้อมูล" ไม่จำเป็นต้องติดตามการกระจายของปัวซอง แต่จริง ๆ แล้วแบบจำลองการบันทึกเชิงเส้นเป็นแบบจำลองการถดถอยปัวซอง ดังนั้นชื่อ "บันทึก" (แบบจำลองการถดถอยของปัวซองประกอบด้วยฟังก์ชันลิงก์ "ล็อก")

"ตัวแปรผลลัพธ์การแปลงบันทึก" ในตัวแบบการถดถอยเชิงเส้นไม่ใช่แบบจำลองการบันทึกเชิงเส้น (ไม่ใช่ตัวแปรผลลัพธ์แบบเอ็กซ์โพเนนเชียลเนื่องจากจะแนะนำให้ใช้ "บันทึกเชิงเส้น") ทั้งแบบจำลองเชิงเส้นและการถดถอยแบบลอจิสติกเป็นตัวอย่างของแบบจำลองเชิงเส้นแบบทั่วไปซึ่งความสัมพันธ์ระหว่างตัวทำนายเชิงเส้น (เช่นอัตราต่อรองหรืออัตราการเข้าสู่ระบบ) เป็นแบบเส้นตรงในตัวแปรแบบจำลอง พวกเขาไม่ใช่ "แบบจำลองการถดถอยเชิงเส้นอย่างง่าย" (หรือรุ่นที่ใช้รูปแบบ )E[Y|X]=a+X

แม้จะมีทั้งหมด แต่ก็เป็นไปได้ที่จะได้รับการอนุมานเทียบเท่ากับความสัมพันธ์ระหว่างตัวแปรเด็ดขาดโดยใช้การถดถอยโลจิสติกและการถดถอยปัวซอง มันเป็นเพียงแค่ในโมเดลปัวซองตัวแปรผลลัพธ์จะได้รับการปฏิบัติเหมือนโควาเรียต ที่น่าสนใจคือคุณสามารถตั้งค่าแบบจำลองบางอย่างที่ยืมข้อมูลข้ามกลุ่มได้ในลักษณะที่คล้ายคลึงกับแบบจำลองอัตราต่อรอง แต่ไม่เข้าใจและไม่ค่อยได้ใช้

ตัวอย่างของการได้รับการอนุมานที่เท่าเทียมกันในแบบจำลองการถดถอยโลจิสติกและปัวซองโดยใช้ R แสดงด้านล่าง:

y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)

## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)

## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)

น่าสนใจการขาดความเชื่อมโยงระหว่างและหมายถึงอัตราส่วนของอัตราต่อรองคือ 1 ในตัวแบบการถดถอยโลจิสติก ทำให้คุณมีความคิดว่าเราวัดความเป็นอิสระตามเงื่อนไขในข้อมูลตารางฉุกเฉินได้อย่างไรYx


นี่อาจแสดงถึงความไม่มีประสบการณ์ของฉัน แต่คุณจะสามารถให้คำจำกัดความสำหรับตารางฉุกเฉินได้หรือไม่ มันอาจช่วยคนอื่นที่เจอคำถามนี้ด้วย
user38133

ตารางฉุกเฉินคือ (ปกติ) ตาราง 2 มิติซึ่งระบุการตอบสนองที่เป็นไปได้ทั้งหมดของตัวแปรสองตัวและแสดงความถี่ของการสังเกตในเซลล์ ตัวอย่างเช่นคุณอาจมีตารางฉุกเฉิน 2 ถึง 2 ตารางแสดงสถานะการสูบบุหรี่ (ไม่เคยเทียบกับปัจจุบัน) และมะเร็ง (ปอดกับมะเร็งไม่มี) ที่คุณจะใช้เพื่อประเมินความสัมพันธ์ระหว่างการสูบบุหรี่และความเสี่ยงมะเร็ง
AdamO

15

ฉันไม่คิดว่าฉันจะเรียกพวกเขาว่า "แบบจำลองการถดถอยเชิงเส้นอย่างง่าย" อย่างใดอย่างหนึ่ง แม้ว่ามันจะเป็นไปได้ที่จะใช้การบันทึกหรือการแปลง logit เป็นฟังก์ชั่นการเชื่อมโยงสำหรับรูปแบบที่แตกต่างกันจำนวนหนึ่ง แต่โดยทั่วไปแล้วสิ่งเหล่านี้เป็นที่เข้าใจกันเพื่ออ้างถึงรูปแบบที่เฉพาะเจาะจง ยกตัวอย่างเช่น "การถดถอยโลจิสติก" เป็นที่เข้าใจว่าจะเป็นโดยทั่วไปรูปแบบเชิงเส้น (GLiM) สำหรับสถานการณ์ที่ตัวแปรตอบสนองจะกระจายเป็นสองจำนวน นอกจากนี้ "บันทึกการถดถอยเชิงเส้น" มักจะเข้าใจว่าเป็นปัวซอง GLiM นำไปใช้กับตารางฉุกเฉินหลายทาง. กล่าวอีกนัยหนึ่งนอกเหนือจากข้อเท็จจริงที่ว่าพวกเขาทั้งสองเป็นแบบจำลองการถดถอย / GLiMs ฉันไม่เห็นพวกเขาว่าเป็นสิ่งที่คล้ายกันมาก (มีการเชื่อมต่อระหว่างพวกเขาเป็น @AdamO ชี้ให้เห็น แต่ประเพณีทั่วไปค่อนข้างชัดเจน) ความแตกต่างที่ยิ่งใหญ่ที่สุดจะเป็นที่ถดถอยโลจิสติถือว่าการตอบสนองกระจายเป็นถดถอยทวินามและเข้าสู่ระบบเชิงเส้นถือว่าการตอบสนองกระจายเป็นPoisson อันที่จริงแล้วการถดถอยแบบบันทึกเชิงเส้นนั้นค่อนข้างแตกต่างจากแบบจำลองการถดถอยส่วนใหญ่ซึ่งตัวแปรการตอบสนองไม่ได้เป็นหนึ่งในตัวแปรของคุณเลย (ตามปกติ) แต่เป็นชุดความถี่นับที่เกี่ยวข้องกับการรวมกันของตัวแปรของคุณ ในตารางฉุกเฉินหลายทาง


ขอบคุณ! ฉันเดาคำถามตามธรรมชาติของฉันซึ่งอาจแสดงให้เห็นถึงการขาดประสบการณ์ของฉันคือเกี่ยวกับวิธีการตรวจสอบว่าการกระจายที่เหมาะสมในการสร้างแบบจำลองปัญหาที่กำหนดคืออะไร ฉันคิดว่าฉันจะต้องอ่านเพิ่มอีกนิดหน่อยเพื่อให้แน่ใจว่าฉันสามารถเลือกได้อย่างถูกต้องเสมอ
user38133

2
{0, 1}

0

เพื่อชี้แจงการถดถอยโลจิสติก "ไบนารี" มีตัวแปรตามที่มีสองผลลัพธ์ ความเข้าใจของฉันคือว่ายังมีตัวเลือกในการใช้การถดถอยโลจิสติก "multinomial" ถ้าตัวแปรตามผลลัพธ์ของคุณมีมากกว่า 2 หมวดหมู่ ดูที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.