ใครสามารถให้รายการที่ชัดเจนของความแตกต่างระหว่างการถดถอยเชิงเส้นและการถดถอยโลจิสติก? ฉันเข้าใจว่าอดีตเป็นรูปแบบการถดถอยเชิงเส้นอย่างง่าย แต่ฉันไม่ชัดเจนว่าเมื่อใดควรใช้แต่ละอัน
ใครสามารถให้รายการที่ชัดเจนของความแตกต่างระหว่างการถดถอยเชิงเส้นและการถดถอยโลจิสติก? ฉันเข้าใจว่าอดีตเป็นรูปแบบการถดถอยเชิงเส้นอย่างง่าย แต่ฉันไม่ชัดเจนว่าเมื่อใดควรใช้แต่ละอัน
คำตอบ:
ชื่อนี้เป็นชื่อเรียกผิดเล็กน้อย แบบจำลองเชิงเส้นล็อกถูกนำมาใช้ในการวิเคราะห์ข้อมูลในรูปแบบตารางฉุกเฉิน ในขณะที่ "นับข้อมูล" ไม่จำเป็นต้องติดตามการกระจายของปัวซอง แต่จริง ๆ แล้วแบบจำลองการบันทึกเชิงเส้นเป็นแบบจำลองการถดถอยปัวซอง ดังนั้นชื่อ "บันทึก" (แบบจำลองการถดถอยของปัวซองประกอบด้วยฟังก์ชันลิงก์ "ล็อก")
"ตัวแปรผลลัพธ์การแปลงบันทึก" ในตัวแบบการถดถอยเชิงเส้นไม่ใช่แบบจำลองการบันทึกเชิงเส้น (ไม่ใช่ตัวแปรผลลัพธ์แบบเอ็กซ์โพเนนเชียลเนื่องจากจะแนะนำให้ใช้ "บันทึกเชิงเส้น") ทั้งแบบจำลองเชิงเส้นและการถดถอยแบบลอจิสติกเป็นตัวอย่างของแบบจำลองเชิงเส้นแบบทั่วไปซึ่งความสัมพันธ์ระหว่างตัวทำนายเชิงเส้น (เช่นอัตราต่อรองหรืออัตราการเข้าสู่ระบบ) เป็นแบบเส้นตรงในตัวแปรแบบจำลอง พวกเขาไม่ใช่ "แบบจำลองการถดถอยเชิงเส้นอย่างง่าย" (หรือรุ่นที่ใช้รูปแบบ )
แม้จะมีทั้งหมด แต่ก็เป็นไปได้ที่จะได้รับการอนุมานเทียบเท่ากับความสัมพันธ์ระหว่างตัวแปรเด็ดขาดโดยใช้การถดถอยโลจิสติกและการถดถอยปัวซอง มันเป็นเพียงแค่ในโมเดลปัวซองตัวแปรผลลัพธ์จะได้รับการปฏิบัติเหมือนโควาเรียต ที่น่าสนใจคือคุณสามารถตั้งค่าแบบจำลองบางอย่างที่ยืมข้อมูลข้ามกลุ่มได้ในลักษณะที่คล้ายคลึงกับแบบจำลองอัตราต่อรอง แต่ไม่เข้าใจและไม่ค่อยได้ใช้
ตัวอย่างของการได้รับการอนุมานที่เท่าเทียมกันในแบบจำลองการถดถอยโลจิสติกและปัวซองโดยใช้ R แสดงด้านล่าง:
y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)
## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)
## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)
น่าสนใจการขาดความเชื่อมโยงระหว่างและหมายถึงอัตราส่วนของอัตราต่อรองคือ 1 ในตัวแบบการถดถอยโลจิสติก ทำให้คุณมีความคิดว่าเราวัดความเป็นอิสระตามเงื่อนไขในข้อมูลตารางฉุกเฉินได้อย่างไร
ฉันไม่คิดว่าฉันจะเรียกพวกเขาว่า "แบบจำลองการถดถอยเชิงเส้นอย่างง่าย" อย่างใดอย่างหนึ่ง แม้ว่ามันจะเป็นไปได้ที่จะใช้การบันทึกหรือการแปลง logit เป็นฟังก์ชั่นการเชื่อมโยงสำหรับรูปแบบที่แตกต่างกันจำนวนหนึ่ง แต่โดยทั่วไปแล้วสิ่งเหล่านี้เป็นที่เข้าใจกันเพื่ออ้างถึงรูปแบบที่เฉพาะเจาะจง ยกตัวอย่างเช่น "การถดถอยโลจิสติก" เป็นที่เข้าใจว่าจะเป็นโดยทั่วไปรูปแบบเชิงเส้น (GLiM) สำหรับสถานการณ์ที่ตัวแปรตอบสนองจะกระจายเป็นสองจำนวน นอกจากนี้ "บันทึกการถดถอยเชิงเส้น" มักจะเข้าใจว่าเป็นปัวซอง GLiM นำไปใช้กับตารางฉุกเฉินหลายทาง. กล่าวอีกนัยหนึ่งนอกเหนือจากข้อเท็จจริงที่ว่าพวกเขาทั้งสองเป็นแบบจำลองการถดถอย / GLiMs ฉันไม่เห็นพวกเขาว่าเป็นสิ่งที่คล้ายกันมาก (มีการเชื่อมต่อระหว่างพวกเขาเป็น @AdamO ชี้ให้เห็น แต่ประเพณีทั่วไปค่อนข้างชัดเจน) ความแตกต่างที่ยิ่งใหญ่ที่สุดจะเป็นที่ถดถอยโลจิสติถือว่าการตอบสนองกระจายเป็นถดถอยทวินามและเข้าสู่ระบบเชิงเส้นถือว่าการตอบสนองกระจายเป็นPoisson อันที่จริงแล้วการถดถอยแบบบันทึกเชิงเส้นนั้นค่อนข้างแตกต่างจากแบบจำลองการถดถอยส่วนใหญ่ซึ่งตัวแปรการตอบสนองไม่ได้เป็นหนึ่งในตัวแปรของคุณเลย (ตามปกติ) แต่เป็นชุดความถี่นับที่เกี่ยวข้องกับการรวมกันของตัวแปรของคุณ ในตารางฉุกเฉินหลายทาง