เหตุใดการถดถอยแบบลอจิสติกจึงเป็นลักษณนามเชิงเส้น


48

เนื่องจากเราใช้ฟังก์ชันลอจิสติกส์ในการแปลงชุดค่าผสมเชิงเส้นของอินพุตให้เป็นเอาต์พุตแบบไม่เชิงเส้นการถดถอยลอจิสติกจะถือว่าเป็นลักษณนามเชิงเส้นได้อย่างไร

การถดถอยเชิงเส้นเป็นเหมือนเครือข่ายประสาทที่ไม่มีเลเยอร์ที่ซ่อนอยู่ดังนั้นทำไมเครือข่ายประสาทจึงพิจารณาว่าตัวแยกประเภทที่ไม่เป็นเชิงเส้นและการถดถอยแบบลอจิสติกเป็นแบบเชิงเส้น


7
เปลี่ยน "การรวมกันเชิงเส้นของการป้อนข้อมูลลงในการส่งออกที่ไม่ใช่เชิงเส้น" เป็นส่วนพื้นฐานของความหมายของการเชิงเส้นลักษณนาม ที่ลดคำถามนี้ไปยังส่วนที่สองซึ่งเป็นจำนวนที่แสดงให้เห็นว่าโดยทั่วไปเครือข่ายประสาทไม่สามารถแสดงเป็นตัวแยกประเภทเชิงเส้น
whuber

1
@ โฮเบอร์: คุณอธิบายความจริงว่าแบบจำลองการถดถอยโลจิสติกสามารถใช้ตัวแปรตัวทำนายพหุนามได้อย่างไร (เช่น ) เพื่อสร้างขอบเขตการตัดสินใจที่ไม่ใช่เชิงเส้น นั่นยังคงเป็นลักษณนามเชิงเส้นหรือไม่? W1x12+W2x23
stackoverflowuser2010

4
@Stack แนวคิดของ "ตัวจําแนกเชิงเส้น" ดูเหมือนจะเกิดขึ้นกับแนวคิดของตัวแบบเชิงเส้น "เส้นตรง" ในรูปแบบที่สามารถใช้ในหลายรูปแบบตามที่อธิบายไว้ในstats.stackexchange.com/a/148713 ถ้าเรายอมรับลักษณะวิกิพีเดียลักษณนามเชิงเส้นแล้วตัวอย่างเช่นพหุนามของคุณจะถูกมองว่าเป็นไม่เชิงเส้นในแง่ของ "คุณสมบัติ" ที่กำหนดและx 2แต่มันจะเป็นเส้นตรงในแง่ของคุณสมบัติx 2 1และx 3 2 ความแตกต่างนี้เป็นวิธีที่มีประโยชน์ในการใช้ประโยชน์จากคุณสมบัติของความเป็นเชิงเส้นx1x2x12x23
whuber

1
ฉันยังสับสนอยู่เล็กน้อยเกี่ยวกับคำถามคือขอบเขตการตัดสินใจของลอจิสติกส์ลอจิคัลเชิงเส้น ฉันได้ติดตามหลักสูตรการเรียนรู้ของเครื่องจักร Andrew Ng บน Coursera แล้วและเขากล่าวถึงสิ่งต่อไปนี้: ! [ป้อนคำอธิบายภาพที่นี่ ] ( i.stack.imgur.com/gHxfr.png ) ดังนั้นจริง ๆ แล้วดูเหมือนว่าฉันจะไม่มีใครตอบ ขึ้นอยู่กับ linearity หรือ non-linearity ของขอบเขตการตัดสินใจที่ขึ้นอยู่กับฟังก์ชันสมมติฐานที่กำหนดเป็น Htheta (X) โดยที่ X คืออินพุตและ Theta เป็นตัวแปรของปัญหาของเรา มันสมเหตุสมผลสำหรับคุณหรือไม่
brokensword

คำตอบ:


41

การถดถอยโลจิสติกเป็นเส้นตรงในแง่ที่ว่าการคาดการณ์สามารถเขียนเป็น P = 1 ดังนั้นการคาดการณ์ที่สามารถเขียนในแง่ของ μซึ่งเป็นฟังก์ชั่นเชิงเส้นของx (แม่นยำยิ่งขึ้นอัตราต่อรองที่คาดการณ์ไว้เป็นฟังก์ชันเชิงเส้นของx)

พี^=11+อี-μ^, ที่ไหน μ^=θ^x.
μ^xx

ในทางกลับกันไม่มีทางที่จะสรุปเอาท์พุทของโครงข่ายประสาทในแง่ของฟังก์ชันเชิงเส้นของและนั่นคือสาเหตุที่เครือข่ายประสาทเทียมเรียกว่าไม่ใช่เชิงเส้นx

นอกจากนี้สำหรับการถดถอยโลจิสติกขอบเขตการตัดสินใจเป็นเส้นตรง: มันเป็นวิธีการแก้θx = 0 ขอบเขตการตัดสินใจของโครงข่ายประสาทเทียมนั้นโดยทั่วไปไม่ใช่เชิงเส้น{x:p^=0.5}θ^x=0


2
คำตอบของคุณชัดเจนที่สุดและไม่ซับซ้อนสำหรับฉันจนถึงตอนนี้ แต่ฉันสับสนเล็กน้อย บางคนบอกว่าบอกกล่าวบันทึกอัตราต่อรองเป็นฟังก์ชันเชิงเส้นของและคนอื่น ๆ บอกว่ามันเป็นฟังก์ชั่นเชิงเส้นของθ ดังนั้น?! xθ
Jack Twain

1
จากนั้นตามคำอธิบายของคุณ เราสามารถบอกได้ไหมว่าการทำนายของโครงข่ายประสาทเป็นฟังก์ชันเชิงเส้นของการเปิดใช้งานเลเยอร์ล่าสุดที่ซ่อนอยู่
Jack Twain

2
ที่คาดการณ์บันทึกอัตราต่อรองθxเป็นเส้นตรงทั้งในθและx แต่โดยทั่วไปแล้วเราสนใจมากที่สุดในความจริงที่ว่าอัตราการเข้าชมนั้นเป็นเส้นตรงในxเพราะนี่ก็หมายความว่าขอบเขตการตัดสินใจเป็นเส้นตรงในอวกาศx θ^xθ^xxx
Stefan Wager

3
ฉันใช้นิยามที่ตัวจําแนกเป็นเส้นตรงถ้าขอบเขตการตัดสินใจเป็นเส้นตรงในพื้นที่สิ่งนี้ไม่เหมือนกับความน่าจะเป็นที่คาดการณ์ว่าจะเป็นแบบเชิงเส้นในx (ซึ่งจะเป็นไปไม่ได้นอกเหนือจากกรณีเล็กน้อยเนื่องจากความน่าจะเป็นต้องอยู่ระหว่าง 0 ถึง 1) xx
Stefan Wager

3
@ Pegah ฉันรู้ว่ามันเก่า แต่: Logistic regression มีขอบเขตการตัดสินใจเชิงเส้น ตัว ouptut นั้นไม่ได้เป็นเส้นตรงแน่นอน เอาต์พุตทั้งหมดจะเข้าใกล้ (แต่ไม่ถึง) 0 หรือ 1 ตามลำดับ และเพื่อเพิ่มคำตอบของ Stefan Wagners: ประโยคสุดท้ายไม่ถูกต้องทั้งหมดโครงข่ายประสาทเทียมจะไม่เป็นเส้นตรงเมื่อประกอบด้วยการเปิดใช้งานที่ไม่เป็นเชิงเส้นหรือฟังก์ชัน ouput แต่สามารถเป็นแบบเส้นตรงได้เช่นกัน (ในกรณีที่ไม่มีการเพิ่มแบบไม่มีเส้นตรง)
คริส

20

ดังที่ Stefan Wagner กล่าวไว้ขอบเขตการตัดสินใจของลอจิสติกส์ลอจิสติกนั้นเป็นแบบเส้นตรง (ตัวจําแนกต้องการข้อมูลที่แยกได้เป็นเส้นตรง) ฉันต้องการขยายคณิตศาสตร์สำหรับเรื่องนี้ในกรณีที่ไม่ชัดเจน

ขอบเขตการตัดสินใจคือชุดของ x ที่

11+อี-θx=0.5

นิด ๆ หน่อย ๆ ของพีชคณิตแสดงให้เห็นว่านี้จะเทียบเท่ากับ

1=อี-θx

และการบันทึกตามธรรมชาติของทั้งสองฝ่าย

0=-θx=-Σผม=0nθผมxผม

ดังนั้นขอบเขตการตัดสินใจจึงเป็นแบบเส้นตรง

เหตุผลที่ขอบเขตการตัดสินใจสำหรับเครือข่ายนิวรัลไม่ใช่เชิงเส้นคือเนื่องจากมีฟังก์ชัน sigmoid สองชั้นในเครือข่ายประสาท: หนึ่งในแต่ละโหนดเอาต์พุตพร้อมกับฟังก์ชัน sigmoid เพิ่มเติมเพื่อรวมและเกณฑ์ผลลัพธ์ของแต่ละโหนดเอาต์พุต


2
ที่จริงแล้วคุณจะได้รับขอบเขตการตัดสินใจแบบไม่เป็นเชิงเส้นโดยมีเพียงเลเยอร์เดียวที่มีการเปิดใช้งาน ดูตัวอย่างมาตรฐานของ XOR ด้วยเครือข่ายฟีดไปข้างหน้า 2 ชั้น
James Hirschorn

5

C0C1

P(C0|x)=P(x|C0)P(C0)P(x)
P(C0|x)=P(x|C0)P(C0)P(x|C0)P(C0)+P(x|C1)P(C1)=11+ประสบการณ์(-เข้าสู่ระบบP(x|C0)P(x|C1)-เข้าสู่ระบบP(C0)P(C1))
1+อีωx

P(x|Cผม)=ประสบการณ์(θผมx-(θผม)a(φ)+(x,φ))
เข้าสู่ระบบP(x|C0)P(x|C1)=[(θ0-θ1)x-(θ0)+(θ1)]/a(φ)

โปรดสังเกตว่าเราสมมติว่าการแจกแจงทั้งสองเป็นของตระกูลเดียวกันและมีพารามิเตอร์การกระจายแบบเดียวกัน แต่ภายใต้สมมติฐานนั้นการถดถอยโลจิสติกส์สามารถจำลองความน่าจะเป็นสำหรับการแจกแจงเลขชี้กำลังทั้งครอบครัว

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.