Logistic Regression จะสร้างเส้นโค้งที่ไม่ใช่หน้าที่ดั้งเดิมได้อย่างไร


15

ฉันคิดว่าฉันมีความสับสนขั้นพื้นฐานเกี่ยวกับวิธีการทำงานของ Logistic ถดถอย (หรืออาจจะเป็นแค่ฟังก์ชั่นโดยรวม)

ฟังก์ชั่น h (x) สร้างเส้นโค้งที่เห็นทางด้านซ้ายของภาพอย่างไร

ฉันเห็นว่านี่เป็นพล็อตของสองตัวแปร แต่แล้วทั้งสองตัวแปร (x1 & x2) ก็เป็นอาร์กิวเมนต์ของฟังก์ชันเอง ฉันรู้ว่าฟังก์ชั่นมาตรฐานของแผนที่หนึ่งตัวแปรไปยังหนึ่งเอาท์พุท แต่ฟังก์ชั่นนี้ชัดเจนไม่ได้ทำอย่างนั้น - และฉันไม่แน่ใจว่าทำไม

ป้อนคำอธิบายรูปภาพที่นี่

สัญชาตญาณของฉันคือเส้นโค้งสีน้ำเงิน / ชมพูไม่ได้พล็อตบนกราฟนี้จริงๆ แต่เป็นการแสดง (วงกลมและ X) ที่ได้รับการแมปกับค่าในมิติถัดไป (3) ของกราฟ นี่คือเหตุผลที่ผิดพลาดและฉันเพิ่งจะพลาดบางสิ่งบางอย่าง? ขอบคุณสำหรับความเข้าใจ / ปรีชาญาณ


8
ความสนใจกับป้ายชื่อแกนสังเกตว่าค่าจะมีป้ายYY
Matthew Drury

3
"ฟังก์ชั่นดั้งเดิม" จะเป็นอย่างไร?
whuber

@ matthewDrury ฉันเข้าใจแล้วและนี่อธิบายถึง 2D X / Os ฉันถามว่าโค้งของพล็อตมาจากไหน
Sam

คำตอบ:


19

นี่คือตัวอย่างของการ overfitting ในหลักสูตร Coursera บน ML โดย Andrew Ngในกรณีของแบบจำลองการจำแนกประเภทที่มีคุณสมบัติสองประการซึ่งค่าที่แท้จริงถูกทำสัญลักษณ์โดยและและขอบเขตการตัดสินใจได้ถูกปรับให้เข้ากับการฝึกอบรมที่กำหนดอย่างแม่นยำผ่านการใช้คำพหุนามลำดับสูง× ,(x1,x2)×,

ปัญหาที่พยายามแสดงให้เห็นนั้นเกี่ยวข้องกับข้อเท็จจริงที่ว่าแม้ว่าเส้นแบ่งการตัดสินใจเส้นโค้ง (เส้นโค้งสีฟ้า) ไม่ได้จำแนกตัวอย่างผิด ๆ แต่ความสามารถในการพูดคุยทั่วไปจากชุดฝึกอบรมจะถูกลดทอนลง Andrew Ng อธิบายต่อไปว่าการทำให้เป็นมาตรฐานสามารถลดผลกระทบนี้และดึงเส้นโค้งสีม่วงแดงเป็นขอบเขตการตัดสินใจที่ไม่แน่นกับชุดฝึกอบรมและมีแนวโน้มที่จะพูดคุยกันมากขึ้น


สำหรับคำถามเฉพาะของคุณ:

สัญชาตญาณของฉันคือเส้นโค้งสีน้ำเงิน / ชมพูไม่ได้พล็อตบนกราฟนี้จริงๆ แต่เป็นการแสดง (วงกลมและ X) ที่ได้รับการแมปกับค่าในมิติถัดไป (3) ของกราฟ

ไม่มีความสูง (มิติที่สาม): มีสองหมวดหมู่และและบรรทัดการตัดสินใจแสดงให้เห็นว่าแบบจำลองแยกกันอย่างไร ในรูปแบบที่เรียบง่าย) ,(×),

ชั่วโมงθ(x)=ก.(θ0+θ1x1+θ2x2)

ขอบเขตการตัดสินใจจะเป็นแบบเส้นตรง


บางทีคุณอาจมีบางอย่างในใจเช่นนี้:

5+2x-1.3x2-1.2x2Y+1x2Y2+3x2Y3

ป้อนคำอธิบายรูปภาพที่นี่

อย่างไรก็ตามโปรดสังเกตว่ามีฟังก์ชั่นในสมมติฐาน - การเปิดใช้งานโลจิสติกในคำถามเริ่มต้นของคุณ ดังนั้นสำหรับทุก ๆ ค่าของและฟังก์ชันพหุนามจะได้รับและ "การเปิดใช้งาน" (มักจะไม่ใช่เชิงเส้นเช่นในฟังก์ชัน sigmoid เช่นเดียวกับใน OP แม้ว่าจะไม่จำเป็น (เช่น RELU)) ในฐานะที่เป็นขอบเขตเอาท์พุทการเปิดใช้งาน sigmoid ยืมตัวเองไปสู่การตีความน่าจะเป็น: ความคิดในรูปแบบการจัดหมวดหมู่คือที่เกณฑ์ที่กำหนดเอาท์พุทจะถูกระบุว่าหรืออย่างมีประสิทธิภาพเอาต์พุตต่อเนื่องจะถูกบีบอัดเป็นเอาต์พุตไบนารีก.()x1x2× ().(1,0)

ทั้งนี้ขึ้นอยู่กับน้ำหนัก (หรือพารามิเตอร์) และฟังก์ชั่นการเปิดใช้งานแต่ละจุดในระนาบคุณลักษณะนี้จะถูกแมปไปทั้งประเภทหรือ\ การติดฉลากนี้อาจหรืออาจไม่ถูกต้อง: พวกเขาจะถูกต้องเมื่อจุดในตัวอย่างที่วาดโดยและบนเครื่องบินในภาพ บน OP สอดคล้องกับฉลากที่คาดการณ์ไว้ เขตแดนระหว่างภูมิภาคของเครื่องบินที่มีข้อความและพื้นที่ที่อยู่ติดกันผู้ที่มีป้ายกำกับ\ พวกเขาสามารถเป็นบรรทัดหรือหลายบรรทัดแยก "เกาะ" (ดูด้วยตัวคุณเองเล่นกับapp นี้โดย Tony Fischetti(x1,x2)×××ส่วนหนึ่งของรายการบล็อกนี้ใน R-bloggers )

สังเกตเห็นรายการในWikipedia เกี่ยวกับขอบเขตการตัดสินใจ :

ในปัญหาการจำแนกทางสถิติที่มีสองคลาสขอบเขตการตัดสินใจหรือพื้นผิวการตัดสินใจเป็นไฮเปอร์สเปซที่แบ่งพาร์ติชั่นเวกเตอร์สเปซออกเป็นสองชุดหนึ่งชุดสำหรับแต่ละคลาส ตัวจําแนกจะจัดประเภทคะแนนทั้งหมดที่ด้านหนึ่งของขอบเขตการตัดสินใจว่าเป็นของชั้นหนึ่งและทุกคนในด้านอื่น ๆ ว่าเป็นของชั้นอื่น ๆ ขอบเขตการตัดสินใจคือขอบเขตของพื้นที่ปัญหาซึ่งเลเบลเอาต์พุตของตัวแยกประเภทไม่ชัดเจน

ไม่จำเป็นสำหรับองค์ประกอบความสูงในการทำกราฟขอบเขตจริง หากในอีกทางหนึ่งคุณกำลังวางแผนค่าการเปิดใช้งาน sigmoid (ต่อเนื่องกับช่วงจากนั้นคุณต้องมีองค์ประกอบที่สาม ("ความสูง") เพื่อแสดงกราฟ:[0,1]),

ป้อนคำอธิบายรูปภาพที่นี่


หากคุณต้องการแนะนำการสร้างภาพมิติสำหรับพื้นผิวการตัดสินใจให้ตรวจสอบสไลด์นี้ในหลักสูตรออนไลน์ของ NN's โดย Hugo Larochelleซึ่งเป็นตัวแทนการเปิดใช้งานของเซลล์ประสาท:3

ป้อนคำอธิบายรูปภาพที่นี่

โดยที่และคือน้ำหนักเวกเตอร์ในตัวอย่างใน OP ที่น่าสนใจที่สุดคือความจริงที่ว่านั้นเป็นมุมฉากกับการแยก "สัน" ในตัวจําแนก: ได้อย่างมีประสิทธิภาพหากสันเป็นระนาบ (ไฮเปอร์ -) เวกเตอร์ของนํ้าหนักหรือพารามิเตอร์เป็นเวกเตอร์ปกติY1=ชั่วโมงθ(x)W(Θ)Θ

การเข้าร่วมกับเซลล์ประสาทหลาย ๆ อันนั้นไฮเปอร์เพลนที่แยกออกเหล่านี้สามารถเพิ่มและลบออกได้เพื่อให้ได้รูปร่างที่แน่นอน:

ป้อนคำอธิบายรูปภาพที่นี่

เชื่อมโยงไปยังนี้ทฤษฎีบทประมาณสากล


1
+1 สนุกกับการอ่านคำตอบของคุณเสมอ มันอาจจะดีกว่าถ้าคุณมีระนาบการตัดสินใจตัดกับพล็อตของคุณ เพื่อแสดงบางส่วนด้านบนและบางส่วนภายใต้
Haitao Du

ขอบคุณมากสำหรับสิ่งนี้ ฉันยังรู้สึกราวกับว่าฉันขาดอะไรเล็ก ๆ น้อย ๆ เกี่ยวกับโค้งตัวเอง - นี่คือการบอกว่าขอบเขตการตัดสินใจไม่ได้ถูก "ดึง" จริง ๆ แต่เป็นเพียงวิธีของ Andrew Ng ในการระบุค่าเกณฑ์ของ x1 & x2 ที่ ทำให้สมมติฐานเป็น×หรือ∘หรือไม่ ฉันคิดว่าความสับสนบางอย่างเกิดขึ้นจากความโค้งของฟังก์ชั่นในตอนแรก แต่ตอนนี้ฉันรู้แล้วว่ามันไม่ใช่
Sam

1
@ AntonellParellada นี่เยี่ยมมากฉันเห็นความแตกต่างในขณะนี้ ขอบคุณมากสำหรับความช่วยเหลือ.
Sam

0

เรามีนักคณิตศาสตร์จำนวนมากที่ตอบคำถามนี้ ฉันไม่เคยเห็นไดอะแกรมเหมือนที่คุณบรรยายที่นี่ด้วยค่าสำหรับตัวทำนาย X1 และ X2 และเส้น 'ขอบเขตการตัดสินใจ' ที่แยกการทำนายเชิงบวกออกจากเชิงลบที่ทำนายไว้ (หรือเป็นแผนที่ที่คาดการณ์กับผลลัพธ์ที่เกิดขึ้นจริง?) แต่มันมีประโยชน์ --- ตราบใดที่คุณมีตัวทำนายความสนใจเพียงสองตัวที่คุณต้องการทำแผนที่
ปรากฏว่าเส้นสีม่วงแดงแยกค่าบวกที่ทำนายจากเชิงลบที่คาดการณ์ไว้ในขณะที่เส้นสีน้ำเงินเข้มรวมถึงผลบวกทั้งหมด นี่เป็นกรณีปกติในการถดถอยโลจิสติก: ตัวแบบจะทำนายผลได้อย่างถูกต้องสำหรับกรณีน้อยกว่า 100% (และจะทำนายผลบวกและ / หรือเชิงลบที่ผิด)
เป็นไปได้ที่จะรันการถดถอยโลจิสติกและให้โพรซีเดอร์สร้างฟังก์ชัน h (x) สำหรับแต่ละเคสในชุดข้อมูล สิ่งนี้จะสร้างคะแนนเอนเอียงสำหรับแต่ละวิชาจาก 0 ถึง 1 ที่ให้โอกาสในการทำนายหรือความน่าจะเป็นของผลลัพธ์ที่เป็นบวกสำหรับแต่ละวิชาโดยยึดตามตัวแปรตัวทำนายของเรื่องนั้นโดยยึดตามโมเดลการถดถอยโลจิสติกโดยใช้ทุกวิชา ผู้ที่มีระดับความชอบตัดคะแนน 0.5 หรือสูงกว่าคาดว่าจะมีผลและผู้ที่ต่ำกว่า 0.5 คาดว่าจะไม่มีผล แต่คุณสามารถปรับระดับ cutoff นี้ตามที่คุณเห็นสมควรตัวอย่างเช่นเพื่อสร้างแบบจำลองการทำนายการวินิจฉัยของผลลัพธ์บางอย่างตามตัวแปรอินพุตทั้งหมดที่ป้อนในการวิเคราะห์การถดถอยโลจิสติกของคุณ คุณสามารถตั้งค่า cutoff ที่ 0.3 ได้ จากนั้นคุณสามารถทำตาราง 2X2 ของผลลัพธ์ที่คาดการณ์กับค่าที่เกิดขึ้นจริงและกำหนดความไวความจำเพาะอัตราการบวกผิดพลาดและอัตราการลบที่ผิดพลาดของแบบจำลองตามระดับการตัดยอดนี้ สิ่งนี้ให้ข้อมูลเพิ่มเติมและทำให้คุณไม่ จำกัด จำนวน 2 ตัวแปรที่ใช้ในกราฟของคุณ คุณสามารถใช้ตัวทำนายได้มากเท่าที่คุณจะเหมาะสมในแบบจำลองและยังคงสร้างตารางผลลัพธ์ 2X ตามจริงที่คาดการณ์ไว้ เนื่องจากการถดถอยโลจิสติกใช้ผลลัพธ์ที่เป็นหมวดหมู่ (ใช่ - ไม่) แต่ละเซลล์ในตาราง 2X2 จึงเป็นเพียงการนับจำนวนของวัตถุที่ตรงตามเกณฑ์ของแถวและคอลัมน์ คุณสามารถใช้ตัวทำนายได้มากเท่าที่คุณจะเหมาะสมในแบบจำลองและยังคงสร้างตารางผลลัพธ์ 2X ตามจริงที่คาดการณ์ไว้ เนื่องจากการถดถอยโลจิสติกใช้ผลลัพธ์ที่เป็นหมวดหมู่ (ใช่ - ไม่) แต่ละเซลล์ในตาราง 2X2 จึงเป็นเพียงการนับจำนวนของวัตถุที่ตรงตามเกณฑ์ของแถวและคอลัมน์ คุณสามารถใช้ตัวทำนายได้มากเท่าที่คุณจะเหมาะสมในแบบจำลองและยังคงสร้างตารางผลลัพธ์ 2X ตามจริงที่คาดการณ์ไว้ เนื่องจากการถดถอยโลจิสติกใช้ผลลัพธ์ที่เป็นหมวดหมู่ (ใช่ - ไม่) แต่ละเซลล์ในตาราง 2X2 จึงเป็นเพียงการนับจำนวนของวัตถุที่ตรงตามเกณฑ์ของแถวและคอลัมน์
ในกราฟที่คุณระบุอาจเป็นค่าตัด 0.5 นี่เป็นค่าเริ่มต้นทั่วไปสำหรับซอฟต์แวร์ หากคุณปรับให้สูงขึ้น (ตัวอย่างเช่น 0.65) อาจรวมถึง O ทั้งหมดที่อยู่ในบรรทัด แต่คุณก็จะมีผลบวกที่ผิดพลาด (X ที่คิดว่าควรเป็น O) ซึ่งจะถูกทำนายโดยแบบจำลองเพื่อให้ได้ผลลัพธ์ของ น่าสนใจ. (หรือปรับคะแนน cutoff ให้ต่ำลงและมีเชิงลบที่ผิดพลาดมากกว่า)
ฉันหวังว่านี่จะช่วยได้.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.