การถดถอยโลจิสติกกับ LDA เป็นตัวแยกประเภทสองระดับ


36

ฉันพยายามที่จะตัดหัวของฉันรอบความแตกต่างทางสถิติระหว่างการวิเคราะห์จำแนกเชิงเส้นและโลจิสติกการถดถอย ความเข้าใจของฉันถูกต้องหรือไม่สำหรับปัญหาการจำแนกประเภทสองชั้น LDA คาดการณ์ฟังก์ชันความหนาแน่นปกติสองฟังก์ชัน (หนึ่งรายการสำหรับแต่ละคลาส) ที่สร้างขอบเขตเชิงเส้นตรงที่พวกเขาตัดกันในขณะที่การถดถอยโลจิสติก สร้างขอบเขต แต่ไม่ถือว่าฟังก์ชันความหนาแน่นสำหรับแต่ละคลาสหรือไม่


ดูเพิ่มเติมคำถามที่คล้ายกันstats.stackexchange.com/q/14697/3277
ttnphns

คำตอบที่เกี่ยวข้อง, stats.stackexchange.com/a/31466/3277
ttnphns

คำตอบ:


35

มันฟังฉันว่าคุณถูกต้อง การถดถอยโลจิสติกส์ไม่ได้คาดเดาความหนาแน่นของรูปทรงที่เฉพาะเจาะจงในพื้นที่ของตัวแปรทำนาย แต่ LDA ทำ นี่คือความแตกต่างบางประการระหว่างการวิเคราะห์ทั้งสองโดยย่อ

การถดถอยแบบไบนารีโลจิสติกส์ (BLR) กับการวิเคราะห์เชิงเส้นจำแนก (มี 2 กลุ่ม: หรือที่เรียกว่าฟิชเชอร์ LDA):

  • BLR : ขึ้นอยู่กับการประเมินความเป็นไปได้สูงสุด LDA : จากการประมาณกำลังสองน้อยที่สุด; เทียบเท่ากับการถดถอยเชิงเส้นที่มีการคาดการณ์แบบไบนารี (ค่าสัมประสิทธิ์เป็นสัดส่วนและแลมบ์ดาของ R-square = 1-Wilk)

  • BLR : ประเมินความน่าจะเป็น (ของการเป็นสมาชิกกลุ่ม) ทันที (การคาดการณ์นั้นเป็นความน่าจะเป็นที่สังเกตได้หนึ่ง) และตามเงื่อนไข LDA : ประมาณความน่าจะเป็นปานกลาง (ตัวทำนายถูกมองว่าเป็นตัวแปรต่อเนื่องที่ถูก binned, discriminant) ผ่านอุปกรณ์ประเภท (เช่นซื่อๆเบย์) ซึ่งใช้ทั้งข้อมูลเชิงเงื่อนไขและส่วนเพิ่ม

  • BLR : ไม่เร่งรีบกับระดับของเครื่องชั่งและรูปแบบของการกระจายในเครื่องทำนาย LDA : ทำนายระดับช่วงเวลาที่ต้องการด้วยการแจกแจงปกติหลายตัวแปร

  • BLR : ไม่มีข้อกำหนดเกี่ยวกับเมทริกซ์ความแปรปรวนร่วมภายในกลุ่มของผู้ทำนาย LDA : เมทริกซ์ความแปรปรวนร่วมภายในกลุ่มควรจะเหมือนกันในประชากร

  • BLR : กลุ่มอาจจะมีความแตกต่างกันค่อนข้างnLDA : กลุ่มควรมีที่คล้ายกันnnn

  • BLR : ไม่ไวต่อค่าผิดปกติ LDA : ค่อนข้างอ่อนไหวต่อค่าผิดปกติ

  • BLR : วิธีที่อายุน้อยกว่า LDA : วิธีเก่ากว่า

  • BLR : โดยทั่วไปแล้วมักชอบเพราะน้อยกว่า / แข็งแกร่งกว่า LDA : เมื่อตรงตามข้อกำหนดทั้งหมดมักจะจำแนกได้ดีกว่า BLR (ประสิทธิภาพเชิงสัมพัทธ์เชิงซีโมติกสูงกว่าเวลา 3/2)


21

ให้ฉันเพิ่มคะแนนบางส่วนในรายการที่ดีของ @ttnphns:

  • การทำนาย Bayes ของความน่าจะเป็นสมาชิกระดับ LDA ของหลังเส้นโค้งโลจิสติกเช่นกัน
    [Efron, B. ประสิทธิภาพของการถดถอยโลจิสติกเมื่อเทียบกับการวิเคราะห์จำแนกตามปกติ J Am Stat Assoc, 70, 892-898 (1975)]

  • ในขณะที่กระดาษนั้นแสดงให้เห็นว่าประสิทธิภาพสัมพัทธ์ของ LDA นั้นเหนือกว่า LR หากเป็นไปตามสมมติฐานของ LDA (การอ้างอิง: กระดาษ Efron ด้านบนจุดสุดท้ายของ @tthnps) ตามองค์ประกอบของการเรียนรู้ทางสถิติในทางปฏิบัติแทบไม่มีความแตกต่างใด ๆ
    [Hastie, T. และ Tibshirani, R. และ Friedman, J. องค์ประกอบของการเรียนรู้ทางสถิติ; การทำเหมืองข้อมูลการอนุมานและการสะกดคำ Springer Verlag, New York, 2009]

  • การเพิ่มประสิทธิภาพสัมพัทธ์ของ LDA อย่างมหาศาลนั้นส่วนใหญ่เกิดขึ้นในกรณีที่ไม่มีอาการทางจิต
    [Harrell, FE & Lee, KL การเปรียบเทียบการเลือกปฏิบัติของการวิเคราะห์การเลือกปฏิบัติและการถดถอยโลจิสติกภายใต้ภาวะหลายตัวแปรชีวสถิติ: สถิติในชีวการแพทย์สาธารณสุขศาสตร์และวิทยาศาสตร์สิ่งแวดล้อม, 333-343 (1985)]

  • แม้ว่าในทางปฏิบัติแล้วฉันจะพบกับสถานการณ์ตัวอย่างขนาดเล็กในมิติสูงซึ่ง LDA นั้นดูดีกว่า (แม้ว่าจะมีทั้งค่าปกติเชิงพหุตัวแปรและความแปรปรวนร่วมของเมทริกซ์ความแปรปรวนร่วมที่เท่ากันอย่างเห็นได้ชัด)
    [ Beleites, C.; Geiger, K.; Kirsch, M. ; Sobottka, SB; Schackert, G. & Salzer, R. Raman การจัดระดับสเปกโทรสโกของเนื้อเยื่อ Astrocytoma: ใช้ข้อมูลอ้างอิงอ่อน, Anal Bioanal Chem, 400, 2801-2816 (2011) DOI: 10.1007 / s00216-011-4985-4 ]

  • แต่โปรดทราบว่าในบทความของเรา LR อาจจะดิ้นรนกับปัญหาที่พบว่ามีการแยกทิศทางที่สมบูรณ์แบบ (ใกล้) ที่สมบูรณ์แบบ LDA ในทางกลับกันอาจมีการ overfitting อย่างรุนแรงน้อยกว่า

  • สมมติฐานที่มีชื่อเสียงสำหรับ LDA นั้นมีความจำเป็นเพียงเพื่อพิสูจน์ความเป็นไปได้สูงสุด หากพวกเขาไม่ได้พบกับขั้นตอนยังคงสามารถเป็นฮิวริสติกที่ดี

  • ความแตกต่างที่สำคัญสำหรับฉันในทางปฏิบัติเนื่องจากปัญหาการจำแนกประเภทที่ฉันทำงานในบางครั้ง / บ่อยครั้งที่ปรากฏออกมาจริง ๆ แล้วไม่ใช่ปัญหาการจำแนกที่ชัดเจนเลย: LR สามารถทำได้อย่างง่ายดายด้วยข้อมูลที่การอ้างอิงมีระดับสมาชิกระดับกลาง ท้ายที่สุดมันเป็นเทคนิคการถดถอย
    [ดูกระดาษที่ลิงค์ด้านบน]

  • คุณอาจพูดว่า LR ให้ความสำคัญมากกว่า LDA ในตัวอย่างที่อยู่ใกล้กับขอบเขตของชั้นเรียนและโดยทั่วไปไม่สนใจกรณีที่ "backside" ของการแจกแจง

  • นอกจากนี้ยังอธิบายว่าทำไมมันจึงมีความอ่อนไหวต่อค่าผิดปกติน้อยกว่า (เช่นที่ด้านหลัง) กว่า LDA

  • (สนับสนุนเครื่องเวกเตอร์จะเป็นตัวจําแนกที่ไปในทิศทางนี้ไปจนสุด: ทุกสิ่ง แต่กรณีที่ขอบเขตไม่ได้รับการสนใจ)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.