การวิเคราะห์แยกแยะกับการถดถอยโลจิสติก


16

ฉันพบข้อดีของการวิเคราะห์ที่แยกแยะและฉันมีคำถามเกี่ยวกับพวกเขา ดังนั้น:

เมื่อชั้นเรียนมีการแยกกันอย่างดีพารามิเตอร์ประมาณการสำหรับการถดถอยโลจิสติกจะไม่เสถียรอย่างน่าประหลาดใจ ค่าสัมประสิทธิ์อาจไปไม่มีที่สิ้นสุด LDA ไม่ประสบปัญหานี้

ถ้าจำนวนของคุณลักษณะมีขนาดเล็กและการแจกแจงของตัวทำนาย Xเป็นปกติโดยประมาณในแต่ละคลาสโมเดล discriminant เชิงเส้นจะมีเสถียรภาพมากกว่าแบบจำลองการถดถอยโลจิสติกอีกครั้ง

  1. เสถียรภาพคืออะไรและทำไมจึงสำคัญ (ถ้าการถดถอยโลจิสติกส์ให้พอดีกับหน้าที่การใช้งานแล้วทำไมฉันถึงต้องสนใจเรื่องเสถียรภาพ)

LDA เป็นที่นิยมเมื่อเรามีคลาสการตอบสนองมากกว่าสองคลาสเนื่องจากยังให้มุมมองข้อมูลในระดับต่ำ

  1. ฉันแค่ไม่เข้าใจสิ่งนั้น LDA ให้มุมมองแบบมิติต่ำได้อย่างไร
  2. หากคุณสามารถตั้งชื่อข้อดีหรือข้อเสียได้มากกว่านี้ก็คงจะดี

3
คุณอาจต้องการอ่านคำถามอื่น ๆ ในหัวข้อนี้ (lda vs logistic) กรุณาค้นหาเว็บไซต์นี้
ttnphns

คำตอบ:


13

เมื่อชั้นเรียนมีการแยกกันอย่างดีพารามิเตอร์ประมาณการสำหรับการถดถอยโลจิสติกจะไม่เสถียรอย่างน่าประหลาดใจ ค่าสัมประสิทธิ์อาจไปไม่มีที่สิ้นสุด LDA ไม่ประสบปัญหานี้

หากมีค่า covariate ที่สามารถทำนายผลเลขฐานสองได้อย่างสมบูรณ์แบบแล้วอัลกอริทึมของการถดถอยโลจิสติกคือการให้คะแนนชาวประมงไม่ได้มาบรรจบกัน หากคุณใช้ R หรือ SAS คุณจะได้รับคำเตือนว่าความน่าจะเป็นที่ศูนย์และอีกอันถูกคำนวณและอัลกอริทึมนั้นล้มเหลว นี่เป็นกรณีที่รุนแรงที่สุดของการแยกที่สมบูรณ์แบบ แต่ถึงแม้ว่าข้อมูลจะถูกแยกออกเป็นระดับที่ดีและไม่สมบูรณ์นักประมาณค่าความน่าจะเป็นสูงสุดอาจไม่มีอยู่และแม้ว่ามันจะมีอยู่ก็ตามการประมาณนั้นไม่น่าเชื่อถือ ความฟิตที่ได้นั้นไม่ดีเลย มีหลายหัวข้อที่เกี่ยวข้องกับปัญหาการแยกบนเว็บไซต์นี้ดังนั้นโดยทั้งหมดดู

ในทางตรงกันข้ามมักไม่พบปัญหาการประมาณค่ากับการเลือกปฏิบัติของฟิชเชอร์ มันยังสามารถเกิดขึ้นได้หากเมทริกซ์ความแปรปรวนร่วมระหว่างหรืออยู่ภายในนั้นเป็นเอกพจน์ แต่นั่นเป็นตัวอย่างที่ค่อนข้างหายาก ในความเป็นจริงหากมีการแยกที่สมบูรณ์หรือกึ่งสมบูรณ์แล้วทั้งหมดที่ดีกว่าเพราะการเลือกปฏิบัติมีแนวโน้มที่จะประสบความสำเร็จ

นอกจากนี้ยังเป็นมูลค่าการกล่าวขวัญว่าตรงกันข้ามกับความเชื่อที่เป็นที่นิยม LDA ไม่ได้อยู่บนสมมติฐานการกระจายใด ๆ เราต้องการความเท่าเทียมกันของเมทริกซ์ความแปรปรวนร่วมของประชากรโดยปริยายเท่านั้นเนื่องจากตัวประมาณแบบรวมถูกใช้สำหรับเมทริกซ์ความแปรปรวนร่วมภายใน ภายใต้สมมติฐานเพิ่มเติมของภาวะปกติความน่าจะเป็นก่อนหน้านี้และค่าใช้จ่ายในการจำแนกประเภทที่ไม่เหมาะสม LDA นั้นเหมาะสมที่สุดในแง่ที่ว่ามันลดความน่าจะเป็นการจำแนกประเภทให้เหลือน้อยที่สุด

LDA ให้มุมมองแบบมิติต่ำได้อย่างไร

จะเห็นได้ง่ายกว่าสำหรับกรณีของประชากรสองคนและตัวแปรสองตัว นี่คือการแสดงภาพว่า LDA ทำงานอย่างไรในกรณีนั้น โปรดจำไว้ว่าเรากำลังมองหาชุดค่าผสมเชิงเส้นของตัวแปรที่เพิ่มความสามารถในการแบ่งแยกได้สูงสุด ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นข้อมูลจะถูกฉายบนเวกเตอร์ที่มีทิศทางที่ดีกว่าในการแยกนี้ วิธีที่เราพบว่าเวกเตอร์นั้นเป็นปัญหาที่น่าสนใจของพีชคณิตเชิงเส้นโดยทั่วไปเราจะเพิ่มความฉลาดทางเรย์ลีห์ แต่เราจะทิ้งมันไว้ในตอนนี้ หากข้อมูลถูกฉายบนเวกเตอร์นั้นมิติจะลดลงจากสองเป็นหนึ่ง

กรณีทั่วไปของประชากรและตัวแปรมากกว่าสองคนนั้นก็เหมือนกัน หากมิติมีขนาดใหญ่จะใช้ชุดค่าผสมเชิงเส้นเพื่อลดขนาดข้อมูลจะถูกฉายบนระนาบหรือไฮเปอร์เพลนในกรณีนั้น มีการ จำกัด จำนวนชุดค่าผสมเชิงเส้นที่สามารถค้นหาได้แน่นอนและข้อ จำกัด นี้เป็นผลมาจากมิติข้อมูลดั้งเดิม ถ้าเราแสดงว่าจำนวนตัวแปรโดยและจำนวนประชากรโดยกรัมก็ปรากฎว่าจำนวนที่มากที่สุดนาที( กรัม- 1 , P )พีก. นาที(ก.-1,พี)

หากคุณสามารถตั้งชื่อข้อดีหรือข้อเสียได้มากกว่านี้ก็คงจะดี

ตัวแทนมิติต่ำไม่ได้มาโดยไม่มีข้อบกพร่องอย่างไรก็ตามสิ่งที่สำคัญที่สุดคือการสูญเสียข้อมูล นี่เป็นปัญหาที่น้อยกว่าเมื่อข้อมูลแยกกันเป็นเส้นตรงแต่หากข้อมูลเหล่านั้นไม่สูญเสียข้อมูลอาจเป็นรูปธรรมและตัวแยกประเภทจะทำงานได้ไม่ดี

อาจมีบางกรณีที่ความเท่าเทียมกันของเมทริกซ์ความแปรปรวนร่วมอาจไม่ใช่ข้อสมมติฐานที่เชื่อถือได้ คุณสามารถใช้การทดสอบเพื่อให้แน่ใจ แต่การทดสอบเหล่านี้มีความอ่อนไหวอย่างมากต่อการออกจากภาวะปกติดังนั้นคุณจำเป็นต้องทำการตั้งสมมติฐานเพิ่มเติมนี้และทำการทดสอบ หากพบว่าประชากรเป็นเรื่องปกติที่มีเมทริกซ์ความแปรปรวนร่วมไม่เท่ากันอาจใช้กฎการจำแนกกำลังสอง (QDA) แทน แต่ฉันพบว่านี่เป็นกฎที่ค่อนข้างน่าอึดอัดใจ

โดยรวมแล้วข้อได้เปรียบหลักของ LDA คือการมีอยู่ของโซลูชันที่ชัดเจนและความสะดวกสบายในการคำนวณซึ่งไม่ได้เป็นกรณีสำหรับเทคนิคการจำแนกขั้นสูงเพิ่มเติมเช่น SVM หรือเครือข่ายประสาท ราคาที่เราจ่ายเป็นชุดของสมมติฐานที่ไปกับมันคือการแยกเชิงเส้นและความเท่าเทียมกันของเมทริกซ์ความแปรปรวนร่วม

หวังว่านี่จะช่วยได้

แก้ไข : ฉันสงสัยว่าการเรียกร้องของฉันที่ LDA ในกรณีเฉพาะที่ฉันกล่าวถึงไม่จำเป็นต้องมีสมมติฐานการกระจายใด ๆ ที่นอกเหนือจากความเท่าเทียมกันของเมทริกซ์ความแปรปรวนร่วมมีค่าใช้จ่ายฉัน downvote นี่คือความจริงที่ไม่น้อยเลยดังนั้นให้ฉันเจาะจงมากขึ้น

ถ้าเราปล่อยให้แสดงค่าเฉลี่ยจากประชากรที่หนึ่งและที่สองและS pooledแสดงถึงเมทริกซ์ความแปรปรวนร่วมที่รวมกันฟิชเชอร์ของ discriminant แก้ปัญหาx¯ผม, ผม=1,2Sสำรอง

สูงสุดa(aTx¯1-aTx¯2)2aTSสำรองa=สูงสุดa(aTd)2aTSสำรองa

คำตอบของปัญหานี้ (ไม่เกินค่าคงที่) สามารถแสดงให้เห็นว่าเป็น

a=Sสำรอง-1d=Sสำรอง-1(x¯1-x¯2)

นี่เทียบเท่ากับ LDA ที่คุณได้รับภายใต้สมมติฐานของค่านิยม, เมทริกซ์ความแปรปรวนร่วมที่เท่ากัน, ค่าใช้จ่ายการแบ่งประเภทและความน่าจะเป็นก่อนหน้านี้ใช่ไหม ใช่แล้วยกเว้นตอนนี้เรายังไม่ได้คิดเรื่องปกติ

ไม่มีอะไรหยุดคุณจากการใช้ discriminant ด้านบนในการตั้งค่าทั้งหมดแม้ว่าเมทริกซ์ความแปรปรวนร่วมจะไม่เท่ากัน มันอาจไม่เหมาะสมในแง่ของต้นทุนที่คาดว่าจะผิดพลาด (ECM) แต่เป็นการเรียนรู้แบบมีผู้สอนเพื่อให้คุณสามารถประเมินประสิทธิภาพของมันได้เสมอโดยใช้ตัวอย่างเช่นขั้นตอนการพัก

อ้างอิง

อธิการ, Christopher M. Neural Networks สำหรับการจดจำรูปแบบ สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด 2538

Johnson, Richard Arnold และ Dean W. Wichern การวิเคราะห์ทางสถิติหลายตัวแปรประยุกต์ ฉบับ 4. Englewood Cliffs, NJ: Prentice hall, 1992


1
(ฉันไม่ใช่ผู้ใช้ที่ลงคะแนน) เพื่อพยายามปรับคำตอบของคุณกับ Frank Harell ฉันคิดว่ายังต้องสมมติว่าตัวแปรทั้งหมดเป็นแบบต่อเนื่อง
user603

1
@ user603 ฉันไม่ได้เห็นเงื่อนไขนี้ทุกที่ การแก้ปัญหาจะถูกกำหนดขึ้นอยู่กับค่าคงที่เท่านั้น
JohnK

จอห์นลองนึกภาพว่ามีเพียง 2 คลาส (และมีเพียงบรรทัดเดียวที่แบ่งแยก) ที่มีการแจกแจงแบบสมมาตร (วงรี) สมมาตรและมีความน่าจะเป็นมาก่อนเท่ากัน ในความเป็นจริงแล้วเราไม่จำเป็นต้องมีการแจกแจงแบบปกติโดยเฉพาะเพราะเราไม่จำเป็นต้องมีไฟล์ PDF ใด ๆ ในการมอบหมายกรณีศึกษาให้กับชั้นเรียน ในการตั้งค่าที่ซับซ้อนมากขึ้น (เช่นคลาส 3+) เราต้องใช้ไฟล์ PDF บางไฟล์และโดยปกติจะเป็นเรื่องปกติ
ttnphns

1
W-1BWB

1
จอห์นความคิดเห็นสุดท้ายของคุณคืออะไรเกี่ยวกับคุณและฉันเห็นด้วย
ttnphns

10

LDA ทำให้สมมติฐานการกระจายอย่างรุนแรง (ค่าปกติหลายตัวแปรของตัวทำนายทั้งหมด) ซึ่งแตกต่างจากการถดถอยโลจิสติก ลองรับความน่าจะเป็นหลังของการเป็นสมาชิกในชั้นเรียนโดยพิจารณาจากเพศของอาสาสมัครแล้วคุณจะเห็นว่าฉันหมายถึงอะไรความน่าจะเป็นจะไม่ถูกต้อง

Y=1β±±30

ดูสิ่งนี้สำหรับข้อมูลเพิ่มเติม

โปรดทราบว่าหากมีกฎเกณฑ์หลายตัวแปรยึดถือทฤษฎีบทของเบย์สก็คือสมมติฐานของการถดถอยแบบโลจิสติกส์ การย้อนกลับไม่เป็นความจริง

เรื่องธรรมดาสามัญ (หรืออย่างน้อยที่สุดความสมมาตร) เกือบจะต้องระงับความแปรปรวนและความแปรปรวนร่วมเพื่อ "ทำงาน" ตัวกระจายที่ไม่ใช่หลายตัวแปรโดยปกติแล้วตัวทำนายจะทำร้ายขั้นตอนการแยกแบบแบ่งแยก


1
สำหรับความคิดของฉันนั้นจำเป็นต้องมีกฎเกณฑ์เฉพาะในขั้นตอนการจำแนกประเภท (การทำนายระดับ) ของ LDA มันไม่จำเป็นในขั้นตอนการแยก discriminants (การลดขนาด) ซึ่งยังคงถือว่าความแปรปรวนร่วม - ความแปรปรวนร่วมแปรปรวน (น่าสนใจว่าสมมติฐานหลังอาจจะค่อนข้างออกที่การจัดหมวดหมู่: คุณอาจใช้แยกโค
วาเรียร์

3
เสื้อเสื้อ

2
เสื้อ

2
ใช่ SD สร้างข้อสมมติที่หลากหลายและไม่แข็งแกร่ง ในระดับน้อยค่าเฉลี่ยทำให้สมมติฐานบางอย่างมีความหมาย กำลังสองน้อยที่สุด PCA และ LDA สร้างสมมติฐานการกระจายได้อย่างมีประสิทธิภาพมากกว่าที่หลายคนคิด
Frank Harrell

2
ฉันไม่เชื่อด้วยเหตุผลนี้และฉันยังเชื่อว่า downvote นั้นไม่ยุติธรรม แต่ฉันไม่มีอำนาจในเรื่องนี้ การอ้างอิงที่ฉันให้จะบอกคุณเหมือนกันอย่างไรก็ตาม
JohnK

0

เมื่อชั้นเรียนมีการแยกกันอย่างดีพารามิเตอร์ประมาณการสำหรับการถดถอยโลจิสติกจะไม่เสถียรอย่างน่าประหลาดใจ ค่าสัมประสิทธิ์อาจไปไม่มีที่สิ้นสุด LDA ไม่ประสบปัญหานี้

คำเตือน: สิ่งที่ตามมาที่นี่ขาดความแม่นยำทางคณิตศาสตร์อย่างสมบูรณ์

เพื่อให้พอดีกับฟังก์ชั่น (ไม่เป็นเชิงเส้น) ได้เป็นอย่างดีคุณต้องมีการสังเกตในทุกพื้นที่ของฟังก์ชันที่ "รูปร่างเปลี่ยนแปลง" การถดถอยโลจิสติกเหมาะกับฟังก์ชั่น sigmoid กับข้อมูล:

ป้อนคำอธิบายรูปภาพที่นี่

ในกรณีของชั้นเรียนที่แยกกันอย่างดีการสังเกตทั้งหมดจะตกลงไปที่ "สิ้นสุด" ทั้งสองโดยที่ sigmoid เข้าใกล้เส้นกำกับ (0 และ 1) เนื่องจาก sigmoids ทั้งหมด "ดูเหมือนกัน" ในภูมิภาคเหล่านี้ดังนั้นจึงไม่น่าแปลกใจเลยว่าอัลกอริธึมที่เหมาะสมที่ไม่ดีจะมีปัญหาในการค้นหา "อันที่ถูกต้อง"

มาดูตัวอย่างที่สอง (คำแนะนำโดยหวังว่า) คำนวณด้วยglm()ฟังก์ชันของ R

กรณีที่ 1:ทั้งสองกลุ่มซ้อนทับกันในระดับหนึ่ง:

ป้อนคำอธิบายรูปภาพที่นี่

และสิ่งที่สังเกตได้กระจายอยู่รอบจุดอินฟลูออนของ sigmoid ที่ประกอบ:

ป้อนคำอธิบายรูปภาพที่นี่

นี่คือพารามิเตอร์ที่มีข้อผิดพลาดมาตรฐานต่ำ:

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -17.21374    4.07741  -4.222 2.42e-05 ***
wgt           0.35111    0.08419   4.171 3.04e-05 ***

และความเบี่ยงเบนก็ดูเหมือนตกลง:

    Null deviance: 138.629  on 99  degrees of freedom
Residual deviance:  30.213  on 98  degrees of freedom

กรณีที่ 2:ทั้งสองกลุ่มแยกจากกัน:

ป้อนคำอธิบายรูปภาพที่นี่

และการสังเกตทั้งหมดอยู่บนเส้นกำกับจริง glm()ฟังก์ชั่นพยายามอย่างดีที่สุดเพื่อให้พอดีกับอะไรบางอย่าง แต่บ่นเกี่ยวกับตัวเลข 0 หรือ 1 น่าจะเป็นเพราะมีเพียงข้อสังเกตไม่พร้อมที่จะ "ได้รับรูปร่างของสิทธิ sigmoid ว่า" รอบจุด inflexion ที่:

ป้อนคำอธิบายรูปภาพที่นี่

คุณสามารถวินิจฉัยปัญหาได้โดยสังเกตว่าข้อผิดพลาดมาตรฐานของพารามิเตอร์โดยประมาณผ่านหลังคา:

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -232.638 421264.847  -0.001        1
wgt              5.065   9167.439   0.001        1

และในเวลาเดียวกันความเบี่ยงเบนก็ดูดีอย่างน่าสงสัย (เพราะการสังเกตนั้นเหมาะสมกับเส้นกำกับ):

    Null deviance: 1.3863e+02  on 99  degrees of freedom
Residual deviance: 4.2497e-10  on 98  degrees of freedom

อย่างน้อยก็ควรจะชัดเจนจากการพิจารณาเหล่านี้ว่าทำไม "พารามิเตอร์ประมาณการสำหรับการถดถอยโลจิสติกไม่เสถียรอย่างน่าประหลาด"


ดูคำตอบของ @Frank Harrell ซึ่งไม่เห็นด้วยกับคุณอย่างชัดเจน! และศึกษาการเชื่อมโยงและการอ้างอิง ...
kjetil b halvorsen

@kjetilbhalvorsen ประเด็นหลักของฉันคือภาพประกอบที่เข้าใจง่ายของความพอดี "ไม่เสถียรอย่างน่าประหลาด" ฉันลบประโยคสุดท้ายที่อ้างถึง LDA
กล่องเสียง Decidua
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.