เราสามารถใช้ตัวแปรอิสระอย่างเด็ดขาดในการวิเคราะห์จำแนกหรือไม่?


15

ในการวิเคราะห์จำแนกจำแนกตัวแปรตามเป็นหมวด แต่ฉันสามารถใช้ตัวแปรเด็ดขาด (เช่นสถานะที่อยู่อาศัย: ชนบทเมือง) พร้อมกับตัวแปรต่อเนื่องอื่น ๆ เป็นตัวแปรอิสระในการวิเคราะห์จำแนกเชิงเส้น?


คำตอบ:


14

การวิเคราะห์จำแนกนั้นถือว่าการแจกแจงปกติหลายตัวแปรเพราะสิ่งที่เรามักจะพิจารณาว่าเป็นตัวทำนายนั้นเป็นตัวแปรตามตัวแปรหลายตัวแปรจริง ๆ และตัวแปรการจัดกลุ่มถือเป็นตัวทำนาย ซึ่งหมายความว่าตัวแปรเด็ดขาดที่จะถือว่าเป็นตัวทำนายในแง่ที่คุณต้องการไม่ได้รับการจัดการที่ดี นี่คือเหตุผลหนึ่งที่หลายคนรวมถึงตัวฉันเองพิจารณาการวิเคราะห์แบบแบ่งแยกที่ทำให้ล้าสมัยจากการถดถอยโลจิสติก การถดถอยโลจิสติกส์ไม่ได้ตั้งสมมติฐานการกระจายตัวใด ๆ ไม่ว่าจะทางซ้ายหรือทางขวามือของแบบจำลอง การถดถอยโลจิสติกเป็นรูปแบบความน่าจะเป็นโดยตรงและไม่จำเป็นต้องใช้กฎของเบย์ในการแปลงผลลัพธ์เป็นความน่าจะเป็นเช่นเดียวกับการวิเคราะห์ที่แบ่งแยก


ขอบคุณ Mr. Frank Harrell สำหรับคำตอบของคุณ ที่จริงฉันต้องการเปรียบเทียบผลลัพธ์ของการวิเคราะห์การแบ่งแยกและการถดถอยโลจิสติก (โมเดล logit) โดยใช้ตัวแปรชุดเดียวกัน ดังนั้นเพื่อจุดประสงค์ถ้าฉันต้องใช้ตัวแปรเด็ดขาดในการวิเคราะห์จำแนกเป็นตัวแปรอิสระแล้วมีวิธีใด?
kuwoli

6

คำตอบสั้น ๆ ไม่ใช่ใช่

หมายเหตุเบื้องต้นหนึ่งประการ เป็นการยากที่จะบอกว่าตัวแปรที่สร้างการเลือกปฏิบัตินั้นควรเรียกว่า "อิสระ" หรือ "ขึ้นอยู่กับ" LDA นั้นเป็นกรณีเฉพาะของการวิเคราะห์ความสัมพันธ์ของ Canonical และดังนั้นจึงเป็นทิศทาง มันสามารถมองเห็นเป็น MANOVA (กับตัวแปรระดับเป็นปัจจัยอิสระ) หรือเมื่อระดับคือ dichotomous เป็นการถดถอยเชิงเส้นของชั้นเรียนเป็นตัวแปรตาม มันไม่ถูกต้องตามกฎหมายดังนั้นจึงต้องคัดค้าน LDA เสมอกับการถดถอยแบบทิศทางเดียวเช่นโลจิสติกหนึ่ง

LDA สันนิษฐานว่าตัวแปร (ที่คุณเรียกว่า "อิสระ") มาจากการแจกแจงปกติหลายตัวแปรดังนั้น - พวกมันทั้งหมดอย่างต่อเนื่อง สมมติฐานนี้มีความสำคัญสำหรับ (1) ขั้นตอนการจัดหมวดหมู่ของ LDA และ (2) การทดสอบความสำคัญของการจำแนกที่เกิดขึ้นในขั้นตอนการสกัด การแยกตัวเลือกปฏิบัติเองนั้นไม่จำเป็นต้องมีข้อสันนิษฐาน

อย่างไรก็ตาม LDA ค่อนข้างแข็งแกร่งต่อการละเมิดสมมติฐานซึ่งบางครั้งก็เห็นว่าเป็นการรับประกันที่จะทำกับข้อมูลไบนารี่ ในความเป็นจริงบางคนทำ Canonical correlations (ซึ่ง LDA เป็นกรณีเฉพาะ) สามารถทำได้โดยทั้งสองชุดประกอบด้วยไบนารีหรือแม้แต่ตัวแปรหุ่นจำลอง อีกครั้งไม่มีปัญหากับการแยกฟังก์ชันแฝง ปัญหาเกี่ยวกับแอปพลิเคชันดังกล่าวอาจเกิดขึ้นได้เมื่อเรียกค่า p หรือการจำแนกวัตถุ

จากตัวแปรเลขฐานสอง / อันดับหนึ่งอาจคำนวณความสัมพันธ์ tetrachoric / polychoric และส่งไปยัง LDA (หากโปรแกรมอนุญาตให้ป้อนเมทริกซ์สหสัมพันธ์ในตำแหน่งของข้อมูล); แต่การคำนวณคะแนนการเลือกปฏิบัติในระดับกรณีจะเป็นปัญหา

แนวทางที่ยืดหยุ่นมากขึ้นคือการเปลี่ยนตัวแปรเด็ดขาด (อันดับ, ชื่อ) เป็นต่อเนื่องโดยการปรับขนาด / การหาปริมาณที่เหมาะสม การวิเคราะห์สหสัมพันธ์แบบไม่เชิงเส้น (OVERALS) มันจะทำภายใต้งานเพื่อเพิ่มความสัมพันธ์แบบบัญญัติระหว่างทั้งสองด้าน (ตัวแปรคลาสและ "ตัวทำนาย" หมวดหมู่) จากนั้นคุณสามารถลอง LDA ด้วยตัวแปรที่แปลงแล้ว

การถดถอยโลจิสติก (Multinomial หรือไบนารี) อาจเป็นอีกทางเลือกหนึ่งของ LDA


นี่มีส่วนเกี่ยวข้องมากกว่าการใช้โมเดลที่มีไว้สำหรับสถานการณ์ (การถดถอยแบบโลจิสติก) การวิเคราะห์จำแนกนั้นไม่แข็งแกร่งเท่าที่คิด มันง่ายที่จะแสดงด้วยตัวทำนายหมวดหมู่เดี่ยวที่เป็นเลขฐานสองที่ความน่าจะเป็นด้านหลังแบบ da นั้นไม่แม่นยำมาก (เช่นทำนายความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นกับเพศของอาสาสมัคร)
Frank Harrell
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.