มีความสัมพันธ์ระหว่างการถดถอยและการวิเคราะห์จำแนกเชิงเส้น (LDA) หรือไม่? ความคล้ายคลึงและความแตกต่างของพวกเขาคืออะไร มันสร้างความแตกต่างหรือไม่ถ้ามีสองคลาสหรือมากกว่าสองคลาส?
มีความสัมพันธ์ระหว่างการถดถอยและการวิเคราะห์จำแนกเชิงเส้น (LDA) หรือไม่? ความคล้ายคลึงและความแตกต่างของพวกเขาคืออะไร มันสร้างความแตกต่างหรือไม่ถ้ามีสองคลาสหรือมากกว่าสองคลาส?
คำตอบ:
ฉันคิดว่าคำถามเกี่ยวกับ LDA และการถดถอยเชิงเส้น (ไม่ใช่โลจิสติก)
มีความสัมพันธ์อย่างมากและมีความหมายระหว่างคือการถดถอยเชิงเส้นและการวิเคราะห์จำแนกเชิงเส้น ในกรณีที่ตัวแปรตาม (DV) ประกอบด้วยเพียง 2 กลุ่มการวิเคราะห์ทั้งสองจะเหมือนกันจริง ๆ แม้จะมีการคำนวณที่แตกต่างกันและผลลัพธ์ - สัมประสิทธิ์การถดถอยและการเลือกปฏิบัติ - ไม่เหมือนกัน แต่ก็มีความสอดคล้องกัน
ตอนนี้สำหรับสถานการณ์ที่มากกว่าสองกลุ่ม ก่อนอื่นให้เราระบุว่า LDA (การแยกไม่ใช่ขั้นตอนการจำแนก) นั้นเทียบเท่า (ผลเชิงเส้นตรงที่เกี่ยวข้อง) กับการวิเคราะห์สหสัมพันธ์แบบแคนนอนหากคุณเปลี่ยนการจัดกลุ่ม DV ให้เป็นชุดของตัวแปรจำลอง การวิเคราะห์ด้วยชุด "IVs" และ "หุ่น" Canonical Variations ที่ด้านข้างของชุด "IV" ที่คุณได้รับคือ LDA ที่เรียกว่า "discriminant function" หรือ "discriminants"
ดังนั้นวิธีการวิเคราะห์ที่ยอมรับได้เกี่ยวข้องกับการถดถอยเชิงเส้นอย่างไร การวิเคราะห์แบบบัญญัติเป็นสิ่งสำคัญสำหรับMANOVA (ในแง่ "Multivariate Multiple Linear Regression" หรือ "Multivariate General Linear Model") ลึกเข้าไปในโครงสร้างแฝงของความสัมพันธ์ระหว่าง DV และ IV ชุดรูปแบบทั้งสองนี้จะถูกจำแนกในความสัมพันธ์ระหว่างกันเป็น "ตัวแปรทางบัญญัติ" แฝง ขอให้เรายกตัวอย่างที่ง่ายที่สุดคือ Y vs X1 X2 X3 การเพิ่มความสัมพันธ์ระหว่างทั้งสองฝ่ายคือการถดถอยเชิงเส้น (ถ้าคุณทำนาย Y ด้วย Xs) หรือ - ซึ่งเป็นสิ่งเดียวกัน - คือ MANOVA (ถ้าคุณทำนาย Xs ด้วย Y) ความสัมพันธ์เป็นมิติเดียว (ที่มีขนาด R ^ 2 = ร่องรอยของพิลไต) เนื่องจากชุดที่น้อยกว่านั้น Y ประกอบด้วยเพียงหนึ่งตัวแปร ทีนี้ลองดูสองชุดนี้: Y1 Y2 กับ X1 x2 x3 ความสัมพันธ์ที่ถูกขยายให้ใหญ่สุดที่นี่คือ 2 มิติเนื่องจากชุดที่น้อยกว่ามี 2 ตัวแปร มิติที่ซ่อนเร้นแรกและที่แข็งแกร่งของสหสัมพันธ์เรียกว่าสหสัมพันธ์แคนนอนที่ 1 และส่วนที่เหลือตั้งฉากกับมันคือความสัมพันธ์ที่ยอมรับกันครั้งที่ 2 ดังนั้น, MANOVA (หรือการถดถอยเชิงเส้น) เพียงแค่ถามว่าอะไรคือบทบาทบางส่วน (ค่าสัมประสิทธิ์) ของตัวแปรในความสัมพันธ์ทั้งสองมิติของเซต; ในขณะที่การวิเคราะห์แบบบัญญัติยอมรับด้านล่างเพื่อถามว่าอะไรคือบทบาทบางส่วนของตัวแปรในมิติสหสัมพันธ์ลำดับที่ 1 และในลำดับที่ 2
ดังนั้นการวิเคราะห์ความสัมพันธ์แบบบัญญัติคือการถดถอยเชิงเส้นหลายตัวแปรในโครงสร้างความสัมพันธ์ที่ซ่อนเร้นระหว่าง DV และ IV การวิเคราะห์จำแนกเป็นกรณีเฉพาะของการวิเคราะห์สหสัมพันธ์แบบแคนนอน ( ดูวิธี ) ดังนั้นนี่คือคำตอบเกี่ยวกับความสัมพันธ์ของ LDA กับการถดถอยเชิงเส้นในกรณีทั่วไปของกลุ่มมากกว่าสองกลุ่ม
โปรดทราบว่าคำตอบของฉันไม่ได้เห็น LDA เป็นเทคนิคการจำแนกประเภท ฉันพูดคุยเกี่ยวกับ LDA เป็นเพียงเทคนิคการดึงข้อมูลความล่าช้า การจำแนกเป็นขั้นตอนที่สองและเป็นเอกเทศของ LDA (ฉันอธิบายไว้ที่นี่ ) @Michael Chernick มุ่งเน้นไปที่คำตอบของเขา
regression formulation of LDAมันก็ยากที่จะหาอะไรแปลกใจ - มีงานวิจัยหลายฉบับที่ตีพิมพ์หลังจากปี 2000 บอกว่าสูตรดังกล่าวไม่มีอยู่จริงหรือ พยายามแนะนำ อาจมีการอ้างอิงที่ดี [เก่า] หรือไม่?
Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling. Olcay Kursun et al. Canonical correlation analysis using within-class coupling. หากคุณไม่พบพวกเขาในอินเทอร์เน็ตฉันสามารถส่งคุณ หากคุณพบแหล่งที่มามากขึ้นและดีขึ้น - โปรดแจ้งให้เราทราบ
นี่คือการอ้างอิงถึงหนึ่งในเอกสารของ Efron: ประสิทธิภาพของการถดถอยโลจิสติกเมื่อเทียบกับการวิเคราะห์จำแนกตามปกติ , 1975
กระดาษที่เกี่ยวข้องก็คืออึ้งและจอร์แดนปี 2001 เมื่อวันที่จำแนกเทียบกับ classifierers กำเนิด: การเปรียบเทียบของการถดถอยโลจิสติกและเบส์ไร้เดียงสา และนี่คือนามธรรมของความคิดเห็นโดย Xue & Titterington , 2008, ที่กล่าวถึงเอกสารของ O'Neill ที่เกี่ยวข้องกับวิทยานิพนธ์ปริญญาเอกของเขา:
การเปรียบเทียบตัวแยกประเภทกำเนิดและการจำแนกเป็นหัวข้อที่ยั่งยืน ในฐานะที่เป็นคุณูปการที่สำคัญของหัวข้อนี้ขึ้นอยู่กับการเปรียบเทียบเชิงทฤษฎีและเชิงประจักษ์ระหว่างตัวจําแนกnaïve Bayes และการถดถอยเชิงเส้นลอจิสติกเชิงเส้นงะและจอร์แดน (NIPS 841 --- 848, 2001) อ้างว่า และจำแนกลักษณนามจำแนกเกี่ยวกับขนาดชุดฝึกอบรม ในบทความนี้การศึกษาเชิงประจักษ์และการจำลองสถานการณ์ของเราเป็นส่วนเสริมของงานของพวกเขาอย่างไรก็ตามชี้ให้เห็นว่าการดำรงอยู่ของระบอบการปกครองที่แตกต่างกันสองระบบอาจไม่น่าเชื่อถือ นอกจากนี้สำหรับชุดข้อมูลในโลกแห่งความเป็นจริงจนถึงขณะนี้ยังไม่มีความถูกต้องทางทฤษฎีเกณฑ์ทั่วไปสำหรับการเลือกระหว่างการเลือกปฏิบัติและวิธีการกำเนิดเพื่อการจำแนกประเภทของการสังเกตเข้าคลาส ; ตัวเลือกขึ้นอยู่กับความมั่นใจสัมพัทธ์ที่เรามีในความถูกต้องของสเปคของทั้งหรือ สำหรับข้อมูล นี่อาจเป็นการแสดงให้เห็นว่าทำไม Efron (J Am Stat Assoc 70 (352): 892 --- 898, 1975) และ O'Neill (J Am Stat Assoc 75 (369): 154 --- 160, 1980 ) ชอบการวิเคราะห์ discriminant เชิงเส้นตามปกติ (LDA) เมื่อไม่มีการระบุตัวแบบผิดพลาด แต่การศึกษาเชิงประจักษ์อื่น ๆ อาจชอบการถดถอยเชิงเส้นเชิงเส้นแทน นอกจากนี้เราขอแนะนำว่าการจับคู่ของ LDA ทั้งสองสมมติว่าเมทริกซ์ความแปรปรวนร่วมแนวทแยง (LDA) ทั่วไปหรือตัวจําแนกNaïve Bayes และการถดถอยเชิงลอจิสติกเชิงเส้นอาจไม่สมบูรณ์แบบและดังนั้นจึงอาจไม่น่าเชื่อถือสำหรับการเรียกร้องใด ๆ หรือตัวจําแนกแบบไร้เดียงสา Bayes และการถดถอยเชิงลอจิสติกเชิงเส้นที่จะวางนัยสําหรับลักษณนามการสร้างและการเลือกปฏิบัติทั้งหมด
มีการอ้างอิงอื่น ๆ อีกมากมายเกี่ยวกับสิ่งนี้ที่คุณสามารถหาได้ทางออนไลน์
จุดประสงค์ของคำตอบนี้คือการอธิบายความสัมพันธ์ทางคณิตศาสตร์ที่แน่นอนระหว่างการวิเคราะห์เชิงเส้น (LDA) และการถดถอยเชิงเส้นหลายตัวแปร (MLR) มันจะกลายเป็นว่าเฟรมเวิร์กที่ถูกต้องถูกจัดเตรียมโดยการลดอันดับการถดถอย (RRR)
เราจะแสดงให้เห็นว่า LDA เทียบเท่ากับ RRR ของเมทริกซ์ตัวบ่งชี้ระดับสีขาวบนเมทริกซ์ข้อมูล
ให้เป็นn × dเมทริกซ์พร้อมจุดข้อมูลในแถวและตัวแปรในคอลัมน์ แต่ละจุดเป็นของหนึ่งในคลาสkหรือกลุ่ม จุดxฉันเป็นของหมายเลขชั้นG ( ฉัน )
ให้เป็นเมทริกซ์การเข้ารหัสกลุ่มสมาชิกn × kเมทริกซ์ดังต่อไปนี้: G ฉันj = 1ถ้าxฉันอยู่ในคลาสjและG iมิฉะนั้น มีจุดข้อมูล n jในคลาสj; แน่นอนΣ n J =n
เราคิดว่าข้อมูลที่เป็นศูนย์กลางและเพื่อให้หมายถึงคือโลกเท่ากับศูนย์ 0 ให้μ Jเป็นค่าเฉลี่ยของชั้นJ
เมทริกซ์การกระจายทั้งหมดสามารถแยกย่อยเป็นผลรวมของเมทริกซ์การกระจายระหว่างคลาสและภายในคลาสที่กำหนดดังต่อไปนี้: C b หนึ่งสามารถตรวจสอบว่าC=CB+CW LDA ค้นหาแกน discriminant ที่มีความแปรปรวนระหว่างกลุ่มมากที่สุดและความแปรปรวนภายในกลุ่มน้อยที่สุดของเส้นโครง โดยเฉพาะแกน discriminant แรกคือเวกเตอร์หน่วยwww)และแกน discriminantแรกp ที่เรียงซ้อนกันเป็นเมทริกซ์W
สมมติว่าเป็นอันดับเต็ม LDA solution W L D Aคือเมทริกซ์ของ eigenvector ของ (สั่งโดยค่าลักษณะเฉพาะในลำดับที่ลดลง)
นี่เป็นเรื่องปกติ ตอนนี้ให้เราทำการสังเกตที่สำคัญสองอย่าง
ประการแรกเมทริกซ์กระจายภายในคลาสสามารถแทนที่ด้วยเมทริกซ์กระจายทั้งหมด (ในที่สุดเนื่องจากการเพิ่มเท่ากับการเพิ่มb / ( b + w ) ) และแน่นอนมันง่ายที่จะเห็นว่าC - 1 C bมี eigenvectors เดียวกัน
ประการที่สองเมทริกซ์การกระจายระหว่างคลาสสามารถแสดงผ่านเมทริกซ์การเป็นสมาชิกกลุ่มที่กำหนดไว้ด้านบน แท้จริงแล้วคือเมทริกซ์ของผลรวมของกลุ่ม ในการหาเมทริกซ์ของกลุ่มหมายความว่ามันควรจะถูกคูณด้วยเมทริกซ์แนวทแยงที่มีn jบนเส้นทแยงมุม; ก็ให้โดยG ⊤ G ดังนั้นเมทริกซ์ของค่าเฉลี่ยของกลุ่มคือ( G ⊤ G ) - 1 G ⊤ X ( sapientiจะสังเกตเห็นว่ามันเป็นสูตรการถดถอย) ในการรับC bเราจำเป็นต้องใช้เมทริกซ์การกระจายของมันซึ่งถูกถ่วงน้ำหนักด้วยเมทริกซ์ทแยงมุมเดียวกันเพื่อรับC b หากทุก n Jเหมือนกันและเท่ากับเมตร ( "ชุดข้อมูลที่สมดุล") จากนั้นสำนวนนี้ช่วยลดความยุ่งยากในการ X ⊤ G G ⊤ X /เมตร
เราสามารถกำหนดตัวบ่งชี้เมทริกซ์ปกติมี1 / √ที่Gมี1 แล้วสำหรับทั้งสองมีความสมดุลและไม่สมดุลชุดข้อมูลการแสดงออกเป็นเพียงCข=X⊤ ~ G ~ G ⊤X โปรดทราบว่า ~ Gคือขึ้นอยู่กับปัจจัยคงให้ขาวเมทริกซ์ตัวบ่งชี้: ~ G =G(G⊤G)-1 / 2
เพื่อความง่ายเราจะเริ่มด้วยกรณีของชุดข้อมูลที่มีความสมดุล
พิจารณาการถดถอยเชิงเส้นของบนX พบBการลด‖ G - X B ‖ 2 การถดถอยอันดับที่ลดลงจะทำเช่นเดียวกันภายใต้ข้อ จำกัด ที่Bควรเป็นของอันดับp ที่กำหนด ถ้าเป็นเช่นนั้นBสามารถเขียนเป็นB = D F ⊤ทั้งDและFมีคอลัมน์p หนึ่งสามารถแสดงให้เห็นว่าการแก้ปัญหาอันดับสองสามารถได้รับจากการแก้ปัญหาการจัดอันดับโดยการรักษาคอลัมน์แรกและเพิ่มคอลัมน์พิเศษ ฯลฯ
เพื่อสร้างการเชื่อมต่อระหว่าง LDA และการถดถอยเชิงเส้นเราจะพิสูจน์ให้เห็นว่าสอดคล้องกับW L D
การพิสูจน์นั้นตรงไปตรงมา สำหรับรับ , ที่ดีที่สุดFสามารถพบได้ผ่านการถดถอย: F ⊤ = ( D ⊤ X ⊤ X D ) - 1 D ⊤ X ⊤ G เสียบสิ่งนี้เข้ากับฟังก์ชั่นการสูญเสียเราจะได้‖ G - X D ( D ⊤ X ⊤ X D ) - 1 ‖ A ‖ 2 = t r ( A A ⊤ )ซึ่งสามารถเขียนเป็นร่องรอยการใช้บัตรประจำตัว
เราสามารถแสดงให้เห็นว่าในทำนองเดียวกันการเพิ่มการทำให้เป็นมาตรฐานของการลดอันดับลงนั้นเทียบเท่ากับ LDA ที่ทำให้เป็นมาตรฐาน
เป็นการยากที่จะบอกว่าใครสมควรได้รับเครดิตสำหรับสิ่งที่นำเสนอข้างต้น
มีรายงานการประชุมล่าสุดโดย Cai et al (2013) เกี่ยวกับการเทียบเคียงถดถอยต่ำและการวิเคราะห์จำแนกเชิงเส้นตามการวิเคราะห์เชิงเส้นตรงที่นำเสนอหลักฐานที่เหมือนกันข้างต้น แต่สร้างความประทับใจที่พวกเขาคิดค้นวิธีการนี้ นี่ไม่ใช่กรณีอย่างแน่นอน Torre เขียนรักษารายละเอียดของวิธีส่วนใหญ่ที่พบบ่อยเชิงเส้นวิธีการหลายตัวแปรที่สามารถมองเห็นลดลงเป็นอันดับถดถอยดูอย่างน้อยสี่เหลี่ยมกรอบสำหรับการวิเคราะห์องค์ประกอบ 2009 และต่อมาหนังสือบทรวมกันของวิธีการวิเคราะห์องค์ประกอบ , 2013; เขานำเสนออาร์กิวเมนต์เดียวกัน แต่ไม่ได้ให้การอ้างอิงใด ๆ เช่นกัน เนื้อหานี้ครอบคลุมอยู่ในตำราเทคนิคสมัยใหม่ทางสถิติหลายตัวแปร (2008) โดย Izenman ผู้แนะนำ RRR ย้อนกลับไปในปี 1975
เห็นได้ชัดว่าความสัมพันธ์ระหว่าง LDA และ CCA กลับไปที่บาร์ตเลตต์ปี 1938 แง่มุมเพิ่มเติมของทฤษฎีการถดถอยหลายครั้ง - นั่นคือการอ้างอิงที่ฉันมักจะพบ (แต่ไม่ได้ตรวจสอบ) ความสัมพันธ์ระหว่าง CCA และ RRR อธิบายไว้ใน Izenman 1975 ลดอันดับถดถอยสำหรับรูปแบบเชิงเส้นหลายตัวแปร ดังนั้นความคิดทั้งหมดเหล่านี้จึงมีมาระยะหนึ่งแล้ว
การถดถอยเชิงเส้นและการวิเคราะห์จำแนกเชิงเส้นแตกต่างกันมาก การถดถอยเชิงเส้นเกี่ยวข้องกับตัวแปรตามกับชุดของตัวแปรทำนายอิสระ แนวคิดคือการหาฟังก์ชันเชิงเส้นในพารามิเตอร์ที่เหมาะกับข้อมูลมากที่สุด มันไม่จำเป็นต้องเป็นเส้นตรงใน covariates การวิเคราะห์จำแนกเชิงเส้นในอีกทางหนึ่งเป็นกระบวนการสำหรับการจำแนกวัตถุออกเป็นหมวดหมู่ สำหรับปัญหาสองระดับมันพยายามที่จะหาไฮเปอร์เพลทที่แยกได้ดีที่สุดสำหรับการแบ่งกลุ่มออกเป็นสองประเภท ที่นี่ดีที่สุดหมายความว่ามันลดฟังก์ชั่นการสูญเสียที่เป็นชุดค่าผสมเชิงเส้นของอัตราความผิดพลาด สำหรับกลุ่มสามกลุ่มขึ้นไปพบชุดของไฮเปอร์เพลนที่ดีที่สุด (k-1 สำหรับปัญหาคลาส k) ในการวิเคราะห์แบบแยกส่วน hypoerplanes นั้นเป็นแบบเส้นตรงในตัวแปรคุณลักษณะ
ความคล้ายคลึงกันหลักระหว่างทั้งสองคือคำเชิงเส้นในชื่อเรื่อง