มีความสัมพันธ์ระหว่างการถดถอยและการวิเคราะห์จำแนกเชิงเส้น (LDA) หรือไม่? ความคล้ายคลึงและความแตกต่างของพวกเขาคืออะไร มันสร้างความแตกต่างหรือไม่ถ้ามีสองคลาสหรือมากกว่าสองคลาส?
มีความสัมพันธ์ระหว่างการถดถอยและการวิเคราะห์จำแนกเชิงเส้น (LDA) หรือไม่? ความคล้ายคลึงและความแตกต่างของพวกเขาคืออะไร มันสร้างความแตกต่างหรือไม่ถ้ามีสองคลาสหรือมากกว่าสองคลาส?
คำตอบ:
ฉันคิดว่าคำถามเกี่ยวกับ LDA และการถดถอยเชิงเส้น (ไม่ใช่โลจิสติก)
มีความสัมพันธ์อย่างมากและมีความหมายระหว่างคือการถดถอยเชิงเส้นและการวิเคราะห์จำแนกเชิงเส้น ในกรณีที่ตัวแปรตาม (DV) ประกอบด้วยเพียง 2 กลุ่มการวิเคราะห์ทั้งสองจะเหมือนกันจริง ๆ แม้จะมีการคำนวณที่แตกต่างกันและผลลัพธ์ - สัมประสิทธิ์การถดถอยและการเลือกปฏิบัติ - ไม่เหมือนกัน แต่ก็มีความสอดคล้องกัน
ตอนนี้สำหรับสถานการณ์ที่มากกว่าสองกลุ่ม ก่อนอื่นให้เราระบุว่า LDA (การแยกไม่ใช่ขั้นตอนการจำแนก) นั้นเทียบเท่า (ผลเชิงเส้นตรงที่เกี่ยวข้อง) กับการวิเคราะห์สหสัมพันธ์แบบแคนนอนหากคุณเปลี่ยนการจัดกลุ่ม DV ให้เป็นชุดของตัวแปรจำลอง การวิเคราะห์ด้วยชุด "IVs" และ "หุ่น" Canonical Variations ที่ด้านข้างของชุด "IV" ที่คุณได้รับคือ LDA ที่เรียกว่า "discriminant function" หรือ "discriminants"
ดังนั้นวิธีการวิเคราะห์ที่ยอมรับได้เกี่ยวข้องกับการถดถอยเชิงเส้นอย่างไร การวิเคราะห์แบบบัญญัติเป็นสิ่งสำคัญสำหรับMANOVA (ในแง่ "Multivariate Multiple Linear Regression" หรือ "Multivariate General Linear Model") ลึกเข้าไปในโครงสร้างแฝงของความสัมพันธ์ระหว่าง DV และ IV ชุดรูปแบบทั้งสองนี้จะถูกจำแนกในความสัมพันธ์ระหว่างกันเป็น "ตัวแปรทางบัญญัติ" แฝง ขอให้เรายกตัวอย่างที่ง่ายที่สุดคือ Y vs X1 X2 X3 การเพิ่มความสัมพันธ์ระหว่างทั้งสองฝ่ายคือการถดถอยเชิงเส้น (ถ้าคุณทำนาย Y ด้วย Xs) หรือ - ซึ่งเป็นสิ่งเดียวกัน - คือ MANOVA (ถ้าคุณทำนาย Xs ด้วย Y) ความสัมพันธ์เป็นมิติเดียว (ที่มีขนาด R ^ 2 = ร่องรอยของพิลไต) เนื่องจากชุดที่น้อยกว่านั้น Y ประกอบด้วยเพียงหนึ่งตัวแปร ทีนี้ลองดูสองชุดนี้: Y1 Y2 กับ X1 x2 x3 ความสัมพันธ์ที่ถูกขยายให้ใหญ่สุดที่นี่คือ 2 มิติเนื่องจากชุดที่น้อยกว่ามี 2 ตัวแปร มิติที่ซ่อนเร้นแรกและที่แข็งแกร่งของสหสัมพันธ์เรียกว่าสหสัมพันธ์แคนนอนที่ 1 และส่วนที่เหลือตั้งฉากกับมันคือความสัมพันธ์ที่ยอมรับกันครั้งที่ 2 ดังนั้น, MANOVA (หรือการถดถอยเชิงเส้น) เพียงแค่ถามว่าอะไรคือบทบาทบางส่วน (ค่าสัมประสิทธิ์) ของตัวแปรในความสัมพันธ์ทั้งสองมิติของเซต; ในขณะที่การวิเคราะห์แบบบัญญัติยอมรับด้านล่างเพื่อถามว่าอะไรคือบทบาทบางส่วนของตัวแปรในมิติสหสัมพันธ์ลำดับที่ 1 และในลำดับที่ 2
ดังนั้นการวิเคราะห์ความสัมพันธ์แบบบัญญัติคือการถดถอยเชิงเส้นหลายตัวแปรในโครงสร้างความสัมพันธ์ที่ซ่อนเร้นระหว่าง DV และ IV การวิเคราะห์จำแนกเป็นกรณีเฉพาะของการวิเคราะห์สหสัมพันธ์แบบแคนนอน ( ดูวิธี ) ดังนั้นนี่คือคำตอบเกี่ยวกับความสัมพันธ์ของ LDA กับการถดถอยเชิงเส้นในกรณีทั่วไปของกลุ่มมากกว่าสองกลุ่ม
โปรดทราบว่าคำตอบของฉันไม่ได้เห็น LDA เป็นเทคนิคการจำแนกประเภท ฉันพูดคุยเกี่ยวกับ LDA เป็นเพียงเทคนิคการดึงข้อมูลความล่าช้า การจำแนกเป็นขั้นตอนที่สองและเป็นเอกเทศของ LDA (ฉันอธิบายไว้ที่นี่ ) @Michael Chernick มุ่งเน้นไปที่คำตอบของเขา
regression formulation of LDA
มันก็ยากที่จะหาอะไรแปลกใจ - มีงานวิจัยหลายฉบับที่ตีพิมพ์หลังจากปี 2000 บอกว่าสูตรดังกล่าวไม่มีอยู่จริงหรือ พยายามแนะนำ อาจมีการอ้างอิงที่ดี [เก่า] หรือไม่?
Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression
. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling
. Olcay Kursun et al. Canonical correlation analysis using within-class coupling
. หากคุณไม่พบพวกเขาในอินเทอร์เน็ตฉันสามารถส่งคุณ หากคุณพบแหล่งที่มามากขึ้นและดีขึ้น - โปรดแจ้งให้เราทราบ
นี่คือการอ้างอิงถึงหนึ่งในเอกสารของ Efron: ประสิทธิภาพของการถดถอยโลจิสติกเมื่อเทียบกับการวิเคราะห์จำแนกตามปกติ , 1975
กระดาษที่เกี่ยวข้องก็คืออึ้งและจอร์แดนปี 2001 เมื่อวันที่จำแนกเทียบกับ classifierers กำเนิด: การเปรียบเทียบของการถดถอยโลจิสติกและเบส์ไร้เดียงสา และนี่คือนามธรรมของความคิดเห็นโดย Xue & Titterington , 2008, ที่กล่าวถึงเอกสารของ O'Neill ที่เกี่ยวข้องกับวิทยานิพนธ์ปริญญาเอกของเขา:
การเปรียบเทียบตัวแยกประเภทกำเนิดและการจำแนกเป็นหัวข้อที่ยั่งยืน ในฐานะที่เป็นคุณูปการที่สำคัญของหัวข้อนี้ขึ้นอยู่กับการเปรียบเทียบเชิงทฤษฎีและเชิงประจักษ์ระหว่างตัวจําแนกnaïve Bayes และการถดถอยเชิงเส้นลอจิสติกเชิงเส้นงะและจอร์แดน (NIPS 841 --- 848, 2001) อ้างว่า และจำแนกลักษณนามจำแนกเกี่ยวกับขนาดชุดฝึกอบรม ในบทความนี้การศึกษาเชิงประจักษ์และการจำลองสถานการณ์ของเราเป็นส่วนเสริมของงานของพวกเขาอย่างไรก็ตามชี้ให้เห็นว่าการดำรงอยู่ของระบอบการปกครองที่แตกต่างกันสองระบบอาจไม่น่าเชื่อถือ นอกจากนี้สำหรับชุดข้อมูลในโลกแห่งความเป็นจริงจนถึงขณะนี้ยังไม่มีความถูกต้องทางทฤษฎีเกณฑ์ทั่วไปสำหรับการเลือกระหว่างการเลือกปฏิบัติและวิธีการกำเนิดเพื่อการจำแนกประเภทของการสังเกตเข้าคลาส ; ตัวเลือกขึ้นอยู่กับความมั่นใจสัมพัทธ์ที่เรามีในความถูกต้องของสเปคของทั้งหรือ สำหรับข้อมูล นี่อาจเป็นการแสดงให้เห็นว่าทำไม Efron (J Am Stat Assoc 70 (352): 892 --- 898, 1975) และ O'Neill (J Am Stat Assoc 75 (369): 154 --- 160, 1980 ) ชอบการวิเคราะห์ discriminant เชิงเส้นตามปกติ (LDA) เมื่อไม่มีการระบุตัวแบบผิดพลาด แต่การศึกษาเชิงประจักษ์อื่น ๆ อาจชอบการถดถอยเชิงเส้นเชิงเส้นแทน นอกจากนี้เราขอแนะนำว่าการจับคู่ของ LDA ทั้งสองสมมติว่าเมทริกซ์ความแปรปรวนร่วมแนวทแยง (LDA) ทั่วไปหรือตัวจําแนกNaïve Bayes และการถดถอยเชิงลอจิสติกเชิงเส้นอาจไม่สมบูรณ์แบบและดังนั้นจึงอาจไม่น่าเชื่อถือสำหรับการเรียกร้องใด ๆ หรือตัวจําแนกแบบไร้เดียงสา Bayes และการถดถอยเชิงลอจิสติกเชิงเส้นที่จะวางนัยสําหรับลักษณนามการสร้างและการเลือกปฏิบัติทั้งหมด
มีการอ้างอิงอื่น ๆ อีกมากมายเกี่ยวกับสิ่งนี้ที่คุณสามารถหาได้ทางออนไลน์
จุดประสงค์ของคำตอบนี้คือการอธิบายความสัมพันธ์ทางคณิตศาสตร์ที่แน่นอนระหว่างการวิเคราะห์เชิงเส้น (LDA) และการถดถอยเชิงเส้นหลายตัวแปร (MLR) มันจะกลายเป็นว่าเฟรมเวิร์กที่ถูกต้องถูกจัดเตรียมโดยการลดอันดับการถดถอย (RRR)
เราจะแสดงให้เห็นว่า LDA เทียบเท่ากับ RRR ของเมทริกซ์ตัวบ่งชี้ระดับสีขาวบนเมทริกซ์ข้อมูล
ให้เป็นn × dเมทริกซ์พร้อมจุดข้อมูลในแถวและตัวแปรในคอลัมน์ แต่ละจุดเป็นของหนึ่งในคลาสkหรือกลุ่ม จุดxฉันเป็นของหมายเลขชั้นG ( ฉัน )
ให้เป็นเมทริกซ์การเข้ารหัสกลุ่มสมาชิกn × kเมทริกซ์ดังต่อไปนี้: G ฉันj = 1ถ้าxฉันอยู่ในคลาสjและG iมิฉะนั้น มีจุดข้อมูล n jในคลาสj; แน่นอนΣ n J =n
เราคิดว่าข้อมูลที่เป็นศูนย์กลางและเพื่อให้หมายถึงคือโลกเท่ากับศูนย์ 0 ให้μ Jเป็นค่าเฉลี่ยของชั้นJ
เมทริกซ์การกระจายทั้งหมดสามารถแยกย่อยเป็นผลรวมของเมทริกซ์การกระจายระหว่างคลาสและภายในคลาสที่กำหนดดังต่อไปนี้: C b หนึ่งสามารถตรวจสอบว่าC=CB+CW LDA ค้นหาแกน discriminant ที่มีความแปรปรวนระหว่างกลุ่มมากที่สุดและความแปรปรวนภายในกลุ่มน้อยที่สุดของเส้นโครง โดยเฉพาะแกน discriminant แรกคือเวกเตอร์หน่วยwww)และแกน discriminantแรกp ที่เรียงซ้อนกันเป็นเมทริกซ์W
สมมติว่าเป็นอันดับเต็ม LDA solution W L D Aคือเมทริกซ์ของ eigenvector ของ (สั่งโดยค่าลักษณะเฉพาะในลำดับที่ลดลง)
นี่เป็นเรื่องปกติ ตอนนี้ให้เราทำการสังเกตที่สำคัญสองอย่าง
ประการแรกเมทริกซ์กระจายภายในคลาสสามารถแทนที่ด้วยเมทริกซ์กระจายทั้งหมด (ในที่สุดเนื่องจากการเพิ่มเท่ากับการเพิ่มb / ( b + w ) ) และแน่นอนมันง่ายที่จะเห็นว่าC - 1 C bมี eigenvectors เดียวกัน
ประการที่สองเมทริกซ์การกระจายระหว่างคลาสสามารถแสดงผ่านเมทริกซ์การเป็นสมาชิกกลุ่มที่กำหนดไว้ด้านบน แท้จริงแล้วคือเมทริกซ์ของผลรวมของกลุ่ม ในการหาเมทริกซ์ของกลุ่มหมายความว่ามันควรจะถูกคูณด้วยเมทริกซ์แนวทแยงที่มีn jบนเส้นทแยงมุม; ก็ให้โดยG ⊤ G ดังนั้นเมทริกซ์ของค่าเฉลี่ยของกลุ่มคือ( G ⊤ G ) - 1 G ⊤ X ( sapientiจะสังเกตเห็นว่ามันเป็นสูตรการถดถอย) ในการรับC bเราจำเป็นต้องใช้เมทริกซ์การกระจายของมันซึ่งถูกถ่วงน้ำหนักด้วยเมทริกซ์ทแยงมุมเดียวกันเพื่อรับC b หากทุก n Jเหมือนกันและเท่ากับเมตร ( "ชุดข้อมูลที่สมดุล") จากนั้นสำนวนนี้ช่วยลดความยุ่งยากในการ X ⊤ G G ⊤ X /เมตร
เราสามารถกำหนดตัวบ่งชี้เมทริกซ์ปกติมี1 / √ที่Gมี1 แล้วสำหรับทั้งสองมีความสมดุลและไม่สมดุลชุดข้อมูลการแสดงออกเป็นเพียงCข=X⊤ ~ G ~ G ⊤X โปรดทราบว่า ~ Gคือขึ้นอยู่กับปัจจัยคงให้ขาวเมทริกซ์ตัวบ่งชี้: ~ G =G(G⊤G)-1 / 2
เพื่อความง่ายเราจะเริ่มด้วยกรณีของชุดข้อมูลที่มีความสมดุล
พิจารณาการถดถอยเชิงเส้นของบนX พบBการลด‖ G - X B ‖ 2 การถดถอยอันดับที่ลดลงจะทำเช่นเดียวกันภายใต้ข้อ จำกัด ที่Bควรเป็นของอันดับp ที่กำหนด ถ้าเป็นเช่นนั้นBสามารถเขียนเป็นB = D F ⊤ทั้งDและFมีคอลัมน์p หนึ่งสามารถแสดงให้เห็นว่าการแก้ปัญหาอันดับสองสามารถได้รับจากการแก้ปัญหาการจัดอันดับโดยการรักษาคอลัมน์แรกและเพิ่มคอลัมน์พิเศษ ฯลฯ
เพื่อสร้างการเชื่อมต่อระหว่าง LDA และการถดถอยเชิงเส้นเราจะพิสูจน์ให้เห็นว่าสอดคล้องกับW L D
การพิสูจน์นั้นตรงไปตรงมา สำหรับรับ , ที่ดีที่สุดFสามารถพบได้ผ่านการถดถอย: F ⊤ = ( D ⊤ X ⊤ X D ) - 1 D ⊤ X ⊤ G เสียบสิ่งนี้เข้ากับฟังก์ชั่นการสูญเสียเราจะได้‖ G - X D ( D ⊤ X ⊤ X D ) - 1 ‖ A ‖ 2 = t r ( A A ⊤ )ซึ่งสามารถเขียนเป็นร่องรอยการใช้บัตรประจำตัว
เราสามารถแสดงให้เห็นว่าในทำนองเดียวกันการเพิ่มการทำให้เป็นมาตรฐานของการลดอันดับลงนั้นเทียบเท่ากับ LDA ที่ทำให้เป็นมาตรฐาน
เป็นการยากที่จะบอกว่าใครสมควรได้รับเครดิตสำหรับสิ่งที่นำเสนอข้างต้น
มีรายงานการประชุมล่าสุดโดย Cai et al (2013) เกี่ยวกับการเทียบเคียงถดถอยต่ำและการวิเคราะห์จำแนกเชิงเส้นตามการวิเคราะห์เชิงเส้นตรงที่นำเสนอหลักฐานที่เหมือนกันข้างต้น แต่สร้างความประทับใจที่พวกเขาคิดค้นวิธีการนี้ นี่ไม่ใช่กรณีอย่างแน่นอน Torre เขียนรักษารายละเอียดของวิธีส่วนใหญ่ที่พบบ่อยเชิงเส้นวิธีการหลายตัวแปรที่สามารถมองเห็นลดลงเป็นอันดับถดถอยดูอย่างน้อยสี่เหลี่ยมกรอบสำหรับการวิเคราะห์องค์ประกอบ 2009 และต่อมาหนังสือบทรวมกันของวิธีการวิเคราะห์องค์ประกอบ , 2013; เขานำเสนออาร์กิวเมนต์เดียวกัน แต่ไม่ได้ให้การอ้างอิงใด ๆ เช่นกัน เนื้อหานี้ครอบคลุมอยู่ในตำราเทคนิคสมัยใหม่ทางสถิติหลายตัวแปร (2008) โดย Izenman ผู้แนะนำ RRR ย้อนกลับไปในปี 1975
เห็นได้ชัดว่าความสัมพันธ์ระหว่าง LDA และ CCA กลับไปที่บาร์ตเลตต์ปี 1938 แง่มุมเพิ่มเติมของทฤษฎีการถดถอยหลายครั้ง - นั่นคือการอ้างอิงที่ฉันมักจะพบ (แต่ไม่ได้ตรวจสอบ) ความสัมพันธ์ระหว่าง CCA และ RRR อธิบายไว้ใน Izenman 1975 ลดอันดับถดถอยสำหรับรูปแบบเชิงเส้นหลายตัวแปร ดังนั้นความคิดทั้งหมดเหล่านี้จึงมีมาระยะหนึ่งแล้ว
การถดถอยเชิงเส้นและการวิเคราะห์จำแนกเชิงเส้นแตกต่างกันมาก การถดถอยเชิงเส้นเกี่ยวข้องกับตัวแปรตามกับชุดของตัวแปรทำนายอิสระ แนวคิดคือการหาฟังก์ชันเชิงเส้นในพารามิเตอร์ที่เหมาะกับข้อมูลมากที่สุด มันไม่จำเป็นต้องเป็นเส้นตรงใน covariates การวิเคราะห์จำแนกเชิงเส้นในอีกทางหนึ่งเป็นกระบวนการสำหรับการจำแนกวัตถุออกเป็นหมวดหมู่ สำหรับปัญหาสองระดับมันพยายามที่จะหาไฮเปอร์เพลทที่แยกได้ดีที่สุดสำหรับการแบ่งกลุ่มออกเป็นสองประเภท ที่นี่ดีที่สุดหมายความว่ามันลดฟังก์ชั่นการสูญเสียที่เป็นชุดค่าผสมเชิงเส้นของอัตราความผิดพลาด สำหรับกลุ่มสามกลุ่มขึ้นไปพบชุดของไฮเปอร์เพลนที่ดีที่สุด (k-1 สำหรับปัญหาคลาส k) ในการวิเคราะห์แบบแยกส่วน hypoerplanes นั้นเป็นแบบเส้นตรงในตัวแปรคุณลักษณะ
ความคล้ายคลึงกันหลักระหว่างทั้งสองคือคำเชิงเส้นในชื่อเรื่อง