โดยสังเขป
ทั้งสอง MANOVA ทางเดียวและ LDA เริ่มต้นด้วยการย่อยสลายกระจายเมทริกซ์รวมเข้าไปภายในชั้นเมทริกซ์กระจายWและระหว่างชั้นกระจายเมทริกซ์Bเช่นว่าT = W + B หมายเหตุที่ว่านี้จะคล้ายคลึงอย่างเต็มที่เพื่อให้วิธีการหนึ่ง-way ANOVA สลายตัวรวม sum-of-สี่เหลี่ยมTเข้าไปภายในชั้นหนึ่งและชั้นระหว่างผลรวมของสี่เหลี่ยม: T = B + W ใน ANOVA อัตราส่วนB / Wจะถูกคำนวณและใช้เพื่อค้นหาค่า p: ยิ่งอัตราส่วนนี้ยิ่งใหญ่ค่า p-value ก็ยิ่งน้อยลง MANOVA และ LDA ประกอบด้วยปริมาณหลายตัวแปรแบบอะนาล็อกW - 1TWBT=W+BTT=B+WB/W .W−1B
จากตรงนี้มันต่างกัน วัตถุประสงค์เดียวของ MANOVA คือการทดสอบว่าวิธีการของทุกกลุ่มเหมือนกันหรือไม่ สมมติฐานนี้จะหมายความว่าควรจะคล้ายกันในขนาดW ดังนั้น MANOVA ทำการ eigendecomposition ของW - 1 Bและพบว่าค่าลักษณะเฉพาะของλฉัน ตอนนี้ความคิดคือการทดสอบว่าพวกเขาใหญ่พอที่จะปฏิเสธค่าว่างหรือไม่ มีสี่วิธีการทั่วไปที่จะสร้างสถิติเกลาออกมาจากทั้งชุดของค่าลักษณะเฉพาะเป็นλฉัน วิธีหนึ่งคือการหาผลรวมของค่าลักษณะเฉพาะทั้งหมด อีกวิธีคือใช้ค่าลักษณะเฉพาะสูงสุด ในแต่ละกรณีหากสถิติที่เลือกมีขนาดใหญ่พอสมมติฐานว่างจะถูกปฏิเสธBWW−1Bλiλi
ในทางตรงกันข้าม LDA ดำเนินการวางองค์ประกอบของและดูที่ eigenvector (ไม่ใช่ค่าลักษณะเฉพาะ) eigenvectors เหล่านี้จะกำหนดทิศทางในพื้นที่ตัวแปรและจะเรียกว่าแกนจำแนก การฉายข้อมูลลงบนแกน discriminant แรกมีการแยกชั้นสูงสุด (วัดเป็นB / W ) เข้าสู่วินาทีที่สอง - สูงสุดที่สอง; เป็นต้นเมื่อใช้ LDA เพื่อลดมิติข้อมูลสามารถคาดการณ์ได้เช่นในสองแกนแรกและส่วนที่เหลือจะถูกทิ้งW−1BB/W
ดูคำตอบที่ยอดเยี่ยมโดย @ttnphnsในเธรดอื่นซึ่งครอบคลุมเกือบพื้นเดียวกัน
ตัวอย่าง
ขอให้เราพิจารณากรณีทางเดียวที่มีตัวแปรตามและk = 3กลุ่มการสังเกต (เช่นปัจจัยเดียวที่มีสามระดับ) ฉันจะนำชุดข้อมูลของไอริสฟิชเชอร์ที่เป็นที่รู้จักและพิจารณาความยาว sepal และความกว้าง sepal เท่านั้น (เพื่อทำให้เป็นสองมิติ) นี่คือพล็อตกระจาย:M=2k=3
เราสามารถเริ่มต้นด้วยการคำนวณ ANOVAs ด้วยทั้งความยาว / ความกว้าง sepal แยกกัน ลองนึกภาพจุดข้อมูลที่ฉายในแนวตั้งหรือแนวนอนบนแกน x และ y และดำเนินการวิเคราะห์ความแปรปรวนแบบทางเดียวเพื่อทดสอบว่าสามกลุ่มมีวิธีการเดียวกันหรือไม่ เราได้รับและp = 10 - 31สำหรับความยาว sepal และF 2 , 147 = 49และp = 10 - 17สำหรับความกว้าง sepal โอเคดังนั้นตัวอย่างของฉันค่อนข้างแย่เนื่องจากสามกลุ่มมีความแตกต่างอย่างมีนัยสำคัญกับค่า p ที่ไร้สาระทั้งสองมาตรการ แต่ฉันจะยึดมันต่อไปF2,147=119p=10−31F2,147=49p=10−17
ตอนนี้เราสามารถทำการ LDA เพื่อค้นหาแกนที่แยกส่วนที่ใหญ่ที่สุดได้สามกลุ่ม ตามที่อธิบายไว้ข้างต้นเราคำนวณเต็มรูปแบบเมทริกซ์กระจายภายในระดับกระจายเมทริกซ์Wและระหว่างชั้นกระจายเมทริกซ์B = T - Wและหา eigenvectors ของW - 1 B ฉันสามารถพล็อต eigenvector ทั้งสองในสเปลตเตอร์เดียวกัน:TWB=T−WW−1B
เส้นประเป็นแกนจำแนก ฉันพล็อตพวกมันด้วยความยาวตามอำเภอใจ แต่แกนที่ยาวกว่านั้นแสดงให้เห็นว่าไอเก็นเวกเตอร์ที่มีค่าไอเก็นใหญ่กว่า (4.1) และอีกอันที่สั้นกว่า --- อันที่มีค่าไอเก็นน้อยกว่า (0.02) โปรดทราบว่าพวกเขาไม่ใช่ orthogonal แต่คณิตศาสตร์ของ LDA รับประกันได้ว่าการประมาณการในแกนเหล่านี้มีความสัมพันธ์เป็นศูนย์
ถ้าตอนนี้เราฉายข้อมูลของเราบนแกน discriminant (อีกต่อไป) แรกแล้วรัน ANOVA เราจะได้และp = 10 - 53ซึ่งต่ำกว่าก่อนและเป็นค่าต่ำสุดที่เป็นไปได้ในการประมาณการเชิงเส้นทั้งหมด เป็นจุดรวมของ LDA) การฉายบนแกนที่สองให้เพียงP = 10 - 5F=305p=10−53p=10−5
ถ้าเราเรียกใช้ MANOVA จากข้อมูลเดียวกันเราจะคำนวณเมทริกซ์และดูค่าลักษณะเฉพาะเพื่อคำนวณค่า p ในกรณีนี้ค่าเฉพาะที่มีขนาดใหญ่เท่ากับ 4.1 ซึ่งเท่ากับB / Wสำหรับการวิเคราะห์ความแปรปรวนไปตามจำแนกแรก (ที่จริงF = B / W ⋅ ( N - k ) / ( k - 1 ) = 4.1 ⋅ 147 / 2 = 305โดยที่N = 150คือจำนวนจุดข้อมูลทั้งหมดและW−1BB/WF=B/W⋅(N−k)/(k−1)=4.1⋅147/2=305N=150k=3
λ1=4.1λ2=0.02p=10−55
เป็นไปได้หรือไม่ที่จะได้รับสถานการณ์ตรงกันข้าม: ค่า p-value ที่สูงขึ้นด้วย MANOVA? ใช่แล้ว. สำหรับสิ่งนี้เราจำเป็นต้องมีสถานการณ์เมื่อแกนการเลือกปฏิบัติเพียงแกนเดียวให้ค่าสำคัญและแกนที่สองจะไม่แยกแยะเลย ฉันแก้ไขชุดข้อมูลข้างต้นโดยเพิ่มเจ็ดจุดด้วยพิกัด( 8 , 4 )ในคลาส "สีเขียว" (จุดสีเขียวขนาดใหญ่แสดงถึงจุดที่เหมือนกันทั้งเจ็ด):F(8,4)
p=10−55p=0.26p=10−54∼5p≈0.05p
MANOVA กับ LDA เป็นการเรียนรู้ของเครื่องเทียบกับสถิติ
นี่ทำให้ฉันเป็นหนึ่งในตัวอย่างที่ดีของชุมชนการเรียนรู้ด้วยเครื่องที่แตกต่างกันและชุมชนทางสถิติที่เข้าใกล้สิ่งเดียวกัน หนังสือเรียนทุกเรื่องเกี่ยวกับการเรียนรู้ของเครื่องครอบคลุม LDA แสดงภาพที่ดี ฯลฯ แต่มันจะไม่พูดถึง MANOVA (เช่นBishop , HastieและMurphy ) อาจเป็นเพราะคนที่มีความสนใจในความถูกต้องของการจัดประเภท LDA (ซึ่งสอดคล้องกับขนาดของเอฟเฟกต์) และไม่มีความสนใจในนัยสำคัญทางสถิติของความแตกต่างของกลุ่ม ในทางตรงกันข้ามหนังสือเรียนเกี่ยวกับการวิเคราะห์หลายตัวแปรจะกล่าวถึงอาการคลื่นไส้ของ MANOVA ให้ข้อมูล tabulated จำนวนมาก (arrrgh) แต่ไม่ค่อยพูดถึง LDA และแม้แต่ rarer แสดงแปลงใด ๆ (เช่นแอนเดอร์สันหรือแฮร์ริส ; อย่างไรก็ตามRencher & Christensen do และHuberty & Olejnikเรียกว่า "MANOVA และ Discriminant Analysis")
MANOVA แฟคทอเรียล
แฟคทอเรียลมาโนวามีความสับสนมากกว่า แต่น่าสนใจที่จะต้องพิจารณาเพราะมันแตกต่างจาก LDA ในแง่ที่ว่า "แฟคทอเรียล LDA" ไม่มีอยู่จริงและแฟ็กทอเรียล MANOVA ไม่ตรงกับ "LDA ปกติ" ใด ๆ
3⋅2=6
ในรูปนี้ "เซลล์" ทั้งหก (ฉันจะเรียกพวกเขาว่า "กลุ่ม" หรือ "ชั้นเรียน") มีการแยกกันอย่างดีซึ่งแน่นอนว่าไม่ค่อยเกิดขึ้นในทางปฏิบัติ โปรดทราบว่ามันเห็นได้ชัดว่ามีผลกระทบที่สำคัญของทั้งสองปัจจัยที่นี่และผลกระทบการปฏิสัมพันธ์ที่สำคัญ (เพราะกลุ่มบนขวาเลื่อนไปทางขวาหากฉันย้ายไปยังตำแหน่ง "กริด" ของมันจะไม่มี ปฏิสัมพันธ์ผลกระทบ)
การคำนวณของ MANOVA ทำงานอย่างไรในกรณีนี้
WBABAW−1BA
BBBAB
T=BA+BB+BAB+W.
Bไม่สามารถแยกย่อยโดยไม่ซ้ำกันในผลรวมของการมีส่วนร่วมของปัจจัยสามประการเนื่องจากปัจจัยนั้นไม่ใช่มุมฉากอีกต่อไป สิ่งนี้คล้ายกับการอภิปรายของ Type I / II / III SS ใน ANOVA]
BAWA=T−BA
W−1BA