MANOVA เกี่ยวข้องกับ LDA อย่างไร


18

ในหลาย ๆ ที่ฉันเห็นการกล่าวอ้างว่า MANOVA เป็นเหมือน ANOVA บวกกับการวิเคราะห์จำแนกเชิงเส้น (LDA) แต่มันถูกสร้างขึ้นด้วยวิธีการโบกมือด้วยมือเสมอ ฉันอยากจะรู้ว่ามันควรจะหมายถึงอะไรกันแน่

ผมพบว่าตำราต่างๆที่อธิบายถึงรายละเอียดทั้งหมดของการคำนวณ MANOVA แต่มันดูเหมือนว่าจะเป็นเรื่องยากมากที่จะหาการอภิปรายทั่วไปดี (นับประสาภาพ ) เข้าถึงได้ให้กับคนที่ไม่ได้เป็นสถิติ


2
บัญชีท้องถิ่นของตัวเอง LDA ญาติ ANOVA และ MANOVA มีนี้ , นี้ บางทีพวกเขาอาจโบกมือ แต่พวกเขาพูดถึงหัวข้อของคุณบ้าง กุญแจสำคัญที่บอกว่านั่นคือ "LDA คือ MANOVA ที่จมอยู่ใต้โครงสร้างที่แฝงอยู่" MANOVA เป็นศูนย์ทดสอบสมมติฐานที่สมบูรณ์มาก เหนือสิ่งอื่นใดมันสามารถวิเคราะห์โครงสร้างแฝงของความแตกต่าง การวิเคราะห์นี้รวมถึง LDA
ttnphns

1
@ttnphns ฉันกลัวว่าความคิดเห็นก่อนหน้าของฉันไม่ได้ส่งมอบ (ฉันลืมใส่ชื่อผู้ใช้ของคุณ) ดังนั้นให้ฉันทำซ้ำ: ว้าวขอบคุณมากคำตอบที่เชื่อมโยงของคุณดูเหมือนจะเกี่ยวข้องกับคำถามของฉันมากและฉันต้องคิดถึงพวกเขา ในการค้นหาของฉันก่อนโพสต์ ต้องใช้เวลาสักครู่ในการย่อยพวกเขาและฉันอาจกลับมาหาคุณหลังจากนั้น แต่บางทีตอนนี้คุณอาจชี้ให้ฉันดูเอกสาร / หนังสือที่ครอบคลุมหัวข้อเหล่านี้หรือไม่ ฉันชอบที่จะเห็นรายละเอียดของสิ่งนี้ในรูปแบบของคำตอบที่เชื่อมโยงของคุณ
อะมีบาพูดว่า Reinstate Monica

เพียงหนึ่งบัญชีเก่าและคลาสสิกwebia.lip6.fr/~amini/Cours/MASTER_M2_IAD/TADTI/HarryGlahn.pdf BTW ฉันยังไม่ได้อ่านด้วยตัวเองจนถึงตอนนี้ อีกบทความที่เกี่ยวข้องdl.acm.org/citation.cfm?id=1890259
ttnphns

@ttnphns: ขอบคุณ ฉันเขียนคำตอบสำหรับคำถามของฉันเองโดยทั่วไปให้ภาพประกอบและตัวอย่างเฉพาะกับคำตอบที่เชื่อมโยงที่ยอดเยี่ยมของคุณใน LDA / MANOVA ฉันคิดว่าพวกเขาเติมเต็มซึ่งกันและกันอย่างดี
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


21

โดยสังเขป

ทั้งสอง MANOVA ทางเดียวและ LDA เริ่มต้นด้วยการย่อยสลายกระจายเมทริกซ์รวมเข้าไปภายในชั้นเมทริกซ์กระจายWและระหว่างชั้นกระจายเมทริกซ์Bเช่นว่าT = W + B หมายเหตุที่ว่านี้จะคล้ายคลึงอย่างเต็มที่เพื่อให้วิธีการหนึ่ง-way ANOVA สลายตัวรวม sum-of-สี่เหลี่ยมTเข้าไปภายในชั้นหนึ่งและชั้นระหว่างผลรวมของสี่เหลี่ยม: T = B + W ใน ANOVA อัตราส่วนB / Wจะถูกคำนวณและใช้เพื่อค้นหาค่า p: ยิ่งอัตราส่วนนี้ยิ่งใหญ่ค่า p-value ก็ยิ่งน้อยลง MANOVA และ LDA ประกอบด้วยปริมาณหลายตัวแปรแบบอะนาล็อกW - 1TWBT=W+BTT=B+WB/W .W1B

จากตรงนี้มันต่างกัน วัตถุประสงค์เดียวของ MANOVA คือการทดสอบว่าวิธีการของทุกกลุ่มเหมือนกันหรือไม่ สมมติฐานนี้จะหมายความว่าควรจะคล้ายกันในขนาดW ดังนั้น MANOVA ทำการ eigendecomposition ของW - 1 Bและพบว่าค่าลักษณะเฉพาะของλฉัน ตอนนี้ความคิดคือการทดสอบว่าพวกเขาใหญ่พอที่จะปฏิเสธค่าว่างหรือไม่ มีสี่วิธีการทั่วไปที่จะสร้างสถิติเกลาออกมาจากทั้งชุดของค่าลักษณะเฉพาะเป็นλฉัน วิธีหนึ่งคือการหาผลรวมของค่าลักษณะเฉพาะทั้งหมด อีกวิธีคือใช้ค่าลักษณะเฉพาะสูงสุด ในแต่ละกรณีหากสถิติที่เลือกมีขนาดใหญ่พอสมมติฐานว่างจะถูกปฏิเสธBWW1Bλiλi

ในทางตรงกันข้าม LDA ดำเนินการวางองค์ประกอบของและดูที่ eigenvector (ไม่ใช่ค่าลักษณะเฉพาะ) eigenvectors เหล่านี้จะกำหนดทิศทางในพื้นที่ตัวแปรและจะเรียกว่าแกนจำแนก การฉายข้อมูลลงบนแกน discriminant แรกมีการแยกชั้นสูงสุด (วัดเป็นB / W ) เข้าสู่วินาทีที่สอง - สูงสุดที่สอง; เป็นต้นเมื่อใช้ LDA เพื่อลดมิติข้อมูลสามารถคาดการณ์ได้เช่นในสองแกนแรกและส่วนที่เหลือจะถูกทิ้งW1BB/W

ดูคำตอบที่ยอดเยี่ยมโดย @ttnphnsในเธรดอื่นซึ่งครอบคลุมเกือบพื้นเดียวกัน

ตัวอย่าง

ขอให้เราพิจารณากรณีทางเดียวที่มีตัวแปรตามและk = 3กลุ่มการสังเกต (เช่นปัจจัยเดียวที่มีสามระดับ) ฉันจะนำชุดข้อมูลของไอริสฟิชเชอร์ที่เป็นที่รู้จักและพิจารณาความยาว sepal และความกว้าง sepal เท่านั้น (เพื่อทำให้เป็นสองมิติ) นี่คือพล็อตกระจาย:M=2k=3

พล็อตฟิชเชอร์ไอริสกระจาย

เราสามารถเริ่มต้นด้วยการคำนวณ ANOVAs ด้วยทั้งความยาว / ความกว้าง sepal แยกกัน ลองนึกภาพจุดข้อมูลที่ฉายในแนวตั้งหรือแนวนอนบนแกน x และ y และดำเนินการวิเคราะห์ความแปรปรวนแบบทางเดียวเพื่อทดสอบว่าสามกลุ่มมีวิธีการเดียวกันหรือไม่ เราได้รับและp = 10 - 31สำหรับความยาว sepal และF 2 , 147 = 49และp = 10 - 17สำหรับความกว้าง sepal โอเคดังนั้นตัวอย่างของฉันค่อนข้างแย่เนื่องจากสามกลุ่มมีความแตกต่างอย่างมีนัยสำคัญกับค่า p ที่ไร้สาระทั้งสองมาตรการ แต่ฉันจะยึดมันต่อไปF2,147=119p=1031F2,147=49p=1017

ตอนนี้เราสามารถทำการ LDA เพื่อค้นหาแกนที่แยกส่วนที่ใหญ่ที่สุดได้สามกลุ่ม ตามที่อธิบายไว้ข้างต้นเราคำนวณเต็มรูปแบบเมทริกซ์กระจายภายในระดับกระจายเมทริกซ์Wและระหว่างชั้นกระจายเมทริกซ์B = T - Wและหา eigenvectors ของW - 1 B ฉันสามารถพล็อต eigenvector ทั้งสองในสเปลตเตอร์เดียวกัน:TWB=TWW1B

ฟิชเชอร์ไอริส LDA

เส้นประเป็นแกนจำแนก ฉันพล็อตพวกมันด้วยความยาวตามอำเภอใจ แต่แกนที่ยาวกว่านั้นแสดงให้เห็นว่าไอเก็นเวกเตอร์ที่มีค่าไอเก็นใหญ่กว่า (4.1) และอีกอันที่สั้นกว่า --- อันที่มีค่าไอเก็นน้อยกว่า (0.02) โปรดทราบว่าพวกเขาไม่ใช่ orthogonal แต่คณิตศาสตร์ของ LDA รับประกันได้ว่าการประมาณการในแกนเหล่านี้มีความสัมพันธ์เป็นศูนย์

ถ้าตอนนี้เราฉายข้อมูลของเราบนแกน discriminant (อีกต่อไป) แรกแล้วรัน ANOVA เราจะได้และp = 10 - 53ซึ่งต่ำกว่าก่อนและเป็นค่าต่ำสุดที่เป็นไปได้ในการประมาณการเชิงเส้นทั้งหมด เป็นจุดรวมของ LDA) การฉายบนแกนที่สองให้เพียงP = 10 - 5F=305p=1053p=105

ถ้าเราเรียกใช้ MANOVA จากข้อมูลเดียวกันเราจะคำนวณเมทริกซ์และดูค่าลักษณะเฉพาะเพื่อคำนวณค่า p ในกรณีนี้ค่าเฉพาะที่มีขนาดใหญ่เท่ากับ 4.1 ซึ่งเท่ากับB / Wสำหรับการวิเคราะห์ความแปรปรวนไปตามจำแนกแรก (ที่จริงF = B / W ( N - k ) / ( k - 1 ) = 4.1 147 / 2 = 305โดยที่N = 150คือจำนวนจุดข้อมูลทั้งหมดและW1BB/WF=B/W(Nk)/(k1)=4.1147/2=305N=150k=3

λ1=4.1λ2=0.02p=1055

เป็นไปได้หรือไม่ที่จะได้รับสถานการณ์ตรงกันข้าม: ค่า p-value ที่สูงขึ้นด้วย MANOVA? ใช่แล้ว. สำหรับสิ่งนี้เราจำเป็นต้องมีสถานการณ์เมื่อแกนการเลือกปฏิบัติเพียงแกนเดียวให้ค่าสำคัญและแกนที่สองจะไม่แยกแยะเลย ฉันแก้ไขชุดข้อมูลข้างต้นโดยเพิ่มเจ็ดจุดด้วยพิกัด( 8 , 4 )ในคลาส "สีเขียว" (จุดสีเขียวขนาดใหญ่แสดงถึงจุดที่เหมือนกันทั้งเจ็ด):F(8,4)

ฟิชเชอร์ไอริส LDA แก้ไข

p=1055p=0.26p=10545p0.05p

MANOVA กับ LDA เป็นการเรียนรู้ของเครื่องเทียบกับสถิติ

นี่ทำให้ฉันเป็นหนึ่งในตัวอย่างที่ดีของชุมชนการเรียนรู้ด้วยเครื่องที่แตกต่างกันและชุมชนทางสถิติที่เข้าใกล้สิ่งเดียวกัน หนังสือเรียนทุกเรื่องเกี่ยวกับการเรียนรู้ของเครื่องครอบคลุม LDA แสดงภาพที่ดี ฯลฯ แต่มันจะไม่พูดถึง MANOVA (เช่นBishop , HastieและMurphy ) อาจเป็นเพราะคนที่มีความสนใจในความถูกต้องของการจัดประเภท LDA (ซึ่งสอดคล้องกับขนาดของเอฟเฟกต์) และไม่มีความสนใจในนัยสำคัญทางสถิติของความแตกต่างของกลุ่ม ในทางตรงกันข้ามหนังสือเรียนเกี่ยวกับการวิเคราะห์หลายตัวแปรจะกล่าวถึงอาการคลื่นไส้ของ MANOVA ให้ข้อมูล tabulated จำนวนมาก (arrrgh) แต่ไม่ค่อยพูดถึง LDA และแม้แต่ rarer แสดงแปลงใด ๆ (เช่นแอนเดอร์สันหรือแฮร์ริส ; อย่างไรก็ตามRencher & Christensen do และHuberty & Olejnikเรียกว่า "MANOVA และ Discriminant Analysis")

MANOVA แฟคทอเรียล

แฟคทอเรียลมาโนวามีความสับสนมากกว่า แต่น่าสนใจที่จะต้องพิจารณาเพราะมันแตกต่างจาก LDA ในแง่ที่ว่า "แฟคทอเรียล LDA" ไม่มีอยู่จริงและแฟ็กทอเรียล MANOVA ไม่ตรงกับ "LDA ปกติ" ใด ๆ

32=6

MANOVA แบบแฟคทอเรียล

ในรูปนี้ "เซลล์" ทั้งหก (ฉันจะเรียกพวกเขาว่า "กลุ่ม" หรือ "ชั้นเรียน") มีการแยกกันอย่างดีซึ่งแน่นอนว่าไม่ค่อยเกิดขึ้นในทางปฏิบัติ โปรดทราบว่ามันเห็นได้ชัดว่ามีผลกระทบที่สำคัญของทั้งสองปัจจัยที่นี่และผลกระทบการปฏิสัมพันธ์ที่สำคัญ (เพราะกลุ่มบนขวาเลื่อนไปทางขวาหากฉันย้ายไปยังตำแหน่ง "กริด" ของมันจะไม่มี ปฏิสัมพันธ์ผลกระทบ)

การคำนวณของ MANOVA ทำงานอย่างไรในกรณีนี้

WBABAW1BA

BBBAB

T=BA+BB+BAB+W.
Bไม่สามารถแยกย่อยโดยไม่ซ้ำกันในผลรวมของการมีส่วนร่วมของปัจจัยสามประการเนื่องจากปัจจัยนั้นไม่ใช่มุมฉากอีกต่อไป สิ่งนี้คล้ายกับการอภิปรายของ Type I / II / III SS ใน ANOVA]

BAWA=TBA

W1BA


+1 นั่นเป็นบัญชีที่ดีของมัน ผมเปลี่ยนไปB^-1 W W^-1 Bรูปภาพของคุณที่มี discriminants ในขณะที่ขวานนั้นคล้ายกับพล็อตของฉันฉันเชื่อว่าคุณใช้วิธีการ "การหมุนแบบ nonorthogonal แบบเดียวกับวิธี eigenvector ปกติ"
ttnphns

MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positiveผมพบว่าหมอกนิด ๆ หน่อย ๆ แน่นอนว่า MANOVA ไม่รู้เกี่ยวกับเราที่ทำ LDA MANOVA ใช้พลังงาน df มากกว่า ANOVA เพียงอย่างเดียวเพราะเป็นการทดสอบแบบ 2 มิตินั่นเป็นสาเหตุที่ว่าทำไมค่า p-value ถึง -54 แทนที่จะเป็น -55
ttnphns

ฉันสงสัยว่าควรพูดในแง่ของค่า p จุดสำคัญที่ MANOVA วิเคราะห์เมทริกซ์W^-1 Bเดียวกับที่ LDA ทำแทน LDA เชื่อมโยงตัวแปรแฝง (ตัวเลือก) ออกจากมัน MANOVA ไม่ได้; อย่างไรก็ตามมันตรวจสอบเมทริกซ์ข้างต้นอย่างละเอียดมากขึ้นคำนวณสถิติต่างๆ (เช่นการติดตามของ Pillai, การติดตามของ Hotteling) ของมันเพื่อทดสอบพื้นฐานกับพวกเขา
ttnphns

พล็อตซึ่งจะเป็นคำอุปมาของ MANOVA (และฉันคิดว่าคุณอาจต้องการที่จะเพิ่มลงในคำตอบของคุณ) ตรงกันข้ามกับ LDA (รูปภาพที่ 2 ของคุณ) จะเป็นพล็อตที่ 3 เซ็นโตรเชื่อมต่อกับแกรนด์เซนทรอยด์ .
ttnphns

ในที่สุดฉันไม่คิดว่าคุณมีน้ำหนักที่ถูกต้องดังนั้นความแตกต่างในด้านสถิติและการเรียนรู้ของเครื่อง ฉันเรียนรู้การวิเคราะห์ข้อมูลทางสถิติก่อนที่ฉันจะได้ยินคำศัพท์machine learningในครั้งแรก และข้อความที่ฉันได้อ่านแล้วได้พูดถึง LDA เป็นข้อตกลงร่วมกับ MANOVA
ttnphns
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.