แหล่งที่มา 'ไม่เห็นด้วยกับการวิเคราะห์เชิงเส้นกำลังสองและฟิชเชอร์ของจำแนก


10

ฉันกำลังศึกษาวิเคราะห์พินิจพิเคราะห์ แต่ฉันมีช่วงเวลาที่ยากลำบากในการปรับคำอธิบายที่แตกต่างกันหลายอย่าง ฉันเชื่อว่าฉันต้องพลาดบางสิ่งบางอย่างเพราะฉันไม่เคยพบกับความแตกต่างในระดับนี้ (ดู) มาก่อน ดังที่กล่าวไปแล้วจำนวนคำถามเกี่ยวกับการวิเคราะห์การเลือกปฏิบัติบนเว็บไซต์นี้ดูเหมือนจะเป็นเครื่องยืนยันถึงความซับซ้อน

LDA และ QDA สำหรับหลายคลาส

หนังสือข้อความหลักของฉันคือ Johnson & Wichern ประยุกต์การวิเคราะห์เชิงสถิติหลายตัวแปร (AMSA) และบันทึกของครูตามสิ่งนี้ ฉันจะเพิกเฉยต่อการตั้งค่าทั้งสองกลุ่มเพราะฉันเชื่อว่าสูตรง่าย ๆ ของการตั้งค่านี้ทำให้เกิดความสับสนอย่างน้อย แหล่งอ้างอิง LDA และ QDA นี้ถูกกำหนดให้เป็นส่วนขยายแบบ Parametric (สมมติว่ามีภาวะปกติหลายตัวแปร) ของกฎการจำแนกประเภทตามค่าใช้จ่ายที่คาดหวังของการจำแนกประเภท (ECM) ECM จะรวมกับค่าใช้จ่ายที่คาดหวังตามเงื่อนไขสำหรับการจำแนกการสังเกตการณ์ x ใหม่ให้กับกลุ่มใด ๆ (รวมค่าการแบ่งประเภทและความน่าจะเป็นก่อนหน้านี้) และเราเลือกภูมิภาคการจำแนกที่ลดสิ่งนี้ลง ที่ไหน

ECM=i=1groupspi[k=1; ikgroupsP(k|i)c(k|i)]
P(k|i)=P(classifying item as group k | item is group i)=Rkfi(x)dx , fi(x)คือความหนาแน่นของประชากรRkคือชุดการสังเกตในกลุ่ม k, cคือราคาและpiเป็นความน่าจะเป็นก่อนหน้านี้ การสังเกตใหม่นั้นสามารถกำหนดให้กับกลุ่มที่คำภายในมีขนาดเล็กที่สุดหรือเท่ากันซึ่งส่วนด้านซ้ายของคำในpkfk(x)มีขนาดใหญ่ที่สุด

สมมุติว่ากฎการจำแนกประเภทนี้เทียบเท่ากับ "กฎข้อที่เพิ่มความน่าจะเป็นหลัง" (sic AMSA) ซึ่งฉันสามารถสันนิษฐานได้ว่าเป็นแนวทางของ Bayes ที่ฉันเคยเห็น ถูกต้องหรือไม่ และ ECM เป็นวิธีที่เก่ากว่าเพราะฉันไม่เคยเห็นมันเกิดขึ้นที่อื่นเลย

สำหรับประชากรปกติกฎนี้ลดความซับซ้อนของคะแนนการจำแนกแบบสองชั้น:(p_i)

diQ(x)=12log(Σi)12(xμi)TΣi1(xμi)+log(pi)

นี้ดูเหมือนว่าเทียบเท่ากับองค์ประกอบของการเรียนรู้ทางสถิติ (ESL) สูตร 4.12 ในหน้า 110 ถึงแม้ว่าพวกเขาอธิบายว่ามันเป็นจำแนกกำลังสองฟังก์ชั่นมากกว่าคะแนน ยิ่งไปกว่านั้นพวกเขามาถึงที่นี่ผ่านอัตราส่วนล็อกของความหนาแน่นหลายตัวแปร (4.9) นี่เป็นอีกชื่อสำหรับแนวทางของ Bayes หรือไม่?

เมื่อเราถือว่าความแปรปรวนร่วมเท่ากันสูตรจะลดความซับซ้อนของคะแนนการจำแนกเชิงเส้นให้มากยิ่งขึ้น

di(x)=μiTΣ1x12μiTΣ1μi+log(pi)

สูตรนี้ไม่แตกต่างจากการสอนภาษาอังกฤษ (4.10) ที่ระยะแรกจะถูกกลับรายการ:\ รุ่น ESL ยังเป็นหนึ่งที่ระบุไว้ในการเรียนรู้ทางสถิติในการวิจัย ยิ่งไปกว่านั้นใน SAS output ที่แสดงใน AMSA ฟังก์ชั่นการแบ่งแยกเชิงเส้นถูกอธิบายไว้ประกอบด้วยค่าคงที่และสัมประสิทธิ์ เวกเตอร์ดูเหมือนจะสอดคล้องกับเวอร์ชั่น ESLxTΣ1μk0.5X¯jTCOV1X¯j+ln priorjCOV1X¯j

อะไรคือสาเหตุของความคลาดเคลื่อนนี้?

การเลือกปฏิบัติและวิธีการของฟิชเชอร์

หมายเหตุ: หากคำถามนี้มีขนาดใหญ่เกินไปฉันจะลบหัวข้อนี้และเปิดคำถามใหม่ แต่จะสร้างในส่วนก่อนหน้า ขอโทษสำหรับกำแพงของข้อความโดยไม่คำนึงถึงฉันพยายามทำให้ดีที่สุดเพื่อจัดวางโครงสร้าง แต่ฉันแน่ใจว่าความสับสนของฉันเกี่ยวกับวิธีนี้ได้นำไปสู่การกระโดดของตรรกะที่ค่อนข้างแปลก

หนังสือ AMSA ยังอธิบายถึงวิธีการของชาวประมงเช่นกันสำหรับหลาย ๆ กลุ่ม อย่างไรก็ตาม ttnphns ได้ชี้ให้เห็นหลาย ครั้งว่า FDA เป็นเพียง LDA กับสองกลุ่ม องค์การอาหารและยาหลายชั้นนี้คืออะไร? บางทีองค์การอาหารและยาอาจมีความหมายหลายอย่าง?

AMSA อธิบายการแบ่งแยกของฟิชเชอร์ในฐานะ eigenvectors ของซึ่งเพิ่มอัตราส่วน{a}}} การรวมกันเชิงเส้นเป็นตัวอย่างจำแนก (ซึ่งมี ) สำหรับการจำแนกประเภทเราเลือกกลุ่ม k ที่มีค่าน้อยที่สุดสำหรับโดยที่ r คือจำนวนของ discriminants ที่เราต้องการใช้ ถ้าเราใช้ discriminants ทั้งหมดกฎนี้จะเทียบเท่ากับฟังก์ชัน discriminant เชิงเส้นW1Ba^TBa^a^TWa^e^ixmin(g1,p)j=1r[e^jT(xx¯k)]2

คำอธิบายมากมายเกี่ยวกับ LDA ดูเหมือนจะอธิบายวิธีการที่เรียกว่า FDA ในหนังสือ AMSA คือเริ่มจากด้านนี้ระหว่าง / ภายในแง่มุมที่เปลี่ยนแปลงได้ องค์การอาหารและยาหมายถึงอะไรถ้าไม่ใช่การสลายตัวของเมทริกซ์ BW?

นี่เป็นครั้งแรกที่หนังสือเรียนกล่าวถึงการลดขนาดของการวิเคราะห์จำแนกในขณะที่คำตอบหลาย คำในเว็บไซต์นี้เน้นถึงลักษณะสองขั้นตอนของเทคนิคนี้ แต่นี่ไม่ชัดเจนในการตั้งค่าสองกลุ่มเพราะมีเพียง 1 จำแนก ด้วยสูตรข้างต้นสำหรับ LDA แบบหลายคลาสและ QDA มันยังไม่ปรากฏชัดเจนสำหรับฉันเมื่อมีการเลือกปฏิบัติปรากฏขึ้น

ความคิดเห็นนี้ทำให้ฉันสับสนโดยเฉพาะอย่างยิ่งการสังเกตว่าการจำแนกประเภท Bayes สามารถทำได้กับตัวแปรดั้งเดิม แต่ถ้า FDA และ LDA มีความเท่าเทียมกันทางคณิตศาสตร์ตามที่ระบุไว้ในหนังสือและที่นี่การลดมิติข้อมูลไม่ควรอยู่ในฟังก์ชันหรือไม่ ฉันเชื่อว่านี่คือสิ่งที่ลิงก์สุดท้ายระบุไว้ แต่ฉันไม่แน่ใจทั้งหมดdi

บันทึกหลักสูตรของครูของฉันอธิบายต่อไปว่าองค์การอาหารและยาเป็นรูปแบบหนึ่งของการวิเคราะห์ความสัมพันธ์แบบบัญญัติ ฉันเพิ่งพบแหล่งข้อมูลอีก 1 แหล่งที่พูดถึงแง่มุมนี้ แต่ดูเหมือนว่ามันจะเชื่อมโยงอย่างใกล้ชิดกับแนวทางฟิชเชอร์ของการย่อยสลายระหว่างและภายในความแปรปรวนอีกครั้ง SAS นำเสนอผลลัพธ์ในขั้นตอน LDA / QDA (DISCRIM) ที่เห็นได้ชัดว่าเกี่ยวข้องกับวิธีการของฟิชเชอร์ ( https://stats.stackexchange.com/a/105116/62518 ) อย่างไรก็ตามตัวเลือก FDA 'SAS (CANDISC) ดำเนินการเกี่ยวกับความสัมพันธ์แบบบัญญัติโดยไม่แสดงค่าสัมประสิทธิ์การจัดหมวดหมู่ของฟิชเชอร์ มันแสดงค่าสัมประสิทธิ์แบบบัญญัติซึ่งฉันเชื่อว่าเทียบเท่ากับ eigenvectors W-1B ของ R ที่ได้จาก lda (MASS) (https://support.sas.com/documentation/cdl/th/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm ) ค่าสัมประสิทธิ์การจำแนกประเภทนั้นหาได้จากฟังก์ชันการจำแนกที่ฉันอธิบายไว้ในส่วน LDA และ QDA ของฉัน (เนื่องจากมี 1 ฟังก์ชันต่อประชากรและเราเลือกค่าที่ใหญ่ที่สุด)

ฉันขอขอบคุณสำหรับการชี้แจงหรือการอ้างอิงถึงแหล่งที่สามารถช่วยฉันดูป่าผ่านต้นไม้ สาเหตุหลักของความสับสนของฉันน่าจะเป็นที่ตำราวิธีการโทรที่แตกต่างกันโดยใช้ชื่อที่แตกต่างกันหรือนำเสนอรูปแบบที่แตกต่างกันเล็กน้อยของคณิตศาสตร์โดยไม่ยอมรับความเป็นไปได้อื่น ๆ แม้ว่าฉันคิดว่ามันไม่น่าแปลกใจเมื่อพิจารณาอายุของหนังสือ AMSA .


If we use all the discriminants this rule would be equivalent to the linear discriminant functionกำกวม "Discriminant" และ "discriminant function" เป็นคำพ้องความหมาย คุณอาจใช้ discriminants ทั้งหมดหรือเพียงไม่กี่คนที่แข็งแกร่งที่สุด / สำคัญของพวกเขา ฉันไม่ได้หันไปหาหนังสือ AMSA แต่ฉันสงสัยว่า FDA = LDA สำหรับผู้แต่ง จริงๆแล้วฉันคิดว่า "ฟิชเชอร์ LDA" จะเป็นคำที่เกินความจำเป็น
ttnphns

ใน "การเพิ่ม" ของคำตอบนี้เกี่ยวกับการจำแนก LDA ฉันสังเกตว่าการคำนวณ "ฟังก์ชันการจำแนกแบบฟิชเชอร์เชิงเส้น" โดยตรงจากตัวแปรนั้นเทียบเท่ากับExtract the discriminants -> classify by them all (using Bayes approach, as usual)เมื่อโดยปกติแล้วค่าเริ่มต้นจะรวมอยู่ในเมทริกซ์ความแปรปรวนร่วมคลาสของ discriminants
ttnphns

ที่จริงแล้ว "ฟังก์ชั่นการจัดหมวดหมู่เชิงเส้นของฟิชเชอร์" เป็นวิธีหนึ่งที่จะทำ LDA โดยไม่ต้องทำข้อเสนอแนะW^-1Bแล้วทำ "เบย์" มันเทียบเท่า แต่มีความยืดหยุ่นน้อยกว่า (คุณไม่สามารถเลือก discriminants เพียงไม่กี่ตัวเท่านั้นคุณไม่สามารถใช้แยกจากกันภายในเมทริกซ์ความแปรปรวนร่วมที่จัดประเภท ฯลฯ )
ttnphns

ฉันยังคงแยกย่อยคำตอบและลิงก์ของคุณ (ขอบคุณ) แต่: 1) นี่คือข้อความที่ตัดตอนมาจาก AMSA ที่ทำให้ชัดเจน "discriminants" และ "discriminant score" i.imgur.com/7W7vc8u.jpg?1ฉันใช้คำศัพท์เหล่านี้แล้ว "score" และ "function" สลับกันได้ 3) ในข้อความที่ตัดตอนมาแบบเดียวกันคุณจะเห็นว่าหนังสือ AMSA อ้างถึง eigendecomposition เป็นวิธีหนึ่งในการได้รับ discriminants ของฟิชเชอร์ วิธีที่นำเสนอที่นี่วิธีการของฟิชเชอร์ดูเหมือนยืดหยุ่นมากกว่าวิธีการเชิงเส้น / สมการกำลังสองซึ่งส่งผลให้เกิดการทำงานของคะแนน / การจำแนกที่ยากเพียงครั้งเดียว ..W1B
เซนิต

เซนิตสำหรับฉันคะแนนพินิจพิเคราะห์เป็นค่าของฟังก์ชันพินิจพิเคราะห์ (บัญญัติ) ฉันไม่สามารถไปให้ไกลที่สุดเท่าที่จะเปรียบเทียบสูตรที่คุณอ้างกับสิ่งที่ฉันรู้เกี่ยวกับวิธีการดิสคริมิแนนต์ที่ยอมรับจะคำนวณในโปรแกรม SPSS ฉันแนะนำให้คุณทำการคำนวณและเปรียบเทียบผลลัพธ์และออกข้อสรุปของคุณ นอกจากนี้ฉันสงสัยว่าข้อความที่แตกต่างอาจใช้ป้ายกำกับ "ฟิชเชอร์" ต่างกัน
ttnphns

คำตอบ:


8

ฉันตอบคำถามเพียงหนึ่งแง่มุมและทำโดยสัญชาตญาณโดยไม่ต้องใช้พีชคณิต

หากคลาสมีเมทริกซ์ความแปรปรวนร่วมและความแปรปรวนร่วมเท่ากันและแตกต่างกันเฉพาะการเปลี่ยนเซนทรอยด์ในพื้นที่ -dimensional แล้วพวกมันจะถูกแยกเชิงเส้นตรงใน "subspace" นี่คือสิ่งที่ LDA กำลังทำอยู่ ลองนึกภาพคุณมีสาม ellipsoids เหมือนกันในพื้นที่ของตัวแปรV_3 คุณต้องใช้ข้อมูลจากตัวแปรทั้งหมดเพื่อคาดการณ์ความเป็นสมาชิกคลาสโดยไม่มีข้อผิดพลาด แต่เนื่องจากความจริงที่ว่าเมฆเหล่านี้มีขนาดเท่ากันและเป็นเมฆที่มุ่งเน้นจึงเป็นไปได้ที่จะช่วยชีวิตพวกเขาโดยการเปลี่ยนรูปทั่วไปให้กลายเป็นลูกบอลของรัศมีหน่วย จากนั้นgpq=min(g1,p)V1,V2,V3q=g1=2มิติที่เป็นอิสระจะพอเพียงในการทำนายความเป็นสมาชิกของคลาสได้อย่างแม่นยำเหมือนก่อนหน้านี้ มิติเหล่านี้เรียกว่าฟังก์ชั่นการจำแนกD_2 มี 3 ลูกที่มีขนาดเท่ากันคุณต้องมีเพียง 2 เส้นแกนและเพื่อให้ทราบพิกัดของลูกกลมในการกำหนดทุกจุดอย่างถูกต้องD1,D2

ป้อนคำอธิบายรูปภาพที่นี่

Discriminants เป็นตัวแปรที่ไม่เกี่ยวข้องกับการฝึกอบรมความแปรปรวนร่วมในคลาสนั้นเป็นตัวตนที่ดีเลิศ (ลูกบอล) การแยกประเภทก่อให้เกิดพื้นที่ย่อยของพื้นที่ตัวแปรดั้งเดิมซึ่งเป็นการรวมกันเชิงเส้น แต่พวกเขาไม่ได้หมุนเหมือน (PCA เหมือน) แกน: เห็นในพื้นที่ตัวแปรเดิมดิสคริมิแนนต์เป็นแกนไม่ได้ฉากร่วมกัน

ดังนั้นภายใต้สมมติฐานของความเป็นเนื้อเดียวกันของ LDA ที่แปรปรวนร่วมกันภายในชั้นเรียนที่ใช้สำหรับการจำแนกประเภทdiscriminants ที่มีอยู่ทั้งหมดไม่เลวร้ายยิ่งไปกว่าการจำแนกทันทีโดยตัวแปรดั้งเดิม แต่คุณไม่จำเป็นต้องใช้ผู้เลือกปฏิบัติทั้งหมด คุณอาจใช้เฉพาะอันดับแรกที่แข็งแกร่งที่สุด / นัยสำคัญทางสถิติของพวกเขา วิธีนี้คุณจะสูญเสียข้อมูลขั้นต่ำสำหรับการจัดประเภทและการจัดประเภทผิดพลาดจะน้อยที่สุด มองเห็นได้จากมุมมองนี้ LDA คือการลดข้อมูลที่คล้ายกับ PCA เพียงดูแลm<q

โปรดทราบว่าสมมติว่ามีความสม่ำเสมอ (+ multivariate normality) และหากคุณวางแผนที่จะใช้ แต่ discriminants ในการจัดหมวดหมู่มันเป็นไปได้ที่จะหลีกเลี่ยงการแยก discriminants - ซึ่งเกี่ยวข้องกับการจำแนกฟังก์ชัน eigenproblem - ทั่วไปและคำนวณที่เรียกว่า จากตัวแปรโดยตรงเพื่อจัดประเภทกับพวกเขาด้วยผลลัพธ์ที่เทียบเท่า ดังนั้นเมื่อคลาสมีรูปร่างเหมือนกันเราสามารถพิจารณาตัวแปรอินพุตหรือฟังก์ชั่นของ Fisher หรือดิสทริเป็นชุด "ลักษณนาม" ที่เทียบเท่ากันทั้งหมด แต่การเลือกปฏิบัตินั้นสะดวกกว่าหลายประการ gpgq1

เนื่องจากมักจะเรียนไม่ได้ "วงรีเหมือนกัน" ในความเป็นจริงการจัดหมวดหมู่โดยที่ดิสคริมิแนนต์ค่อนข้างด้อยกว่าถ้าคุณทำเบส์จัดหมวดหมู่โดยทุกตัวแปรเดิม ตัวอย่างเช่นในพล็อตนี้รูปวงรีทั้งสองนั้นไม่ขนานกัน และใคร ๆ ก็สามารถเข้าใจได้ว่าการจำแนกที่มีอยู่เพียงอย่างเดียวนั้นไม่เพียงพอที่จะจำแนกคะแนนได้อย่างแม่นยำตามที่ตัวแปรทั้งสองอนุญาต QDA (การวิเคราะห์จำแนกแบบสองชั้น) จะเป็นขั้นตอนที่ดีกว่าการประมาณ LDA วิธีการปฏิบัติครึ่งทางระหว่าง LDA และ QDA คือการใช้ LDA-ดิสคริมิแนนต์ แต่ใช้การสังเกตการฝึกอบรมแยกต่างหากระดับความแปรปรวนของพวกเขาในการจัดหมวดหมู่ ( ดู , ดูqp) แทนที่จะเป็นเมทริกซ์พู (ซึ่งเป็นตัวตน)

(และใช่ LDA สามารถมองเห็นเป็นที่เกี่ยวข้องอย่างใกล้ชิดกับแม้กรณีเฉพาะของ MANOVA และยอมรับการวิเคราะห์ความสัมพันธ์หรือตำแหน่งที่ลดลงถดถอยหลายตัวแปร - ดู , ดู , ดู .)


1บันทึกศัพท์ที่สำคัญ ในตำราบางฟิชเชอร์ฟังก์ชั่นการจำแนกประเภทอาจจะเรียกว่า "ฟิชเชอร์ฟังก์ชั่นแนน" ซึ่งอาจสร้างความสับสนให้กับ discriminats ซึ่งเป็นที่ยอมรับฟังก์ชั่นแนน (เช่นได้รับใน eigendecomposition ของgqW1B) เพื่อความชัดเจนฉันขอแนะนำให้พูดว่า "ฟังก์ชั่นการจำแนกประเภทของฟิชเชอร์" vs "ฟังก์ชั่นจำแนก discriminant" (= discriminants สั้น) ในความเข้าใจสมัยใหม่ LDA เป็นการวิเคราะห์จำแนกเชิงเส้นตามบัญญัติของบัญญัติ "การวิเคราะห์จำแนกของฟิชเชอร์" อย่างน้อยก็เพื่อการรับรู้ของฉันทั้ง LDA ที่มี 2 คลาส (ซึ่ง discriminant ที่เป็นที่ยอมรับเดียวนั้นย่อมเป็นสิ่งเดียวกับฟังก์ชันการจำแนกประเภทของฟิชเชอร์) หรือในวงกว้างการคำนวณการจำแนกประเภทของฟิชเชอร์


คำศัพท์ใหม่: บทความ Wikipedia บน LDA ( en.wikipedia.org/wiki/Linear_discriminant_analysis ) ระบุว่า "เงื่อนไข discriminant เชิงเส้นเชิงเส้นของฟิชเชอร์และ LDA มักจะใช้แทนกันได้แม้ว่าบทความดั้งเดิมของฟิชเชอร์จะอธิบายความแตกต่างเล็กน้อย อย่าทำให้สมมติฐานบางอย่างของ LDA เช่นคลาสกระจายทั่วไปหรือคลาส covariances ที่เท่าเทียมกัน " จากสิ่งนี้ LDA ใน 2 คลาสดูเหมือนจะเป็นกรณีพิเศษของ "FDA" ถ้ากลุ่มความแปรปรวนร่วมเป็น "เดียวกัน" @ttnphns: ถูกต้องหรือไม่
Laryx Decidua

@ LaryxDecidua ฉันไม่แน่ใจ 100% เกี่ยวกับคำศัพท์ในกรณีนี้และฉันได้เห็นความคิดเห็นที่แตกต่างกัน ฉันไม่ใช้คำว่า "Fisher's DA" เลย แต่เมื่อมีคนถามฉันตอบกลับมาในใจว่า "FDA คือ LDA ที่มี 2 คลาส"
ttnphns

ขอบคุณสำหรับฉันสิ่งที่น่าสนใจที่สุดคือ "FDA" ตาม Wikipedia ไม่ถือว่าเป็นเรื่องปกติในขณะที่ "LDA" (และ QDA) ทำ บางที "FDA คือ LDA ที่มี 2 คลาสซึ่งไม่ถือว่าปกติหรือเป็นเนื้อเดียวกัน"
กล่องเสียง Decidua
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.