LDA เทียบกับ perceptron


9

ฉันพยายามเข้าใจว่า LDA เหมาะสมกับเทคนิคการเรียนรู้แบบมีผู้สอนอื่น ๆ อย่างไร ฉันได้อ่านโพสต์ LDA-esque บางส่วนเกี่ยวกับ LDA ที่นี่แล้ว ฉันคุ้นเคยกับ perceptron แล้ว แต่เพิ่งเรียนรู้ LDA ในตอนนี้

LDA 'เหมาะสม' ในครอบครัวของอัลกอริทึมการเรียนรู้ภายใต้การดูแลอย่างไร สิ่งที่อาจเป็นข้อเสียของมันเทียบกับวิธีการอื่น ๆ เหล่านั้นและสิ่งที่มันอาจจะใช้ที่ดีกว่าสำหรับ? ทำไมต้องใช้ LDA เมื่อมีใครสามารถใช้พูด perceptron เป็นต้น


1
ฉันคิดว่าคุณอาจสับสนเกี่ยวกับการเรียนรู้แบบมีผู้สอน K-mean เป็นอัลกอริธึมการจัดกลุ่มการเรียนรู้แบบไม่มีผู้ดูแล Perceptron เป็นอัลกอริทึมการจำแนกประเภทการเรียนรู้แบบมีผู้สอนที่พยายามค้นหาไฮเปอร์เพลนที่แยกเชิงลบออกจากการสังเกตเชิงบวก LDA เป็นวิธีการที่สามารถใช้สำหรับการจัดหมวดหมู่ภายใต้การดูแล แต่มักใช้สำหรับการเลือกคุณลักษณะที่อยู่ภายใต้การดูแล ดูคำตอบของ @ AdamO สำหรับข้อสันนิษฐานของตัวจําแนก LDA
Bitwise

@Bitwise อ๊ะ! ฉันไม่รู้ว่าทำไมฉันถึงใส่ K-Mean ใช่มันเป็นอัลกอริทึมที่ไม่มีผู้ดูแล ฉันจะลบออกในการแก้ไข
Creatron

@ Bitwise เกี่ยวกับสิ่งที่คุณพูดเกี่ยวกับ LDA และ Perceptron ใช่นั่นคือสิ่งที่ทำให้ฉันสับสน LDA พยายามหาไฮเปอร์เพลนที่จะฉายข้อมูลของคุณซึ่งจะช่วยเพิ่มความแปรปรวนของ intercluster ให้ได้มากที่สุดในขณะที่ลดความแปรปรวนของอินทรา - คลัสเตอร์ให้น้อยที่สุด จากนั้นบนเส้นขอบคุณมีลักษณนาม Perceptron ทำสิ่งที่คล้ายกันโดยพยายามหาไฮเปอร์เพลนที่เหมาะสมที่สุดเพื่อแยกข้อมูลที่มีป้ายกำกับ เหตุใดจึงต้องใช้อีกอันหนึ่ง
Creatron

คำตอบ:


15

ในขณะที่ AdamO แนะนำในความคิดเห็นข้างต้นคุณไม่สามารถทำได้ดีกว่าอ่านบทที่ 4 ขององค์ประกอบของการเรียนรู้เชิงสถิติ (ซึ่งฉันจะเรียก HTF) ซึ่งเปรียบเทียบ LDA กับวิธีการจัดหมวดหมู่เชิงเส้นอื่น ๆ ให้ตัวอย่างมากมายและยังกล่าวถึงการใช้งาน ของ LDA เป็นเทคนิคการลดขนาดในหลอดเลือดดำของ PCA ซึ่งเมื่อ ttnphns ชี้ให้เห็นค่อนข้างเป็นที่นิยม

จากมุมมองของการจำแนกผมคิดว่าความแตกต่างที่สำคัญคือ ลองนึกภาพว่าคุณมีสองชั้นและคุณต้องการแยกพวกเขา แต่ละคลาสมีฟังก์ชันความหนาแน่นของความน่าจะเป็น สถานการณ์ที่ดีที่สุดที่เป็นไปได้คือถ้าคุณรู้ว่าฟังก์ชันความหนาแน่นเหล่านี้เพราะคุณสามารถทำนายได้ว่าจุดไหนที่เป็นของชั้นเรียนโดยการประเมินความหนาแน่นเฉพาะชั้นที่จุดนั้น

ลักษณนามบางประเภททำงานโดยการหาค่าประมาณของฟังก์ชันความหนาแน่นของคลาส LDA เป็นหนึ่งในสิ่งเหล่านี้ มันทำให้สมมติฐานที่ว่าความหนาแน่นเป็นตัวแปรหลายตัวที่มีเมทริกซ์ความแปรปรวนร่วมเดียวกัน นี่คือสมมติฐานที่คาดเดายาก แต่ถ้ามันถูกต้องโดยประมาณคุณจะได้ตัวแยกประเภทที่ดี ตัวแยกประเภทอื่น ๆ อีกมากมายใช้วิธีการแบบนี้เช่นกัน แต่พยายามยืดหยุ่นมากกว่าสมมติว่าปกติ ตัวอย่างเช่นดูหน้า 108 ของ HTF

ในทางกลับกันในหน้า 210 HTF เตือน:

หากการจำแนกประเภทเป็นเป้าหมายสูงสุดการเรียนรู้ความหนาแน่นของชั้นเรียนที่แยกจากกันอาจไม่จำเป็นและในความเป็นจริงอาจทำให้เข้าใจผิด

อีกวิธีคือการมองหาขอบเขตระหว่างสองคลาสซึ่งเป็นสิ่งที่ perceptron ทำ รุ่นที่ซับซ้อนกว่านี้คือเครื่องสนับสนุนเวกเตอร์ วิธีการเหล่านี้สามารถใช้ร่วมกับการเพิ่มคุณสมบัติให้กับข้อมูลโดยใช้เทคนิคที่เรียกว่าการสร้างเคอร์เนล สิ่งนี้ไม่ทำงานกับ LDA เพราะมันไม่ได้รักษาบรรทัดฐาน แต่ก็ไม่มีปัญหาสำหรับตัวจําแนกซึ่งเพียงแค่มองหาไฮเปอร์เพลนแบบแยก

ความแตกต่างระหว่าง LDA และตัวจําแนกซึ่งมองหาไฮเพอร์เพลตแบบแยกเป็นเหมือนความแตกต่างระหว่าง t-test และทางเลือกอื่นที่ไม่ใช่พารามิเตอร์ในสถิติทั่วไป หลังมีความแข็งแกร่งมากขึ้น (ตัวอย่างเช่นค่าผิดปกติ) แต่ตัวอย่างหลังนั้นเหมาะสมที่สุดหากสมมติฐานของมันพอใจ

อีกหนึ่งข้อสังเกต: มันอาจคุ้มค่าที่จะกล่าวถึงว่าบางคนอาจมีเหตุผลทางวัฒนธรรมสำหรับการใช้วิธีการเช่น LDA หรือการถดถอยโลจิสติกซึ่งอาจพ่นตาราง ANOVA ออกไปทดสอบการทดสอบสมมติฐานและรับรองสิ่งต่าง ๆ เช่นนั้น LDA ถูกคิดค้นโดย Fisher; perceptron เดิมเป็นแบบจำลองสำหรับเซลล์ประสาทของมนุษย์หรือสัตว์และไม่มีการเชื่อมต่อกับสถิติ มันยังทำงานในทางอื่น; บางคนอาจชอบวิธีการเช่นการสนับสนุนเครื่องเวคเตอร์เพราะพวกเขามีรูปแบบทันสมัยทันสมัยซึ่งวิธีการในศตวรรษที่ยี่สิบก็ไม่ตรงกัน ไม่ได้หมายความว่ามันดีกว่า (ตัวอย่างที่ดีของเรื่องนี้ถูกกล่าวถึงในการเรียนรู้ของเครื่องสำหรับแฮ็กเกอร์หากฉันจำได้ถูกต้อง)


"บางคนอาจชอบวิธีการเช่นสนับสนุนเครื่องเวกเตอร์เพราะพวกเขามีรูปแบบทันสมัยทันสมัยซึ่งวิธีการศตวรรษที่ยี่สิบก็ไม่ตรงกัน" ฮ่า ๆ! จริงอยู่ Btw คุณมีความสามารถพิเศษในการอธิบายสิ่งต่าง ๆ อย่างชัดเจนและแม่นยำ ขอบคุณ! ฉันต้องการ 'แผนที่' ในสิ่งที่ลงตัวและคุณจัดเตรียมไว้ให้
Creatron

2

สำหรับสัญชาตญาณพิจารณากรณีนี้:

ป้อนคำอธิบายรูปภาพที่นี่

บรรทัดแสดงถึง "ขอบเขตที่เหมาะสม" ระหว่างสองคลาส o และ x

LDA พยายามค้นหาไฮเปอร์เพลนที่ช่วยลดความแปรปรวนของ intercluster ให้น้อยที่สุดและเพิ่มความแปรปรวนของ intracluster ให้สูงสุดและจากนั้นจะนำขอบเขตไปเป็นมุมฉากกับไฮเปอร์เพลนนั้น ที่นี่สิ่งนี้อาจไม่ทำงานเนื่องจากกลุ่มมีความแปรปรวนขนาดใหญ่ในทิศทางเดียวกัน

ในทางกลับกัน perceptron อาจมีโอกาสที่ดีกว่าในการหาไฮเปอร์เพลนแบบแยกได้

ในกรณีของคลาสที่มีการแจกแจงแบบเกาส์แม้ว่า LDA น่าจะทำได้ดีกว่าเนื่องจาก perceptron จะหาไฮเพอร์เพลตแบบแยกที่สอดคล้องกับข้อมูลเท่านั้นโดยไม่รับประกันว่าไฮเปอร์เพลนใดที่เลือก (อาจมีจำนวนอนันต์ ไฮเปอร์เพลนที่สอดคล้องกัน) อย่างไรก็ตามรุ่นที่ซับซ้อนมากขึ้นของ perceptron สามารถเลือกไฮเปอร์เพลนที่มีคุณสมบัติที่เหมาะสมเช่นการเพิ่มระยะห่างระหว่างคลาสให้มากที่สุด (นี่คือสิ่งที่ Support Vector Machines ทำ)

นอกจากนี้ยังทราบว่าทั้งสอง LDA และตรอนสามารถขยายขอบเขตการตัดสินใจที่ไม่ใช่เชิงเส้นผ่านเคล็ดลับเคอร์เนล


1

หนึ่งในความแตกต่างที่ใหญ่ที่สุดระหว่าง LDA และวิธีอื่น ๆ คือมันเป็นเพียงเทคนิคการเรียนรู้ของเครื่องสำหรับข้อมูลซึ่งสันนิษฐานว่าจะกระจายตามปกติ ซึ่งสามารถทำได้อย่างยอดเยี่ยมในกรณีที่ข้อมูลสูญหายหรือถูกตัดทอนซึ่งคุณสามารถใช้อัลกอริทึม EM เพื่อเพิ่มโอกาสในการเพิ่มความน่าสนใจภายใต้สถานการณ์ที่แปลกและ / หรือน่าสนใจ Caveat emptorเนื่องจากการสะกดผิดแบบจำลองเช่นข้อมูลต่อเนื่องหลายตัวสามารถนำไปสู่การคาดการณ์ที่มีประสิทธิภาพต่ำซึ่งการจัดกลุ่ม K-mean จะทำได้ดีกว่า ข้อมูลหลายรูปแบบสามารถถูกนำมาใช้กับ EM เพื่อตรวจสอบตัวแปรแฝงหรือการจัดกลุ่มใน LDA

ตัวอย่างเช่นสมมติว่าคุณกำลังมองหาการวัดความน่าจะเป็นในการพัฒนาการวินิจฉัยโรคเอดส์ในเชิงบวกใน 5 ปีตามจำนวน CD4 สมมติว่าคุณไม่รู้ค่าของ biomarker เฉพาะที่มีผลต่อ CD4 อย่างมากและเกี่ยวข้องกับการกระตุ้นภูมิคุ้มกันเพิ่มเติม จำนวน CD4 ต่ำกว่า 400 ต่ำกว่าขีด จำกัด การตรวจจับที่ต่ำที่สุด อัลกอริทึม EM ช่วยให้เราสามารถคำนวณการมอบหมาย LDA และไบโอมาร์คเกอร์อย่างซ้ำ ๆ และวิธีการและความแปรปรวนร่วมสำหรับ CD4 สำหรับ DF ที่ไม่ถูกเพิกถอน


ขอบคุณอดัมแม้ว่าฉันจะรู้สึกสับสนมากขึ้นแล้ว :-) LDA นั้นดีกว่าหรือแย่กว่านั้นคือ Perceptron หรือเทคนิคการเรียนรู้แบบมีผู้สอนอื่น ๆ อย่างไร เกี่ยวกับ EM algo คุณใช้มันในขอบเขตของการบอกว่าคุณสามารถแก้ปัญหาสำหรับ LDA โดยใช้ EM algo ได้ถูกต้องหรือไม่
Creatron

1
@AdamO ฉันต้องการเพิ่มความชัดเจนว่า LDA เนื่องจากเทคนิคการลดข้อมูลไม่ได้ขึ้นอยู่กับความปกติเช่นเดียวกับ PCA ความสามัญใน LDA เป็นข้อสมมติฐานสำหรับ 1) การทดสอบทางสถิติ (การทดสอบ M ของกล่องเป็นต้น), 2) การจำแนกประเภท
ttnphns

@ttnphns สมมติว่าภาวะปกติหมายถึง LDA เป็นเทคนิค ML ML เป็นสิ่งที่ดี คำเตือนเฉพาะในตัวอย่างที่ฉันกล่าวถึงใช้ ML เพื่อแก้ปัญหาที่ยาก การแก้ปัญหาเหล่านั้นจะเกิดขึ้นได้ด้วยการจำลองและ / หรือ BUGS ที่ซับซ้อนเท่านั้น
AdamO

@TheGrapeBeyond LDA เพิ่มระยะทาง Mahal ให้มากที่สุดสองกลุ่ม SLP (single layer perceptron หรือ nnet) ดึงไฮเปอร์เพลนในพื้นที่คุณลักษณะที่สร้างความแม่นยำในการจำแนกประเภทสูงสุด ... ฉันคิดว่า จุดเริ่มต้นที่ดีคือการอ่านหนังสือ Tibs / Hastie ฉันอาจจำเป็นต้องแปรงฟันด้วยตัวเอง
AdamO
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.