ต้นไม้การตัดสินใจกับ KNN


15

ในกรณีใดดีกว่าที่จะใช้แผนผังการตัดสินใจและกรณีอื่นเป็น KNN

เหตุใดจึงต้องใช้หนึ่งในนั้นในบางกรณี และอื่น ๆ ในกรณีที่แตกต่างกันอย่างไร (โดยดูที่ฟังก์ชันการทำงานไม่ใช่ที่อัลกอริทึม)

ใครมีคำอธิบายหรือการอ้างอิงเกี่ยวกับเรื่องนี้บ้าง?


2
KNN ไม่ได้รับการดูแล บางทีคำตอบคือคิดเกี่ยวกับ k-mean?

2
การเรียนรู้ต้นไม้ในการตัดสินใจยังไม่ได้รับการดูแล en.wikipedia.org/wiki/Supervised_learning
Valentas

คำตอบ:


9

พวกเขาตอบสนองวัตถุประสงค์ที่แตกต่าง

KNN ไม่ได้รับการดูแล Decision Tree (DT) ได้รับการดูแล ( KNN ได้รับการดูแลการเรียนรู้ในขณะที่ K-mean ไม่ได้รับการดูแลฉันคิดว่าคำตอบนี้ทำให้เกิดความสับสน ) KNN ใช้สำหรับการรวมกลุ่ม, DT เพื่อการจัดหมวดหมู่ ( ทั้งคู่ใช้สำหรับการจัดหมวดหมู่ )

KNN กำหนดย่านที่คุ้นเคยดังนั้นจะต้องมีการวัดระยะทาง หมายความว่าฟีเจอร์ทั้งหมดจะต้องเป็นตัวเลข การวัดระยะทางอาจได้รับผลกระทบจากสเกลที่แตกต่างกันระหว่างคุณลักษณะและพื้นที่มิติสูง

ในทางกลับกัน DT ทำนายคลาสสำหรับอินพุตเวกเตอร์ที่กำหนด คุณลักษณะอาจเป็นตัวเลขหรือระบุ

ดังนั้นหากคุณต้องการค้นหาตัวอย่างที่คล้ายกันคุณสามารถใช้ KNN หากคุณต้องการจำแนกตัวอย่างคุณสามารถใช้ DT


Clarification: การทำคลัสเตอร์ แต่เป็นคลัสเตอร์ขนาด k เดียวรอบเวกเตอร์อินพุตที่กำหนด ไม่เป็นความจริงเลยว่าคุณลักษณะทั้งหมดต้องเป็นตัวเลข ตัวอย่างเช่นคุณสามารถใช้ความคล้ายคลึงกันของ Jaccard เพื่อกำหนดระยะทางที่คุณสมบัตินั้นระบุได้

10
ที่จริงแล้วพวกเขาทั้งสองอยู่ภายใต้การดูแล ภายใต้การดูแลหมายถึงผู้เรียนสามารถเข้าถึงชุดฝึกอบรมที่มีข้อความกำกับ อัลกอริทึมที่ไม่ได้รับการสนับสนุนทำสิ่งต่าง ๆ เช่นการจัดกลุ่มไม่ใช่การทำนายเลเบล
จอร์แดน

1
คุณสามารถจำแนกประเภทด้วย KNN ตามเพื่อนบ้าน K ส่วนใหญ่ของคุณ
Jekaterina Kokatjuhha

3
-1 knnและk-meansเป็นอัลกอริธึมที่แตกต่างกันและคำตอบนี้โชคไม่ดี (และผิดพลาด) พลาดทั้งสองขั้นตอนขึ้นไป knnไม่มีการสำรองหรือใช้สำหรับการรวมกลุ่ม! ดูQ: Diff kNN และ kMean
SebNag

@SebNag เป็นธรรมหรือไม่ที่จะบอกว่าหมวด "เพื่อนบ้านที่ใกล้ที่สุด" ของ sci kit Learn เป็นเพียงการพูดคุยเกี่ยวกับ k-mean ในการปลอมตัว? scikit-learn.org/stable/modules/neighbor.htmlดูเหมือนว่าส่วนนั้นจะใช้ knn แต่มีการวัดระยะทางของการเรียงลำดับบางอย่างแทนเพื่อกำหนดกลุ่มที่ไม่มีความรู้ฉลาก .. เช่นนี้ดูเหมือน k-mean
Frikster

8

ตัวแยกประเภทเช่นDecision Tree, Bayesian, Back-propagation, Support Vector Machineมาอยู่ในหมวดหมู่ของ"Eager Learners"เพราะพวกเขาสร้างแบบจำลองการจำแนกในชุดข้อมูลการฝึกอบรมก่อนที่จะสามารถจำแนกการสังเกต [unseen] จากชุดข้อมูลทดสอบได้ รูปแบบการเรียนรู้ในขณะนี้คือ "กระตือรือร้น" (อ่านหิว) เพื่อจำแนกการสังเกตที่มองไม่เห็นก่อนหน้านี้จึงชื่อ


อย่างไรก็ตามตัวจําแนกที่ใช้ KNN ไม่ได้สร้างรูปแบบการจัดประเภทใด ๆ มันเรียนรู้โดยตรงจากอินสแตนซ์การฝึกอบรม (การสังเกต) มันเริ่มต้นประมวลผลข้อมูลหลังจากได้รับการสังเกตการทดสอบเพื่อจัดประเภทแล้ว ดังนั้น KNN มาภายใต้หมวดหมู่ของ"ขี้เกียจเรียน"วิธีการ

จากความแตกต่างพื้นฐานด้านบนเราสามารถสรุปได้ดังนี้: -

  1. เนื่องจาก KNN ทำการเรียนรู้ ณ จุดนั้นจึงต้องใช้การค้นหาฐานข้อมูลบ่อยครั้งดังนั้นอาจมีค่าใช้จ่ายในการคำนวณ ตัวตัดสินใจลักษณนามของต้นไม้ไม่ต้องการการค้นหาดังกล่าวเนื่องจากมีรูปแบบการจัดหมวดหมู่ในหน่วยความจำพร้อม

  2. เนื่องจาก KNN ทำการเรียนรู้ตามอินสแตนซ์ K ที่ได้รับการปรับแต่งอย่างดีสามารถจำลองพื้นที่การตัดสินใจที่ซับซ้อนซึ่งมีขอบเขตการตัดสินใจที่ซับซ้อนโดยพลการซึ่งไม่ได้เป็นแบบอย่างโดยผู้เรียน "กระตือรือร้น" คนอื่น ๆ เช่น Decision Trees

  3. ผู้เรียน "กระตือรือร้น" ทำงานเป็นกลุ่มโดยการสร้างแบบจำลองกลุ่มการสังเกตการฝึกอบรมครั้งละกลุ่ม ดังนั้นพวกเขาจึงไม่เหมาะสำหรับการเรียนรู้ที่เพิ่มขึ้น แต่ KNN สนับสนุนการเรียนรู้แบบเพิ่มหน่วย (สตรีมข้อมูล) ตามธรรมชาติเนื่องจากเป็นผู้เรียนแบบใช้อินสแตนซ์

  4. นอกจากนี้ตัวจําแนก KNN ยังให้อัตราความผิดพลาดในการทดสอบใกล้เคียงกับตัวจําแนกเบส์ (มาตรฐานทองคำ) ตามที่ยกมาในISLR :

อัตราความผิดพลาดของ Bayes นั้นคล้ายคลึงกับข้อผิดพลาดที่ลดลงไม่ได้


4

จากการเรียนรู้ของเครื่อง Pythonของ Sebastian Raschka :

ข้อได้เปรียบหลักของวิธีการใช้หน่วยความจำ [KNN] คือตัวจําแนกจะปรับทันทีเมื่อเรารวบรวมข้อมูลการฝึกอบรมใหม่ อย่างไรก็ตามข้อเสียคือความซับซ้อนในการคำนวณสำหรับการจัดกลุ่มตัวอย่างใหม่เพิ่มขึ้นเป็นเส้นตรงกับจำนวนตัวอย่างในชุดข้อมูลการฝึกอบรมในสถานการณ์ที่เลวร้ายที่สุดกรณีที่ชุดข้อมูลมีมิติน้อยมาก (คุณสมบัติ) และอัลกอริทึมถูกนำมาใช้ โครงสร้างเช่นต้นไม้ KD JH Friedman, JL Bentley และ RA Finkel อัลกอริทึมสำหรับการค้นหาคู่ที่ดีที่สุดในเวลาที่คาดการณ์ลอการิทึม ธุรกรรม ACM เกี่ยวกับซอฟต์แวร์ทางคณิตศาสตร์ (TOMS), 3 (3): 209–226, 1977 นอกจากนี้เราไม่สามารถละทิ้งตัวอย่างการฝึกอบรมได้เนื่องจากไม่มีขั้นตอนการฝึกอบรมที่เกี่ยวข้อง ดังนั้นพื้นที่เก็บข้อมูลอาจกลายเป็นเรื่องท้าทายหากเราทำงานกับชุดข้อมูลขนาดใหญ่

ต้นไม้การตัดสินใจสามารถจำแนกตัวอย่างใหม่ได้อย่างรวดเร็ว คุณแค่ใช้ชุดการเปรียบเทียบบูลีน


2

ฉันจะเพิ่มต้นไม้การตัดสินใจที่สามารถใช้สำหรับงานการจำแนกและการถดถอย ในอีกทางหนึ่ง DT คาดการณ์คลาสในคำตอบที่ยอมรับจะมีความเฉพาะเจาะจงมากขึ้นโดยการอธิบายต้นไม้ประเภทซึ่งเป็นเทคนิคย่อยของแนวคิด DT ทั่วไป การอ้างอิงหนึ่งรายการ (ละเว้นเลเยอร์ด้านล่างที่กล่าวถึงการใช้งานเฉพาะ):
ประเภทของต้นไม้ตัดสินใจ จากที่นี่: http://www.simafore.com/blog/bid/62482/2-main-differences-between-classification-and-regression-trees

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.