บางคนสามารถอธิบายความแตกต่างระหว่างการจำแนกและการทำคลัสเตอร์ในการขุดข้อมูลได้อย่างไร
หากเป็นไปได้โปรดยกตัวอย่างทั้งคู่เพื่อทำความเข้าใจแนวคิดหลัก
บางคนสามารถอธิบายความแตกต่างระหว่างการจำแนกและการทำคลัสเตอร์ในการขุดข้อมูลได้อย่างไร
หากเป็นไปได้โปรดยกตัวอย่างทั้งคู่เพื่อทำความเข้าใจแนวคิดหลัก
คำตอบ:
โดยทั่วไปในการจำแนกประเภทคุณมีชุดของคลาสที่กำหนดไว้ล่วงหน้าและต้องการทราบว่าเป็นวัตถุใหม่ของคลาสใด
การทำคลัสเตอร์พยายามจัดกลุ่มชุดของวัตถุและค้นหาว่ามีความสัมพันธ์บางอย่างระหว่างวัตถุหรือไม่
ในบริบทของการเรียนรู้เครื่องจำแนกเป็นการเรียนรู้ภายใต้การดูแลและการจัดกลุ่มคือการเรียนรู้ใกล้ชิด
หากคุณถามคำถามนี้กับการขุดข้อมูลหรือบุคคลที่เรียนรู้ด้วยเครื่องพวกเขาจะใช้คำว่าการเรียนรู้แบบมีผู้สอนและการเรียนรู้แบบไม่มีผู้ดูแลเพื่ออธิบายความแตกต่างระหว่างการทำคลัสเตอร์และการจำแนกประเภท ดังนั้นก่อนอื่นให้ฉันอธิบายคุณเกี่ยวกับคำสำคัญที่อยู่ภายใต้การดูแลและไม่ได้รับการดูแล
การเรียนรู้ภายใต้การดูแล: สมมติว่าคุณมีตะกร้าและเต็มไปด้วยผลไม้สดและงานของคุณคือจัดเรียงผลไม้ชนิดเดียวกันในที่เดียว สมมติว่าผลไม้คือแอปเปิ้ล, กล้วย, เชอร์รี่และองุ่น เพื่อให้คุณทราบจากการทำงานก่อนหน้าของคุณว่ารูปร่างของผลไม้แต่ละชนิดและดังนั้นจึงเป็นเรื่องง่ายที่จะจัดเรียงผลไม้ชนิดเดียวกันในที่เดียว ที่นี่งานก่อนหน้าของคุณถูกเรียกว่าเป็นข้อมูลที่ผ่านการฝึกอบรมในการขุดข้อมูล ดังนั้นคุณจึงได้เรียนรู้สิ่งต่าง ๆ จากข้อมูลที่ได้รับการฝึกฝนของคุณนี่เป็นเพราะคุณมีตัวแปรตอบกลับซึ่งบอกว่าถ้าผลไม้บางชนิดมีคุณสมบัติเช่นนั้นมันเป็นองุ่นเช่นเดียวกับผลไม้แต่ละชนิด
ข้อมูลประเภทนี้คุณจะได้รับจากข้อมูลที่ผ่านการฝึกอบรม การเรียนรู้ประเภทนี้เรียกว่าการเรียนรู้แบบมีผู้สอน ปัญหาการแก้ปัญหาประเภทนี้อยู่ภายใต้การจำแนกประเภท ดังนั้นคุณได้เรียนรู้สิ่งต่าง ๆ เพื่อให้คุณสามารถทำงานได้อย่างมั่นใจ
unsupervised: สมมติว่าคุณมีตะกร้าและเต็มไปด้วยผลไม้สดและงานของคุณคือจัดเรียงผลไม้ชนิดเดียวกันในที่เดียว
ครั้งนี้คุณไม่รู้อะไรเลยเกี่ยวกับผลไม้นั้นคุณเป็นครั้งแรกที่เห็นผลไม้เหล่านี้ดังนั้นคุณจะจัดเรียงผลไม้ชนิดเดียวกันได้อย่างไร
สิ่งที่คุณต้องทำอันดับแรกคือคุณรับผลไม้และคุณจะเลือกลักษณะทางกายภาพของผลไม้นั้น สมมติว่าคุณใช้สี
จากนั้นคุณจะจัดเรียงตามสีจากนั้นกลุ่มจะเป็นอย่างนี้ กลุ่มสีแดง:แอปเปิ้ล & ผลไม้เชอร์รี่ กลุ่มสีเขียว:กล้วยและองุ่น ดังนั้นตอนนี้คุณจะใช้ตัวละครอีกตัวเป็นขนาดดังนั้นตอนนี้กลุ่มจะเป็นอย่างนี้ สีแดงและขนาดใหญ่:แอปเปิ้ล สีแดงและขนาดเล็ก:ผลไม้เชอร์รี่ สีเขียวและขนาดใหญ่:กล้วย สีเขียวและขนาดเล็ก : องุ่น งานจบอย่างมีความสุข
ที่นี่คุณไม่ได้เรียนรู้สิ่งใดมาก่อนหมายความว่าไม่มีข้อมูลรถไฟและไม่มีตัวแปรตอบกลับ การเรียนรู้ประเภทนี้เรียกว่าการเรียนรู้แบบไม่มีผู้ดูแล การรวมกลุ่มเกิดขึ้นภายใต้การเรียนรู้ที่ไม่มีผู้ดูแล
การจัดหมวดหมู่ +: คุณจะได้รับข้อมูลใหม่คุณจะต้องตั้งค่าป้ายกำกับใหม่สำหรับพวกเขา
ตัวอย่างเช่น บริษัท ต้องการจำแนกลูกค้ากลุ่มเป้าหมายของพวกเขา เมื่อลูกค้าใหม่มาถึงพวกเขาจะต้องตรวจสอบว่าเป็นลูกค้าที่จะซื้อผลิตภัณฑ์ของพวกเขาหรือไม่
+ การจัดกลุ่ม: คุณได้รับชุดประวัติการทำธุรกรรมซึ่งบันทึกว่าใครซื้ออะไร
โดยใช้เทคนิคการจัดกลุ่มคุณสามารถบอกการแบ่งส่วนของลูกค้าของคุณ
ฉันแน่ใจว่าคุณหลายคนเคยได้ยินเกี่ยวกับการเรียนรู้ของเครื่อง โหลของคุณอาจรู้ว่ามันคืออะไร และคุณสองคนอาจทำงานร่วมกับอัลกอริทึมการเรียนรู้ของเครื่องด้วย คุณจะเห็นว่าสิ่งนี้เกิดขึ้น? มีคนไม่มากที่คุ้นเคยกับเทคโนโลยีที่จะจำเป็นอย่างยิ่ง 5 ปีนับจากนี้ สิริกำลังเรียนรู้เครื่อง Alexa ของ Amazon คือการเรียนรู้ของเครื่อง ระบบแนะนำรายการโฆษณาและการช็อปปิ้งคือการเรียนรู้ของเครื่อง ลองทำความเข้าใจการเรียนรู้ของเครื่องด้วยการเปรียบเทียบง่ายๆของเด็กชายอายุ 2 ปี เพื่อความสนุกมาเรียกเขาว่า Kylo Ren
สมมติว่า Kylo Ren เห็นช้าง สมองของเขาจะบอกอะไรเขา (จำได้ว่าเขามีความสามารถในการคิดขั้นต่ำแม้ว่าเขาจะเป็นผู้สืบทอดของเวเดอร์) สมองของเขาจะบอกเขาว่าเขาเห็นสิ่งมีชีวิตขนาดใหญ่ที่เคลื่อนไหวซึ่งเป็นสีเทา เขาเห็นแมวตัวต่อไปและสมองของเขาก็บอกเขาว่ามันเป็นสิ่งมีชีวิตขนาดเล็กที่เคลื่อนไหวได้ซึ่งมีสีทอง ในที่สุดเขาก็เห็นดาบแสงถัดไปและสมองของเขาบอกเขาว่ามันเป็นสิ่งที่ไม่มีชีวิตซึ่งเขาสามารถเล่นได้!
สมองของเขา ณ จุดนี้รู้ว่าดาบมีความแตกต่างจากช้างและแมวเพราะดาบเป็นสิ่งที่จะเล่นกับและไม่ย้ายตัวเอง สมองของเขาสามารถเข้าใจสิ่งนี้ได้มากแม้ว่า Kylo จะไม่รู้ว่าหมายถึงอะไร ปรากฏการณ์ง่ายๆนี้เรียกว่าการทำคลัสเตอร์
การเรียนรู้ของเครื่องไม่ได้เป็นเพียงแค่กระบวนการทางคณิตศาสตร์ของกระบวนการนี้ ผู้คนจำนวนมากที่ศึกษาสถิติตระหนักว่าพวกเขาสามารถทำให้สมการบางอย่างทำงานในลักษณะเดียวกับที่สมองทำงาน สมองสามารถจัดกลุ่มวัตถุที่คล้ายกันสมองสามารถเรียนรู้จากความผิดพลาดและสมองสามารถเรียนรู้ที่จะระบุสิ่งต่าง ๆ
ทั้งหมดนี้สามารถแสดงด้วยสถิติและการจำลองด้วยคอมพิวเตอร์ของกระบวนการนี้เรียกว่าการเรียนรู้ของเครื่อง ทำไมเราต้องใช้การจำลองด้วยคอมพิวเตอร์ เพราะคอมพิวเตอร์สามารถทำคณิตศาสตร์ได้เร็วกว่าสมองมนุษย์ ฉันชอบที่จะเข้าไปในส่วนของคณิตศาสตร์ / สถิติของการเรียนรู้ของเครื่อง แต่คุณไม่ต้องการที่จะกระโดดลงไปโดยไม่ล้างแนวคิดก่อน
กลับไปที่ Kylo Ren กันเถอะ สมมติว่า Kylo หยิบดาบขึ้นมาแล้วเริ่มเล่นกับมัน เขาบังเอิญได้พบกับสตอร์มทรูปเปอร์และสตอร์มทรูปเปอร์ได้รับบาดเจ็บ เขาไม่เข้าใจว่าเกิดอะไรขึ้นและเล่นต่อไป จากนั้นเขาก็พบแมวตัวหนึ่งและแมวได้รับบาดเจ็บ คราวนี้ Kylo มั่นใจว่าเขาทำอะไรที่ไม่ดีและพยายามระวังให้ดี แต่ด้วยทักษะการใช้ดาบที่ไม่ดีของเขาเขากระแทกช้างและแน่นอนว่าเขากำลังมีปัญหา หลังจากนั้นเขาก็ระมัดระวังอย่างมากและเพียงแค่พบพ่อของเขาตามที่เราเห็นใน Force Awakens !!
กระบวนการเรียนรู้ทั้งหมดนี้จากความผิดพลาดของคุณสามารถเลียนแบบได้ด้วยสมการที่ความรู้สึกของการทำอะไรผิดพลาดนั้นเกิดจากข้อผิดพลาดหรือค่าใช้จ่าย กระบวนการระบุสิ่งที่ไม่เกี่ยวข้องกับกระบี่นี้เรียกว่าการจำแนกประเภท การจัดกลุ่มและการจำแนกเป็นพื้นฐานที่สมบูรณ์ของการเรียนรู้ของเครื่อง ลองดูความแตกต่างระหว่างพวกเขา
Kylo สร้างความแตกต่างระหว่างสัตว์และดาบแสงเพราะสมองของเขาตัดสินว่าแสงกระบี่ไม่สามารถเคลื่อนไหวได้ด้วยตัวเองดังนั้นจึงแตกต่างกัน การตัดสินใจขึ้นอยู่กับวัตถุที่มีอยู่เท่านั้น (ข้อมูล) และไม่มีการช่วยเหลือหรือคำแนะนำจากภายนอก ตรงกันข้ามกับสิ่งนี้ Kylo ได้แยกแยะความสำคัญของการระมัดระวังด้วยกระบี่แสงโดยเริ่มจากการสังเกตสิ่งที่สามารถชนวัตถุได้ การตัดสินใจไม่ได้ขึ้นอยู่กับดาบอย่างสมบูรณ์ แต่ขึ้นอยู่กับสิ่งที่สามารถทำได้กับวัตถุที่แตกต่างกัน ในระยะสั้นมีความช่วยเหลืออยู่ที่นี่
เนื่องจากความแตกต่างในการเรียนรู้การจัดกลุ่มจึงถูกเรียกว่าวิธีการเรียนรู้แบบไม่มีการดูแล พวกเขาแตกต่างกันมากในโลกแห่งการเรียนรู้ของเครื่องและมักจะถูกกำหนดโดยชนิดของข้อมูลที่มีอยู่ การได้รับข้อมูลที่มีป้ายกำกับ (หรือสิ่งต่าง ๆ ที่ช่วยให้เราเรียนรู้เช่นสตอร์มทรูปเปอร์ช้างและแมวในกรณีของ Kylo) มักจะไม่ง่ายและซับซ้อนมากเมื่อข้อมูลที่แตกต่างมีขนาดใหญ่ ในทางกลับกันการเรียนรู้ที่ไม่มีป้ายกำกับอาจมีข้อเสียของตัวเองเช่นไม่รู้ว่าชื่อเรื่องฉลากคืออะไร หาก Kylo ต้องเรียนรู้การระวังตัวของดาบโดยไม่มีตัวอย่างหรือความช่วยเหลือเขาจะไม่รู้ว่ามันจะทำอะไร เขาเพิ่งจะรู้ว่ามันไม่ควรที่จะทำ มันคล้ายการเปรียบเทียบที่อ่อนแอ แต่คุณเข้าใจแล้ว!
เราเพิ่งเริ่มต้นกับการเรียนรู้ของเครื่อง การจำแนกประเภทเองสามารถเป็นการจำแนกตัวเลขต่อเนื่องหรือการจำแนกประเภทฉลาก ตัวอย่างเช่นหาก Kylo ต้องจำแนกความสูงของสตอร์มทรูปเปอร์แต่ละอันจะมีคำตอบมากมายเพราะความสูงสามารถเป็น 5.0, 5.01, 5.011 เป็นต้น แต่การจำแนกประเภทอย่างง่ายเช่นประเภทของแสงกระบี่ (สีแดง, สีฟ้าสีเขียว) จะมีคำตอบที่ จำกัด มาก Infact สามารถแสดงด้วยตัวเลขอย่างง่าย สีแดงสามารถเป็น 0, สีน้ำเงินได้ 1 และเขียวได้ 2
หากคุณรู้คณิตศาสตร์พื้นฐานคุณรู้ว่า 0,1,2 และ 5.1,5.01,5.011 นั้นแตกต่างกันและเรียกว่าตัวเลขไม่ต่อเนื่องและต่อเนื่องตามลำดับ การจำแนกตัวเลขไม่ต่อเนื่องเรียกว่าการถดถอยโลจิสติกและการจำแนกตัวเลขต่อเนื่องเรียกว่าการถดถอย การถดถอยโลจิสติกยังเป็นที่รู้จักกันในนามหมวดหมู่หมวดหมู่ดังนั้นอย่าสับสนเมื่อคุณอ่านคำนี้ที่อื่น
นี่เป็นการแนะนำเบื้องต้นเกี่ยวกับการเรียนรู้ของเครื่อง ฉันจะอยู่ด้านสถิติในโพสต์ถัดไปของฉัน โปรดแจ้งให้เราทราบหากฉันต้องการการแก้ไขใด ๆ :)
เป็นการกำหนดคลาสที่กำหนดไว้ล่วงหน้าให้กับการสังเกตใหม่โดยอ้างอิงจากการเรียนรู้จากตัวอย่าง
มันเป็นหนึ่งในภารกิจสำคัญในการเรียนรู้ของเครื่อง
ในขณะที่ออกเป็นที่นิยมว่า "การจัดหมวดหมู่ unsupervised" มันแตกต่างกันมาก
ตรงกันข้ามกับสิ่งที่ผู้เรียนหลายคนจะสอนคุณมันไม่ได้เกี่ยวกับการกำหนด "คลาส" ให้กับวัตถุ แต่ไม่มีการกำหนดไว้ล่วงหน้า นี่เป็นมุมมองที่ จำกัด มากของคนที่จำแนกประเภทมากเกินไป ตัวอย่างทั่วไปของถ้าคุณมีค้อน (ลักษณนาม) ทุกอย่างดูเหมือนเล็บ (ปัญหาการจัดหมวดหมู่) ให้กับคุณ แต่มันก็เป็นเหตุผลว่าทำไมคนจัดหมวดหมู่จึงไม่ได้เป็นกลุ่ม
ให้พิจารณาว่าเป็นการค้นพบโครงสร้างแทน งานของการจัดกลุ่มคือการหาโครงสร้าง (เช่นกลุ่ม) ในข้อมูลของคุณที่คุณไม่เคยรู้มาก่อน การจัดกลุ่มสำเร็จแล้วถ้าคุณเรียนรู้สิ่งใหม่ มันล้มเหลวถ้าคุณมีโครงสร้างที่คุณรู้อยู่แล้วเท่านั้น
การวิเคราะห์กลุ่มเป็นงานสำคัญของการขุดข้อมูล (และลูกเป็ดขี้เหร่ในการเรียนรู้ของเครื่องดังนั้นอย่าฟังผู้เรียนที่มีเครื่องคัดแยกการทำคลัสเตอร์)
สิ่งนี้ซ้ำแล้วซ้ำอีกวรรณกรรม แต่การเรียนรู้ที่ไม่ได้รับการดูแลคือ b llsh t มันไม่มีอยู่จริง แต่มันก็เป็นปฏิปักษ์ที่เหมือนกับ "หน่วยสืบราชการลับทางทหาร"
อัลกอริทึมเรียนรู้จากตัวอย่าง (จากนั้นคือ "การเรียนรู้แบบมีผู้ดูแล") หรือไม่เรียนรู้ หากวิธีการจัดกลุ่มทั้งหมดเป็น "การเรียนรู้" การคำนวณชุดข้อมูลขั้นต่ำสูงสุดและเฉลี่ยของชุดข้อมูลคือ "การเรียนรู้ที่ไม่สำรอง" เช่นกัน จากนั้นการคำนวณใด ๆ "เรียนรู้" ผลลัพธ์ของมัน ดังนั้นคำว่า 'การเรียนรู้ที่ไม่มีผู้ดูแล' จึงไร้ความหมายโดยสิ้นเชิงมันหมายถึงทุกสิ่งและไม่มีอะไรเลย
อย่างไรก็ตามอัลกอริทึม "การเรียนรู้ที่ไม่มีผู้ดูแล" บางคนทำอยู่ในหมวดหมู่การเพิ่มประสิทธิภาพ ยกตัวอย่างเช่น K-วิธีคือการเพิ่มประสิทธิภาพอย่างน้อยสี่เหลี่ยม- วิธีการดังกล่าวมีอยู่ทั่วสถิติดังนั้นฉันไม่คิดว่าเราต้องติดป้ายกำกับว่า "การเรียนรู้ที่ไม่สำรอง" แต่ควรเรียกพวกเขาว่า "ปัญหาการเพิ่มประสิทธิภาพ" แทน มันแม่นยำและมีความหมายมากขึ้น มีอัลกอริธึมการจัดกลุ่มจำนวนมากที่ไม่เกี่ยวข้องกับการปรับให้เหมาะสมและผู้ที่ไม่เหมาะกับกระบวนทัศน์การเรียนรู้ของเครื่องดี ดังนั้นหยุดบีบพวกเขาในนั้นภายใต้ร่ม "การเรียนรู้ที่ไม่มีผู้ดูแล"
มี "การเรียนรู้" ที่เกี่ยวข้องกับการทำคลัสเตอร์ แต่ไม่ใช่โปรแกรมที่เรียนรู้ เป็นผู้ใช้ที่ควรเรียนรู้สิ่งใหม่เกี่ยวกับชุดข้อมูลของเขา
ด้วยการทำคลัสเตอร์คุณสามารถจัดกลุ่มข้อมูลด้วยคุณสมบัติที่คุณต้องการเช่นหมายเลขรูปร่างและคุณสมบัติอื่น ๆ ของกลุ่มที่แยก ในขณะที่ในการจำแนกจำนวนและรูปร่างของกลุ่มได้รับการแก้ไข อัลกอริทึมการจัดกลุ่มส่วนใหญ่ให้จำนวนกลุ่มเป็นพารามิเตอร์ อย่างไรก็ตามมีวิธีการบางอย่างเพื่อค้นหาจำนวนที่เหมาะสมของกลุ่ม
ก่อนอื่นเช่นเดียวกับคำตอบมากมายที่ระบุไว้ที่นี่: การจำแนกประเภทมีการเรียนรู้แบบมีผู้สอนและการรวมกลุ่มไม่ได้รับการดูแล หมายความว่า:
การจำแนกประเภทต้องการข้อมูลที่มีป้ายกำกับเพื่อให้ตัวแยกประเภทสามารถได้รับการฝึกอบรมเกี่ยวกับข้อมูลนี้และหลังจากนั้นก็เริ่มจัดประเภทข้อมูลที่มองไม่เห็นใหม่ตามสิ่งที่เขารู้ การเรียนรู้ที่ไม่ได้รับการสนับสนุนเช่นการจัดกลุ่มไม่ได้ใช้ข้อมูลที่ติดป้ายกำกับและสิ่งที่จริง ๆ แล้วก็คือการค้นพบโครงสร้างภายในของข้อมูลเช่นกลุ่ม
ความแตกต่างระหว่างเทคนิคทั้งสอง (ที่เกี่ยวข้องกับก่อนหน้านี้) ก็คือความจริงที่ว่าการจัดหมวดหมู่เป็นรูปแบบของปัญหาการถดถอยโดยสิ้นเชิงที่ส่งออกเป็นตัวแปรขึ้นอยู่กับเด็ดขาด ในขณะที่การส่งออกของการทำคลัสเตอร์ให้ชุดของชุดย่อยที่เรียกว่ากลุ่ม วิธีการประเมินแบบจำลองทั้งสองนี้ก็แตกต่างกันด้วยเหตุผลเดียวกัน: ในการจำแนกประเภทคุณมักจะต้องตรวจสอบความแม่นยำและการเรียกคืนสิ่งต่าง ๆ เช่น overfitting และ underfitting เป็นต้นสิ่งเหล่านั้นจะบอกคุณว่าแบบจำลองนั้นดีแค่ไหน แต่ในการจัดกลุ่มคุณจะต้องมีวิสัยทัศน์และผู้เชี่ยวชาญในการตีความสิ่งที่คุณค้นหาเพราะคุณไม่ทราบว่าคุณมีโครงสร้างประเภทใด (ประเภทของกลุ่มหรือกลุ่ม) นั่นเป็นเหตุผลที่การรวมกลุ่มเป็นของการวิเคราะห์ข้อมูลเชิงสำรวจ
ในที่สุดฉันจะบอกว่าแอปพลิเคชันเป็นความแตกต่างหลักระหว่างทั้ง การจำแนกประเภทตามคำที่ใช้ในการแยกแยะกรณีที่เป็นของชั้นเรียนหรืออื่น ๆ เช่นผู้ชายหรือผู้หญิงแมวหรือสุนัข ฯลฯ การจัดกลุ่มมักใช้ในการวินิจฉัยโรคทางการแพทย์การค้นพบรูปแบบ เป็นต้น
การจำแนกประเภท : ทำนายผลลัพธ์ในผลลัพธ์ที่ไม่ต่อเนื่อง => แผนที่ตัวแปรอินพุตเป็นหมวดหมู่ที่ไม่ต่อเนื่อง
กรณีการใช้งานที่เป็นที่นิยม:
การจำแนกอีเมล: สแปมหรือไม่ใช่สแปม
เงินให้สินเชื่อเพื่อการลงโทษแก่ลูกค้า: ใช่ถ้าเขาสามารถจ่าย EMI ได้ตามจำนวนเงินกู้ที่ถูกลงโทษ ไม่ถ้าเขาทำไม่ได้
การระบุเซลล์มะเร็งมะเร็ง: มันสำคัญหรือไม่สำคัญ?
การวิเคราะห์ความเชื่อมั่นของทวีต: ทวีตเป็นบวกหรือลบหรือเป็นกลาง
การจำแนกประเภทของข่าว: แบ่งข่าวออกเป็นหนึ่งในชั้นเรียนที่กำหนดไว้ล่วงหน้า - การเมือง, กีฬา, สุขภาพ ฯลฯ
การทำคลัสเตอร์ : เป็นงานของการจัดกลุ่มชุดของวัตถุในลักษณะที่วัตถุในกลุ่มเดียวกัน (เรียกว่าคลัสเตอร์) จะคล้ายกันมากขึ้น (ในบางกรณี) ซึ่งกันและกันมากกว่ากลุ่มอื่น (กลุ่ม)
กรณีการใช้งานที่เป็นที่นิยม:
การตลาด: ค้นหากลุ่มลูกค้าเพื่อวัตถุประสงค์ทางการตลาด
ชีววิทยา: การจำแนกระหว่างพืชและสัตว์ชนิดต่าง ๆ
ห้องสมุด: การจัดกลุ่มหนังสือที่แตกต่างกันตามหัวข้อและข้อมูล
ประกันภัย: รับทราบนโยบายของลูกค้าและระบุการฉ้อโกง
การวางผังเมือง: จัดกลุ่มของบ้านและเพื่อศึกษาคุณค่าของพวกเขาตามที่ตั้งทางภูมิศาสตร์และปัจจัยอื่น ๆ
การศึกษาแผ่นดินไหว: ระบุโซนอันตราย
อ้างอิง:
การจัดหมวดหมู่ - ทำนายเลเบลคลาสที่เป็นหมวดหมู่ - จำแนกข้อมูล (สร้างแบบจำลอง) ตามชุดการฝึกอบรมและค่า (คลาสป้ายกำกับ) ในแอตทริบิวต์คลาสป้ายกำกับ - ใช้แบบจำลองในการจำแนกข้อมูลใหม่
Cluster: การรวบรวมวัตถุข้อมูล - คล้ายกันในกลุ่มเดียวกัน - แตกต่างจากวัตถุในกลุ่มอื่น
การทำคลัสเตอร์มีจุดมุ่งหมายเพื่อค้นหากลุ่มในข้อมูล “ กลุ่ม” เป็นแนวคิดที่ใช้งานง่ายและไม่มีคำจำกัดความที่เข้มงวดทางคณิตศาสตร์ สมาชิกของคลัสเตอร์หนึ่งควรคล้ายกันและแตกต่างจากสมาชิกของคลัสเตอร์อื่น ๆ อัลกอริทึมการจัดกลุ่มทำงานบนชุดข้อมูลที่ไม่มีป้ายกำกับ Z และสร้างพาร์ติชันขึ้นมา
สำหรับ Classes และ Class Labels คลาสมีวัตถุที่คล้ายกันในขณะที่วัตถุจากคลาสที่แตกต่างกันจะแตกต่างกัน บางคลาสมีความหมายที่ชัดเจนและในกรณีที่ง่ายที่สุดจะไม่เกิดร่วมกัน ตัวอย่างเช่นในการตรวจสอบลายเซ็นลายเซ็นเป็นของแท้หรือปลอมแปลง คลาสจริงคือหนึ่งในสองไม่ว่าเราจะไม่สามารถเดาได้อย่างถูกต้องจากการสังเกตของลายเซ็นเฉพาะ
การทำคลัสเตอร์เป็นวิธีการจัดกลุ่มวัตถุในลักษณะที่วัตถุที่มีคุณสมบัติคล้ายกันมารวมกันและวัตถุที่มีคุณสมบัติแตกต่างกันออกไป เป็นเทคนิคทั่วไปสำหรับการวิเคราะห์ข้อมูลทางสถิติที่ใช้ในการเรียนรู้ของเครื่องและการขุดข้อมูล
การจำแนกประเภทเป็นกระบวนการของการจัดหมวดหมู่ที่วัตถุได้รับการยอมรับแตกต่างและเข้าใจบนพื้นฐานของชุดการฝึกอบรมของข้อมูล การจัดหมวดหมู่เป็นเทคนิคการเรียนรู้แบบมีผู้สอนซึ่งมีชุดฝึกอบรมและการสังเกตอย่างถูกต้อง
จากหนังสือ Mahout in Action และฉันคิดว่ามันอธิบายความแตกต่างได้ดีมาก:
อัลกอริทึมการจำแนกประเภทนั้นเกี่ยวข้อง แต่ก็ค่อนข้างแตกต่างจากอัลกอริธึมการจัดกลุ่มเช่นอัลกอริทึม k-mean
อัลกอริธึมการจำแนกเป็นรูปแบบหนึ่งของการเรียนรู้แบบมีผู้ดูแลซึ่งตรงข้ามกับการเรียนรู้ที่ไม่ได้รับการดูแล
อัลกอริทึมการเรียนรู้แบบมีผู้สอนเป็นตัวอย่างที่ได้รับตัวอย่างซึ่งมีค่าที่ต้องการของตัวแปรเป้าหมาย อัลกอริทึมที่ไม่ได้รับการสนับสนุนจะไม่ได้รับคำตอบที่ต้องการ แต่จะต้องค้นหาสิ่งที่เป็นไปได้ด้วยตัวเอง
หนึ่งซับสำหรับการจำแนกประเภท:
การแบ่งข้อมูลออกเป็นหมวดหมู่ที่กำหนดไว้ล่วงหน้า
หนึ่งซับสำหรับการจัดกลุ่ม:
จัดกลุ่มข้อมูลเป็นชุดหมวดหมู่
ความแตกต่างที่สำคัญ:
การจำแนกประเภทกำลังนำข้อมูลและใส่ไว้ในหมวดหมู่ที่กำหนดไว้ล่วงหน้าและในการจัดกลุ่มชุดหมวดหมู่ที่คุณต้องการจัดกลุ่มข้อมูลลงไปนั้นไม่เป็นที่รู้จักมาก่อน
สรุป:
ฉันได้เขียนโพสต์ยาวในหัวข้อเดียวกันซึ่งคุณสามารถหาได้ที่นี่:
หากคุณพยายามที่จะจัดเก็บแผ่นงานจำนวนมากบนชั้นวางของคุณ (ตามวันที่หรือข้อกำหนดอื่น ๆ ของไฟล์) แสดงว่าคุณกำลังจัดประเภทอยู่
หากคุณต้องสร้างกลุ่มจากชุดของแผ่นงานมันก็หมายความว่ามีบางสิ่งที่คล้ายกันในแผ่นงาน
มีคำจำกัดความสองประการในการขุดข้อมูล "ภายใต้การดูแล" และ "ไม่ได้รับอนุญาต" เมื่อมีคนบอกคอมพิวเตอร์อัลกอริทึมรหัส ... ว่าสิ่งนี้เป็นเหมือนแอปเปิ้ลและสิ่งนั้นเป็นเหมือนสีส้มนี่คือการเรียนรู้แบบมีผู้สอนและใช้การเรียนรู้แบบมีผู้สอน (เช่นแท็กสำหรับตัวอย่างแต่ละชุดในชุดข้อมูล) ข้อมูลคุณจะได้รับการจัดหมวดหมู่ แต่ในทางกลับกันถ้าคุณปล่อยให้คอมพิวเตอร์ค้นหาว่าอะไรคืออะไรและแยกความแตกต่างระหว่างคุณสมบัติของชุดข้อมูลที่กำหนดในความเป็นจริงแล้วการเรียนรู้ที่ไม่ได้รับการจัดการสำหรับการจำแนกชุดข้อมูลนี้จะเรียกว่าการจัดกลุ่ม ในกรณีนี้ข้อมูลที่ถูกป้อนไปยังอัลกอริทึมไม่มีแท็กและอัลกอริทึมควรค้นหาคลาสที่แตกต่างกัน
การเรียนรู้ของเครื่องหรือ AI นั้นส่วนใหญ่รับรู้โดยงานที่ทำ / บรรลุผล
ในความคิดของฉันการคิดเกี่ยวกับการจัดกลุ่มและการจำแนกในความคิดของงานที่พวกเขาประสบความสำเร็จสามารถช่วยให้เข้าใจความแตกต่างระหว่างทั้งสองได้
การจัดกลุ่มคือการจัดกลุ่มสิ่งต่าง ๆ และการจัดประเภทคือการจัดประเภทสิ่งติดฉลาก
สมมติว่าคุณอยู่ในห้องโถงปาร์ตี้ที่ผู้ชายทุกคนสวมสูทและผู้หญิงอยู่ในชุด
ตอนนี้คุณถามคำถามสองสามข้อกับเพื่อนของคุณ:
Q1: เฮ้คุณช่วยฉันจัดกลุ่มคนได้ไหม
คำตอบที่เป็นไปได้ที่เพื่อนของคุณสามารถให้ได้คือ:
1: เขาสามารถจัดกลุ่มคนตามเพศชายหรือหญิง
2: เขาสามารถจัดกลุ่มคนตามเสื้อผ้าของพวกเขา 1 ชุดที่สวมใส่ชุดคลุมอื่น ๆ
3: เขาสามารถจัดกลุ่มคนตามสีผม
4: เขาสามารถจัดกลุ่มคนตามอายุกลุ่ม ฯลฯ ฯลฯ
เพื่อนของคุณสามารถทำงานนี้ให้สำเร็จได้หลายวิธี
แน่นอนคุณสามารถมีอิทธิพลต่อกระบวนการตัดสินใจของเขาโดยการให้ข้อมูลเพิ่มเติมเช่น:
คุณช่วยฉันจัดกลุ่มคนเหล่านี้ตามเพศ (หรือกลุ่มอายุหรือสีผมหรือชุด ฯลฯ )
Q2:
ก่อนไตรมาสที่ 2 คุณต้องทำงานล่วงหน้า
คุณต้องสอนหรือบอกต่อเพื่อนของคุณเพื่อที่เขาจะได้สามารถตัดสินใจได้ ดังนั้นสมมติว่าคุณพูดกับเพื่อนของคุณว่า:
คนที่มีผมยาวเป็นผู้หญิง
คนที่มีผมสั้นคือผู้ชาย
ไตรมาสที่ 2 ตอนนี้คุณชี้ไปที่คนที่มีผมยาวและถามเพื่อนของคุณ - มันเป็นผู้ชายหรือผู้หญิง?
คำตอบเดียวที่คุณคาดหวังคือ: ผู้หญิง
แน่นอนว่าอาจมีผู้ชายที่มีผมยาวและผู้หญิงที่มีผมสั้นในงานปาร์ตี้ แต่คำตอบนั้นถูกต้องตามการเรียนรู้ที่คุณให้กับเพื่อนของคุณ คุณสามารถปรับปรุงกระบวนการโดยการสอนให้เพื่อนของคุณทราบเพิ่มเติมเกี่ยวกับวิธีการแยกความแตกต่างระหว่างทั้งสอง
ในตัวอย่างด้านบน
Q1 แสดงภารกิจที่การทำคลัสเตอร์สำเร็จ
ในการจัดกลุ่มคุณให้ข้อมูล (บุคคล) แก่อัลกอริทึม (เพื่อนของคุณ) และขอให้จัดกลุ่มข้อมูล
ตอนนี้มันขึ้นอยู่กับอัลกอริทึมที่จะตัดสินใจว่ากลุ่มที่ดีที่สุดคืออะไร? (เพศสีหรือกลุ่มอายุ)
อีกครั้งคุณสามารถมีอิทธิพลต่อการตัดสินใจของอัลกอริทึมอย่างแน่นอนโดยให้ข้อมูลเพิ่มเติม
Q2 แสดงถึงการจำแนกประเภทของงานที่ประสบความสำเร็จ
ที่นั่นคุณให้อัลกอริทึมของคุณ (เพื่อนของคุณ) ข้อมูลบางอย่าง (คน) เรียกว่าเป็นข้อมูลการฝึกอบรมและทำให้เขาเรียนรู้ว่าข้อมูลใดสอดคล้องกับป้ายกำกับใด (ชายหรือหญิง) จากนั้นให้คุณชี้อัลกอริทึมของคุณไปยังข้อมูลบางอย่างที่เรียกว่าเป็นข้อมูลการทดสอบและขอให้มันตรวจสอบว่ามันเป็นเพศชายหรือเพศหญิง ยิ่งการสอนของคุณดีขึ้นเท่าไหร่การทำนายก็จะยิ่งดีขึ้นเท่านั้น
และ Pre-work ใน Q2 หรือการจัดหมวดหมู่นั้นไม่มีอะไรนอกจากเพียงแค่การฝึกอบรมแบบจำลองของคุณเพื่อให้สามารถเรียนรู้วิธีแยกความแตกต่าง ในการจัดกลุ่มหรือ Q1 งาน pre-work นี้เป็นส่วนหนึ่งของการจัดกลุ่ม
หวังว่านี่จะช่วยใครซักคน
ขอบคุณ
การจัดหมวดหมู่ - ชุดข้อมูลสามารถมีกลุ่ม / คลาสที่ต่างกัน สีแดงสีเขียวและสีดำ การจำแนกประเภทจะพยายามค้นหากฎที่แบ่งออกเป็นคลาสต่างๆ
การทำคลัสเตอร์ -ถ้าชุดข้อมูลไม่มีคลาสใดและคุณต้องการใส่ไว้ในคลาส / กลุ่มบางกลุ่มคุณจะทำคลัสเตอร์ วงกลมสีม่วงด้านบน
หากกฎการจำแนกไม่ดีคุณจะมีการจัดหมวดหมู่ผิดในการทดสอบหรือกฎ ur ไม่ถูกต้องเพียงพอ
หากการจัดกลุ่มไม่ดีคุณจะมีค่าผิดปกติมากมาย จุดข้อมูลไม่สามารถตกลงในคลัสเตอร์ใด ๆ ได้
ความแตกต่างที่สำคัญระหว่างการจำแนกและการจัดกลุ่มคือ: การจัดหมวดหมู่เป็นกระบวนการของการจำแนกข้อมูลด้วยความช่วยเหลือของฉลากระดับ ในทางกลับกันการจัดกลุ่มนั้นคล้ายคลึงกับการจัดประเภท แต่ไม่มีฉลากระดับที่กำหนดไว้ล่วงหน้า การจำแนกประเภทมุ่งเน้นการเรียนรู้แบบมีผู้สอน การจัดกลุ่มเป็นที่รู้จักกันว่าเป็นการเรียนรู้แบบไม่สนับสนุน ตัวอย่างการฝึกอบรมมีให้ในวิธีการจัดหมวดหมู่ในกรณีที่ไม่มีการจัดกลุ่มข้อมูลการฝึกอบรม
หวังว่านี่จะช่วยได้!
ฉันเชื่อว่าการจำแนกประเภทกำลังจัดประเภทเร็กคอร์ดในชุดข้อมูลเป็นคลาสที่กำหนดไว้ล่วงหน้าหรือแม้กระทั่งกำหนดคลาสขณะเดินทาง ฉันมองว่ามันเป็นสิ่งที่จำเป็นสำหรับการทำเหมืองข้อมูลที่มีค่าล่วงหน้าฉันชอบคิดว่ามันเป็นการเรียนรู้แบบไม่มีผู้ดูแลเช่นไม่มีใครรู้ว่าเขา / เธอกำลังมองหาอะไรในขณะที่การขุดข้อมูลและการจำแนกเป็นจุดเริ่มต้นที่ดี
การรวมกลุ่มในส่วนอื่น ๆ ตกอยู่ภายใต้การเรียนรู้ภายใต้การดูแลคือใครรู้ว่าพารามิเตอร์ที่จะมองหาความสัมพันธ์ระหว่างพวกเขาพร้อมกับระดับที่สำคัญ ฉันเชื่อว่ามันต้องมีความเข้าใจในสถิติและคณิตศาสตร์