การจัดกลุ่มหรือการจัดหมวดหมู่ภายใต้การดูแล?


22

คำถามที่สองคือฉันพบในการสนทนาที่ไหนสักแห่งบนเว็บที่พูดถึง "การจัดกลุ่มแบบมีผู้ดูแล" เท่าที่ฉันทราบการจัดกลุ่มไม่ได้รับการสำรองดังนั้นความหมายที่อยู่เบื้องหลัง "การจัดกลุ่มแบบมีผู้ดูแล" คืออะไร ความแตกต่างเกี่ยวกับ "การจำแนกประเภท" คืออะไร?

มีลิงค์มากมายที่พูดถึง:

http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf

http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf

http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf

http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf

http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf

http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf

http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

ฯลฯ ...


โปรดระบุลิงก์ของ "การสนทนาบนเว็บ"
Atilla Ozgur

2
@AtillaOzgur มีหลายลิงก์ที่พูดถึงการจัดกลุ่มแบบมีผู้ดูแลฉันเพิ่มบางส่วนไว้ในโพสต์ของฉัน: [1]: cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf [2]: books.nips ซีซี / เอกสาร / ไฟล์ / nips23 / NIPS2010_0427.pdf [3]: engr.case.edu/ray_soumya/mlrg/... [4]: public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf [5] : machinelearning.org/proceedings/icml2007/papers/366.pdf [6]: jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf
shn

1
"การทำคลัสเตอร์" นั้นมีความหมายเหมือนกันกับ "การจำแนกประเภทที่ไม่ได้รับการดูแล" ดังนั้น "การจัดกลุ่มที่อยู่ภายใต้การดูแล" จึงเป็น oxymoron ใคร ๆ ก็สามารถเถียงได้ว่าแผนที่การจัดการตนเองนั้นเป็นเทคนิคการควบคุมที่ใช้สำหรับการจำแนกที่ไม่ได้รับการดูแลซึ่งจะเป็นสิ่งที่ใกล้เคียงที่สุดกับ
Digio

เท่าที่ฉันเข้าใจก็คือ "เราใช้การจัดกลุ่มเพื่อจัดเตรียมข้อมูลเพื่อให้พร้อมสำหรับการประมวลผลต่อไปหรืออย่างน้อยเพื่อให้พร้อมสำหรับการวิเคราะห์เพิ่มเติม" ดังนั้นสิ่งที่เราทำในการจัดกลุ่มจะแบ่งข้อมูลออกเป็น Class A, B C และอื่น ๆ ... ดังนั้นตอนนี้ข้อมูลนี้ได้รับการดูแลในบางลักษณะ ตอนนี้มันขึ้นอยู่กับข้อกำหนดว่าคุณต้องการทำอะไรกับข้อมูลนี้หรือว่าข้อมูลนี้มีประโยชน์กับคุณอย่างไรสำหรับการจำแนกประเภทหรือการถดถอย ถูกต้องฉันถ้าฉันผิด
สัก

คำตอบ:


2

ความเข้าใจที่ไร้เดียงสาของฉันคือการจำแนกจะดำเนินการที่คุณมีชุดของคลาสที่ระบุและคุณต้องการจัดประเภทสิ่งใหม่/ ชุดข้อมูลเป็นหนึ่งในคลาสที่ระบุเหล่านั้น

อีกวิธีหนึ่งการจัดกลุ่มไม่มีอะไรที่จะเริ่มต้นด้วยและคุณใช้ข้อมูลทั้งหมด (รวมถึงข้อมูลใหม่) เพื่อแยกออกเป็นกลุ่ม

ทั้งสองใช้ตัวชี้วัดระยะทางเพื่อตัดสินใจว่าจะจัดกลุ่ม / จำแนกประเภทอย่างไร ความแตกต่างคือการจัดหมวดหมู่จะขึ้นอยู่กับชุดของคลาสที่กำหนดไว้ก่อนหน้าในขณะที่การจัดกลุ่มจะตัดสินใจกลุ่มตามข้อมูลทั้งหมด

ความไร้เดียงสาของฉันก็คือการเข้าใจว่าการจัดกลุ่มแบบกลุ่มยังคงเป็นกลุ่มตามข้อมูลทั้งหมดและจะเป็นการจัดกลุ่มมากกว่าการจัดกลุ่ม

ในความเป็นจริงฉันแน่ใจว่าทฤษฎีที่อยู่เบื้องหลังทั้งการจัดกลุ่มและการจัดหมวดหมู่นั้นมีการจับคู่กัน


ฉันไม่เห็นด้วยอย่างนอบน้อม คุณกำลังแนะนำว่า "การจัดหมวดหมู่" นั้นเป็นไปตามคำนิยามและโดยค่าเริ่มต้นแล้วกระบวนการที่ได้รับการควบคุมซึ่งไม่เป็นความจริง การจำแนกประเภทถูกแบ่งออกเป็นกรณีที่อยู่ภายใต้การดูแลและไม่ได้รับการสนับสนุน
Digio

15

ฉันไม่คิดว่าฉันรู้มากกว่าที่คุณทำ แต่ลิงก์ที่คุณโพสต์นั้นจะแนะนำคำตอบ ฉันจะใช้http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdfเป็นตัวอย่าง โดยทั่วไปจะระบุว่า: 1) การรวมกลุ่มขึ้นอยู่กับระยะทาง 2) การใช้งาน k- หมายถึงสำเร็จต้องใช้ระยะทางที่เลือกอย่างระมัดระวัง 3) เมื่อได้รับข้อมูลการฝึกอบรมในรูปแบบของรายการที่มีการแบ่งพาร์ติชันที่ต้องการเรามีวิธี SVM แบบโครงสร้างที่เรียนรู้การวัดระยะทางเพื่อให้ k-mean สร้างการจัดกลุ่มที่ต้องการในกรณีนี้มีขั้นตอนการดูแลการจัดกลุ่มที่มีทั้งข้อมูลการฝึกอบรมและการเรียนรู้ วัตถุประสงค์ของขั้นตอนนี้คือการเรียนรู้ฟังก์ชันระยะทางเพื่อให้การใช้การจัดกลุ่ม k-mean กับระยะทางนี้เป็นไปได้อย่างดีที่สุดทั้งนี้ขึ้นอยู่กับข้อมูลการฝึกอบรมที่มีลักษณะคล้ายกับโดเมนแอปพลิเคชัน คำเตือนทั่วไปที่เหมาะสมกับการเรียนรู้ของเครื่องและการจัดกลุ่มยังคงใช้อยู่

การอ้างถึงเพิ่มเติมจากบทความ: การจัดกลุ่มแบบมีผู้ดูแลเป็นหน้าที่ของการปรับอัลกอริทึมการจัดกลุ่มโดยอัตโนมัติด้วยความช่วยเหลือของชุดฝึกอบรมที่ประกอบด้วยชุดรายการและการแบ่งพาร์ติชันที่สมบูรณ์ของชุดรายการเหล่านี้ . ดูเหมือนจะเป็นคำจำกัดความที่สมเหตุสมผล


ปัญหาคือ: ทำไมคุณต้องการเรียนรู้การวัดระยะทางจากชุดของข้อมูลการฝึกอบรมที่มีป้ายกำกับแล้วใช้การวัดระยะทางนี้ด้วยวิธีการจัดกลุ่ม ทำไมคุณไม่เพียงแค่ใช้วิธีการดูแล กล่าวอีกนัยหนึ่งคุณต้องการทำการจัดกลุ่ม (เช่นการแบ่งชุดข้อมูลของคุณลงในกลุ่ม) แต่คุณคิดว่าคุณมีการแบ่งพาร์ติชันที่ต้องการเรียบร้อยแล้วและคุณจะใช้เพื่อเรียนรู้การวัดระยะทางจากนั้นใช้การจัดกลุ่มบนชุดข้อมูลนี้ ระยะทาง ที่ดีที่สุดคุณจะได้พาร์ทิชันเดียวกันกับที่คุณเคยเรียนรู้การวัดระยะทาง! คุณมี
SHN

ที่คุณเขียน "จากนั้นใช้การจัดกลุ่มบนชุดข้อมูลนี้" แทนที่ "จากนั้นใช้การจัดกลุ่มในชุดข้อมูลที่คล้ายกัน" เป็นสถานการณ์นี้: ในการทดลอง X เรามีข้อมูล A และ B A สำหรับการจัดกลุ่ม B ช่วยในการเรียนรู้ระยะทาง B กำหนดมาตรฐานทองคำและมีราคาแพงน่าจะได้ ในการทดลองที่ตามมา X2, X3 .. เราได้ A แต่ไม่สามารถรับ B.
micans

ตกลงตอนนี้เมื่อคุณพูดว่า "การเรียนรู้ระยะทาง" จากชุดข้อมูล B: คุณหมายถึง "การเรียนรู้ค่าเกณฑ์ระยะทาง" หรือ "การเรียนรู้ฟังก์ชั่นการวัดระยะทาง" (ประเภทการวัดที่แตกต่างกัน)
shn

1
ฉันหมายถึงข้อที่สอง "เรียนรู้ฟังก์ชันวัดระยะทาง" เมื่ออ่านเพิ่มเติมโดยวิธีการสูตร A และ B ที่เรียบง่ายของฉันสามารถพบได้ในต้นฉบับที่ยกมา: "รับตัวอย่างการฝึกอบรมของชุดรายการที่มีการจัดกลุ่มที่ถูกต้องเป้าหมายคือการเรียนรู้การวัดความคล้ายคลึงกันเพื่อให้ชุดรายการในอนาคต ในแบบเดียวกัน "
micans

1
ดูเหมือนว่า "การจัดกลุ่มแบบมีผู้ดูแล" นั้นคล้ายคลึงกับสิ่งที่เรียกว่า "การจัดกลุ่มแบบกึ่งภายใต้การดูแล" จนถึงตอนนี้ฉันไม่เห็นความแตกต่างเลย ในเอกสารอื่นบางฉบับ "(กึ่ง -) การจัดกลุ่มที่อยู่ภายใต้การดูแล" ไม่ได้หมายถึง "การสร้างฟังก์ชันระยะทางที่แก้ไข" เพื่อใช้ในการจัดกลุ่มชุดข้อมูลในอนาคตในลักษณะเดียวกัน มันค่อนข้างเกี่ยวกับ "การปรับเปลี่ยนขั้นตอนวิธีการจัดกลุ่มตัวเอง" โดยไม่ต้องเปลี่ยนฟังก์ชั่นระยะทาง!
shn

3

คำจำกัดความบางอย่าง: การ

จัดกลุ่มแบบมีผู้ดูแลถูกนำไปใช้กับตัวอย่างที่จำแนกโดยมีวัตถุประสงค์ในการระบุกลุ่มที่มีความหนาแน่นของความน่าจะเป็นสูงในชั้นเรียนเดียว

Unsupervised clusteringเป็นกรอบการเรียนรู้โดยใช้ฟังก์ชั่นวัตถุที่เฉพาะเจาะจงเช่นฟังก์ชั่นที่ช่วยลดระยะทางภายในกลุ่มเพื่อให้คลัสเตอร์แน่น

การจัดกลุ่มแบบกึ่งมีผู้ดูแลคือการปรับปรุงอัลกอริทึมการจัดกลุ่มโดยใช้ข้อมูลด้านข้างในกระบวนการจัดกลุ่ม

ความก้าวหน้าในโครงข่ายประสาท - ISNN 2010

โดยไม่ต้องใช้ศัพท์แสงมากเกินไปตั้งแต่ฉันเป็นสามเณรในบริเวณนี้วิธีการที่ผมเข้าใจการจัดกลุ่มภายใต้การดูแลมากขึ้นน้อยลงเช่นนี้

ในการกำกับดูแลและการจัดกลุ่มคุณเริ่มต้นจากบนลงล่างด้วยคลาสที่กำหนดไว้ล่วงหน้าแล้วใช้วิธีBottom-Upคุณจะพบว่าวัตถุใดที่เหมาะกับคลาสของคุณมากขึ้น

ตัวอย่างเช่นคุณได้ทำการศึกษาเกี่ยวกับชนิดของส้มที่ชอบในประชากร
จากส้มหลายชนิดคุณพบว่าส้มชนิดหนึ่งเป็นชนิดที่ต้องการ
อย่างไรก็ตามส้มชนิดนั้นมีความละเอียดอ่อนมากและติดเชื้อได้ง่ายการเปลี่ยนแปลงสภาพภูมิอากาศและสารทางสิ่งแวดล้อมอื่น ๆ
ดังนั้นคุณต้องการข้ามมันไปกับสายพันธุ์อื่นที่ทนทานต่อการด่า
จากนั้นคุณไปที่ห้องแล็บและพบว่ายีนบางตัวที่มีความรับผิดชอบต่อรสชาติที่ฉ่ำและหวานของประเภทหนึ่งและสำหรับความสามารถในการต้านทานของประเภทอื่น
คุณทำการทดลองหลายครั้งและจบด้วยสมมุติว่ามีส้มย่อยหลายร้อยชนิด
ตอนนี้คุณมีความสนใจเพียงแค่ชนิดย่อยที่เหมาะสมกับคุณสมบัติที่อธิบายไว้อย่างสมบูรณ์
คุณไม่ต้องการทำการศึกษาเดียวกันในประชากรของคุณอีกครั้ง ...
คุณรู้คุณสมบัติที่คุณกำลังมองหาในสีส้มที่สมบูรณ์แบบของคุณ
ดังนั้นคุณจึงทำการวิเคราะห์คลัสเตอร์ของคุณและเลือกสิ่งที่เหมาะสมกับความคาดหวังของคุณมากที่สุด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.