หากฉันถูกต้อง "การจำแนกประเภทที่ไม่ได้รับการสำรอง" นั้นเหมือนกับการทำคลัสเตอร์ ถ้าเช่นนั้นจะมี "การถดถอยที่ไม่ได้รับอนุญาต" ขอบคุณ!
หากฉันถูกต้อง "การจำแนกประเภทที่ไม่ได้รับการสำรอง" นั้นเหมือนกับการทำคลัสเตอร์ ถ้าเช่นนั้นจะมี "การถดถอยที่ไม่ได้รับอนุญาต" ขอบคุณ!
คำตอบ:
ฉันไม่เคยเจอคำนี้มาก่อน ฉันไม่แน่ใจว่ามันจะกระจายแสงหรือความมืดภายในขอบเขตของสถิติทั้งสอง: การเรียนรู้ด้วยเครื่อง (ที่ความแตกต่างที่มีผู้ดูแลและไม่ได้รับการดูแลเป็นศูนย์กลางของการแก้ไขปัญหา) และสถิติเชิงอนุมาน
ในกรณีที่ปรัชญาทั้งสองทับซ้อนกันส่วนใหญ่ของการถดถอยและคำศัพท์ที่เกี่ยวข้องจะถูกโยนไปรอบ ๆ ในการตั้งค่าการดูแลอย่างเคร่งครัด อย่างไรก็ตามฉันคิดว่าแนวคิดที่มีอยู่จำนวนมากในการเรียนรู้ที่ไม่มีผู้ดูแลนั้นเกี่ยวข้องกับแนวทางการถดถอยโดยเฉพาะอย่างยิ่งเมื่อคุณทำซ้ำอย่างไร้เหตุผลในแต่ละชั้นเรียนหรือคุณลักษณะเป็นผลลัพธ์และรวมผลลัพธ์ ตัวอย่างนี้คือการวิเคราะห์ความสัมพันธ์แบบ PCA และ bivariate ด้วยการใช้การถดถอยของเซตย่อยที่ดีที่สุดโดยซ้ำกับตัวแปรหลายตัวคุณสามารถทำการประมาณค่าเครือข่ายที่ซับซ้อนอย่างมากซึ่งสันนิษฐานในการสร้างแบบจำลองสมการโครงสร้าง (อย่างเคร่งครัดในความหมายของ EFA) สำหรับฉันดูเหมือนว่าเป็นปัญหาการเรียนรู้ที่ไม่ได้รับความสนใจจากการถดถอย
อย่างไรก็ตามการประมาณพารามิเตอร์การถดถอยไม่ได้สะท้อนกลับ สำหรับการถดถอยเชิงเส้นที่เรียบง่ายถอยเมื่อXจะให้ผลลัพธ์ที่แตกต่างกันการอนุมานที่แตกต่างกันและการประมาณการที่แตกต่างกัน (ไม่ได้จำเป็นต้องผกผัน) กว่าXเมื่อY ในใจของฉันการขาดการสับเปลี่ยนนี้ทำให้แอปพลิเคชันการถดถอยที่ไร้เดียงสาส่วนใหญ่ไม่เหมาะสมสำหรับปัญหาการเรียนรู้ที่ไม่ได้รับการจัดการ
สิ่งที่ใกล้เคียงที่สุดที่ฉันนึกได้คือเวทมนตร์สีดำตัวเล็ก ๆ ที่ปลุกผู้คนให้ตื่นขึ้นเมื่อมีการประกาศเมื่อไม่กี่ปีที่ผ่านมา แต่ฉันไม่เชื่อว่ามันจะมีแรงฉุดลากในชุมชน ผู้เขียนพัฒนาสถิติที่เรียกว่า "Maximal Information Coefficient (MIC)" แนวคิดทั่วไปที่อยู่เบื้องหลังวิธีการของพวกเขาคือการใช้ข้อมูลมิติสูงพล็อตตัวแปรแต่ละตัวกับตัวแปรอื่น ๆ เป็นคู่แล้วใช้อัลกอริทึมการแบ่งหน้าต่างที่น่าสนใจกับแต่ละโครงร่าง (ซึ่งคำนวณ MIC สำหรับตัวแปรทั้งสอง) เพื่อพิจารณาว่ามี อาจเป็นความสัมพันธ์ระหว่างตัวแปรทั้งสอง เทคนิคนี้ควรจะมีความแข็งแกร่งในการระบุโครงสร้างโดยพลการความสัมพันธ์ที่ไม่ใช่เชิงเส้น
เทคนิคนี้มีเป้าหมายเป็นคู่ของตัวแปร แต่ฉันแน่ใจว่ามันสามารถขยายออกไปเพื่อตรวจสอบความสัมพันธ์หลายตัวแปร ปัญหาหลักคือคุณจะต้องใช้เทคนิคในการรวมกันของตัวแปรอย่างมีนัยสำคัญมากขึ้นในขณะที่คุณอนุญาตให้มีการเรียงสับเปลี่ยนของตัวแปรมากขึ้น ฉันคิดว่าอาจต้องใช้เวลาสักครู่กับคู่: การพยายามใช้สิ่งนี้กับข้อมูลมิติสูงจากระยะไกลและการพิจารณาความสัมพันธ์ที่ซับซ้อนมากขึ้นกว่าคู่ตัวแปรจะกลายเป็นเรื่องยาก
อ้างอิงกระดาษตรวจจับสมาคมนวนิยายในชุดข้อมูลขนาดใหญ่ (2011)
การถดถอยอัตโนมัติเป็นวิธีหนึ่งในการคำนวณน้ำหนักของเมทริกซ์การลดข้อผิดพลาดในการสร้างข้อมูลใหม่จากอินพุตที่กำหนด
คำถามนี้มาถึงใจของฉันในขณะที่การวิจัยความแตกต่างระหว่างวิธีการดูแลและไม่ได้ดูแล มาจากภูมิหลังทางเศรษฐมิติฉันชอบคิดในแบบจำลองซึ่งทำให้ความเข้าใจของฉันช้าลงเนื่องจากวรรณคดีการเรียนรู้ด้วยเครื่องจักรส่วนใหญ่ฉันพบเน้นวิธีการ
สิ่งที่ฉันได้พบในตอนนี้ก็คือความแตกต่างที่เข้มงวดควรทำระหว่างclustering
(ไม่ได้รับการดูแล) กับclassification
(ควบคุม) การเปรียบเทียบความสัมพันธ์แบบต่อเนื่องระหว่างการออกแบบโมเดลเหล่านี้จะเป็นprincipal component analysis
(แบบไม่มีการดูแล) และlinear regression
(ภายใต้การดูแล)
อย่างไรก็ตามฉันจะยืนยันว่าความสัมพันธ์ระหว่างการจัดกลุ่มและการจำแนกเป็นเรื่องบังเอิญอย่างหมดจด มันมีอยู่ก็ต่อเมื่อเราตีความการออกแบบทั้งสองแบบว่าเป็นการอธิบายความสัมพันธ์ทางเรขาคณิตซึ่งฉันพบว่ามีข้อ จำกัด ที่ไม่จำเป็น วิธีการที่ไม่มีผู้ดูแลทั้งหมดที่ฉันรู้ (อัลกอริธึมแผนที่ยืดหยุ่นเช่น kohonen / neural gas, DBSCAN, PCA) สามารถตีความได้ว่าเป็นแบบจำลองตัวแปรแฝง ในกรณีของวิธีการจัดกลุ่มสิ่งนี้จะเป็นการดูจำนวนของกลุ่มที่อยู่ในสถานะซึ่งสามารถถูกเข้ารหัสเป็นแบบจำลองตัวแปรแฝงด้วยการแนะนำตัวจำลองสถานะ
เนื่องจากการตีความเป็นแบบจำลองตัวแปรแฝงคุณมีอิสระที่จะระบุแบบจำลองที่ไม่เชิงเส้นใด ๆ ที่อธิบายคุณลักษณะของคุณในรูปแบบของตัวแปรแฝงแบบต่อเนื่อง