คำถามติดแท็ก multilabel


3
การวัดความถูกต้องของข้อมูลมัลติมิเตอร์มีอะไรบ้าง
พิจารณาสถานการณ์ที่คุณได้รับเมทริกซ์ KnownLabel และเมทริกซ์ PredictedLabel ฉันต้องการวัดความดีของเมทริกซ์ PredictedLabel เทียบกับเมทริกซ์ KnownLabel แต่ความท้าทายในที่นี้คือ KnownLabel Matrix มีเพียงไม่กี่แถวเท่านั้นที่มี 1 แถวและอีกสองสามแถวที่มีจำนวนมาก 1 แถว (อินสแตนซ์เหล่านั้นมีป้ายกำกับหลายรายการ) ตัวอย่างของ KnownLabel Matrix ได้รับด้านล่าง A =[1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 1 1 1] ในเมทริกซ์ข้างต้นอินสแตนซ์ข้อมูล 1 และ 2 เป็นข้อมูลเลเบลเดียวอินสแตนซ์ข้อมูล 3 และ 4 …

2
วิธีการใช้ฟังก์ชั่นการตรวจสอบความถูกต้องข้ามของ Scikit-Learn กับตัวแยกประเภทหลายฉลาก
ผมทดสอบลักษณนามแตกต่างกันในชุดข้อมูลที่มี 5 ชั้นเรียนและเช่นกันสามารถอยู่ในหนึ่งหรือมากกว่าหนึ่งของการเรียนเหล่านี้ดังนั้นฉันใช้ scikit sklearn.multiclass.OneVsRestClassifierการเรียนรู้ของลักษณนามหลายป้ายโดยเฉพาะ sklearn.cross_validation.StratifiedKFoldตอนนี้ผมต้องการที่จะดำเนินการตรวจสอบข้ามใช้ สิ่งนี้ทำให้เกิดข้อผิดพลาดดังต่อไปนี้: Traceback (most recent call last): File "mlfromcsv.py", line 93, in <module> main() File "mlfromcsv.py", line 77, in main test_classifier_multilabel(svm.LinearSVC(), X, Y, 'Linear Support Vector Machine') File "mlfromcsv.py", line 44, in test_classifier_multilabel scores = cross_validation.cross_val_score(clf_ml, X, Y_list, cv=cv, score_func=metrics.precision_recall_fscore_support, n_jobs=jobs) File "/usr/lib/pymodules/python2.7/sklearn/cross_validation.py", line 1046, …

2
ตัวชี้วัดการจำแนกหลายป้ายบน scikit
ฉันกำลังพยายามสร้างตัวแยกประเภทแบบหลายป้ายกำกับเพื่อกำหนดหัวข้อให้กับเอกสารที่มีอยู่โดยใช้ scikit ฉันกำลังประมวลผลเอกสารของฉันผ่านพวกเขาผ่านTfidfVectorizerป้ายผ่านที่MultiLabelBinarizerและสร้างOneVsRestClassifierด้วยการSGDClassifierเป็นประมาณการ อย่างไรก็ตามเมื่อทำการทดสอบลักษณนามของฉันฉันได้รับคะแนนสูงสุดเพียง. 29ซึ่งจากสิ่งที่ฉันได้อ่านนั้นค่อนข้างต่ำสำหรับปัญหาที่คล้ายกัน ฉันลองตัวเลือกหลายอย่างใน TfidfVectorizer เช่น stopwords, unigrams, stemming และไม่มีอะไรน่าจะเปลี่ยนผลลัพธ์ได้มากนัก ฉันยังเคยGridSearchCVได้รับพารามิเตอร์ที่ดีที่สุดสำหรับตัวประมาณของฉันและตอนนี้ฉันไม่มีแนวคิดว่าจะลองทำอะไรต่อไป ในเวลาเดียวกันจากสิ่งที่ฉันเข้าใจว่าฉันไม่สามารถใช้scikit.metricsกับOneVsRestClassifierดังนั้นฉันจะได้รับตัวชี้วัดบางอย่าง (F1, Precision, Recall และอื่น ๆ ) เพื่อหาว่ามีอะไรผิดปกติหรือไม่ อาจเป็นปัญหากับคลังข้อมูลของฉันหรือไม่ ปรับปรุง: ฉันยังพยายามใช้CountVectorizerและHashingVectorizerและวิธี pipeline พวกเขาไปTfidfTransformerแต่ผลที่มีลักษณะคล้ายกัน ดังนั้นฉันเดาว่าวิธีการแบบถุงคำกำลังทำดีที่สุดในโดเมนโทเค็นและส่วนที่เหลือขึ้นอยู่กับลักษณนาม ...

2
ป่าสุ่มที่มีผลผลิตหลายรายการจะเป็นไปได้ / ในทางปฏิบัติหรือไม่?
ป่าสุ่ม (RFs) เป็นการสร้างแบบจำลองข้อมูลการแข่งขัน / วิธีการขุด RF model มีหนึ่งเอาต์พุต - ตัวแปรเอาต์พุต / การทำนาย วิธีการที่ไร้เดียงสาในการสร้างแบบจำลองเอาต์พุตจำนวนมากที่มี RFs คือการสร้าง RF สำหรับตัวแปรเอาต์พุตแต่ละตัว ดังนั้นเราจึงมีโมเดลอิสระ N และที่ใดที่มีความสัมพันธ์ระหว่างตัวแปรเอาต์พุตเราจะมีโครงสร้างโมเดลซ้ำซ้อน / ซ้ำกัน นี่อาจสิ้นเปลืองอย่างมากแน่นอน นอกจากนี้ในฐานะที่เป็นกฎทั่วไปมากขึ้นตัวแปรรูปแบบหมายถึงรูปแบบ overfit มากขึ้น (การวางหลักเกณฑ์ทั่วไปน้อยกว่า) ไม่แน่ใจว่าสิ่งนี้ใช้ที่นี่ แต่อาจเป็นไปได้ โดยหลักการแล้วเราอาจมี RF ที่มีเอาต์พุตหลายตัว ตัวแปรการทำนายตอนนี้เป็นเวกเตอร์ (n-tuple) โหนดการตัดสินใจในต้นไม้การตัดสินใจแต่ละชุดจะแยกชุดของเวกเตอร์เป้าหมาย / การทำนายโดยใช้เวกเตอร์จุดเริ่มต้นฉันคิดว่าเกณฑ์นี้ถูกนำมาใช้เป็นระนาบในพื้นที่ n- มิติดังนั้นเราจึงสามารถกำหนดด้านใดของเกณฑ์ เวกเตอร์เป้าหมายแต่ละตัวเปิดอยู่ ค่าการทำนายที่เหมาะสมที่สุดสำหรับแต่ละด้านของการแยกการตัดสินใจคือค่าเฉลี่ย (centroid) ที่คำนวณสำหรับเวกเตอร์ในแต่ละด้าน การค้นหาจุดแยกที่เหมาะสมที่สุดเมื่อทำงานกับตัวแปรเดี่ยวนั้นมีความสำคัญและรวดเร็ว / มีประสิทธิภาพในการคำนวณ สำหรับ n-tuple เราไม่สามารถหาการแยกที่ดีที่สุด (หรืออย่างน้อยก็กลายเป็น …

2
วิธีการใช้เครือข่ายประสาทเทียมกับปัญหาการจำแนกประเภทฉลากหลายป้าย?
รายละเอียด: ให้โดเมนปัญหาเป็นการจัดหมวดหมู่เอกสารที่มีชุดของเวกเตอร์คุณลักษณะแต่ละอันอยู่ใน 1 คลาสขึ้นไป ตัวอย่างเช่นเอกสารdoc_1อาจเป็นของSportsและEnglishหมวดหมู่ คำถาม: การใช้เครือข่ายประสาทเทียมสำหรับการจำแนกประเภทฉลากจะเป็นอย่างไรสำหรับเวกเตอร์คุณลักษณะ มันจะเป็นเวกเตอร์ที่ประกอบขึ้นเป็นคลาสทั้งหมดหรือไม่ซึ่งค่า 0 นั้นมอบให้กับคลาสที่ไม่เกี่ยวข้องและ 1 สำหรับคลาสที่เกี่ยวข้อง? ดังนั้นหากรายการป้ายกำกับของชั้นเรียนอยู่[Sports, News, Action, English, Japanese]สำหรับเอกสารdoc_1ป้ายกำกับจะเป็น[1, 0, 0, 1, 0]อย่างไร
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.