คำถามติดแท็ก classification

การจำแนกทางสถิติเป็นปัญหาของการระบุประชากรย่อยที่การสังเกตใหม่เป็นของที่ไม่ทราบตัวตนของประชากรย่อยบนพื้นฐานของชุดการฝึกอบรมของข้อมูลที่มีการสังเกตซึ่งมีประชากรย่อยเป็นที่รู้จัก ดังนั้นการจำแนกประเภทเหล่านี้จะแสดงพฤติกรรมที่เปลี่ยนแปลงได้ซึ่งสามารถศึกษาได้จากสถิติ

1
วิธีการ LDA ซึ่งเป็นเทคนิคการจำแนกประเภทยังทำหน้าที่เป็นเทคนิคการลดขนาดเช่น PCA
ในบทความนี้ ผู้เขียนเชื่อมโยงการวิเคราะห์จำแนกเชิงเส้น (LDA) กับการวิเคราะห์องค์ประกอบหลัก (PCA) ด้วยความรู้ที่ จำกัด ของฉันฉันไม่สามารถทำตามวิธี LDA ได้ค่อนข้างคล้ายกับ PCA ฉันคิดเสมอว่า LDA เป็นรูปแบบของอัลกอริทึมการจำแนกประเภทซึ่งคล้ายกับการถดถอยโลจิสติก ฉันจะซาบซึ้งในความช่วยเหลือในการทำความเข้าใจว่า LDA คล้ายกับ PCA อย่างไรเช่นเป็นเทคนิคการลดขนาด

2
ป่าที่สุ่มขึ้นมามากเกินไป?
ฉันกำลังทดลองกับป่าสุ่มที่มี scikit เรียนรู้และฉันได้รับผลลัพธ์ที่ยอดเยี่ยมจากชุดการฝึกอบรมของฉัน แต่ผลลัพธ์ที่ได้ค่อนข้างแย่ในชุดการทดสอบของฉัน ... นี่คือปัญหา (ได้รับแรงบันดาลใจจากโป๊กเกอร์) ที่ฉันพยายามจะแก้ไข: เมื่อได้ไพ่ของผู้เล่น A, ไพ่ในหลุมของผู้เล่น B และไพ่ปัด (3 ใบ), ผู้เล่นคนไหนมีมือที่ดีที่สุด? ในทางคณิตศาสตร์นี่คือ 14 อินพุต (7 ใบ - หนึ่งอันดับและหนึ่งชุดสำหรับแต่ละคน) และหนึ่งเอาต์พุต (0 หรือ 1) นี่คือผลลัพธ์บางส่วนของฉัน: Training set size: 600k, test set size: 120k, number of trees: 25 Success rate in training set: 99.975% Success rate in testing …

3
การเรียนแบบกึ่งมีผู้เรียน, การเรียนแบบกระตือรือร้นและการเรียนรู้ลึกเพื่อการจำแนกประเภท
การแก้ไขครั้งสุดท้ายพร้อมการอัปเดตทรัพยากรทั้งหมด: สำหรับโครงการฉันกำลังใช้อัลกอริธึมการเรียนรู้ของเครื่องเพื่อจัดหมวดหมู่ ถาม:ข้อมูลที่มีป้ายกำกับค่อนข้าง จำกัด และข้อมูลที่ไม่มีป้ายกำกับอีกมากมาย เป้าหมาย: ใช้การจำแนกประเภทภายใต้การดูแล ใช้กระบวนการการติดฉลากแบบกึ่งกำกับอย่างใด (ที่รู้จักกันว่าการเรียนรู้ที่ใช้งานอยู่) ฉันได้พบข้อมูลจำนวนมากจากงานวิจัยเช่นการใช้ EM, Transductive SVM หรือ S3VM (Semi Supervised SVM) หรือใช้ LDA อย่างอื่นเป็นต้นแม้จะมีหนังสือไม่กี่เล่มในหัวข้อนี้ คำถาม: การใช้งานและแหล่งข้อมูลที่เป็นประโยชน์อยู่ที่ไหน? อัปเดตครั้งสุดท้าย (ขึ้นอยู่กับความช่วยเหลือที่จัดทำโดย mpiktas, bayer และ Dikran Marsupial) การเรียนรู้แบบกึ่งภายใต้การดูแล: TSVM: ในSVMligthและSVMlin EM Naive Bayes ใน Python EM ในโครงการ LinePipe การเรียนรู้ที่ใช้งานอยู่: Dualist : การใช้งานการเรียนรู้อย่างคล่องแคล่วด้วยซอร์สโค้ดในการจำแนกข้อความ หน้าเว็บนี้ให้ภาพรวมที่ยอดเยี่ยมของการเรียนรู้ที่กระตือรือร้น การประชุมเชิงปฏิบัติการการออกแบบการทดลอง: ที่นี่ การเรียนรู้ลึก: วิดีโอแนะนำที่นี่ …

7
ข้อมูลเอนเอียงในการเรียนรู้ของเครื่อง
ฉันกำลังทำงานในโครงการการเรียนรู้ของเครื่องด้วยข้อมูลที่มีอคติอยู่แล้ว (มาก) โดยการเลือกข้อมูล สมมติว่าคุณมีกฎฮาร์ดโค้ด คุณจะสร้างรูปแบบการเรียนรู้ของเครื่องเพื่อแทนที่ได้อย่างไรเมื่อข้อมูลทั้งหมดที่สามารถใช้ได้คือข้อมูลที่ถูกกรองโดยกฎเหล่านั้นแล้วหรือไม่ เพื่อให้สิ่งต่าง ๆ ชัดเจนฉันเดาว่าตัวอย่างที่ดีที่สุดคือการประเมินความเสี่ยงสินเชื่อ : งานคือการกรองลูกค้าทั้งหมดที่มีแนวโน้มที่จะล้มเหลวในการชำระเงิน ทีนี้ข้อมูลเดียว (ที่มีป้ายกำกับ) ที่คุณมีมาจากไคลเอนต์ที่ได้รับการยอมรับโดยชุดของกฎเพราะหลังจากยอมรับคุณจะเห็นว่ามีคนจ่ายหรือไม่ (เห็นได้ชัด) คุณไม่รู้ว่าชุดของกฎนั้นดีแค่ไหนและจะมีผลต่อการกระจายจ่ายที่จ่ายไปยังไม่จ่าย นอกจากนี้คุณมีข้อมูลที่ไม่มีป้ายกำกับจากลูกค้าที่ถูกปฏิเสธอีกครั้งเนื่องจากชุดของกฎ ดังนั้นคุณจึงไม่ทราบว่าจะเกิดอะไรขึ้นกับลูกค้าเหล่านั้นหากได้รับการยอมรับ เช่นหนึ่งในกฎอาจเป็น: "ถ้าอายุของลูกค้า <18 ปีแล้วไม่ยอมรับ" ตัวจําแนกไม่มีวิธีเรียนรู้วิธีจัดการกับไคลเอ็นต์ที่ถูกกรองโดยกฎเหล่านี้ ลักษณนามควรจะเรียนรู้รูปแบบที่นี่ได้อย่างไร การเพิกเฉยปัญหานี้จะนำไปสู่รูปแบบการเปิดเผยข้อมูลที่ไม่เคยพบมาก่อน โดยพื้นฐานแล้วฉันต้องการประมาณค่าของ f (x) เมื่อ x อยู่นอก [a, b] ที่นี่

1
ความคิดเห็นเกี่ยวกับ Oversampling โดยทั่วไปและอัลกอริทึม SMOTE โดยเฉพาะ [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา คุณมีความคิดเห็นอย่างไรเกี่ยวกับการสุ่มตัวอย่างมากเกินไปในการจำแนกประเภทโดยทั่วไปและขั้นตอนวิธี SMOTE โดยเฉพาะ ทำไมเราไม่เพียงแค่ใช้ค่าใช้จ่าย / ค่าปรับเพื่อปรับความไม่สมดุลในข้อมูลระดับและค่าใช้จ่ายของข้อผิดพลาดที่ไม่สมดุล? สำหรับวัตถุประสงค์ของฉันความแม่นยำในการทำนายชุดอนาคตของหน่วยการทดลองเป็นตัวชี้วัดขั้นสูงสุด สำหรับการอ้างอิงกระดาษ SMOTE: http://www.jair.org/papers/paper953.html

5
การจำแนกข้อความขนาดใหญ่
ฉันต้องการจัดหมวดหมู่ข้อมูลข้อความของฉัน ฉันมี300 classes200 เอกสารการฝึกอบรมต่อชั้นเรียน (ดังนั้น60000 documents in total) และนี่น่าจะส่งผลให้ข้อมูลมิติสูงมาก (เราอาจมองเกินกว่า1 ล้านมิติ ) ฉันต้องการดำเนินการตามขั้นตอนต่อไปนี้ในไปป์ไลน์ (เพื่อให้คุณได้ทราบถึงความต้องการของฉัน): การแปลงแต่ละเอกสารเป็นฟีเจอร์เวกเตอร์ ( tf-idfหรือvector space model) Feature selection( Mutual Informationโดยเฉพาะอย่างยิ่งหรือมาตรฐานอื่น ๆ ) การฝึกอบรมลักษณนาม ( SVM, Naive Bayes, Logistic RegressionหรือRandom Forest) การทำนายข้อมูลที่มองไม่เห็นตามตัวจําแนกรุ่นที่ผ่านการฝึกอบรม ดังนั้นคำถามคือฉันใช้เครื่องมือ / กรอบการทำงานสำหรับจัดการข้อมูลมิติสูงเช่นนี้หรือไม่ ฉันตระหนักถึงผู้ต้องสงสัยตามปกติ (R, WEKA ... ) แต่เท่าที่ความรู้ของฉันไป (ฉันอาจผิด) อาจไม่มีใครสามารถจัดการข้อมูลขนาดใหญ่นี้ได้ มีเครื่องมือเก็บของอื่น ๆ ที่ฉันสามารถดูได้หรือไม่? ถ้าฉันต้องขนานมันฉันควรจะดูApache Mahoutหรือไม่? …

10
ชุดข้อมูลเครือข่ายสังคม
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันกำลังมองหาชุดข้อมูลเครือข่ายสังคมออนไลน์ (twitter, friendfeed, facebook, lastfm และอื่น ๆ ) สำหรับการจัดประเภทงานโดยเฉพาะอย่างยิ่งในรูปแบบ arff การค้นหาของฉันผ่าน UCI และ Google ยังไม่ประสบความสำเร็จ ... คำแนะนำใด ๆ

3
การสร้างตัวแยกประเภทมัลติคลาสดีกว่าไบนารีหลายตัวหรือไม่?
ฉันต้องการจัดหมวดหมู่ URL เป็นหมวดหมู่ สมมติว่าฉันมี 15 หมวดหมู่ที่ฉันวางแผนจะลดศูนย์ทุก URL ลงให้ ตัวจําแนกแบบ 15 ทางดีกว่าหรือไม่ ที่ฉันมี 15 ป้ายกำกับและสร้างคุณสมบัติสำหรับแต่ละจุดข้อมูล หรือการสร้างตัวแยกประเภทไบนารี 15 ตัวบอกว่า: ภาพยนตร์หรือไม่ใช่ภาพยนตร์และใช้ตัวเลขที่ฉันได้รับจากการจำแนกประเภทเหล่านี้เพื่อสร้างอันดับเพื่อเลือกหมวดหมู่ที่ดีที่สุด

2
ทำไมตัวแยกประเภทการถดถอยของริดจ์ทำงานได้ค่อนข้างดีสำหรับการจัดประเภทข้อความ
ในระหว่างการทดสอบการจำแนกข้อความฉันพบว่าตัวจําแนกประเภทสันเขาสร้างผลลัพธ์ที่ยอดการทดสอบอย่างต่อเนื่องระหว่างตัวจําแนกเหล่านั้นซึ่งถูกกล่าวถึงมากขึ้นและถูกนําไปใช้ในงานการขุดข้อความเช่น SVM, NB, kNN เป็นต้น ในการเพิ่มประสิทธิภาพลักษณนามแต่ละตัวในงานการจัดหมวดหมู่ข้อความเฉพาะนี้ยกเว้นการปรับแต่งง่าย ๆ เกี่ยวกับพารามิเตอร์ ผลดังกล่าวยังได้กล่าวถึงDikran กระเป๋า ไม่ได้มาจากภูมิหลังทางสถิติหลังจากอ่านผ่านสื่อออนไลน์ฉันยังไม่สามารถหาสาเหตุหลักของเรื่องนี้ได้ มีใครให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ดังกล่าวบ้าง

2
การจำแนกประเภทการทดสอบข้อมูลความไม่สมดุลที่เกินขนาด
ฉันกำลังทำงานกับข้อมูลที่ไม่สมดุลอย่างรุนแรง ในวรรณคดีมีวิธีการหลายวิธีที่ใช้ในการปรับสมดุลข้อมูลอีกครั้งโดยใช้การสุ่มตัวอย่างอีกครั้ง (เกินหรือต่ำกว่าการสุ่มตัวอย่าง) แนวทางที่ดีสองประการคือ: SMOTE: กลุ่มชนกลุ่มน้อยสังเคราะห์เทคนิคการสุ่มตัวอย่างมากกว่า TEOT ( SMOTE ) ADASYN: วิธีการสุ่มตัวอย่าง Adaptive Synthetic เพื่อการเรียนรู้ที่ไม่สมดุล ( ADASYN ) ฉันได้ติดตั้ง ADASYN เนื่องจากลักษณะการปรับตัวและความสะดวกในการขยายไปสู่ปัญหาหลายระดับ คำถามของฉันคือวิธีทดสอบข้อมูลที่เกินตัวอย่างที่สร้างโดย ADASYN (หรือวิธีการสุ่มตัวอย่างอื่น ๆ ) มันไม่ชัดเจนในบทความสองเรื่องที่กล่าวถึงวิธีการทดลองของพวกเขา มีสองสถานการณ์: 1- ทดสอบชุดข้อมูลทั้งหมดจากนั้นแบ่งเป็นชุดฝึกอบรมและชุดทดสอบ (หรือการตรวจสอบความถูกต้องข้าม) 2- หลังจากแยกชุดข้อมูลดั้งเดิมแล้วให้ดำเนินการตั้งค่าการสุ่มตัวอย่างมากเกินไปในชุดการฝึกอบรมเท่านั้นและทดสอบชุดทดสอบข้อมูลต้นฉบับ ในกรณีแรกผลลัพธ์จะดีกว่าโดยไม่มีการสุ่มตัวอย่างมากเกินไป แต่ฉันกังวลว่ามีการให้ข้อมูลมากเกินไป ในขณะที่ในกรณีที่สองผลลัพธ์จะดีกว่าเล็กน้อยโดยไม่มีการสุ่มตัวอย่างและแย่กว่าเคสแรกมาก แต่ข้อกังวลกับกรณีที่สองคือถ้าตัวอย่างกลุ่มชนกลุ่มน้อยทั้งหมดไปที่ชุดการทดสอบจะไม่มีผลประโยชน์ใด ๆ จากการทดสอบเกินจริง ฉันไม่แน่ใจว่ามีการตั้งค่าอื่น ๆ เพื่อทดสอบข้อมูลดังกล่าวหรือไม่

1
คำถาม: บอกตัวจําแนกตามขอบเขตการตัดสินใจ
รับเป็น 6 ขอบเขตการตัดสินใจด้านล่าง ขอบเขตการตัดสินใจเป็นเส้นสีม่วง จุดและกากบาทเป็นชุดข้อมูลที่แตกต่างกันสองชุด เราต้องตัดสินใจว่าอันไหนคือ: Linear SVM เคอร์เนล SVM (เคอร์เนลโพลิโนเมียลของคำสั่ง 2) Perceptron การถดถอยโลจิสติก Neural Network (1 เลเยอร์ที่ซ่อนอยู่พร้อมหน่วยเชิงเส้น 10 หน่วยแก้ไข) Neural Network (1 เลเยอร์ที่ซ่อนอยู่มี 10 ตัน) ฉันต้องการคำตอบ แต่ที่สำคัญกว่านั้นเข้าใจความแตกต่าง เช่นฉันจะบอกว่า c) เป็น SVM เชิงเส้น ขอบเขตการตัดสินใจเป็นแบบเส้นตรง แต่เรายังสามารถเชื่อมโยงขอบเขตการตัดสินใจ SVM เชิงเส้นเข้าด้วยกันได้ d) Kernelized SVM เนื่องจากเป็นคำสั่งพหุนาม 2. f) แก้ไขโครงข่ายประสาทเนื่องจากขอบ "หยาบ" อาจจะ) การถดถอยโลจิสติก: มันยังเป็นลักษณนามเชิงเส้น แต่ขึ้นอยู่กับความน่าจะเป็น

3
เมื่อใดที่ฉันไม่ควรใช้ตัวจําแนกทั้งหมดของ ensemble
โดยทั่วไปแล้วในปัญหาการจำแนกประเภทที่เป้าหมายคือการทำนายการเป็นสมาชิกคลาสนอกกลุ่มตัวอย่างได้อย่างถูกต้องเมื่อใดฉันจึงไม่ควรใช้ตัวจําแนก ensemble คำถามนี้เกี่ยวข้องกับทำไมไม่ใช้การเรียนรู้ทั้งมวลเสมอไป . คำถามนั้นถามว่าทำไมเราไม่ใช้วงดนตรีตลอดเวลา ฉันต้องการที่จะรู้ว่ามีบางกรณีที่วงดนตรีเป็นที่รู้กันว่าแย่กว่านี้ (ไม่ใช่แค่ "ไม่ดีขึ้นและเสียเวลา") มากกว่ากลุ่มที่ไม่ใช่ทั้งมวล และโดย "ensemble ลักษณนาม" ฉันหมายถึงตัวแยกประเภทเช่น AdaBoost และฟอเรสต์แบบสุ่มโดยเฉพาะซึ่งตรงกันข้ามกับเครื่องเวกเตอร์สนับสนุนแบบม้วนของคุณเอง

1
Naive Bayes ทำงานได้ดีกว่า SVM เมื่อใด
ในปัญหาการจัดหมวดหมู่ข้อความเล็ก ๆ ที่ฉันกำลังดู Naive Bayes แสดงผลงานที่คล้ายหรือมากกว่า SVM และฉันสับสนมาก ฉันสงสัยว่าปัจจัยใดเป็นตัวตัดสินชัยชนะของอัลกอริทึมหนึ่งเหนืออีกอัน มีสถานการณ์ที่ไม่มีจุดในการใช้ Naive Bayes เหนือ SVM หรือไม่? ใครบางคนสามารถให้แสงสว่างกับเรื่องนี้ได้หรือไม่?

1
ฉันต้องการสร้างดัชนีอาชญากรรมและดัชนีความไม่มั่นคงทางการเมืองตามข่าว
ฉันมีโครงการด้านนี้ที่ฉันรวบรวมข้อมูลเว็บไซต์ข่าวท้องถิ่นในประเทศของฉันและต้องการสร้างดัชนีอาชญากรรมและดัชนีความไม่มั่นคงทางการเมือง ฉันได้ครอบคลุมส่วนการดึงข้อมูลของโครงการแล้ว แผนของฉันคือการทำ: การแยกหัวข้อที่ไม่ได้รับอนุญาต ใกล้การตรวจจับรายการที่ซ้ำกัน การจำแนกประเภทและระดับเหตุการณ์ภายใต้การดูแล (อาชญากรรม / การเมือง - สูง / ปานกลาง / ต่ำ) ฉันจะใช้ python และ sklearn และได้ทำการวิจัยขั้นตอนวิธีที่ฉันสามารถใช้สำหรับงานเหล่านั้นแล้ว ฉันคิดว่า 2. สามารถให้ความเกี่ยวข้องกับเรื่องเล่าแก่ฉันได้: ยิ่งมีกระดาษข่าวจำนวนมากเผยแพร่เกี่ยวกับเรื่องราวหรือหัวข้อที่เกี่ยวข้องมากขึ้นสำหรับวันนั้น ขั้นตอนต่อไปของฉันคือการสร้างดัชนีรายเดือนรายสัปดาห์และรายวัน (ทั่วประเทศและต่อเมือง) ตามคุณลักษณะที่ฉันมีและฉันหลงทางเล็กน้อยเพราะ "ความไวต่อความไม่เสถียร" อาจเพิ่มขึ้นตามเวลา ฉันหมายถึงดัชนีจากเหตุการณ์ความไม่มั่นคงที่สำคัญของปีที่แล้วอาจน้อยกว่าดัชนีสำหรับปีนี้ นอกจากนี้หากใช้ระดับคงที่ 0-100 หรือไม่ ต่อมาฉันต้องการที่จะสามารถทำนายเหตุการณ์ที่เกิดขึ้นตามสิ่งนี้เช่นว่าการสืบทอดเหตุการณ์ในสัปดาห์ที่ผ่านมาจะนำไปสู่เหตุการณ์ที่สำคัญหรือไม่ แต่ตอนนี้ฉันจะมีความสุขกับการแบ่งประเภทการทำงานและสร้างแบบจำลองดัชนี ฉันขอขอบคุณตัวชี้ไปที่กระดาษการอ่านหรือความคิดที่เกี่ยวข้อง ขอบคุณ PD: ขออภัยหากคำถามไม่ได้อยู่ที่นี่ อัปเดต : ฉันยังไม่ได้ "สร้าง" แต่เมื่อเร็ว ๆ นี้มีข่าวเกี่ยวกับกลุ่มนักวิทยาศาสตร์ที่ทำงานในระบบเพื่อทำนายเหตุการณ์โดยใช้คลังข่าวและเผยแพร่กระดาษที่เกี่ยวข้องการทำเหมืองเว็บเพื่อทำนายเหตุการณ์ในอนาคต (PDF )

3
การเปรียบเทียบผลลัพธ์ความแม่นยำของลักษณนามสองตัวสำหรับนัยสำคัญทางสถิติกับการทดสอบ t
ฉันต้องการเปรียบเทียบความแม่นยำของตัวแยกประเภทสองตัวสำหรับนัยสำคัญทางสถิติ ตัวแยกประเภททั้งสองทำงานในชุดข้อมูลเดียวกัน นำไปสู่การนี้ผมที่จะเชื่อว่าฉันควรจะใช้ตัวอย่างหนึ่ง t-test จากสิ่งที่ฉันได้รับการอ่าน ตัวอย่างเช่น: Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 นี่เป็นการทดสอบที่ถูกต้องที่จะใช้หรือไม่? ถ้าเป็นเช่นนั้นฉันจะคำนวณได้อย่างไรว่าความแตกต่างของความแม่นยำระหว่างลักษณนามมีความสำคัญ หรือฉันควรใช้การทดสอบอื่น?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.