แนะนำชุดข้อมูลการฝึกอบรมตัวจําแนกข้อความ


9

ชุดข้อมูลใดที่ฉันสามารถใช้เพื่อฝึกตัวแยกประเภทข้อความได้อย่างอิสระ

เราพยายามปรับปรุงการมีส่วนร่วมของผู้ใช้โดยแนะนำเนื้อหาที่เกี่ยวข้องมากที่สุดสำหรับเขาดังนั้นเราจึงคิดว่าถ้าเราจัดหมวดหมู่เนื้อหาตามคำที่กำหนดไว้ล่วงหน้าเราสามารถแนะนำให้เขามีส่วนร่วมเนื้อหาโดยรับข้อเสนอแนะของเขา ก่อน.

เราสามารถใช้ข้อมูลนี้เพื่อแนะนำให้เขาติดป้ายกำกับที่มีคลาสเหล่านั้น แต่เราพบว่าหากเราใช้ถุงคำที่กำหนดไว้ล่วงหน้าซึ่งไม่เกี่ยวข้องกับเนื้อหาของเราเวกเตอร์คุณลักษณะจะเต็มไปด้วยเลขศูนย์หมวดหมู่อาจไม่เกี่ยวข้องกับเนื้อหาของเรา ดังนั้นด้วยเหตุผลเหล่านั้นเราจึงลองใช้วิธีแก้ไขปัญหาอื่นซึ่งจะทำการจัดกลุ่มเนื้อหาของเราไม่แยกประเภท

ขอบคุณ :)


1
ฉันคิดว่ารายละเอียดเพิ่มเติมเกี่ยวกับปัญหาของคุณมีความจำเป็นก่อนที่ใครจะแนะนำชุดข้อมูล
Neil Slater

3
เพื่อจุดประสงค์อะไร? ตัวกรองสแปม การวิเคราะห์ความเชื่อมั่น? โดยไม่ต้องมีวัตถุประสงค์ที่ชัดเจนมันเป็นมากยากที่จะขอแนะนำชุดข้อมูล
lsdr

@lsdr ดูคำตอบดูเหมือนว่าคำถามไม่จำเป็นต้องมีรายละเอียดเพิ่มเติม
อาเมียร์อาลีอัคบารี

@AmirAliAkbari ฉันคิดว่าพวกเขามาหลังจากแก้ไข ฉันได้ถอนการโหวตอย่างใกล้ชิดของฉันแล้ว
รูเบนส์

สถานที่ที่เหมาะสมกว่าสำหรับคำถามนี้คือopendata.stackexchange.com
sheldonkreger

คำตอบ:


14

ชุดข้อมูลมาตรฐานบางชุดสำหรับการจัดประเภทข้อความ ได้แก่ กลุ่ม 20-News, Reuters (พร้อมคลาส 8 และ 52) และ WebKb คุณสามารถค้นหาทั้งหมดของพวกเขาที่นี่


ขอบคุณ :) ฉันเคยเข้าชมมาก่อนแล้ว แต่ฉันพบว่าการจำแนกประเภทอ่อนแอไม่เป็นนามธรรมมากพอหรืออาจไม่เกี่ยวข้องกับเนื้อหาของฉัน
Abdelmawla

7

หนึ่งในคอลเลกชันทดสอบที่ใช้กันอย่างแพร่หลายที่สุดสำหรับการวิจัยการจัดหมวดหมู่ข้อความ (ลิงก์ด้านล่าง) ฉันใช้หลายครั้ง เพลิดเพลินไปกับการสำรวจของคุณ :)

http://www.daviddlewis.com/resources/testcollections/reuters21578/ หรือ http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection


5

มีพวงของชุดข้อมูลที่ทำฟรีโดย UC Irvine เป็นที่จะเล่นกับที่นี่ ในบรรดาชุดข้อมูลเหล่านั้นมีชุดข้อมูลที่เป็นข้อความสองสามโหลที่อาจช่วยให้คุณทำงานของคุณได้

นั่นเป็นชุดข้อมูลทั่วไปดังนั้นขึ้นอยู่กับวัตถุประสงค์ของคุณไม่ควรใช้เป็นข้อมูลเดียวในการฝึกอบรมโมเดลของคุณหรืออื่น ๆ โมเดลของคุณ - ในขณะที่มันอาจใช้งานได้ - จะไม่ให้ผลลัพธ์ที่มีคุณภาพ


1

นอกเหนือจากคำแนะนำข้างต้นแล้วยังมีไฟล์ PDF ที่เป็นประโยชน์อย่างมาก - การรวบรวมข้อความสำหรับการจัดประเภทและการทำคลัสเตอร์ซึ่งมีชุดข้อมูลต่าง ๆ พร้อมกับการวัดประสิทธิภาพเพื่อทดสอบแบบจำลองของเรา ซึ่งรวมถึงคอลเลกชัน 20ng, สำนักข่าวรอยเตอร์และชุดข้อมูลที่แนะนำข้างต้นจำนวนมาก ฉันหวังว่ามันจะช่วย!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.