จะหาคลังข้อความขนาดใหญ่ได้ที่ไหน [ปิด]


16

ฉันกำลังมองหาคลังข้อความขนาดใหญ่ (> 1,000) ดาวน์โหลด โดยเฉพาะอย่างยิ่งกับข่าวโลกหรือชนิดของบางรายงาน ฉันพบเพียงสิทธิบัตรเดียวเท่านั้น ข้อเสนอแนะใด ๆ


เธรดนี้ดูเหมือนจะไม่อยู่หัวข้อ ดูmeta.stats.stackexchange.com/questions/1032/
whuber

คำถามนี้ดูเหมือนจะไม่เป็นหัวข้อเพราะเป็นเรื่องเกี่ยวกับการค้นหาชุดข้อมูลแทนที่จะทำการวิเคราะห์ทางสถิติ
Peter Flom - Reinstate Monica

2
นั่นเป็นเรื่องที่น่าอึดอัดใจเพราะคำถาม & คำตอบนี้มีประโยชน์จริงๆ
แทรกบ๊อบ

@guaka โปรดอย่าชนโพสต์เก่าดังกล่าวสำหรับการแก้ไขเล็กน้อยโดยเฉพาะโพสต์ที่ถูกปิด มันเป็นความจริงที่สไตล์ของเราไม่ควรมี "ขอบคุณ" แต่สำหรับสิ่งเล็ก ๆ น้อย ๆ นี้เราแค่ทิ้งมันไว้
gung - Reinstate Monica

คำตอบ:



6

สิ่งที่เกี่ยวกับวิกิ ? นี่คือฐานข้อมูลล่าสุดที่ฉันสามารถหาได้: http://dumps.wikimedia.org/enwikinews/20111120/

คุณอาจต้องการ "หน้าทั้งหมด, เวอร์ชั่นปัจจุบันเท่านั้น" - เวอร์ชัน


สิ่งนี้ไม่ทำงานอีกต่อไป
vy32

dump link ไม่ทำงานอีกต่อไป ชุดข้อมูลตามภูมิภาคมีขนาดเล็กและล้าสมัย
HappyCoding

6

คลังข้อความของรอยเตอร์เป็นคลาสสิกในสนามและสามารถพบได้ที่นี่


มันไม่ใช่คลังข้อมูลที่น่าสนใจที่สุด (หรือหลากหลาย) ใบอนุญาตนี้ยังมีข้อ จำกัด ที่เกี่ยวข้องกับ Wikileaks (สาธารณสมบัติเอกสาร US บาท) หรือ wikinews
ariddell

@ ariddell ฉันเห็นด้วย แต่มักใช้ในตัวอย่าง NLP เบื้องต้นและมีขนาดใหญ่พอที่จะเป็นประโยชน์ในการเรียนรู้ แต่เล็กพอที่จะวิเคราะห์บนแล็ปท็อปที่ดี
richiemorrisroe


1

หากความใหม่ไม่ใช่ปัญหาคุณสามารถลอง

http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version

และมีชุดข้อมูลที่คล้ายคลึงกันอื่น ๆ อีกมากมายในชุดข้อมูลขึ้นอยู่กับงบประมาณของคุณ

ขอแสดงความนับถือแอนดี้


สิ่งนี้ใช้ไม่ได้อีกต่อไป
vy32

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.