ฉันกำลังพยายามรวบรวมสถิติเกี่ยวกับลำดับตัวอักษรหรือคำที่ใช้ในภาษาอังกฤษเพื่อใช้ในโครงการซอฟต์แวร์
ฉันจะได้รับจำนวนมาก (หลาย GB น่าจะดี) ของข้อความล้วนภาษาอังกฤษที่ครอบคลุมหัวข้อที่หลากหลายได้อย่างไร
ฉันกำลังพยายามรวบรวมสถิติเกี่ยวกับลำดับตัวอักษรหรือคำที่ใช้ในภาษาอังกฤษเพื่อใช้ในโครงการซอฟต์แวร์
ฉันจะได้รับจำนวนมาก (หลาย GB น่าจะดี) ของข้อความล้วนภาษาอังกฤษที่ครอบคลุมหัวข้อที่หลากหลายได้อย่างไร
คำตอบ:
คุณสามารถใช้วิกิพีเดียทิ้งข้อมูล การถ่ายโอนข้อมูล XML สำหรับวิกิพีเดียภาษาอังกฤษที่มีการแก้ไขปัจจุบันเพียงประมาณ 31 GB ดังนั้นฉันจึงบอกว่ามันจะเป็นการเริ่มต้นที่ดีสำหรับการวิจัยของคุณ data dump ค่อนข้างใหญ่ดังนั้นคุณควรพิจารณาแยกข้อความจาก XML ด้วยตัวแยกวิเคราะห์ SAX WikiXMLJเป็น Java API ที่ปรับได้สะดวกสำหรับ Wikipedia
แล้วแน่นอนว่ายังมีอยู่เสมอกองทิ้งแลกเปลี่ยนข้อมูล ล่าสุดหนึ่งรวมถึงประชาชนที่ไม่ใช่เบต้าเว็บไซต์กองการแลกเปลี่ยนทั้งหมดและสอดคล้องเว็บไซต์ Meta ขึ้นจนถึงเดือนกันยายน 2011 แต่ธรรมชาติโพสต์กองแลกเปลี่ยนที่มีความเข้มข้นในขอบเขตของแต่ละเว็บไซต์ดังนั้นอาจจะไม่เป็นที่ทั่วไปตามที่คุณต้องการ แม้ว่าการโพสต์เมตาจะค่อนข้างกว้างกว่าเล็กน้อยดังนั้นคุณสามารถพิจารณาเพิ่มเติมจาก Wikipedia ได้
ฉันไม่คิดว่าคุณจะพบอะไรที่ดีขึ้นโดยเฉพาะอย่างยิ่งในข้อความธรรมดา มีชุดข้อมูลเปิดหลายชุดที่มีอยู่ใน Data Hubแต่ฉันคิดว่าดัมพ์ข้อมูลภาษาอังกฤษ Wikipedia นั้นใกล้เคียงกับสิ่งที่คุณต้องการ
Project Gutenbergมีคลังข้อความขนาดใหญ่เป็นภาษาอังกฤษอยู่ในรูปแบบข้อความแล้ว
Project Gutenberg มี ebooks ฟรีกว่า 42,000 เล่มเลือกหนังสือ epub ฟรีหนังสือ kindle ฟรีดาวน์โหลดหรืออ่านออนไลน์
เรามี ebooks คุณภาพสูง: ebooks ทั้งหมดของเราได้รับการเผยแพร่ก่อนหน้านี้โดยผู้เผยแพร่ bona fide เราแปลงเป็นดิจิทัลและพิสูจน์อักษรอย่างขยันขันแข็งด้วยความช่วยเหลือของอาสาสมัครหลายพันคน ...
สำหรับสถิติคุณอาจดูที่ "Bigram Frequency ในภาษาอังกฤษ" ดูที่: Wiki-Bigram Stats
สำหรับการค้นหาข้อความขนาดใหญ่โปรดทราบว่าความถี่นั้นจะลำเอียงกับประเภทของข้อความ ตัวอย่างเช่นหากคุณวิเคราะห์ที่อยู่คุณจะได้รับผลลัพธ์ที่แตกต่างจากการวิเคราะห์เรื่องราวในหนังสือพิมพ์ หากคุณต้องการทดสอบคุณสามารถใช้ไฟล์ PDF ของหนังสือเล่มใดก็ได้ (ดีกว่าไม่ใช่คณิตศาสตร์หรือโปรแกรมหรือหนังสือทางการแพทย์) แล้วแปลงเป็นข้อความจากนั้นทำการทดสอบ คุณสามารถแปลงหน้าเว็บหนังสือพิมพ์เป็นข้อความและทำงานกับสิ่งเหล่านั้นได้