ฉันจะได้รับข้อความตัวอย่างชุดที่หลากหลายได้ที่ไหน [ปิด]


14

ฉันกำลังพยายามรวบรวมสถิติเกี่ยวกับลำดับตัวอักษรหรือคำที่ใช้ในภาษาอังกฤษเพื่อใช้ในโครงการซอฟต์แวร์

ฉันจะได้รับจำนวนมาก (หลาย GB น่าจะดี) ของข้อความล้วนภาษาอังกฤษที่ครอบคลุมหัวข้อที่หลากหลายได้อย่างไร


3
ยังไงก็เถอะฉันรู้สึกว่าคุณจะเพลิดเพลินไปกับภาพประกอบเหล่านี้ โดยเฉพาะ
ยานนิส

@ Yannis Rizos เหล่านี้ยอดเยี่ยม: D
JSideris

@ Yannis Rizos โอ้พวกเขาน่ารัก ...
sevenseacat

@YannisRizos นี้ถูกปิดไม่กี่ปีที่ผ่านมา ในที่สุดฉันก็ได้แก้ไขคำถามเพื่อให้มีความเฉพาะเจาะจงมากขึ้นและดีขึ้นสำหรับรูปแบบ QA ฉันจะยกเลิกการปิดตอนนี้ได้หรือไม่? (คุณเป็นคนเดียวในกระทู้นี้ที่ยังคงเป็นผู้ดูแล)
JSideris

คำตอบ:


19

คุณสามารถใช้วิกิพีเดียทิ้งข้อมูล การถ่ายโอนข้อมูล XML สำหรับวิกิพีเดียภาษาอังกฤษที่มีการแก้ไขปัจจุบันเพียงประมาณ 31 GB ดังนั้นฉันจึงบอกว่ามันจะเป็นการเริ่มต้นที่ดีสำหรับการวิจัยของคุณ data dump ค่อนข้างใหญ่ดังนั้นคุณควรพิจารณาแยกข้อความจาก XML ด้วยตัวแยกวิเคราะห์ SAX WikiXMLJเป็น Java API ที่ปรับได้สะดวกสำหรับ Wikipedia

แล้วแน่นอนว่ายังมีอยู่เสมอกองทิ้งแลกเปลี่ยนข้อมูล ล่าสุดหนึ่งรวมถึงประชาชนที่ไม่ใช่เบต้าเว็บไซต์กองการแลกเปลี่ยนทั้งหมดและสอดคล้องเว็บไซต์ Meta ขึ้นจนถึงเดือนกันยายน 2011 แต่ธรรมชาติโพสต์กองแลกเปลี่ยนที่มีความเข้มข้นในขอบเขตของแต่ละเว็บไซต์ดังนั้นอาจจะไม่เป็นที่ทั่วไปตามที่คุณต้องการ แม้ว่าการโพสต์เมตาจะค่อนข้างกว้างกว่าเล็กน้อยดังนั้นคุณสามารถพิจารณาเพิ่มเติมจาก Wikipedia ได้

ฉันไม่คิดว่าคุณจะพบอะไรที่ดีขึ้นโดยเฉพาะอย่างยิ่งในข้อความธรรมดา มีชุดข้อมูลเปิดหลายชุดที่มีอยู่ใน Data Hubแต่ฉันคิดว่าดัมพ์ข้อมูลภาษาอังกฤษ Wikipedia นั้นใกล้เคียงกับสิ่งที่คุณต้องการ


1
เหล่านี้คือแหล่งข้อมูลที่ยอดเยี่ยม
hanzolo

กองซ้อนในขณะที่กว้างขวางกำลังจะครอบคลุมเขตข้อมูลที่แคบมากของวาทกรรม (ตามความจำเป็น) ดังนั้นพวกเขาอาจไม่พูดคุยกันได้ดี
jonsca

โอ้พระเจ้าที่รักไฟล์เหล่านี้มีขนาดใหญ่มาก! ทันทีที่ฉันสามารถหาวิธีเปิดพวกเขาและกรองอึ xml ทั้งหมดนี้ควรใช้งานได้ดี ขอบคุณ!
JSideris

1
@Bizorke ดีใจที่ฉันสามารถช่วย เมื่อเสร็จแล้วคุณควรอัปเดตคำถามพร้อมลิงก์ไปยังงานวิจัยของคุณ
yannis

5

Googleมีชุดของข้อมูลที่ใช้ในการพิจารณาความน่าจะเป็น n-gram การตรวจสอบชุดข้อมูล bigram (2 กรัม) ของพวกเขาควรให้ภาพที่ดีแก่คุณ มี corpi อื่น ๆ อีกมากมายที่มีการวิเคราะห์เหล่านี้ได้ทำไปแล้ว


3
ฉันแค่เขียนสิ่งเดียวกัน
jcmeloni

@jcmeloni สุดยอดจิตใจ!
jonsca

5

Project Gutenbergมีคลังข้อความขนาดใหญ่เป็นภาษาอังกฤษอยู่ในรูปแบบข้อความแล้ว

Project Gutenberg มี ebooks ฟรีกว่า 42,000 เล่มเลือกหนังสือ epub ฟรีหนังสือ kindle ฟรีดาวน์โหลดหรืออ่านออนไลน์

เรามี ebooks คุณภาพสูง: ebooks ทั้งหมดของเราได้รับการเผยแพร่ก่อนหน้านี้โดยผู้เผยแพร่ bona fide เราแปลงเป็นดิจิทัลและพิสูจน์อักษรอย่างขยันขันแข็งด้วยความช่วยเหลือของอาสาสมัครหลายพันคน ...


1
ฉันคิดเกี่ยวกับ Project Gutenberg แต่ฉันไม่พบการถ่ายโอนข้อมูลที่เข้มข้น และสำหรับหนังสือที่จะรวมเข้าด้วยกันลิขสิทธิ์จะต้องหมดอายุและโดยทั่วไปนั่นหมายความว่า 50 ถึง 70 ปีผ่านไปตั้งแต่หนังสือตีพิมพ์ครั้งแรก ดังนั้นฉันจึงไม่คิดว่าเป็นชุดข้อมูล Project Gutenberg เป็นตัวแทนของภาษาที่ใช้ในปัจจุบัน
yannis

1
หากคุณต้องการบางสิ่งที่เป็น "ตัวแทนของภาษาที่ใช้กันในปัจจุบัน" ลองใช้ความคิดเห็นของ YouTube เศร้า แต่จริง
Jörg W Mittag

@ JörgWMittag - อุ๊ปส์ สิ่งที่รบกวนจิตใจฉันจริงๆก็คือคุณไม่ผิดหรอก
Michael Kohne

@ Jörg W Mittag เป็นไปได้ แต่แล้วคำบางคำเฉพาะสำหรับ youtube จะเกิดขึ้นบ่อยมากเช่น: YO OU UT TU UB BE หรือแย่กว่านั้น: FA AK KE AN ND GA AY
JSideris

1

สำหรับสถิติคุณอาจดูที่ "Bigram Frequency ในภาษาอังกฤษ" ดูที่: Wiki-Bigram Stats

สำหรับการค้นหาข้อความขนาดใหญ่โปรดทราบว่าความถี่นั้นจะลำเอียงกับประเภทของข้อความ ตัวอย่างเช่นหากคุณวิเคราะห์ที่อยู่คุณจะได้รับผลลัพธ์ที่แตกต่างจากการวิเคราะห์เรื่องราวในหนังสือพิมพ์ หากคุณต้องการทดสอบคุณสามารถใช้ไฟล์ PDF ของหนังสือเล่มใดก็ได้ (ดีกว่าไม่ใช่คณิตศาสตร์หรือโปรแกรมหรือหนังสือทางการแพทย์) แล้วแปลงเป็นข้อความจากนั้นทำการทดสอบ คุณสามารถแปลงหน้าเว็บหนังสือพิมพ์เป็นข้อความและทำงานกับสิ่งเหล่านั้นได้


2
ใช่ฉันรู้ว่าผลลัพธ์จะมีอคติ ฉันต้องการทรัพยากรที่ครอบคลุมวิชามากที่สุด ฉันคิดว่าการดาวน์โหลดหนังสืออิเล็กทรอนิกส์หลายเล่มปัญหาหลักคือการแปลงพวกเขาทั้งหมดเป็นข้อความ แต่มันจะไม่เจ็บที่จะค้นหาสถิติ bigram (ฉันไม่ทราบว่าเป็นสิ่งที่เรียกว่า 2 ตัวอักษรรวมกัน)
JSideris

ขอบคุณสำหรับความคิดเห็นของคุณ. คุณสามารถแปลง PDF เป็นข้อความโดยใช้ไฟล์ -> บันทึกเป็นข้อความในโปรแกรมอ่าน ADOBE PDF ลิงค์นี้อาจมีค่าเช่นกัน: data-compression.com/english.html
NoChance

@EmmadKareem OP กำลังขอข้อความหลาย GB คุณแนะนำอย่างจริงจังให้เขาใช้ Adobe Reader เพื่อแยกข้อความจาก PDF หรือไม่
yannis

@ YanisRizos ฉันไม่ได้สังเกตว่าหลาย GB เป็นข้อกำหนดที่จำเป็น หากเป็นกรณีนี้มีเครื่องมือที่ดีกว่าที่สามารถใช้เพื่อจุดประสงค์นี้ ขอบคุณที่ชี้นำสิ่งนี้
NoChance
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.