มีการแยกวิเคราะห์ข้อมูลภาษาธรรมชาติที่คงอยู่


12

ฉันเพิ่งเริ่มทดลองใช้การประมวลผลภาษาธรรมชาติ (NLP) โดยใช้CoreNLP ของ Stanfordและฉันสงสัยว่าวิธีมาตรฐานในการจัดเก็บ NLP แยกวิเคราะห์ข้อมูลสำหรับแอปพลิเคชันการทำเหมืองข้อความคืออะไร

วิธีหนึ่งที่ฉันคิดว่าน่าสนใจก็คือเก็บเด็กไว้ในรายการ adjacency และใช้ประโยชน์จากแบบสอบถามแบบเรียกซ้ำ (Postgres สนับสนุนสิ่งนี้และฉันคิดว่ามันใช้ได้ดีจริงๆ)

แต่ฉันคิดว่าอาจมีวิธีมาตรฐานหลายวิธีในการทำเช่นนี้ขึ้นอยู่กับประเภทของการวิเคราะห์ที่ได้รับการรับรองจากคนที่ทำงานในสาขานี้มาหลายปี ดังนั้นกลยุทธ์การติดตามาตรฐานสำหรับข้อมูลที่แยกวิเคราะห์ NLP คืออะไรและมีการใช้งานอย่างไร

คำตอบ:


3

ฉันเคยทำงานกับชุดเครื่องมือ NLP และพบปัญหาที่คุณอธิบาย ฉันคิดว่ามีสองวิธี (อย่างน้อย):

  • (วิธีการโดยนัย) ใช้การบันทึกความจำ

    ในภาษาการเขียนโปรแกรมที่ฟังก์ชั่นเป็นวัตถุชั้นหนึ่ง (เช่น Lua, Python หรือ Perl 1 ) การบันทึกอัตโนมัติสามารถดำเนินการได้โดยการแทนที่ (ในเวลาทำงาน) ฟังก์ชันที่มีค่าที่คำนวณได้เมื่อค่าถูกคำนวณสำหรับค่าที่กำหนด ชุดของพารามิเตอร์

    นี่เป็นวิธีที่ฉันใช้และสามารถนำไปใช้ได้อย่างรวดเร็ว ข้อเสียเปรียบคือโครงสร้างข้อมูลขนาดใหญ่บางอย่างจะยังคงอยู่บนดิสก์และในขณะที่การโหลดนั้นเป็นคำสั่งที่มีขนาดเร็วกว่าการคำนวณใหม่ แต่ก็ยังต้องใช้เวลา

  • (ชัดแจ้ง) ใช้ฐานข้อมูลบางส่วนไม่ว่าจะเป็นข้อมูลเชิงสัมพันธ์หรือเชิงเอกสารเพื่อจัดเก็บผลลัพธ์ทั้งหมดที่คุณอาจสนใจในอนาคต สิ่งนี้ต้องการความสนใจมากขึ้นในการเริ่มต้น แต่จะชำระในระยะยาว

อาจจะสนใจ:


แก้ไข: อีกสิ่งหนึ่งที่ผมเคยใช้เมื่อเร็ว ๆ นี้สำหรับหลายขั้นตอนระยะยาวคำนวณเป็นกรอบเวิร์กโฟลว์ที่มีอยู่หลายสิบ มันไม่ได้เกี่ยวกับการคงอยู่ แต่การมีอยู่เป็นขั้นตอนหนึ่งในเวิร์กโฟลว์ ฉันลองluigiเพื่อหาสิ่งนั้นและมันก็เกิดขึ้นเช่นกับผู้ช่วย Hadoop และ Postgres ซึ่งสามารถกำจัดรหัสสำเร็จรูปจำนวนมากได้


2

กลยุทธ์ที่ดีคือการใช้ฐานข้อมูลแบบย่อ / ขยายที่ดีและรู้ว่าเหมือนกับฐานข้อมูล NOSQL เช่น MongoDB หรือ CouchDB
ฐานข้อมูลเหล่านี้อนุญาตให้สร้างกฎการเข้ารหัสแบบง่าย ๆ ซึ่งข้อกำหนดเกี่ยวกับแผนที่และ adjacencies และกฎการเข้ารหัสแบบง่ายเพื่อลดข้อมูล (เช่น "กลุ่ม")

คุณสามารถเริ่มที่นี่:
http://www.mongodb.org/
http://wiki.apache.org/couchdb/

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.