แยกส่วนที่ให้ข้อมูลส่วนใหญ่ของข้อความจากเอกสาร

16

มีบทความหรือการสนทนาเกี่ยวกับการแยกส่วนของข้อความที่เก็บข้อมูลส่วนใหญ่เกี่ยวกับเอกสารปัจจุบันหรือไม่

ตัวอย่างเช่นฉันมีคลังเอกสารจำนวนมากจากโดเมนเดียวกัน มีข้อความบางส่วนที่เก็บข้อมูลสำคัญที่เอกสารพูดถึง ฉันต้องการแยกส่วนเหล่านั้นออกมาและใช้เป็นส่วนสรุปของข้อความ มีเอกสารที่มีประโยชน์เกี่ยวกับวิธีการบรรลุสิ่งนี้

มันจะมีประโยชน์จริง ๆ ถ้ามีคนชี้ให้ฉันไปในทิศทางที่ถูกต้องว่าฉันควรค้นหาหรืออ่านอะไรบ้างเพื่อรับข้อมูลเชิงลึกเกี่ยวกับงานที่อาจทำไปแล้วในการประมวลผลภาษาธรรมชาตินี้

nlp text-mining

— MaticDiba
แหล่งที่มา

23

สิ่งที่คุณอธิบายมักจะเกิดขึ้นได้จากการใช้TF-IDFและการสรุปแบบแยกง่าย

สรุป TF-IDF จะบอกคุณถึงความสำคัญสัมพัทธ์ของแต่ละคำในแต่ละเอกสารเมื่อเทียบกับส่วนที่เหลือของคลังข้อมูลของคุณ ณ จุดนี้คุณมีคะแนนสำหรับแต่ละคำในเอกสารแต่ละฉบับโดยประมาณว่า "ความสำคัญ" จากนั้นคุณสามารถใช้คะแนนคำศัพท์เหล่านี้เพื่อคำนวณคะแนนรวมสำหรับแต่ละประโยคโดยการรวมคะแนนของแต่ละคำในแต่ละประโยค ในที่สุดก็เพียงแค่ใช้ประโยคให้คะแนนสูงสุด -N จากเอกสารแต่ละฉบับเป็นบทสรุป

ปีก่อนหน้านี้ผมใส่กันโน๊ตบุ๊ค IPython ที่สิ้นสุดกับการดำเนินการนี้ในหลามใช้ NLTK และ Scikit เรียนรู้: รู้แค่หางอึ่งของ NLP ในหลาม

— Charlie Greenbacker
แหล่งที่มา

2

ใช่ว่าอาจจะเป็น ฉันยังสามารถเพิ่มน้ำหนักเพิ่มเติมให้กับคำบางคำซึ่งฉันรู้อยู่แล้วว่าเป็นข้อมูล ขอบคุณสำหรับความช่วยเหลือและลิงค์ที่มีประโยชน์ของคุณ

— MaticDiba

ดังนั้นฉันสามารถใช้สิ่งนี้กับ pdf ได้ไหม? :)

— อดัม

ใช่คุณสามารถใช้สิ่งนี้กับข้อความใน PDF โดยสมมติว่าคุณได้แยกข้อความธรรมดาจาก PDF โดยใช้ pdftotext แล้ว

— Charlie Greenbacker

1

เทคนิคการดึงคำหลักจำนวนมากขึ้นอยู่กับปัจจัยเช่น:

คุณภาพของข้อความไวยากรณ์
ความยาวของข้อความ
ไม่ว่าคุณกำลังมองหาคำหลักคำเดียวหรือวลีคำหลัก ฯลฯ

แต่โดยทั่วไปถ้าคุณมีข้อความยาวและคุณต้องการที่จะแยกคำหลักโดยอัตโนมัติจากนั้นฉันขอแนะนำให้คุณทำตามบทความ:

TextRank
RAKE [การแยกคำหลักอัตโนมัติอย่างรวดเร็ว]
topica

นอกจากนี้ในการแยกคำหลัก (พิเศษ) ที่กำหนดเองซึ่งไม่ได้ผ่านเทคนิคด้านบนให้ดูที่โพสต์ด้านล่าง:

แยกคำหลักที่กำหนดเองโดยใช้เครื่องแท็ก POS ของ NLTK ในไพ ธ อน

— Anindya
แหล่งที่มา