แยกส่วนที่ให้ข้อมูลส่วนใหญ่ของข้อความจากเอกสาร


16

มีบทความหรือการสนทนาเกี่ยวกับการแยกส่วนของข้อความที่เก็บข้อมูลส่วนใหญ่เกี่ยวกับเอกสารปัจจุบันหรือไม่

ตัวอย่างเช่นฉันมีคลังเอกสารจำนวนมากจากโดเมนเดียวกัน มีข้อความบางส่วนที่เก็บข้อมูลสำคัญที่เอกสารพูดถึง ฉันต้องการแยกส่วนเหล่านั้นออกมาและใช้เป็นส่วนสรุปของข้อความ มีเอกสารที่มีประโยชน์เกี่ยวกับวิธีการบรรลุสิ่งนี้

มันจะมีประโยชน์จริง ๆ ถ้ามีคนชี้ให้ฉันไปในทิศทางที่ถูกต้องว่าฉันควรค้นหาหรืออ่านอะไรบ้างเพื่อรับข้อมูลเชิงลึกเกี่ยวกับงานที่อาจทำไปแล้วในการประมวลผลภาษาธรรมชาตินี้

คำตอบ:


23

สิ่งที่คุณอธิบายมักจะเกิดขึ้นได้จากการใช้TF-IDFและการสรุปแบบแยกง่าย

สรุป TF-IDF จะบอกคุณถึงความสำคัญสัมพัทธ์ของแต่ละคำในแต่ละเอกสารเมื่อเทียบกับส่วนที่เหลือของคลังข้อมูลของคุณ ณ จุดนี้คุณมีคะแนนสำหรับแต่ละคำในเอกสารแต่ละฉบับโดยประมาณว่า "ความสำคัญ" จากนั้นคุณสามารถใช้คะแนนคำศัพท์เหล่านี้เพื่อคำนวณคะแนนรวมสำหรับแต่ละประโยคโดยการรวมคะแนนของแต่ละคำในแต่ละประโยค ในที่สุดก็เพียงแค่ใช้ประโยคให้คะแนนสูงสุด -N จากเอกสารแต่ละฉบับเป็นบทสรุป

ปีก่อนหน้านี้ผมใส่กันโน๊ตบุ๊ค IPython ที่สิ้นสุดกับการดำเนินการนี้ในหลามใช้ NLTK และ Scikit เรียนรู้: รู้แค่หางอึ่งของ NLP ในหลาม


2
ใช่ว่าอาจจะเป็น ฉันยังสามารถเพิ่มน้ำหนักเพิ่มเติมให้กับคำบางคำซึ่งฉันรู้อยู่แล้วว่าเป็นข้อมูล ขอบคุณสำหรับความช่วยเหลือและลิงค์ที่มีประโยชน์ของคุณ
MaticDiba

ดังนั้นฉันสามารถใช้สิ่งนี้กับ pdf ได้ไหม? :)
อดัม

ใช่คุณสามารถใช้สิ่งนี้กับข้อความใน PDF โดยสมมติว่าคุณได้แยกข้อความธรรมดาจาก PDF โดยใช้ pdftotext แล้ว
Charlie Greenbacker

1

เทคนิคการดึงคำหลักจำนวนมากขึ้นอยู่กับปัจจัยเช่น:

  1. คุณภาพของข้อความไวยากรณ์
  2. ความยาวของข้อความ
  3. ไม่ว่าคุณกำลังมองหาคำหลักคำเดียวหรือวลีคำหลัก ฯลฯ

แต่โดยทั่วไปถ้าคุณมีข้อความยาวและคุณต้องการที่จะแยกคำหลักโดยอัตโนมัติจากนั้นฉันขอแนะนำให้คุณทำตามบทความ:

  1. TextRank

  2. RAKE [การแยกคำหลักอัตโนมัติอย่างรวดเร็ว]

  3. topica

นอกจากนี้ในการแยกคำหลัก (พิเศษ) ที่กำหนดเองซึ่งไม่ได้ผ่านเทคนิคด้านบนให้ดูที่โพสต์ด้านล่าง:

แยกคำหลักที่กำหนดเองโดยใช้เครื่องแท็ก POS ของ NLTK ในไพ ธ อน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.