การแยกคำหลัก / วลีจากข้อความโดยใช้ห้องสมุดการเรียนรู้ลึก


20

บางทีนี่อาจจะกว้างเกินไป แต่ฉันกำลังมองหาข้อมูลอ้างอิงเกี่ยวกับวิธีใช้การเรียนรู้อย่างลึกซึ้งในงานการสรุปข้อความ

ฉันได้ใช้การสรุปข้อความโดยใช้วิธีการหาคำแบบมาตรฐานและการจัดอันดับประโยค แต่ฉันต้องการสำรวจความเป็นไปได้ของการใช้เทคนิคการเรียนรู้เชิงลึกสำหรับงานนี้ ฉันได้ผ่านการใช้งานบางอย่างที่ให้ไว้ในwildml.comโดยใช้ Convolutional Neural Networks (CNN) สำหรับการวิเคราะห์ความเชื่อมั่น ฉันต้องการทราบวิธีใช้ไลบรารีเช่น TensorFlow หรือ Theano สำหรับการสรุปข้อความและการแยกคำหลัก เป็นเวลาประมาณหนึ่งสัปดาห์แล้วที่ฉันเริ่มทดลองกับ Neural nets และฉันตื่นเต้นมากที่เห็นว่าประสิทธิภาพของห้องสมุดเหล่านี้เปรียบเทียบกับวิธีก่อนหน้าของฉันกับปัญหานี้อย่างไร

ฉันกำลังมองหาเอกสารที่น่าสนใจและโครงการ GitHub ที่เกี่ยวข้องกับการสรุปข้อความโดยเฉพาะอย่างยิ่งโดยใช้กรอบงานเหล่านี้ ใครช่วยให้ฉันมีการอ้างอิงบางอย่าง?

คำตอบ:


15

บล็อก Google วิจัยควรจะเป็นประโยชน์ในบริบทของTensorFlow

ในบทความข้างต้นมีการอ้างอิงถึง ชุดข้อมูลภาษาอังกฤษ Gigawordซึ่งมีการใช้งานเป็นประจำสำหรับการสรุปข้อความ

บทความปี 2557 โดยSutskever et alมีชื่อว่าSequence to Sequence Learning กับ Neural Networksอาจเป็นจุดเริ่มต้นที่มีความหมายในการเดินทางของคุณเนื่องจากปรากฎว่าข้อความสั้น ๆ สามารถสรุปการเรียนรู้แบบ end-to-end ด้วยเทคนิคการเรียนรู้ลึก

สุดท้ายนี่คือที่เก็บ Github ที่ยอดเยี่ยมซึ่งแสดงให้เห็นถึงการสรุปข้อความขณะใช้ TensorFlow


16

นี่เป็นพื้นที่เปิดการวิจัยและแน่นอนขึ้นอยู่กับวิธีที่คุณกำหนดปัญหา หากคุณกำลังพูดถึงการสรุปเอกสารหลายฉบับปัญหาจะแตกต่างกันเล็กน้อยหากคุณกำลังพูดถึงการสรุปเอกสารเดี่ยว

มันคุ้มค่าที่จะทบทวนวรรณกรรมสั้น ๆ

ลิงค์ที่จัดทำโดยu / Society Of Data นักวิทยาศาสตร์นั้นยอดเยี่ยมและเป็นประโยชน์สำหรับงานสรุปเชิงนามธรรมในเอกสารชิ้นเดียว นอกจากนี้ยังมีการทำงานกับการสรุปแบบแยกย่อยซึ่งระบุประโยคที่สำคัญในการแยก

รีบเร่งและ อัลมีกระดาษที่ดีในการสรุปนามธรรมกับความสนใจซึ่งจะขึ้นอยู่กับการเรียนรู้ลึก

สำหรับการสรุปแบบแยกย่อยคุณสามารถใช้ LSTM เพื่อสร้างตัวแยกประเภทของคุณและใช้ไลบรารี TensorFlow / Torch มาตรฐาน แต่ดูเหมือนจะไม่มีสิ่งพิมพ์ใด ๆ ในปัจจุบันเกี่ยวกับการใช้การเรียนรู้ลึกสำหรับแนวทางนี้

นี่คือ repos GitHub เพิ่มเติมบางส่วน:


ขอบคุณ @ franciscojavierarceo ฉันจะดูเอกสารที่กล่าวถึงข้างต้น
shanky_thebearer

4

เสียงแบบนี้เป็นการสรุปที่แยกออกมาได้มากกว่าหากคุณกำลังมองหาคำสำคัญ นี่คือเอกสารบางส่วนที่อาจมีการใช้งาน:

การสรุประบบประสาทด้วยการแยกประโยคและคำ

สรุปแบบแยกย่อยโดยใช้การเรียนรู้ลึก

เครือข่ายนิวรัลแบบ Convolutional ภายใต้การดูแลสำหรับการจัดหมวดหมู่ข้อความผ่านการฝังภูมิภาค

นอกจากนี้ SpaCy (ไม่มีส่วนเกี่ยวข้อง) มีบล็อกที่ดีเกี่ยวกับสถาปัตยกรรมทั่วไปของงานการแยกข้อความ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.