คำถามติดแท็ก nlp

การประมวลผลภาษาธรรมชาติ (NLP) เป็นสาขาวิทยาศาสตร์คอมพิวเตอร์, ปัญญาประดิษฐ์และภาษาศาสตร์ที่เกี่ยวข้องกับการมีปฏิสัมพันธ์ระหว่างคอมพิวเตอร์และภาษามนุษย์ (ธรรมชาติ) ด้วยเหตุนี้ NLP จึงเกี่ยวข้องกับการปฏิสัมพันธ์ระหว่างมนุษย์และคอมพิวเตอร์ ความท้าทายหลายอย่างใน NLP เกี่ยวข้องกับการเข้าใจภาษาธรรมชาตินั่นคือทำให้คอมพิวเตอร์ได้รับความหมายจากการป้อนข้อมูลภาษามนุษย์หรือภาษาธรรมชาติและอื่น ๆ ที่เกี่ยวข้องกับการสร้างภาษาธรรมชาติ

2
แยกสตริงที่ยอมรับจากรายการของสตริงที่มีเสียงดัง
ฉันมีหลายพันรายการของสตริงและแต่ละรายการมีประมาณ 10 สาย สตริงส่วนใหญ่ในรายการที่กำหนดจะคล้ายกันมากแม้ว่าบางสตริงจะไม่ค่อยเกี่ยวข้องกับสตริงอื่นและบางคำมีคำที่ไม่เกี่ยวข้อง พวกเขาอาจถูกพิจารณาว่าเป็นความแปรปรวนของสตริงที่ยอมรับได้ ฉันกำลังมองหาอัลกอริทึมหรือไลบรารีที่จะแปลงแต่ละรายการเป็นสตริงที่ยอมรับได้ นี่คือหนึ่งในรายการดังกล่าว Star Wars: Episode IV ความหวังใหม่ StarWars.com Star Wars Episode IV - ความหวังใหม่ (1977) Star Wars: Episode IV - ความหวังใหม่ - มะเขือเทศเน่า ดู Star Wars: Episode IV - ความหวังใหม่ออนไลน์ฟรี Star Wars (1977) - ภาพยนตร์ยอดเยี่ยม [REC] โปสเตอร์ 4 ใบรับประกันความตายโดย Outboard Motor - SciFiNow สำหรับรายการนี้สตริงใด ๆ …

1
จะกำหนดความซับซ้อนของประโยคภาษาอังกฤษได้อย่างไร?
ฉันทำงานใน app เพื่อช่วยให้คนเรียนรู้ภาษาอังกฤษเป็นภาษาที่สอง ฉันตรวจสอบแล้วว่าประโยคช่วยในการเรียนรู้ภาษาโดยให้บริบทเพิ่มเติม ฉันทำอย่างนั้นโดยการทำวิจัยเล็ก ๆ ในห้องเรียน 60 คน ฉันขุดกว่าแสนประโยคจากวิกิพีเดียสำหรับคำภาษาอังกฤษที่หลากหลาย (รวมถึง Barrons'800 คำและ 1,000 คำที่พบบ่อยที่สุดในอังกฤษ) ข้อมูลทั้งหมดสามารถดูได้ที่https://buildmyvocab.in เพื่อรักษาคุณภาพของเนื้อหาฉันได้กรองประโยคที่มีความยาวเกิน 160 ตัวอักษรเนื่องจากอาจเข้าใจยาก ในขั้นตอนต่อไปฉันต้องการให้กระบวนการเรียงลำดับเนื้อหานี้เป็นไปโดยอัตโนมัติเพื่อให้ง่ายต่อการเข้าใจ ฉันเป็นคนพูดภาษาอังกฤษที่ไม่ใช่เจ้าของภาษา ฉันต้องการทราบว่าคุณลักษณะใดที่ฉันสามารถใช้เพื่อแยกประโยคง่าย ๆ ออกจากประโยคที่ยาก คุณคิดว่ามันเป็นไปได้ไหม

5
วิธีสร้างรายการ stopwords ที่ดี
ฉันกำลังมองหาคำแนะนำเกี่ยวกับวิธีการจัดการรายการคำหยุด มีใครรู้ / ใครบ้างที่สามารถแนะนำวิธีการที่ดีในการแยกรายการคำหยุดจากชุดข้อมูลสำหรับการประมวลผลและการกรองล่วงหน้าได้หรือไม่? ข้อมูล: การป้อนข้อความของมนุษย์จำนวนมากที่มีความยาวผันแปร (searchterms และทั้งประโยค (สูงสุด 200 ตัวอักษร)) ในช่วงหลายปีที่ผ่านมา ข้อความประกอบด้วยสแปมจำนวนมาก (เช่นอินพุตจากบอตคำเดียวการค้นหาโง่การค้นหาผลิตภัณฑ์ ... ) และดูเหมือนว่าจะมีประโยชน์เพียงไม่กี่% เท่านั้น ฉันรู้ว่าบางครั้งผู้คนค้นหาด้านของฉันด้วยการถามคำถามเจ๋ง ๆ คำถามเหล่านี้เจ๋งมากฉันคิดว่ามันคุ้มค่าที่จะมองลึกลงไปในพวกเขาเพื่อดูว่าผู้คนค้นหาในช่วงเวลาใดและหัวข้อที่ผู้คนสนใจในการใช้เว็บไซต์ของฉัน ปัญหาของฉัน: คือฉันกำลังดิ้นรนกับการประมวลผลล่วงหน้า (เช่นการทิ้งสแปม) ฉันได้ลองใช้รายการคำหยุดจากเว็บ (NLTK เป็นต้น) แล้ว แต่สิ่งเหล่านี้ไม่ได้ช่วยตอบสนองความต้องการของฉันเกี่ยวกับชุดข้อมูลนี้ ขอบคุณสำหรับความคิดและการสนทนาของคุณ!

1
ใช้ Vowpal Wabbit สำหรับ NER
Vowpal Wabbit (VW) เห็นได้ชัดว่าสนับสนุนการทำงานลำดับการติดแท็กผ่านSEARN ปัญหาคือฉันไม่สามารถหารายการพารามิเตอร์แบบละเอียดที่ใดก็ได้พร้อมคำอธิบายและตัวอย่างบางส่วน สิ่งที่ดีที่สุดที่ฉันสามารถหาได้คือบล็อกของ Zinkovพร้อมตัวอย่างสั้น ๆ หน้าวิกิพีเดียหลักแทบจะไม่กล่าวถึง SEARN ในซอร์สโค้ดที่ตรวจสอบแล้วฉันพบโฟลเดอร์สาธิตพร้อมข้อมูลตัวอย่าง NER บางส่วน น่าเสียดายที่สคริปต์ที่รันการทดสอบทั้งหมดไม่แสดงวิธีการทำงานกับข้อมูลนี้ อย่างน้อยมันก็มีข้อมูลเพียงพอที่จะเห็นรูปแบบที่คาดไว้: เกือบจะเหมือนกับรูปแบบข้อมูล VW มาตรฐานยกเว้นว่ารายการนั้นคั่นด้วยบรรทัดว่าง (นี่เป็นสิ่งสำคัญ) ความเข้าใจปัจจุบันของฉันคือการเรียกใช้คำสั่งต่อไปนี้: cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \ --searn_passes_per_policy 2 -b 30 -f twpos.vw ที่ไหน --searn 25 - จำนวนป้ายกำกับ NER ทั้งหมด (?) --searn_task sequence - งานติดแท็กตามลำดับ …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.