คำถามติดแท็ก text-mining

หมายถึงส่วนย่อยของ data mining ที่เกี่ยวข้องกับการดึงข้อมูลจากข้อมูลในรูปแบบของข้อความโดยการจดจำรูปแบบ เป้าหมายของการทำเหมืองข้อความมักจะจัดประเภทเอกสารที่กำหนดเป็นหนึ่งในจำนวนหมวดหมู่ในวิธีการอัตโนมัติและเพื่อปรับปรุงประสิทธิภาพนี้แบบไดนามิกทำให้มันเป็นตัวอย่างของการเรียนรู้ของเครื่อง ตัวอย่างหนึ่งของการขุดข้อความแบบนี้คือตัวกรองสแปมที่ใช้สำหรับอีเมล

1
จะกำหนดความซับซ้อนของประโยคภาษาอังกฤษได้อย่างไร?
ฉันทำงานใน app เพื่อช่วยให้คนเรียนรู้ภาษาอังกฤษเป็นภาษาที่สอง ฉันตรวจสอบแล้วว่าประโยคช่วยในการเรียนรู้ภาษาโดยให้บริบทเพิ่มเติม ฉันทำอย่างนั้นโดยการทำวิจัยเล็ก ๆ ในห้องเรียน 60 คน ฉันขุดกว่าแสนประโยคจากวิกิพีเดียสำหรับคำภาษาอังกฤษที่หลากหลาย (รวมถึง Barrons'800 คำและ 1,000 คำที่พบบ่อยที่สุดในอังกฤษ) ข้อมูลทั้งหมดสามารถดูได้ที่https://buildmyvocab.in เพื่อรักษาคุณภาพของเนื้อหาฉันได้กรองประโยคที่มีความยาวเกิน 160 ตัวอักษรเนื่องจากอาจเข้าใจยาก ในขั้นตอนต่อไปฉันต้องการให้กระบวนการเรียงลำดับเนื้อหานี้เป็นไปโดยอัตโนมัติเพื่อให้ง่ายต่อการเข้าใจ ฉันเป็นคนพูดภาษาอังกฤษที่ไม่ใช่เจ้าของภาษา ฉันต้องการทราบว่าคุณลักษณะใดที่ฉันสามารถใช้เพื่อแยกประโยคง่าย ๆ ออกจากประโยคที่ยาก คุณคิดว่ามันเป็นไปได้ไหม

1
word2vec ต้องการข้อมูลการฝึกอบรมเท่าใด
ฉันต้องการเปรียบเทียบความแตกต่างระหว่างคำเดียวกันที่กล่าวถึงในแหล่งข้อมูลที่แตกต่างกัน นั่นคือวิธีที่ผู้เขียนต่างกันในการใช้คำที่ไม่ถูกต้องเช่น "ประชาธิปไตย" แผนสั้น ๆ คือ นำหนังสือที่พูดถึงคำว่า "ประชาธิปไตย" เป็นข้อความธรรมดา ในหนังสือแต่ละเล่มให้แทนที่democracyด้วยdemocracy_%AuthorName% ฝึกฝนword2vecโมเดลในหนังสือเหล่านี้ คำนวณระยะทางระหว่างdemocracy_AuthorA, democracy_AuthorBและการกล่าวถึง relabeled อื่น ๆ ของ "ประชาธิปไตย" ดังนั้น "ประชาธิปไตย" ของผู้เขียนแต่ละคนจึงได้เวกเตอร์ของตัวเองซึ่งใช้สำหรับการเปรียบเทียบ แต่ดูเหมือนว่าword2vecจะต้องมีมากกว่าหนังสือหลายเล่ม (แต่ละคำที่มีป้ายกำกับใหม่เกิดขึ้นเฉพาะในชุดย่อยของหนังสือ) เพื่อฝึกฝนเวกเตอร์ที่เชื่อถือได้ หน้าอย่างเป็นทางการขอแนะนำชุดข้อมูลรวมทั้งพันล้านคำ ฉันแค่อยากจะถามว่าหนังสือชุดหนึ่งของผู้แต่งเล่มหนึ่งมีขนาดใหญ่เท่าไรในการอนุมานด้วยword2vecหรือเครื่องมือทางเลือกถ้ามี

2
เครื่องจักร / เทคนิคการเรียนรู้อย่างลึกซึ้ง / เทคนิค nlp ใช้ในการจำแนกคำที่กำหนดเป็นชื่อหมายเลขโทรศัพท์มือถือที่อยู่อีเมลรัฐเคาน์ตีเมือง ฯลฯ
ฉันกำลังพยายามสร้างแบบจำลองอัจฉริยะที่สามารถสแกนชุดคำหรือสตริงและจำแนกเป็นชื่อหมายเลขโทรศัพท์มือถือที่อยู่เมืองรัฐประเทศและหน่วยงานอื่น ๆ โดยใช้การเรียนรู้ของเครื่องจักรหรือการเรียนรู้เชิงลึก ฉันค้นหาวิธีการ แต่น่าเสียดายที่ฉันไม่พบวิธีการใด ๆ ฉันได้ลองใช้กระเป๋าคำว่า model และ word glove เพื่อคาดเดาว่าสตริงนั้นเป็นชื่อหรือเมือง ฯลฯ แต่ฉันไม่ประสบความสำเร็จกับรูปแบบถุงคำและด้วย GloVe มีชื่อมากมายที่ไม่ครอบคลุมในตัวอย่างการฝัง: - ลอเรนมีอยู่ในถุงมือและลอเรน่าไม่ ฉันพบโพสต์นี้ที่นี่ซึ่งมีคำตอบที่สมเหตุสมผล แต่ฉันไม่สามารถเข้าหาเพื่อแก้ไขปัญหานอกเหนือจากข้อเท็จจริงที่ว่ามีการใช้ NLP และ SVM เพื่อแก้ไขปัญหา ข้อเสนอแนะใด ๆ ที่ชื่นชม ขอขอบคุณและขอแสดงความนับถือ Sai Charan Adurthi

4
แนะนำชุดข้อมูลการฝึกอบรมตัวจําแนกข้อความ
ชุดข้อมูลใดที่ฉันสามารถใช้เพื่อฝึกตัวแยกประเภทข้อความได้อย่างอิสระ เราพยายามปรับปรุงการมีส่วนร่วมของผู้ใช้โดยแนะนำเนื้อหาที่เกี่ยวข้องมากที่สุดสำหรับเขาดังนั้นเราจึงคิดว่าถ้าเราจัดหมวดหมู่เนื้อหาตามคำที่กำหนดไว้ล่วงหน้าเราสามารถแนะนำให้เขามีส่วนร่วมเนื้อหาโดยรับข้อเสนอแนะของเขา ก่อน. เราสามารถใช้ข้อมูลนี้เพื่อแนะนำให้เขาติดป้ายกำกับที่มีคลาสเหล่านั้น แต่เราพบว่าหากเราใช้ถุงคำที่กำหนดไว้ล่วงหน้าซึ่งไม่เกี่ยวข้องกับเนื้อหาของเราเวกเตอร์คุณลักษณะจะเต็มไปด้วยเลขศูนย์หมวดหมู่อาจไม่เกี่ยวข้องกับเนื้อหาของเรา ดังนั้นด้วยเหตุผลเหล่านั้นเราจึงลองใช้วิธีแก้ไขปัญหาอื่นซึ่งจะทำการจัดกลุ่มเนื้อหาของเราไม่แยกประเภท ขอบคุณ :)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.