เครื่องจักร / เทคนิคการเรียนรู้อย่างลึกซึ้ง / เทคนิค nlp ใช้ในการจำแนกคำที่กำหนดเป็นชื่อหมายเลขโทรศัพท์มือถือที่อยู่อีเมลรัฐเคาน์ตีเมือง ฯลฯ


9

ฉันกำลังพยายามสร้างแบบจำลองอัจฉริยะที่สามารถสแกนชุดคำหรือสตริงและจำแนกเป็นชื่อหมายเลขโทรศัพท์มือถือที่อยู่เมืองรัฐประเทศและหน่วยงานอื่น ๆ โดยใช้การเรียนรู้ของเครื่องจักรหรือการเรียนรู้เชิงลึก

ฉันค้นหาวิธีการ แต่น่าเสียดายที่ฉันไม่พบวิธีการใด ๆ ฉันได้ลองใช้กระเป๋าคำว่า model และ word glove เพื่อคาดเดาว่าสตริงนั้นเป็นชื่อหรือเมือง ฯลฯ

แต่ฉันไม่ประสบความสำเร็จกับรูปแบบถุงคำและด้วย GloVe มีชื่อมากมายที่ไม่ครอบคลุมในตัวอย่างการฝัง: - ลอเรนมีอยู่ในถุงมือและลอเรน่าไม่

ฉันพบโพสต์นี้ที่นี่ซึ่งมีคำตอบที่สมเหตุสมผล แต่ฉันไม่สามารถเข้าหาเพื่อแก้ไขปัญหานอกเหนือจากข้อเท็จจริงที่ว่ามีการใช้ NLP และ SVM เพื่อแก้ไขปัญหา

ข้อเสนอแนะใด ๆ ที่ชื่นชม

ขอขอบคุณและขอแสดงความนับถือ Sai Charan Adurthi


4
ไม่ใช่คำตอบ แต่นี่เรียกว่าการรับรู้ถึงชื่อที่มีชื่อ การค้นหาด้วยคำเหล่านั้นอาจทำให้ข้อมูลที่เป็นประโยชน์
kbrose

ขอบคุณ @kbrose จะพิจารณาเทคนิคการจดจำชื่อที่มีชื่อ
Sai Charan Adurthi

คำตอบ:


1

คุณสามารถใช้อักขระกรัม - โดยสังหรณ์ใจอาจมีความแตกต่างอย่างมากในชุดอักขระระหว่างหมายเลขโทรศัพท์และที่อยู่อีเมล จากนั้นส่งผ่านอักขระเวกเตอร์แกรมไปยัง SVM เพื่อคาดคะเน คุณสามารถใช้สิ่งนี้โดยใช้ใน sklearn โดยใช้ตัวแยกคุณลักษณะด้านล่าง

  1. TfIdfVectorizer (วิเคราะห์ = 'ตัวละคร')

  2. CountVectorizer (วิเคราะห์ = 'ตัวละคร')

ตรวจสอบความถูกต้องของช่วง ngram และตัวแปรหย่อนของ SVM เพื่อปรับแต่งแบบจำลองของคุณ


ขอบคุณ! @karthikbharadwaj ฉันกำลังทำงานโดยใช้ R จะดูเป็น sklearn และดูว่ามันใช้งานได้ไหม
Sai Charan Adurthi

@Sai Charan Adurthi - โปรดโหวตถ้าคุณคิดว่ามันมีประโยชน์และรับคำตอบถ้าคุณพบว่ามันมีประโยชน์
karthikbharadwaj

แน่นอนว่าจะทำมันอย่างแน่นอนเมื่อฉันตรวจสอบใน Python ...
38838 Sai Charan Adurthi

0

ใช้ป้ายกำกับเด็ดขาดทั่วไปคำมักจะเรียกชื่อนิติบุคคลได้รับการยอมรับ (NER)

NER สามารถทำได้โดยกฎแบบคงที่ (เช่นนิพจน์ทั่วไป) หรือกฎที่เรียนรู้ (เช่นแผนผังการตัดสินใจ) กฎเหล่านี้มักจะเปราะและไม่พูดคุยกัน Conditional Random Fields (CRF)มักจะเป็นทางออกที่ดีกว่าเพราะพวกเขาสามารถสร้างแบบจำลองสถานะแฝงของภาษา ปัจจุบันผลการดำเนินงานรัฐของศิลปะในNER จะทำด้วยการรวมกันของรูปแบบการเรียนรู้ลึก

Stanford ชื่อ Entity ลายมือและใจลอยเป็นแพคเกจที่จะดำเนินการ NER


ขอบคุณดร. สมอง! .. แต่ฉันต้องการสร้างแบบจำลองที่ใช้เพียงคำเดียวหรือคำของสายอักขระและทำนายว่าเป็นชื่อที่อยู่ ฯลฯ ฉันได้ลองใช้ NER โดยใช้ openNLP โดย Apache ในอาร์ฉันไม่ประสบความสำเร็จ ในนั้น. ย่อหน้าที่ต้องการคำเพื่อใช้ประโยชน์จากไวยากรณ์และบางส่วนของคำพูดฉันต้องการมีแบบจำลองที่สามารถเข้าใจสิ่งต่าง ๆ เช่นรหัสไปรษณีย์รหัสไปรษณีย์และรหัสรัฐ กำลังจะไปด้วยวิธีการที่เหมาะสมที่นี่ดร. สมอง?
Sai Charan Adurthi

คุณไม่ควรคิดถึงรูปแบบทั่วไปเพียงอย่างเดียว คุณควรสร้างแบบจำลองสำหรับองค์ประกอบแต่ละประเภท ตัวอย่างเช่นพบรหัสไปรษณีย์ส่วนใหญ่ที่มีนิพจน์ทั่วไป บริบทยังเป็นราชาแบบจำลองที่ให้คำเพียงคำเดียวจะทำงานได้ไม่ดีในการทำนาย NER มันจะดีกว่าที่จะมีข้อความขนาดใหญ่
Brian Spiering

สวัสดี @Dr สมองฉันได้ลองกับแพ็คเกจ text2vec สำหรับ R ฉันได้ใช้งานถุงมือของ Word ในการตรวจสอบความคล้ายคลึงกันของคำ ตัวอย่าง: ฉันมีข้อมูลรถไฟจำนวน 1,000 แถวที่มีหมวดหมู่เป็นชื่อเมืองรัฐประเทศ ฯลฯ ข้อมูลทดสอบที่มีค่าต่างกัน ฉันใช้ text2vec เพื่อสร้าง TCM สำหรับทั้งรถไฟทดสอบค่าข้อมูลจากนั้นใส่โมเดลถุงมือกับ TCM เหล่านั้นและตรวจสอบความเหมือนกันของแต่ละคำในข้อมูลทดสอบเพื่อฝึกอบรมข้อมูลตามหมวดหมู่โดยใช้ฟังก์ชันความคล้ายคลึงโคไซน์ แต่ฉันไม่สามารถบรรลุถึงความแม่นยำที่ดีและตัวแปรได้ทุกครั้งที่ฉันสร้างถุงมือรุ่นและตรวจสอบความคล้ายคลึงกัน
Sai Charan Adurthi

ขอบคุณ Dr.Brian ใช้งานได้ถ้าฉันใช้ประโยคเพื่อรับบริบทและใช้ NERs แต่ฉันต้องการทำโดยใช้คำพูดและดูว่าตัวแบบใดสามารถเรียนรู้รูปแบบจากคำศัพท์ได้
Sai Charan Adurthi

สวัสดี Brain ฉันใช้ Apache Open NLP เพื่อใช้โมเดล NER ที่ได้รับการฝึกอบรมมาล่วงหน้า และใช่มันทำงานกับคำเช่นกัน
Sai Charan Adurthi
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.