การเขียนโปรแกรม nlp

18

Google“ คุณหมายถึงอะไร” อัลกอริทึมทำงานอย่างไร

ฉันพัฒนาเว็บไซต์ภายในสำหรับเครื่องมือการจัดการพอร์ตโฟลิโอ มีข้อมูลข้อความจำนวนมากชื่อ บริษัท ฯลฯ ฉันประทับใจในความสามารถของเครื่องมือค้นหาบางอย่างที่สามารถตอบคำถามได้อย่างรวดเร็วด้วย "คุณหมายถึง xxxx" หรือไม่ ฉันต้องสามารถใช้คิวรีผู้ใช้อย่างชาญฉลาดและตอบสนองไม่เพียง แต่ผลการค้นหาแบบดิบ แต่ยังมี "คุณหมายถึงอะไร" การตอบสนองเมื่อมีคำตอบอื่น ๆ ที่เป็นไปได้สูง [ฉันกำลังพัฒนาในASP.NET (VB - อย่าถือมันไว้กับฉัน!)] อัปเดต: ตกลงฉันจะเลียนแบบสิ่งนี้อย่างไรหากไม่มีผู้ใช้ที่ยังไม่ได้ชำระเงินนับล้าน สร้างคำที่พิมพ์ผิดสำหรับแต่ละคำที่ 'รู้จัก' หรือ 'ถูกต้อง' และทำการค้นหา? วิธีการอื่นที่หรูหรากว่านี้?

436 algorithm machine-learning nlp spell-checking text-search

10

วิธีคำนวณความคล้ายคลึงกันระหว่างเอกสารข้อความสองฉบับ?

ฉันกำลังมองหาที่ทำงานเกี่ยวกับโครงการ NLP ในภาษาการเขียนโปรแกรมใด ๆ (แม้ว่า Python จะเป็นความชอบของฉัน) ฉันต้องการเอกสารสองฉบับและกำหนดว่าเอกสารเหล่านี้คล้ายกันมากแค่ไหน

207 nlp

10

Java Stanford NLP: ส่วนหนึ่งของฉลากคำพูด?

Stanford NLP มีการสาธิตที่นี่ให้ผลลัพธ์ดังนี้: Colorless/JJ green/JJ ideas/NNS sleep/VBP furiously/RB ./. แท็กส่วนหนึ่งของคำพูดหมายถึงอะไร ฉันไม่พบรายชื่ออย่างเป็นทางการ มันเป็นระบบของสแตนฟอร์ดหรือว่าพวกเขาใช้แท็กสากล? ( JJตัวอย่างเช่นคืออะไร) นอกจากนี้เมื่อฉันวนซ้ำประโยคมองหาคำนามฉันจบลงด้วยการทำสิ่งที่ต้องการตรวจสอบเพื่อดูว่าแท็ก.contains('N')หรือไม่ มันรู้สึกอ่อนแอ มีวิธีที่ดีกว่าในการค้นหาคำพูดบางส่วนโดยทางโปรแกรมหรือไม่?

172 java nlp stanford-nlp part-of-speech

15

ตรวจจับพยางค์ในคำหนึ่งคำ

ฉันต้องการค้นหาวิธีที่มีประสิทธิภาพพอสมควรในการตรวจสอบพยางค์ในคำ เช่น, มองไม่เห็น -> in-vi-sib-le มีกฎบางพยางค์ที่สามารถใช้ได้: V CV VC CVC CCV CCCV CVCC * โดยที่ V คือเสียงสระและ C เป็นพยัญชนะ เช่น, การออกเสียง (5 Pro-nun-ci-a-tion; CV-CVC-CV-V-CVC) ฉันได้ลองวิธีการสองสามอย่างซึ่งใช้ regex (ซึ่งจะช่วยเฉพาะในกรณีที่คุณต้องการนับพยางค์) หรือการกำหนดกฎการเข้ารหัสแบบยาก (วิธีการบังคับแบบเดรัจฉานซึ่งพิสูจน์ให้เห็นว่าไม่มีประสิทธิภาพมาก) และสุดท้ายก็ใช้ออโต จำกัด ไม่ส่งผลกับสิ่งที่มีประโยชน์) แอปพลิเคชันของฉันมีวัตถุประสงค์เพื่อสร้างพจนานุกรมของพยางค์ทั้งหมดในภาษาที่กำหนด พจนานุกรมนี้จะใช้สำหรับการตรวจสอบการสะกดคำในภายหลัง (โดยใช้ตัวแยกประเภทเบส์) และการสังเคราะห์ข้อความเป็นคำพูด ฉันจะขอบคุณถ้ามีใครสามารถให้คำแนะนำในทางเลือกอื่นในการแก้ปัญหานี้นอกเหนือจากวิธีการก่อนหน้าของฉัน ฉันทำงานใน Java แต่เคล็ดลับใน C / C ++, C #, Python, Perl ... จะทำงานให้ฉัน

138 nlp spell-checking hyphenation

9

ความแตกต่างระหว่างการแทรกคำย่อกับการกั้นคืออะไร?

ฉันจะใช้แต่ละอันเมื่อใด นอกจากนี้ ... การย่อขนาดของ NLTK ขึ้นอยู่กับบางส่วนของคำพูดด้วยหรือไม่ มันจะไม่แม่นยำกว่านี้ไหมถ้าใช่

131 python nlp nltk lemmatization

6

Apple หาวันเวลาและที่อยู่ในอีเมลได้อย่างไร

ในไคลเอนต์อีเมล iOS เมื่ออีเมลมีวันที่เวลาหรือสถานที่ข้อความจะกลายเป็นการเชื่อมโยงหลายมิติและเป็นไปได้ที่จะสร้างการนัดหมายหรือดูแผนที่เพียงแค่แตะที่ลิงค์ มันไม่ได้ทำงานกับอีเมลที่เป็นภาษาอังกฤษเท่านั้น แต่ยังใช้ในภาษาอื่นด้วย ฉันชอบคุณสมบัตินี้และต้องการที่จะเข้าใจว่าพวกเขาทำได้อย่างไร วิธีที่ไร้เดียงสาในการทำเช่นนี้คือการมีการแสดงออกปกติและเรียกใช้พวกเขาทั้งหมด อย่างไรก็ตามฉันไม่สามารถปรับขนาดได้อย่างดีและจะทำงานเฉพาะภาษาหรือรูปแบบวันที่ที่เฉพาะเจาะจงเป็นต้นฉันคิดว่า Apple ต้องใช้แนวคิดของการเรียนรู้ของเครื่องเพื่อแยกหน่วยงาน (8:00 PM, 8PM, 8:00, 0800, 20:00, 20h, 20h00, 2000 ฯลฯ ) ความคิดใดที่ Apple สามารถดึงเอนทิตีในไคลเอนต์อีเมลได้อย่างรวดเร็ว อัลกอริทึมการเรียนรู้ด้วยเครื่องใดที่คุณต้องการใช้เพื่อให้บรรลุภารกิจดังกล่าว

128 machine-learning nlp information-extraction named-entity-recognition

11

วิธีกำจัดเครื่องหมายวรรคตอนโดยใช้โทเค็น NLTK

ฉันเพิ่งเริ่มใช้ NLTK และไม่ค่อยเข้าใจวิธีรับรายการคำจากข้อความ ถ้าฉันใช้nltk.word_tokenize()ฉันจะได้รับรายการคำและเครื่องหมายวรรคตอน ฉันต้องการเพียงคำพูดแทน ฉันจะกำจัดเครื่องหมายวรรคตอนได้อย่างไร ยังใช้word_tokenizeไม่ได้กับหลายประโยค: จุดจะถูกเพิ่มเข้าไปในคำสุดท้าย

125 python nlp tokenize nltk

1

ความแตกต่างระหว่างตัวแยกวิเคราะห์เขตเลือกตั้งและตัวแยกวิเคราะห์การพึ่งพา

ความแตกต่างระหว่างคืออะไรparser เขตเลือกตั้งและparser พึ่งพา ? การใช้งานที่แตกต่างกันของทั้งสองคืออะไร?

114 parsing nlp

2

Java หรือ Python สำหรับการประมวลผลภาษาธรรมชาติ [ปิด]

ปิด . คำถามนี้เป็นคำถามความคิดเห็นตาม ขณะนี้ยังไม่ยอมรับคำตอบ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบได้ด้วยข้อเท็จจริงและการอ้างอิงโดยแก้ไขโพสต์นี้ ปิดให้บริการใน6 ปีที่ผ่านมา ปรับปรุงคำถามนี้ ฉันต้องการทราบว่าภาษาโปรแกรมใดดีกว่าสำหรับการประมวลผลภาษาธรรมชาติ JavaหรือPython ? ฉันพบคำถามและคำตอบมากมายเกี่ยวกับเรื่องนี้ แต่ฉันยังคงหลงเลือกว่าจะใช้อันไหนดี และฉันต้องการทราบว่าไลบรารี NLP ใดที่จะใช้สำหรับ Java เนื่องจากมีไลบรารีจำนวนมาก (LingPipe, GATE, OpenNLP, StandfordNLP) สำหรับ Python โปรแกรมเมอร์ส่วนใหญ่แนะนำ NLTK แต่ถ้าฉันต้องการประมวลผลข้อความหรือดึงข้อมูลจากข้อมูลที่ไม่มีโครงสร้าง (เพียงแค่สร้างข้อความภาษาอังกฤษธรรมดาที่ไม่เสียค่าใช้จ่าย) เพื่อให้ได้ข้อมูลที่เป็นประโยชน์ตัวเลือกที่ดีที่สุดคืออะไร? Java หรือ Python? ห้องสมุดที่เหมาะสม? Updated สิ่งที่ฉันต้องการทำคือดึงข้อมูลผลิตภัณฑ์ที่เป็นประโยชน์จากข้อมูลที่ไม่มีโครงสร้าง (เช่นผู้ใช้สร้างโฆษณาในรูปแบบต่างๆเกี่ยวกับโทรศัพท์มือถือหรือแล็ปท็อปที่มีภาษาอังกฤษไม่ได้มาตรฐาน)

112 java python nlp

21

ฉันจะทำ word Stemming หรือ Lemmatization ได้อย่างไร?

ฉันได้ลอง PorterStemmer และ Snowball แล้ว แต่ทั้งคู่ใช้ไม่ได้กับทุกคำขาดคำที่ใช้บ่อยมาก คำทดสอบของฉันคือ: " cat running ran cactus cactuses cacti community community " และทั้งสองได้รับสิทธิน้อยกว่าครึ่งหนึ่ง ดูสิ่งนี้ด้วย: Stemming อัลกอริทึมที่สร้างคำจริง Stemming - ตัวอย่างโค้ดหรือโครงการโอเพ่นซอร์ส?

111 nlp stemming lemmatization

4

วิธีคำนวณความแม่นยำการเรียกคืนความแม่นยำและคะแนน f1 สำหรับกรณีหลายคลาสด้วย scikit Learn

ฉันกำลังทำงานในปัญหาการวิเคราะห์ความรู้สึกข้อมูลมีลักษณะดังนี้: label instances 5 1190 4 838 3 239 1 204 2 127 ดังนั้นข้อมูลของฉันจะไม่สมดุลตั้งแต่ 1190 ที่ถูกกำกับด้วยinstances 5สำหรับการจัดประเภทฉันใช้SVCของ scikit SVCปัญหาคือฉันไม่รู้ว่าจะปรับสมดุลข้อมูลของฉันอย่างไรให้ถูกต้องเพื่อคำนวณความแม่นยำการเรียกคืนความแม่นยำและคะแนน f1 สำหรับกรณีมัลติคลาสอย่างถูกต้อง ดังนั้นฉันจึงลองใช้วิธีต่อไปนี้: อันดับแรก: wclf = SVC(kernel='linear', C= 1, class_weight={1: 10}) wclf.fit(X, y) weighted_prediction = wclf.predict(X_test) print 'Accuracy:', accuracy_score(y_test, weighted_prediction) print 'F1 score:', f1_score(y_test, weighted_prediction,average='weighted') print 'Recall:', recall_score(y_test, weighted_prediction, average='weighted') print …

110 python machine-learning nlp artificial-intelligence scikit-learn

23

ฉันจะนำหน้าคำด้วย“ a” และ“ an” ให้ถูกต้องได้อย่างไร

ฉันมีแอปพลิเคชั่น. NET ที่หากมีคำนามฉันต้องการให้มันนำหน้าคำนั้นด้วย "a" หรือ "an" อย่างถูกต้อง ฉันจะทำอย่างไร ก่อนที่คุณจะคิดว่าคำตอบคือเพียงตรวจสอบว่าตัวอักษรตัวแรกเป็นสระหรือไม่ให้พิจารณาวลีต่างๆเช่น: ความผิดพลาดโดยสุจริต รถมือสอง

94 c# nlp linguistics

3

จะฝึก Stanford Parser กับ Genia Corpus ได้อย่างไร

ฉันมีปัญหาในการสร้างโมเดลใหม่สำหรับ Stanford Parser ฉันได้ดาวน์โหลดเวอร์ชันล่าสุดจาก Stanford แล้ว: http://nlp.stanford.edu/software/lex-parser.shtml และที่นี่ Genia Corpus ใน 2 รูปแบบ xml และ ptb (Penn Treebank) Standford Parser สามารถฝึกกับไฟล์ ptd; จากนั้นฉันดาวน์โหลด Genia Corpus เพราะฉันต้องการทำงานกับข้อความชีวการแพทย์: http://categorizer.tmit.bme.hu/~illes/genia_ptb/ (ลิงก์ไม่สามารถใช้ได้อีกต่อไป) (genia_ptb.tar.gz) จากนั้นฉันมีคลาสหลักสั้น ๆ เพื่อรับการแสดงการพึ่งพาของประโยคชีวการแพทย์หนึ่งประโยค: String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb"; Treebank tr = op.tlpParams.diskTreebank(); tr.loadPath(treebankPath); LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op); ฉันลองหลายวิธีแล้ว แต่ก็ได้ผลลัพธ์เหมือนเดิมเสมอ ฉันมีข้อผิดพลาดในบรรทัดสุดท้าย นี่คือผลลัพธ์ของฉัน: Currently Fri Jun …

93 java nlp stanford-nlp

3

word2vec: การสุ่มตัวอย่างเชิงลบ (ในระยะคนธรรมดา)?

ฉันกำลังอ่านบทความด้านล่างและฉันมีปัญหาในการทำความเข้าใจแนวคิดของการสุ่มตัวอย่างเชิงลบ http://arxiv.org/pdf/1402.3722v1.pdf ใครช่วยได้โปรด?

91 machine-learning nlp word2vec

18

Stanford Parser และ NLTK

เป็นไปได้ไหมที่จะใช้ Stanford Parser ใน NLTK (ฉันไม่ได้พูดถึง Stanford POS)

90 python parsing nlp nltk stanford-nlp

คำถามติดแท็ก nlp