คำถามติดแท็ก nlp

การประมวลผลภาษาธรรมชาติ (NLP) เป็นสาขาวิทยาศาสตร์คอมพิวเตอร์, ปัญญาประดิษฐ์และภาษาศาสตร์ที่เกี่ยวข้องกับการมีปฏิสัมพันธ์ระหว่างคอมพิวเตอร์และภาษามนุษย์ (ธรรมชาติ) ด้วยเหตุนี้ NLP จึงเกี่ยวข้องกับการปฏิสัมพันธ์ระหว่างมนุษย์และคอมพิวเตอร์ ความท้าทายหลายอย่างใน NLP เกี่ยวข้องกับการเข้าใจภาษาธรรมชาตินั่นคือทำให้คอมพิวเตอร์ได้รับความหมายจากการป้อนข้อมูลภาษามนุษย์หรือภาษาธรรมชาติและอื่น ๆ ที่เกี่ยวข้องกับการสร้างภาษาธรรมชาติ

1
Word2Vec กับ Sentence2Vec กับ Doc2Vec
ฉันเพิ่งเจอคำศัพท์Word2Vec , Sentence2VecและDoc2Vecและสับสนเพราะฉันยังใหม่กับซีแมนทิกส์เวกเตอร์ ใครช่วยได้โปรดอธิบายความแตกต่างของวิธีการเหล่านี้ด้วยคำพูดง่ายๆ งานที่เหมาะสมที่สุดสำหรับแต่ละวิธีคืออะไร

5
ขั้นตอนวิธีปฏิบัติที่ดีที่สุดสำหรับความคล้ายคลึงของประโยค
ฉันมีสองประโยคคือ S1 และ S2 ซึ่งทั้งคู่มีจำนวนคำ (ปกติ) ต่ำกว่า 15 อะไรคืออัลกอริทึมที่มีประโยชน์และประสบความสำเร็จมากที่สุด (การเรียนรู้ของเครื่อง) ซึ่งอาจง่ายต่อการติดตั้ง (เครือข่ายประสาทเทียมก็โอเคยกเว้นว่าสถาปัตยกรรมนั้นซับซ้อนพอ ๆ กับ Google Inception เป็นต้น) ฉันกำลังมองหาอัลกอริทึมที่จะทำงานได้ดีโดยไม่ต้องใช้เวลามากเกินไป มีอัลกอริทึมใดบ้างที่คุณประสบความสำเร็จและใช้งานง่าย? สิ่งนี้สามารถทำได้ แต่ไม่จำเป็นต้องอยู่ในหมวดหมู่ของการทำคลัสเตอร์ พื้นหลังของฉันมาจากการเรียนรู้ของเครื่องดังนั้นคำแนะนำใด ๆ ยินดีต้อนรับ :)

1
NLP - ทำไม "ไม่" เป็นคำหยุด
ฉันพยายามลบคำหยุดก่อนที่จะทำการสร้างแบบจำลองหัวข้อ ฉันสังเกตเห็นว่าบางคำที่ถูกปฏิเสธ (ไม่ใช่, ไม่, ไม่, ไม่เคยมี ฯลฯ ) ถือเป็นคำที่หยุด ตัวอย่างเช่น NLTK, spacy และ sklearn รวมถึง "not" ในรายการคำที่หยุด อย่างไรก็ตามหากเราลบ "ไม่" ออกจากประโยคด้านล่างพวกเขาจะสูญเสียความหมายที่สำคัญและนั่นจะไม่ถูกต้องสำหรับการสร้างแบบจำลองหัวข้อหรือการวิเคราะห์ความเชื่อมั่น 1). StackOverflow is helpful => StackOverflow helpful 2). StackOverflow is not helpful => StackOverflow helpful ใครช่วยอธิบายหน่อยได้ไหมว่าทำไมคำคัดค้านเหล่านี้จึงถูกพิจารณาว่าเป็นคำที่หยุด?

4
ปรับปรุงความเร็วของการนำ t-sne ไปใช้ในไพ ธ อนสำหรับข้อมูลขนาดใหญ่
ฉันอยากจะลดมิติข้อมูลลงบนเวกเตอร์เกือบ 1 ล้านตัวที่มี 200 มิติ ( doc2vec) ฉันใช้TSNEการใช้งานจากsklearn.manifoldโมดูลสำหรับมันและปัญหาที่สำคัญคือความซับซ้อนของเวลา ถึงแม้จะมีmethod = barnes_hutความเร็วในการคำนวณยังต่ำ บางครั้งถึงแม้หน่วยความจำจะหมด ฉันใช้งานบนโปรเซสเซอร์ 48 คอร์ที่มี RAM 130G มีวิธีเรียกใช้แบบขนานหรือใช้ประโยชน์จากทรัพยากรที่มีอยู่มากมายเพื่อเร่งกระบวนการให้เร็วขึ้น

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
NLP - Gazetteer โกงหรือไม่?
ใน NLP มีแนวคิดGazetteerที่จะมีประโยชน์มากสำหรับการสร้างคำอธิบายประกอบ เท่าที่ฉันเข้าใจ: นักหนังสือพิมพ์ประกอบด้วยชุดของรายการที่มีชื่อของเอนทิตีเช่นเมือง, องค์กร, วันของสัปดาห์ ฯลฯ รายการเหล่านี้จะใช้ในการเกิดขึ้นของชื่อเหล่านี้ในข้อความเช่นสำหรับงานของการรับรู้นิติบุคคลที่มีชื่อ ดังนั้นมันจึงเป็นการค้นหา การโกงแบบนี้ไม่ใช่หรือ ถ้าเราใช้Gazetteerสำหรับการตรวจสอบหน่วยงานที่ชื่อนั้นมีไม่มากNatural Language Processingที่เกิดขึ้น เป็นการดีที่ฉันต้องการตรวจสอบเอนทิตีที่มีชื่อโดยใช้NLPเทคนิค มิฉะนั้นแล้วมันจะดีกว่าตัวจับรูปแบบ regex อย่างไร

2
แยกส่วนที่ให้ข้อมูลส่วนใหญ่ของข้อความจากเอกสาร
มีบทความหรือการสนทนาเกี่ยวกับการแยกส่วนของข้อความที่เก็บข้อมูลส่วนใหญ่เกี่ยวกับเอกสารปัจจุบันหรือไม่ ตัวอย่างเช่นฉันมีคลังเอกสารจำนวนมากจากโดเมนเดียวกัน มีข้อความบางส่วนที่เก็บข้อมูลสำคัญที่เอกสารพูดถึง ฉันต้องการแยกส่วนเหล่านั้นออกมาและใช้เป็นส่วนสรุปของข้อความ มีเอกสารที่มีประโยชน์เกี่ยวกับวิธีการบรรลุสิ่งนี้ มันจะมีประโยชน์จริง ๆ ถ้ามีคนชี้ให้ฉันไปในทิศทางที่ถูกต้องว่าฉันควรค้นหาหรืออ่านอะไรบ้างเพื่อรับข้อมูลเชิงลึกเกี่ยวกับงานที่อาจทำไปแล้วในการประมวลผลภาษาธรรมชาตินี้
16 nlp  text-mining 

3
ความแตกต่างระหว่าง RNNs การสร้างข้อความที่อิงกับคำและการเขียนคืออะไร?
ในขณะที่อ่านเกี่ยวกับการสร้างข้อความด้วยเครือข่ายประสาทที่เกิดขึ้นอีกฉันสังเกตเห็นว่ามีตัวอย่างบางส่วนที่ถูกนำไปใช้เพื่อสร้างคำแบบข้อความต่อคำและตัวละครอื่น ๆ เป็นตัวละครโดยไม่ได้ระบุว่าทำไม ดังนั้นสิ่งที่เป็นความแตกต่างระหว่างรุ่น RNN ที่คาดการณ์ข้อความต่อคำพื้นฐานและคนที่คาดการณ์ข้อความต่อถ่านพื้นฐาน? การใช้ RNN แบบคำต้องใช้ขนาดคลังใหญ่กว่าหรือไม่? RNN ที่ใช้ถ่านเป็นแบบอย่างที่ดีกว่าหรือไม่? บางทีความแตกต่างเพียงอย่างเดียวคือการป้อนข้อมูล (การเข้ารหัสแบบร้อนแรงหรือการใส่คำศัพท์) รายการใดที่จะเลือกสำหรับการสร้างข้อความ

4
ความคล้ายคลึงกันระหว่างสองคำ
ฉันกำลังมองหาห้องสมุด Python ที่ช่วยฉันระบุความเหมือนกันระหว่างสองคำหรือประโยค ฉันจะทำการแปลงไฟล์เสียงเป็นข้อความซึ่งจะส่งผลให้เกิดพจนานุกรมภาษาอังกฤษหรือคำศัพท์ที่ไม่ใช่พจนานุกรม (ซึ่งอาจเป็นชื่อบุคคลหรือชื่อ บริษัท ) หลังจากนั้นฉันต้องเปรียบเทียบกับคำหรือคำที่รู้จัก ตัวอย่าง: 1) ข้อความที่จะส่งผลเสียง: ขอขอบคุณสำหรับการโทรขยายอเมริกา จะได้รับเมื่อเทียบกับอเมริกันเอ็กซ์เพรส ทั้งสองประโยคมีความคล้ายคลึงกัน แต่ไม่เหมือนกัน ดูเหมือนว่าฉันอาจต้องดูจำนวนตัวอักษรที่พวกเขาแบ่งปัน ความคิดใด ๆ ที่จะดี ดูเหมือนว่าฟังก์ชั่นเช่นการค้นหาของ Google "คุณหมายถึง" คุณสมบัติ
15 nlp  nltk 

5
การทำนายความคล้ายคลึงกันของประโยค
ฉันกำลังมองหาที่จะแก้ปัญหาต่อไปนี้: ฉันมีชุดประโยคเป็นชุดข้อมูลของฉันและฉันต้องการที่จะสามารถพิมพ์ประโยคใหม่และค้นหาประโยคที่ประโยคใหม่คล้ายกับในชุดข้อมูล ตัวอย่างจะมีลักษณะดังนี้: ประโยคใหม่: " I opened a new mailbox" การทำนายขึ้นอยู่กับชุดข้อมูล: Sentence | Similarity A dog ate poop 0% A mailbox is good 50% A mailbox was opened by me 80% ฉันได้อ่านว่าโคไซน์ที่คล้ายคลึงกันสามารถใช้ในการแก้ปัญหาประเภทนี้ที่จับคู่กับ tf-idf (และ RNN ไม่ควรนำการปรับปรุงที่สำคัญไปใช้กับวิธีการพื้นฐาน) หรือword2vecใช้สำหรับปัญหาที่คล้ายกัน สิ่งเหล่านี้มีประโยชน์สำหรับการใช้งานในกรณีนี้หรือไม่ มีเทคนิค / อัลกอริธึมอื่น ๆ ที่จะแก้ปัญหานี้ (โดยเฉพาะกับ Python และ SKLearn แต่ฉันเปิดกว้างเพื่อเรียนรู้เกี่ยวกับ TensorFlow ด้วย)

4
วิธีเริ่มต้นรุ่น word2vec ใหม่ด้วยน้ำหนักแบบฝึกอบรมล่วงหน้า?
ฉันใช้ Gensim Library ในหลามเพื่อใช้และฝึกอบรม word2vector model เมื่อเร็ว ๆ นี้ฉันกำลังดูที่การเริ่มต้นน้ำหนักแบบจำลองของฉันด้วยแบบจำลอง word2vec ที่ผ่านการฝึกอบรมล่วงหน้าเช่น (รุ่น GoogleNewDataset แบบฝึกที่มีการฝึกฝน) ฉันดิ้นรนกับมันสองสามสัปดาห์ ตอนนี้ฉันเพิ่งค้นพบว่าใน gesim มีฟังก์ชั่นที่สามารถช่วยฉันเริ่มต้นน้ำหนักของแบบจำลองของฉันด้วยน้ำหนักแบบจำลองที่ผ่านการฝึกอบรมมาแล้ว ที่กล่าวถึงด้านล่าง: reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. ฉันไม่รู้ว่าฟังก์ชั่นนี้สามารถทำสิ่งเดียวกันได้หรือไม่ กรุณาช่วย!!!

2
คุณสมบัติใดที่ใช้โดยทั่วไปจากต้นการแยกวิเคราะห์ในกระบวนการจำแนกใน NLP
ฉันกำลังสำรวจโครงสร้างต้นไม้แยกวิเคราะห์ประเภทต่างๆ โครงสร้างการแยกวิเคราะห์ต้นไม้ที่รู้จักกันอย่างกว้างขวางทั้งสองคือก) การแยกวิเคราะห์ต้นไม้ตามโครงสร้างและข) โครงสร้างการแยกวิเคราะห์ต้นไม้ที่ขึ้นอยู่กับการพึ่งพา ฉันสามารถใช้สร้างโครงสร้างการแยกวิเคราะห์ต้นไม้ทั้งสองชนิดโดยใช้แพ็คเกจ Stanford NLP อย่างไรก็ตามฉันไม่แน่ใจว่าจะใช้โครงสร้างต้นไม้เหล่านี้สำหรับงานการจัดหมวดหมู่ของฉันได้อย่างไร ตัวอย่างเช่นถ้าฉันต้องการวิเคราะห์ความเชื่อมั่นและต้องการจัดหมวดหมู่ข้อความเป็นคลาสบวกและลบฉันสามารถใช้คุณลักษณะใดได้บ้างจากโครงสร้างการแยกวิเคราะห์ต้นไม้สำหรับงานการจัดหมวดหมู่ของฉัน

1
อะไรคือเลเยอร์ Convolutional 1D ในการเรียนรู้เชิงลึก?
ฉันมีความเข้าใจโดยทั่วไปเกี่ยวกับบทบาทและกลไกของเลเยอร์ convolutional ใน Deep Learning สำหรับการประมวลผลภาพในกรณีที่มีการใช้งาน 2D หรือ 3D พวกเขา "เพียงแค่" พยายามจับรูปแบบ 2D ในภาพ (ใน 3 ช่องในกรณี 3D) แต่เมื่อเร็ว ๆ นี้ฉันชนกับชั้น 1D ในบริบทของการประมวลผลภาษาธรรมชาติซึ่งเป็นเรื่องที่แปลกใจสำหรับฉันเพราะในการทำความเข้าใจของฉันการบิด 2D ถูกนำมาใช้เป็นพิเศษในการจับรูปแบบ 2D ที่เป็นไปไม่ได้ ของพิกเซลภาพ อะไรคือตรรกะที่อยู่เบื้องหลัง 1D convolution?

3
ภาษาธรรมชาติในการสืบค้น SQL
ฉันทำงานพัฒนาระบบ "การแปลงภาษาธรรมชาติเป็น SQL Query" ฉันได้อ่านคำตอบจากคำถามที่คล้ายกัน แต่ไม่สามารถรับข้อมูลที่ฉันต้องการได้ ด้านล่างคือแผนผังลำดับงานสำหรับระบบดังกล่าวซึ่งฉันได้รับจากAlgorithm เพื่อแปลงภาษาธรรมชาติให้เป็นแบบสอบถาม SQL สำหรับฐานข้อมูลเชิงสัมพันธ์โดย Garima Singh, Arun Solanki ฉันเข้าใจจนเป็นส่วนหนึ่งของขั้นตอนการติดแท็กคำพูด แต่ฉันจะเข้าใกล้ขั้นตอนที่เหลือได้อย่างไร ฉันจำเป็นต้องฝึกเคียวรี SQL ที่เป็นไปได้ทั้งหมดหรือไม่? หรือเมื่อส่วนหนึ่งของการติดแท็กคำพูดเสร็จสิ้นฉันต้องเล่นกับคำและสร้างแบบสอบถาม SQL? แก้ไข: ฉันได้ติดตั้งจาก "ขั้นตอน" ผู้ใช้แบบสอบถาม "ถึง" ส่วนหนึ่งของการติดแท็กคำพูด "สำเร็จแล้ว ขอบคุณ.

1
ดังนั้นสิ่งที่จับกับ LSTM?
ฉันกำลังขยายความรู้ของฉันเกี่ยวกับแพคเกจ Keras และฉันใช้เครื่องมือกับรุ่นที่มีอยู่ ฉันมีปัญหาการจำแนกเลขฐานสองแบบ NLP ที่ฉันพยายามแก้ไขและใช้โมเดลที่แตกต่างกัน หลังจากทำงานกับผลลัพธ์และอ่านเพิ่มเติมเกี่ยวกับ LSTM มากขึ้นดูเหมือนว่าวิธีการนี้ดีกว่าสิ่งอื่น ๆ ที่ฉันได้ลอง (ในชุดข้อมูลหลายชุด) ฉันคิดกับตัวเองอยู่เสมอว่า "ทำไม / เมื่อไหร่คุณจะไม่ใช้ LSTM" การใช้ประตูเพิ่มเติมซึ่งเป็นของ LSTM ทำให้ฉันมีความรู้สึกสมบูรณ์แบบหลังจากมีบางรุ่นที่ต้องทนทุกข์ทรมานจากการไล่ระดับสีที่หายไป ดังนั้นสิ่งที่จับกับ LSTM? พวกเขาไม่ทำดีที่ไหน ฉันรู้ว่าไม่มีสิ่งเช่นอัลกอริทึม "หนึ่งขนาดเหมาะกับทุกคน" ดังนั้นจึงต้องมีข้อเสียของ LSTM

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.