วิทยาศาสตร์ข้อมูล nlp

1

ฉันเพิ่งเจอคำศัพท์Word2Vec , Sentence2VecและDoc2Vecและสับสนเพราะฉันยังใหม่กับซีแมนทิกส์เวกเตอร์ ใครช่วยได้โปรดอธิบายความแตกต่างของวิธีการเหล่านี้ด้วยคำพูดง่ายๆ งานที่เหมาะสมที่สุดสำหรับแต่ละวิธีคืออะไร

18 machine-learning data-mining clustering nlp unsupervised-learning

5

ขั้นตอนวิธีปฏิบัติที่ดีที่สุดสำหรับความคล้ายคลึงของประโยค

ฉันมีสองประโยคคือ S1 และ S2 ซึ่งทั้งคู่มีจำนวนคำ (ปกติ) ต่ำกว่า 15 อะไรคืออัลกอริทึมที่มีประโยชน์และประสบความสำเร็จมากที่สุด (การเรียนรู้ของเครื่อง) ซึ่งอาจง่ายต่อการติดตั้ง (เครือข่ายประสาทเทียมก็โอเคยกเว้นว่าสถาปัตยกรรมนั้นซับซ้อนพอ ๆ กับ Google Inception เป็นต้น) ฉันกำลังมองหาอัลกอริทึมที่จะทำงานได้ดีโดยไม่ต้องใช้เวลามากเกินไป มีอัลกอริทึมใดบ้างที่คุณประสบความสำเร็จและใช้งานง่าย? สิ่งนี้สามารถทำได้ แต่ไม่จำเป็นต้องอยู่ในหมวดหมู่ของการทำคลัสเตอร์ พื้นหลังของฉันมาจากการเรียนรู้ของเครื่องดังนั้นคำแนะนำใด ๆ ยินดีต้อนรับ :)

18 nlp clustering word2vec similarity

1

NLP - ทำไม "ไม่" เป็นคำหยุด

ฉันพยายามลบคำหยุดก่อนที่จะทำการสร้างแบบจำลองหัวข้อ ฉันสังเกตเห็นว่าบางคำที่ถูกปฏิเสธ (ไม่ใช่, ไม่, ไม่, ไม่เคยมี ฯลฯ ) ถือเป็นคำที่หยุด ตัวอย่างเช่น NLTK, spacy และ sklearn รวมถึง "not" ในรายการคำที่หยุด อย่างไรก็ตามหากเราลบ "ไม่" ออกจากประโยคด้านล่างพวกเขาจะสูญเสียความหมายที่สำคัญและนั่นจะไม่ถูกต้องสำหรับการสร้างแบบจำลองหัวข้อหรือการวิเคราะห์ความเชื่อมั่น 1). StackOverflow is helpful => StackOverflow helpful 2). StackOverflow is not helpful => StackOverflow helpful ใครช่วยอธิบายหน่อยได้ไหมว่าทำไมคำคัดค้านเหล่านี้จึงถูกพิจารณาว่าเป็นคำที่หยุด?

18 nlp topic-model sentiment-analysis

4

ปรับปรุงความเร็วของการนำ t-sne ไปใช้ในไพ ธ อนสำหรับข้อมูลขนาดใหญ่

ฉันอยากจะลดมิติข้อมูลลงบนเวกเตอร์เกือบ 1 ล้านตัวที่มี 200 มิติ ( doc2vec) ฉันใช้TSNEการใช้งานจากsklearn.manifoldโมดูลสำหรับมันและปัญหาที่สำคัญคือความซับซ้อนของเวลา ถึงแม้จะมีmethod = barnes_hutความเร็วในการคำนวณยังต่ำ บางครั้งถึงแม้หน่วยความจำจะหมด ฉันใช้งานบนโปรเซสเซอร์ 48 คอร์ที่มี RAM 130G มีวิธีเรียกใช้แบบขนานหรือใช้ประโยชน์จากทรัพยากรที่มีอยู่มากมายเพื่อเร่งกระบวนการให้เร็วขึ้น

18 python bigdata nlp scikit-learn dimensionality-reduction

5

ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น

ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

NLP - Gazetteer โกงหรือไม่?

ใน NLP มีแนวคิดGazetteerที่จะมีประโยชน์มากสำหรับการสร้างคำอธิบายประกอบ เท่าที่ฉันเข้าใจ: นักหนังสือพิมพ์ประกอบด้วยชุดของรายการที่มีชื่อของเอนทิตีเช่นเมือง, องค์กร, วันของสัปดาห์ ฯลฯ รายการเหล่านี้จะใช้ในการเกิดขึ้นของชื่อเหล่านี้ในข้อความเช่นสำหรับงานของการรับรู้นิติบุคคลที่มีชื่อ ดังนั้นมันจึงเป็นการค้นหา การโกงแบบนี้ไม่ใช่หรือ ถ้าเราใช้Gazetteerสำหรับการตรวจสอบหน่วยงานที่ชื่อนั้นมีไม่มากNatural Language Processingที่เกิดขึ้น เป็นการดีที่ฉันต้องการตรวจสอบเอนทิตีที่มีชื่อโดยใช้NLPเทคนิค มิฉะนั้นแล้วมันจะดีกว่าตัวจับรูปแบบ regex อย่างไร

16 nlp named-entity-recognition

2

แยกส่วนที่ให้ข้อมูลส่วนใหญ่ของข้อความจากเอกสาร

มีบทความหรือการสนทนาเกี่ยวกับการแยกส่วนของข้อความที่เก็บข้อมูลส่วนใหญ่เกี่ยวกับเอกสารปัจจุบันหรือไม่ ตัวอย่างเช่นฉันมีคลังเอกสารจำนวนมากจากโดเมนเดียวกัน มีข้อความบางส่วนที่เก็บข้อมูลสำคัญที่เอกสารพูดถึง ฉันต้องการแยกส่วนเหล่านั้นออกมาและใช้เป็นส่วนสรุปของข้อความ มีเอกสารที่มีประโยชน์เกี่ยวกับวิธีการบรรลุสิ่งนี้ มันจะมีประโยชน์จริง ๆ ถ้ามีคนชี้ให้ฉันไปในทิศทางที่ถูกต้องว่าฉันควรค้นหาหรืออ่านอะไรบ้างเพื่อรับข้อมูลเชิงลึกเกี่ยวกับงานที่อาจทำไปแล้วในการประมวลผลภาษาธรรมชาตินี้

16 nlp text-mining

3

ความแตกต่างระหว่าง RNNs การสร้างข้อความที่อิงกับคำและการเขียนคืออะไร?

ในขณะที่อ่านเกี่ยวกับการสร้างข้อความด้วยเครือข่ายประสาทที่เกิดขึ้นอีกฉันสังเกตเห็นว่ามีตัวอย่างบางส่วนที่ถูกนำไปใช้เพื่อสร้างคำแบบข้อความต่อคำและตัวละครอื่น ๆ เป็นตัวละครโดยไม่ได้ระบุว่าทำไม ดังนั้นสิ่งที่เป็นความแตกต่างระหว่างรุ่น RNN ที่คาดการณ์ข้อความต่อคำพื้นฐานและคนที่คาดการณ์ข้อความต่อถ่านพื้นฐาน? การใช้ RNN แบบคำต้องใช้ขนาดคลังใหญ่กว่าหรือไม่? RNN ที่ใช้ถ่านเป็นแบบอย่างที่ดีกว่าหรือไม่? บางทีความแตกต่างเพียงอย่างเดียวคือการป้อนข้อมูล (การเข้ารหัสแบบร้อนแรงหรือการใส่คำศัพท์) รายการใดที่จะเลือกสำหรับการสร้างข้อความ

15 machine-learning neural-network nlp rnn

4

ความคล้ายคลึงกันระหว่างสองคำ

ฉันกำลังมองหาห้องสมุด Python ที่ช่วยฉันระบุความเหมือนกันระหว่างสองคำหรือประโยค ฉันจะทำการแปลงไฟล์เสียงเป็นข้อความซึ่งจะส่งผลให้เกิดพจนานุกรมภาษาอังกฤษหรือคำศัพท์ที่ไม่ใช่พจนานุกรม (ซึ่งอาจเป็นชื่อบุคคลหรือชื่อ บริษัท ) หลังจากนั้นฉันต้องเปรียบเทียบกับคำหรือคำที่รู้จัก ตัวอย่าง: 1) ข้อความที่จะส่งผลเสียง: ขอขอบคุณสำหรับการโทรขยายอเมริกา จะได้รับเมื่อเทียบกับอเมริกันเอ็กซ์เพรส ทั้งสองประโยคมีความคล้ายคลึงกัน แต่ไม่เหมือนกัน ดูเหมือนว่าฉันอาจต้องดูจำนวนตัวอักษรที่พวกเขาแบ่งปัน ความคิดใด ๆ ที่จะดี ดูเหมือนว่าฟังก์ชั่นเช่นการค้นหาของ Google "คุณหมายถึง" คุณสมบัติ

15 nlp nltk

5

การทำนายความคล้ายคลึงกันของประโยค

ฉันกำลังมองหาที่จะแก้ปัญหาต่อไปนี้: ฉันมีชุดประโยคเป็นชุดข้อมูลของฉันและฉันต้องการที่จะสามารถพิมพ์ประโยคใหม่และค้นหาประโยคที่ประโยคใหม่คล้ายกับในชุดข้อมูล ตัวอย่างจะมีลักษณะดังนี้: ประโยคใหม่: " I opened a new mailbox" การทำนายขึ้นอยู่กับชุดข้อมูล: Sentence | Similarity A dog ate poop 0% A mailbox is good 50% A mailbox was opened by me 80% ฉันได้อ่านว่าโคไซน์ที่คล้ายคลึงกันสามารถใช้ในการแก้ปัญหาประเภทนี้ที่จับคู่กับ tf-idf (และ RNN ไม่ควรนำการปรับปรุงที่สำคัญไปใช้กับวิธีการพื้นฐาน) หรือword2vecใช้สำหรับปัญหาที่คล้ายกัน สิ่งเหล่านี้มีประโยชน์สำหรับการใช้งานในกรณีนี้หรือไม่ มีเทคนิค / อัลกอริธึมอื่น ๆ ที่จะแก้ปัญหานี้ (โดยเฉพาะกับ Python และ SKLearn แต่ฉันเปิดกว้างเพื่อเรียนรู้เกี่ยวกับ TensorFlow ด้วย)

15 python nlp scikit-learn similarity text

4

วิธีเริ่มต้นรุ่น word2vec ใหม่ด้วยน้ำหนักแบบฝึกอบรมล่วงหน้า?

ฉันใช้ Gensim Library ในหลามเพื่อใช้และฝึกอบรม word2vector model เมื่อเร็ว ๆ นี้ฉันกำลังดูที่การเริ่มต้นน้ำหนักแบบจำลองของฉันด้วยแบบจำลอง word2vec ที่ผ่านการฝึกอบรมล่วงหน้าเช่น (รุ่น GoogleNewDataset แบบฝึกที่มีการฝึกฝน) ฉันดิ้นรนกับมันสองสามสัปดาห์ ตอนนี้ฉันเพิ่งค้นพบว่าใน gesim มีฟังก์ชั่นที่สามารถช่วยฉันเริ่มต้นน้ำหนักของแบบจำลองของฉันด้วยน้ำหนักแบบจำลองที่ผ่านการฝึกอบรมมาแล้ว ที่กล่าวถึงด้านล่าง: reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. ฉันไม่รู้ว่าฟังก์ชั่นนี้สามารถทำสิ่งเดียวกันได้หรือไม่ กรุณาช่วย!!!

14 python nlp word-embeddings word2vec gensim

2

คุณสมบัติใดที่ใช้โดยทั่วไปจากต้นการแยกวิเคราะห์ในกระบวนการจำแนกใน NLP

ฉันกำลังสำรวจโครงสร้างต้นไม้แยกวิเคราะห์ประเภทต่างๆ โครงสร้างการแยกวิเคราะห์ต้นไม้ที่รู้จักกันอย่างกว้างขวางทั้งสองคือก) การแยกวิเคราะห์ต้นไม้ตามโครงสร้างและข) โครงสร้างการแยกวิเคราะห์ต้นไม้ที่ขึ้นอยู่กับการพึ่งพา ฉันสามารถใช้สร้างโครงสร้างการแยกวิเคราะห์ต้นไม้ทั้งสองชนิดโดยใช้แพ็คเกจ Stanford NLP อย่างไรก็ตามฉันไม่แน่ใจว่าจะใช้โครงสร้างต้นไม้เหล่านี้สำหรับงานการจัดหมวดหมู่ของฉันได้อย่างไร ตัวอย่างเช่นถ้าฉันต้องการวิเคราะห์ความเชื่อมั่นและต้องการจัดหมวดหมู่ข้อความเป็นคลาสบวกและลบฉันสามารถใช้คุณลักษณะใดได้บ้างจากโครงสร้างการแยกวิเคราะห์ต้นไม้สำหรับงานการจัดหมวดหมู่ของฉัน

13 machine-learning nlp feature-selection feature-extraction

1

อะไรคือเลเยอร์ Convolutional 1D ในการเรียนรู้เชิงลึก?

ฉันมีความเข้าใจโดยทั่วไปเกี่ยวกับบทบาทและกลไกของเลเยอร์ convolutional ใน Deep Learning สำหรับการประมวลผลภาพในกรณีที่มีการใช้งาน 2D หรือ 3D พวกเขา "เพียงแค่" พยายามจับรูปแบบ 2D ในภาพ (ใน 3 ช่องในกรณี 3D) แต่เมื่อเร็ว ๆ นี้ฉันชนกับชั้น 1D ในบริบทของการประมวลผลภาษาธรรมชาติซึ่งเป็นเรื่องที่แปลกใจสำหรับฉันเพราะในการทำความเข้าใจของฉันการบิด 2D ถูกนำมาใช้เป็นพิเศษในการจับรูปแบบ 2D ที่เป็นไปไม่ได้ ของพิกเซลภาพ อะไรคือตรรกะที่อยู่เบื้องหลัง 1D convolution?

13 deep-learning nlp convolution

3

ภาษาธรรมชาติในการสืบค้น SQL

ฉันทำงานพัฒนาระบบ "การแปลงภาษาธรรมชาติเป็น SQL Query" ฉันได้อ่านคำตอบจากคำถามที่คล้ายกัน แต่ไม่สามารถรับข้อมูลที่ฉันต้องการได้ ด้านล่างคือแผนผังลำดับงานสำหรับระบบดังกล่าวซึ่งฉันได้รับจากAlgorithm เพื่อแปลงภาษาธรรมชาติให้เป็นแบบสอบถาม SQL สำหรับฐานข้อมูลเชิงสัมพันธ์โดย Garima Singh, Arun Solanki ฉันเข้าใจจนเป็นส่วนหนึ่งของขั้นตอนการติดแท็กคำพูด แต่ฉันจะเข้าใกล้ขั้นตอนที่เหลือได้อย่างไร ฉันจำเป็นต้องฝึกเคียวรี SQL ที่เป็นไปได้ทั้งหมดหรือไม่? หรือเมื่อส่วนหนึ่งของการติดแท็กคำพูดเสร็จสิ้นฉันต้องเล่นกับคำและสร้างแบบสอบถาม SQL? แก้ไข: ฉันได้ติดตั้งจาก "ขั้นตอน" ผู้ใช้แบบสอบถาม "ถึง" ส่วนหนึ่งของการติดแท็กคำพูด "สำเร็จแล้ว ขอบคุณ.

13 machine-learning nlp sql natural-language-process

1

ดังนั้นสิ่งที่จับกับ LSTM?

ฉันกำลังขยายความรู้ของฉันเกี่ยวกับแพคเกจ Keras และฉันใช้เครื่องมือกับรุ่นที่มีอยู่ ฉันมีปัญหาการจำแนกเลขฐานสองแบบ NLP ที่ฉันพยายามแก้ไขและใช้โมเดลที่แตกต่างกัน หลังจากทำงานกับผลลัพธ์และอ่านเพิ่มเติมเกี่ยวกับ LSTM มากขึ้นดูเหมือนว่าวิธีการนี้ดีกว่าสิ่งอื่น ๆ ที่ฉันได้ลอง (ในชุดข้อมูลหลายชุด) ฉันคิดกับตัวเองอยู่เสมอว่า "ทำไม / เมื่อไหร่คุณจะไม่ใช้ LSTM" การใช้ประตูเพิ่มเติมซึ่งเป็นของ LSTM ทำให้ฉันมีความรู้สึกสมบูรณ์แบบหลังจากมีบางรุ่นที่ต้องทนทุกข์ทรมานจากการไล่ระดับสีที่หายไป ดังนั้นสิ่งที่จับกับ LSTM? พวกเขาไม่ทำดีที่ไหน ฉันรู้ว่าไม่มีสิ่งเช่นอัลกอริทึม "หนึ่งขนาดเหมาะกับทุกคน" ดังนั้นจึงต้องมีข้อเสียของ LSTM

12 neural-network nlp lstm recurrent-neural-net

คำถามติดแท็ก nlp