คำถามติดแท็ก word-embeddings

การฝังคำเป็นชื่อรวมสำหรับชุดของการสร้างแบบจำลองภาษาและเทคนิคการเรียนรู้คุณลักษณะใน NLP ซึ่งคำต่างๆจะถูกจับคู่กับเวกเตอร์ของจำนวนจริงในช่องว่างมิติต่ำโดยเทียบกับขนาดคำศัพท์

4
คำอธิบายที่ใช้งานง่ายของการสูญเสียการประมาณค่าเสียงรบกวน (NCE)?
ฉันอ่านเกี่ยวกับ NCE (รูปแบบของการสุ่มตัวอย่างผู้สมัคร) จากทั้งสองแหล่ง: การเขียน Tensorflow กระดาษต้นฉบับ ใครสามารถช่วยฉันด้วยสิ่งต่อไปนี้: คำอธิบายง่ายๆเกี่ยวกับวิธีการทำงานของ NCE (ฉันพบว่าข้างต้นยากที่จะแยกวิเคราะห์และทำความเข้าใจเกี่ยวกับดังนั้นสิ่งที่ใช้งานง่ายที่นำไปสู่คณิตศาสตร์ที่นำเสนอจะมีมาก) หลังจากจุดที่ 1 ด้านบนคำอธิบายที่ใช้งานง่ายตามธรรมชาติของสิ่งนี้แตกต่างจากการสุ่มตัวอย่างเชิงลบ ฉันเห็นว่ามีการเปลี่ยนแปลงเล็กน้อยในสูตร แต่ไม่สามารถเข้าใจคณิตศาสตร์ได้ ฉันมีความเข้าใจที่เข้าใจง่ายเกี่ยวกับการสุ่มตัวอย่างเชิงลบในบริบทของword2vec- เราสุ่มเลือกตัวอย่างจากคำศัพท์Vและอัปเดตเฉพาะสิ่งเหล่านั้นเนื่องจาก|V|มีขนาดใหญ่และนี่เป็นการเพิ่มความเร็ว โปรดแก้ไขหากผิด เมื่อใดควรใช้สิ่งใดและจะตัดสินใจอย่างไร มันจะดีถ้าคุณมีตัวอย่าง (อาจเข้าใจได้ง่ายเกี่ยวกับแอปพลิเคชัน) NCE ดีกว่าการสุ่มตัวอย่างเชิงลบหรือไม่ ดีกว่าในลักษณะใด ขอขอบคุณ.

3
อะไรคืออินพุตที่ดีกว่าสำหรับ Word2Vec
นี่เป็นเหมือนคำถาม NLP ทั่วไป การป้อนข้อมูลที่เหมาะสมในการฝึกอบรมการฝังคำคืออะไร Word2Vec ประโยคทั้งหมดที่เป็นของบทความควรเป็นเอกสารแยกต่างหากในคลังข้อมูลหรือไม่? หรือแต่ละบทความควรเป็นเอกสารในคลังข้อมูลดังกล่าว? นี่เป็นเพียงตัวอย่างการใช้ python และ gensim คอร์ปัสแยกตามประโยค: SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."], ["second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article."], ["second", "sentence", "of", "the", "second", "article."]] คอร์ปัสแยกตามบทความ: ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.", "second", "sentence", "of", …

2
การทำนายคำด้วยรูปแบบ Word2vec
ได้รับประโยค: "เมื่อฉันเปิด??ประตูก็จะเริ่มร้อนโดยอัตโนมัติ" ฉันต้องการรับรายการคำศัพท์ที่เป็นไปได้หรือไม่? ด้วยความน่าจะเป็น แนวคิดพื้นฐานที่ใช้ในรูปแบบ word2vec คือ "คาดการณ์" คำที่กำหนดบริบทโดยรอบ เมื่อแบบจำลองถูกสร้างขึ้นบริบทการทำงานของเวกเตอร์ที่ถูกต้องคืออะไรเพื่อดำเนินการทำนายของฉันในประโยคใหม่ มันเป็นเพียงผลรวมเชิงเส้นหรือไม่? model.most_similar(positive=['When','I','open','the','door','it','starts' ,'heating','automatically'])

4
ฉันจะวัดความคล้ายคลึงของคำได้อย่างไร
วิธีที่ดีที่สุดในการค้นหาความคล้ายคลึงกันทางความหมายของคำคืออะไร Word2Vec ไม่เป็นไร แต่ไม่เหมาะ: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to 'hot' than 'popular' In [9]: model.similarity('hot', 'popular') Out[9]: 0.33708479049537632 …

2
Doc2Vec - วิธีติดฉลากย่อหน้า (gensim)
ฉันสงสัยว่าจะติดป้าย (แท็ก) ประโยค / ย่อหน้า / เอกสารด้วย doc2vec เป็น gensim ได้อย่างไร - จากมุมมองเชิงปฏิบัติ คุณจำเป็นต้องมีแต่ละประโยค / ย่อหน้า / เอกสารที่มีป้ายกำกับที่เป็นเอกลักษณ์ของตนเอง (เช่น "Sent_123") หรือไม่ สิ่งนี้มีประโยชน์หากคุณต้องการพูดว่า "คำหรือประโยคใดที่คล้ายกับประโยคที่ระบุว่า" Sent_123 "มากที่สุด คุณสามารถให้ป้ายกำกับซ้ำตามเนื้อหาได้หรือไม่ ตัวอย่างเช่นหากแต่ละประโยค / ย่อหน้า / เอกสารเกี่ยวกับสินค้าบางรายการ (และมีหลายประโยค / ย่อหน้า / เอกสารสำหรับรายการผลิตภัณฑ์ที่กำหนด) คุณสามารถติดป้ายประโยคตามรายการแล้วคำนวณความคล้ายคลึงกันระหว่างคำหรือ ประโยคและป้ายกำกับนี้ (ซึ่งฉันคิดว่าเป็นเหมือนค่าเฉลี่ยของประโยคทั้งหมดที่เกี่ยวข้องกับรายการผลิตภัณฑ์)

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
วิธีเริ่มต้นรุ่น word2vec ใหม่ด้วยน้ำหนักแบบฝึกอบรมล่วงหน้า?
ฉันใช้ Gensim Library ในหลามเพื่อใช้และฝึกอบรม word2vector model เมื่อเร็ว ๆ นี้ฉันกำลังดูที่การเริ่มต้นน้ำหนักแบบจำลองของฉันด้วยแบบจำลอง word2vec ที่ผ่านการฝึกอบรมล่วงหน้าเช่น (รุ่น GoogleNewDataset แบบฝึกที่มีการฝึกฝน) ฉันดิ้นรนกับมันสองสามสัปดาห์ ตอนนี้ฉันเพิ่งค้นพบว่าใน gesim มีฟังก์ชั่นที่สามารถช่วยฉันเริ่มต้นน้ำหนักของแบบจำลองของฉันด้วยน้ำหนักแบบจำลองที่ผ่านการฝึกอบรมมาแล้ว ที่กล่าวถึงด้านล่าง: reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. ฉันไม่รู้ว่าฟังก์ชั่นนี้สามารถทำสิ่งเดียวกันได้หรือไม่ กรุณาช่วย!!!

3
มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?
ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

4
วิธีที่ word2vec สามารถใช้เพื่อระบุคำที่มองไม่เห็นและเกี่ยวข้องกับข้อมูลที่ผ่านการฝึกอบรมแล้ว
ฉันทำงานกับ word2vec gensim model และพบว่ามันน่าสนใจจริงๆ ฉันกำลังขัดจังหวะในการค้นหาคำที่ไม่รู้จัก / ไม่ปรากฏเมื่อตรวจสอบกับแบบจำลองจะสามารถรับคำที่คล้ายกันจากแบบจำลองที่ผ่านการฝึกอบรม เป็นไปได้ไหม word2vec สามารถปรับเปลี่ยนได้หรือไม่? หรือคลังข้อมูลการฝึกอบรมต้องมีคำทั้งหมดที่ฉันต้องการค้นหาความคล้ายคลึงกัน

3
Word2Vec และ Doc2Vec เป็นทั้งการกระจายแบบเป็นตัวแทนและแบบกระจายหรือไม่?
ฉันได้อ่านว่าการเป็นตัวแทนแบบกระจายขึ้นอยู่กับสมมติฐานการกระจายที่คำที่เกิดขึ้นในบริบทที่คล้ายกันมีแนวโน้มที่จะมีความหมายที่คล้ายกัน Word2Vec และ Doc2Vec ทั้งสองมีรูปแบบตามสมมติฐานนี้ แต่ในกระดาษเดิมแม้พวกเขาจะมีบรรดาศักดิ์เป็นและDistributed representation of words and phrases Distributed representation of sentences and documentsดังนั้นอัลกอริทึมเหล่านี้อยู่บนพื้นฐานของการเป็นตัวแทนแบบกระจายหรือเป็นตัวแทนแบบกระจาย แล้วรุ่นอื่น ๆ เช่น LDA และ LSA

1
การจัดประเภทข้อความ - ปัญหา: Word2Vec / NN เป็นวิธีที่ดีที่สุดหรือไม่?
ฉันกำลังมองหาที่จะออกแบบระบบที่ให้ย่อหน้าของข้อความจะสามารถจัดหมวดหมู่มันและระบุบริบท: ได้รับการฝึกฝนกับย่อหน้าข้อความที่ผู้ใช้สร้างขึ้น (เช่นความเห็น / คำถาม / คำตอบ) แต่ละรายการในชุดการฝึกจะถูกติดแท็กด้วย ดังนั้นสำหรับเช่น ("หมวดหมู่ 1", "ย่อหน้าข้อความ") จะมีหลายร้อยหมวดหมู่ อะไรจะเป็นวิธีที่ดีที่สุดในการสร้างระบบเช่นนี้? ฉันได้ดูตัวเลือกที่แตกต่างกันเล็กน้อยและต่อไปนี้เป็นรายการของวิธีแก้ปัญหาที่เป็นไปได้ ตอนนี้ Word2Vec / NN เป็นทางออกที่ดีที่สุดหรือไม่? Recensive Neural Tensor Network เลี้ยงด้วยข้อมูล Word2Vec เฉลี่ย RNTN และเวกเตอร์ย่อหน้า ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )? TF-IDF ใช้ในเครือข่าย Deep Belief TF-IDF และ Logistic Regression กระเป๋าของคำและการจำแนก Naive Bayes

1
word2vec ต้องการข้อมูลการฝึกอบรมเท่าใด
ฉันต้องการเปรียบเทียบความแตกต่างระหว่างคำเดียวกันที่กล่าวถึงในแหล่งข้อมูลที่แตกต่างกัน นั่นคือวิธีที่ผู้เขียนต่างกันในการใช้คำที่ไม่ถูกต้องเช่น "ประชาธิปไตย" แผนสั้น ๆ คือ นำหนังสือที่พูดถึงคำว่า "ประชาธิปไตย" เป็นข้อความธรรมดา ในหนังสือแต่ละเล่มให้แทนที่democracyด้วยdemocracy_%AuthorName% ฝึกฝนword2vecโมเดลในหนังสือเหล่านี้ คำนวณระยะทางระหว่างdemocracy_AuthorA, democracy_AuthorBและการกล่าวถึง relabeled อื่น ๆ ของ "ประชาธิปไตย" ดังนั้น "ประชาธิปไตย" ของผู้เขียนแต่ละคนจึงได้เวกเตอร์ของตัวเองซึ่งใช้สำหรับการเปรียบเทียบ แต่ดูเหมือนว่าword2vecจะต้องมีมากกว่าหนังสือหลายเล่ม (แต่ละคำที่มีป้ายกำกับใหม่เกิดขึ้นเฉพาะในชุดย่อยของหนังสือ) เพื่อฝึกฝนเวกเตอร์ที่เชื่อถือได้ หน้าอย่างเป็นทางการขอแนะนำชุดข้อมูลรวมทั้งพันล้านคำ ฉันแค่อยากจะถามว่าหนังสือชุดหนึ่งของผู้แต่งเล่มหนึ่งมีขนาดใหญ่เท่าไรในการอนุมานด้วยword2vecหรือเครื่องมือทางเลือกถ้ามี

2
คุณสมบัติของคำเวกเตอร์ใน word2vec
ฉันพยายามวิเคราะห์ความเชื่อมั่น เพื่อที่จะแปลงคำเป็นเวกเตอร์คำฉันใช้รุ่น word2vec สมมติว่าฉันมีประโยคทั้งหมดในรายการชื่อ 'ประโยค' และฉันส่งประโยคเหล่านี้ไปยัง word2vec ดังนี้: model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3) เนื่องจากฉันเป็น noob ไปยังคำเวกเตอร์ฉันมีสองข้อสงสัย 1- การตั้งค่าจำนวนคุณสมบัติเป็น 300 จะกำหนดคุณสมบัติของคำว่าเวกเตอร์ แต่คุณสมบัติเหล่านี้มีความหมายว่าอะไร? หากแต่ละคำในรูปแบบนี้มีอาร์เรย์แบบ 1x1 อันคุณสมบัติแบบ 300 เหล่านี้มีความหมายอะไรกับคำนั้น? 2- การสุ่มตัวอย่างลงตามที่แสดงด้วยพารามิเตอร์ 'ตัวอย่าง' ในแบบจำลองด้านบนทำตามความเป็นจริงอย่างไร ขอบคุณล่วงหน้า.
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.