สถิติและข้อมูลขนาดใหญ่ natural-language

3

เครือข่ายแบบเรียกซ้ำ vs Recursive Neural: NLP ไหนดีกว่ากัน?

มีเครือข่ายประสาทที่เกิดขึ้นอีกและเครือข่ายประสาทแบบเรียกซ้ำ ทั้งสองมักจะแสดงโดยตัวย่อเดียวกัน: RNN ตามที่Wikipedia , Recurrent NN เป็นความจริงแล้ว Recursive NN แต่ฉันไม่เข้าใจคำอธิบายจริงๆ ยิ่งกว่านั้นฉันดูเหมือนจะไม่พบสิ่งที่ดีกว่า (พร้อมตัวอย่างหรือมากกว่านั้น) สำหรับการประมวลผลภาษาธรรมชาติ ความจริงก็คือถึงแม้ว่า Socher จะใช้ Recursive NN สำหรับ NLP ในการสอนของเขาแต่ฉันไม่พบการใช้งานที่ดีของเครือข่ายประสาทแบบเรียกซ้ำและเมื่อฉันค้นหาใน Google คำตอบส่วนใหญ่เกี่ยวกับ NN ที่เกิดขึ้นอีก นอกจากนั้นมี DNN อื่นที่ใช้กับ NLP ได้ดีกว่าหรือไม่นั้นขึ้นอยู่กับงาน NLP หรือไม่ ความเชื่อลึกหรือตาข่าย Autoencoders ซ้อนกัน? (ฉันดูเหมือนจะไม่พบการใช้งานใด ๆ ที่พิเศษสำหรับ ConvNets ใน NLP และการใช้งานส่วนใหญ่อยู่ในวิสัยทัศน์ของเครื่องในใจ) ในที่สุดฉันต้องการใช้งาน DNN สำหรับ C ++ (ดีกว่าถ้ามีการรองรับ GPU) …

48 machine-learning neural-networks deep-learning natural-language

7

การอ้างอิงเครือข่ายนิวรัล (ตำรา, หลักสูตรออนไลน์) สำหรับผู้เริ่มต้น

ฉันต้องการเรียนรู้โครงข่ายประสาท ฉันเป็นนักภาษาศาสตร์คอมพิวเตอร์ ฉันรู้วิธีการเรียนรู้ด้วยเครื่องเชิงสถิติและสามารถเขียนโค้ดใน Python ได้ ฉันกำลังมองหาที่จะเริ่มต้นด้วยแนวคิดของมันและรู้ว่าหนึ่งหรือสองรูปแบบที่นิยมซึ่งอาจเป็นประโยชน์จากมุมมองของภาษาศาสตร์เชิงคำนวณ ฉันเรียกดูเว็บเพื่อการอ้างอิงและพบหนังสือและเอกสารสองสามฉบับ Ripley, Brian D. (1996) การจดจำรูปแบบและ Neural Networks, Cambridge บิชอปซม. (2538) เครือข่ายประสาทรับรู้รูปแบบออกซ์ฟอร์ด: สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด เชื่อมโยงบางอย่างเช่นวิทยานิพนธ์ฉบับนี้ , เหล่านี้บันทึกหลักสูตร (มหาวิทยาลัยโตรอนโตจิตวิทยากรม) เหล่านี้บันทึกหลักสูตร (มหาวิทยาลัยวิสคอนซินวิทยาการคอมพิวเตอร์) และสไลด์โชว์ (การวิจัย Facebook) โดยทั่วไปแล้วหลักสูตร Coursera นั้นดีถ้ามีใครรู้อะไรที่เกี่ยวข้องกับพวกเขา ฉันชอบวัสดุที่มีภาษาที่ชัดเจนและเป็นตัวอย่างที่กว้างขวาง

43 neural-networks deep-learning references natural-language computer-vision

5

LDA กับ word2vec

ฉันพยายามที่จะเข้าใจความคล้ายคลึงกันระหว่างLatent Dirichlet Allocationและword2vecสำหรับการคำนวณความคล้ายคลึงกันของคำ ดังที่ฉันเข้าใจ LDA จับคู่คำกับเวกเตอร์ของความน่าจะเป็นของหัวข้อแฝงในขณะที่ word2vec จับคู่คำกับเวกเตอร์ของจำนวนจริง (เกี่ยวข้องกับการสลายตัวตามตัวอักษรเอกพจน์ของข้อมูลร่วมกันแบบพอยต์ดูO. Levy, Y. Goldberg) ตามตัวประกอบเมทริกซ์โดยนัย " ; ดูเพิ่มเติมที่word2vec ทำงานอย่างไร? ) ฉันสนใจทั้งในด้านความสัมพันธ์ทางทฤษฎี (สามารถพิจารณาได้ว่าเป็นลักษณะทั่วไปหรือการเปลี่ยนแปลงอื่น ๆ ) และในทางปฏิบัติ (เมื่อใช้อย่างใดอย่างหนึ่ง แต่ไม่ใช่แบบอื่น) ที่เกี่ยวข้อง: อะไรคือวิธีมาตรฐานในการคำนวณระยะห่างระหว่างเอกสาร - DataScience.SE

39 machine-learning self-study natural-language latent-variable word2vec

3

ใช้คำว่า embeddings กับเอกสารทั้งหมดเพื่อรับเวกเตอร์คุณลักษณะ

ฉันจะใช้คำศัพท์เพื่อฝังแผนที่เอกสารกับเวกเตอร์ฟีเจอร์ได้อย่างไรเหมาะสำหรับใช้กับการเรียนรู้ภายใต้การดูแล ฝังคำแผนที่แต่ละคำเพื่อเวกเตอร์ที่บางจำนวนไม่มากเกินไปขนาดใหญ่ (เช่น 500) ที่เป็นที่นิยมembeddings คำได้แก่word2vecและถุงมือwwwv∈Rdv∈Rdv \in \mathbb{R}^dddd ฉันต้องการใช้การเรียนรู้ภายใต้การดูแลเพื่อจำแนกเอกสาร ขณะนี้ฉันกำลังทำแผนที่เอกสารแต่ละฉบับกับเวกเตอร์คุณลักษณะโดยใช้การแทนคำถุงจากนั้นจึงใช้ตัวจําแนกแบบลักษณนาม ฉันต้องการแทนที่เวกเตอร์คุณลักษณะถุงคำ - คำด้วยการฝังคำที่มีการฝึกอบรมไว้ล่วงหน้าเพื่อใช้ประโยชน์จากความรู้เชิงความหมายที่มีอยู่ในการฝังคำ มีวิธีมาตรฐานในการทำเช่นนั้น? ฉันสามารถจินตนาการถึงความเป็นไปได้บ้าง แต่ฉันไม่รู้ว่ามีบางอย่างที่สมเหตุสมผลที่สุดหรือไม่ วิธีการสมัครที่ฉันเคยพิจารณา: ฉันสามารถคำนวณเวกเตอร์สำหรับแต่ละคำในเอกสารและเฉลี่ยพวกเขาทั้งหมด อย่างไรก็ตามดูเหมือนว่ามันอาจสูญเสียข้อมูลจำนวนมาก ตัวอย่างเช่นด้วยการใช้ถุงแทนคำถ้ามีคำไม่กี่คำที่มีความเกี่ยวข้องอย่างสูงกับงานการจัดหมวดหมู่และคำที่ไม่เกี่ยวข้องส่วนใหญ่ตัวจําแนกสามารถเรียนรู้ได้ง่าย ถ้าฉันเฉลี่ยเวกเตอร์สำหรับคำทั้งหมดในเอกสารตัวจําแนกไม่มีโอกาส การต่อเวกเตอร์เข้ากับคำทั้งหมดไม่ทำงานเพราะจะไม่นำไปสู่เวกเตอร์ที่มีขนาดคงที่ นอกจากนี้ดูเหมือนว่าเป็นความคิดที่ไม่ดีเพราะมันจะไวเกินไปต่อการจัดวางคำเฉพาะ ฉันสามารถใช้คำนั้นเพื่อจัดกลุ่มคำศัพท์ของทุกคำให้เป็นกระจุกกลุ่มคงที่พูดกันว่า 1000 กลุ่มซึ่งฉันใช้ความคล้ายคลึงโคไซน์บนเวกเตอร์เพื่อวัดความคล้ายคลึงกันของคำ จากนั้นแทนที่จะเป็นถุงคำคำฉันสามารถมีถุงแบบกลุ่ม: เวกเตอร์คุณลักษณะที่ฉันจัดหาให้กับ classifer อาจเป็น 1000- เวกเตอร์ซึ่งองค์ประกอบที่นับจำนวนคำในเอกสารที่ เป็นส่วนหนึ่งของคลัสเตอร์ฉันiiiiii ป.ร. ให้คำเหล่านี้ embeddings คำให้ฉันคำนวณชุดของด้านบน 20 มากที่สุดคำที่คล้ายกันและคะแนนความคล้ายคลึงกันของพวกเขา{20} ฉันสามารถปรับเวกเตอร์ลักษณะคล้ายคำถุงด้วยการใช้สิ่งนี้ เมื่อผมเห็นคำว่าที่นอกเหนือไปจากการเพิ่มองค์ประกอบที่สอดคล้องกับคำโดย , ฉันยังสามารถเพิ่มองค์ประกอบที่สอดคล้องกับคำโดย , เพิ่มองค์ประกอบที่สอดคล้องกับคำโดยและอื่น ๆwwww1,…,w20w1,…,w20w_1,\dots,w_{20}s1,…,s20s1,…,s20s_1,\dots,s_{20}wwwwww111w1w1w_1s1s1s_1w2w2w_2s2s2s_2 มีวิธีการเฉพาะที่น่าจะทำงานได้ดีสำหรับการจำแนกเอกสารหรือไม่? ฉันไม่ได้กำลังหาย่อหน้า 2vec หรือ …

38 classification natural-language supervised-learning word2vec word-embeddings

1

ฉันควรทำให้เวกเตอร์คำของ word2vec เป็นปกติก่อนที่จะใช้หรือไม่

หลังการฝึกอบรมคำเวกเตอร์ด้วย word2vec จะดีกว่าหรือไม่ที่จะทำให้ปกติก่อนใช้สำหรับแอพพลิเคชั่นดาวน์สตรีม คืออะไร pros / cons ของ normalizing พวกเขาคืออะไร?

36 natural-language word2vec word-embeddings

3

ความแตกต่างที่ใช้งานง่ายระหว่างโมเดล Markov ที่ซ่อนอยู่และฟิลด์สุ่มแบบมีเงื่อนไข

ฉันเข้าใจว่า HMM (โมเดลมาร์กมาร์คอฟ) เป็นรุ่นทั่วไปและ CRF เป็นรุ่นที่จำแนกได้ ฉันยังเข้าใจว่า CRFs (เขตสุ่มแบบมีเงื่อนไข) ได้รับการออกแบบและใช้งานอย่างไร สิ่งที่ฉันไม่เข้าใจก็คือพวกเขาแตกต่างจาก HMM อย่างไร ฉันอ่านว่าในกรณีของ HMM เราสามารถจำลองสถานะต่อไปของเราบนโหนดก่อนหน้าโหนดปัจจุบันและความน่าจะเป็นการเปลี่ยนแปลง แต่ในกรณีของ CRF เราสามารถทำสิ่งนี้ได้และสามารถเชื่อมต่อจำนวนโหนดด้วยกันเพื่อสร้างการอ้างอิง หรือบริบท ฉันแก้ไขที่นี่หรือไม่

33 machine-learning hidden-markov-model natural-language conditional-random-field

3

R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]

ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

2

ความคล้ายคลึงกันของโคไซน์นั้นเหมือนกับระยะทางแบบยุคลิดแบบยุค l2 หรือไม่?

เหมือนความหมายว่ามันจะให้ผลลัพธ์ที่เหมือนกันสำหรับการจัดอันดับระหว่างเวกเตอร์คล้ายคลึงกันยูและชุดของเวกเตอร์V ฉันมีแบบจำลองเวกเตอร์สเปซซึ่งมีการวัดระยะทาง (ระยะทางแบบยุคลิด, ความเหมือนโคไซน์) และเทคนิคการทำให้เป็นมาตรฐาน (ไม่มี, l1, l2) เป็นพารามิเตอร์ จากความเข้าใจของฉันผลลัพธ์จากการตั้งค่า [โคไซน์ไม่มี] ควรจะเหมือนกันหรืออย่างน้อยก็คล้ายกับ [euclidean, l2] จริง ๆ แต่ก็ไม่เหมือนกัน มีโอกาสที่ดีจริง ๆ ที่ระบบยังมีข้อผิดพลาด - หรือฉันมีบางสิ่งบางอย่างผิดปกติเกี่ยวกับเวกเตอร์? แก้ไข: ฉันลืมที่จะพูดถึงว่าเวกเตอร์จะขึ้นอยู่กับจำนวนคำจากเอกสารในคลังข้อมูล รับเอกสารแบบสอบถาม (ซึ่งฉันยังแปลงในเวกเตอร์นับจำนวนคำ) ฉันต้องการค้นหาเอกสารจากคลังข้อมูลของฉันซึ่งคล้ายกับมันมากที่สุด การคำนวณระยะทางแบบยุคลิดของพวกเขานั้นเป็นเพียงการวัดแบบตรงไปข้างหน้า แต่ในงานประเภทที่ฉันทำงานความคล้ายคลึงของโคไซน์มักเป็นที่ต้องการในฐานะตัวบ่งชี้ความคล้ายคลึงกันเพราะเวกเตอร์ที่มีความยาวต่างกันเท่านั้น เอกสารที่มีความคล้ายคลึงกันของระยะทาง / โคไซน์น้อยที่สุดถือว่าคล้ายกันมากที่สุด

27 normalization natural-language euclidean cosine-distance cosine-similarity

3

รูปแบบหัวข้อและวิธีการเกิดร่วมคำ

โมเดลหัวข้อยอดนิยมเช่น LDA มักจัดกลุ่มคำที่มีแนวโน้มที่จะเกิดร่วมกันในหัวข้อเดียวกัน (คลัสเตอร์) อะไรคือความแตกต่างหลักระหว่างโมเดลหัวข้อดังกล่าวและวิธีการจัดกลุ่มแบบง่าย ๆ ที่เกิดขึ้นร่วมกันเช่น PMI (PMI ย่อมาจาก Pointwise Information Mutual และใช้เพื่อระบุคำที่เกิดขึ้นร่วมกับคำที่กำหนด)

26 machine-learning text-mining natural-language topic-models

1

รายงานประสิทธิภาพการทำงานที่ทันสมัยของการใช้เวกเตอร์ย่อหน้าสำหรับการวิเคราะห์ความเชื่อมั่นได้รับการทำซ้ำหรือไม่?

ฉันประทับใจกับผลลัพธ์ใน ICML 2014 กระดาษ "การแจกจ่ายการเป็นตัวแทนของประโยคและเอกสาร " โดย Le และ Mikolov เทคนิคที่พวกเขาอธิบายเรียกว่า "พาหะของย่อหน้า" เรียนรู้การแสดงที่ไม่มีผู้ดูแลของย่อหน้า / เอกสารที่ไม่มีกฎเกณฑ์โดยมีพื้นฐานอยู่บนส่วนขยายของรุ่น word2vec บทความนี้รายงานถึงประสิทธิภาพการวิเคราะห์ความเชื่อมั่นโดยใช้เทคนิคนี้ ฉันหวังว่าจะประเมินเทคนิคนี้กับปัญหาการจำแนกข้อความอื่น ๆ ซึ่งเป็นทางเลือกแทนการแสดงคำแบบถุง อย่างไรก็ตามฉันวิ่งข้ามโพสต์โดยผู้เขียนที่สองในหัวข้อในกลุ่ม word2vec Google ที่ให้ฉันหยุดชั่วคราว: ฉันพยายามทำซ้ำผลลัพธ์ของ Quoc ในช่วงฤดูร้อน ฉันสามารถได้รับอัตราความผิดพลาดในชุดข้อมูล IMDB ประมาณ 9.4% - 10% (ขึ้นอยู่กับว่าการจัดรูปแบบข้อความปกติดีแค่ไหน) อย่างไรก็ตามฉันไม่สามารถเข้าใกล้ทุกสิ่งที่ Quoc รายงานไว้ในกระดาษ (ข้อผิดพลาด 7.4% นั่นเป็นความแตกต่างใหญ่หลวง) ... แน่นอนเรายังถาม Quoc เกี่ยวกับรหัสด้วย เขาสัญญาว่าจะเผยแพร่ แต่ก็ยังไม่มีอะไรเกิดขึ้น ... ฉันเริ่มคิดว่าผลลัพธ์ของ Quoc นั้นไม่สามารถทำซ้ำได้จริง …

20 text-mining natural-language word-embeddings sentiment-analysis reproducible-research

3

เหตุใดการข้ามคำดีกว่าคำที่ไม่บ่อยครั้งกว่า CBOW

ฉันสงสัยว่าทำไม skip-gram ดีกว่าสำหรับคำที่ไม่บ่อยนักกว่า CBOW ใน word2vec ฉันได้อ่านข้อเรียกร้องในhttps://code.google.com/p/word2vec/

19 natural-language word2vec word-embeddings

2

ทำไมการประมวลผลภาษาธรรมชาติไม่อยู่ในโดเมนการเรียนรู้ของเครื่อง? [ปิด]

ตามที่เป็นอยู่ในปัจจุบันคำถามนี้ไม่เหมาะสำหรับรูปแบบคำถาม & คำตอบของเรา เราคาดหวังคำตอบที่จะได้รับการสนับสนุนจากข้อเท็จจริงการอ้างอิงหรือความเชี่ยวชาญ แต่คำถามนี้อาจเรียกร้องให้มีการถกเถียงอภิปรายโต้แย้งหรือการอภิปรายเพิ่มเติม หากคุณรู้สึกว่าคำถามนี้สามารถปรับปรุงและเปิดใหม่ได้โปรดไปที่ศูนย์ช่วยเหลือเพื่อขอคำแนะนำ ปิดให้บริการใน7 ปีที่ผ่านมา ฉันพบมันในหนังสือหลายเล่มรวมทั้งเว็บ การประมวลผลภาษาธรรมชาติและการเรียนรู้ของเครื่องนั้นถูกกล่าวกันว่าเป็นส่วนย่อยที่แตกต่างกันของปัญญาประดิษฐ์ ทำไมล่ะ เราสามารถบรรลุผลลัพธ์ของการประมวลผลภาษาธรรมชาติด้วยการป้อนรูปแบบเสียงให้กับอัลกอริทึมการเรียนรู้ของเครื่อง แล้วความแตกต่างคืออะไร?

18 machine-learning text-mining natural-language

3

ในการปรับให้เรียบของ Kneser-Ney มีการจัดการคำที่มองไม่เห็นอย่างไร

จากสิ่งที่ฉันได้เห็นสูตรการปรับให้เรียบของ Kneser-Ney (ลำดับที่สอง) ไม่ทางใดก็ทางหนึ่ง P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} กับ normalizing factorให้เป็นλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} และความน่าจะเป็นอย่างต่อเนื่องPc o n t( ด้วยn)Pคโอnเสื้อ(Wn)P_{cont}(w_n)ของคำwnWnw_n Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′)Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′) \begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align} ที่N1+(∙w)N1+(∙w)N_{1+}\left(\bullet …

15 machine-learning natural-language naive-bayes smoothing language-models

3

แบบจำลองหัวข้อสำหรับเอกสารสั้น ๆ

ได้รับแรงบันดาลใจจากคำถามนี้ฉันสงสัยว่างานใด ๆ ที่ทำกับแบบจำลองหัวข้อสำหรับคอลเลกชันขนาดใหญ่ของข้อความสั้น ๆ เป็นพิเศษหรือไม่ สัญชาตญาณของฉันคือ Twitter ควรเป็นแรงบันดาลใจตามธรรมชาติสำหรับโมเดลดังกล่าว อย่างไรก็ตามจากการทดลองที่ จำกัด บางครั้งดูเหมือนว่าหัวข้อโมเดลมาตรฐาน (LDA ฯลฯ ) จะทำงานได้ค่อนข้างแย่กับข้อมูลประเภทนี้ มีใครรู้บ้างเกี่ยวกับงานที่ทำในด้านนี้บ้างไหม บทความนี้พูดเกี่ยวกับการใช้ LDA กับ Twitter แต่ฉันสนใจจริง ๆ ว่ามีอัลกอริทึมอื่น ๆ ที่ทำงานได้ดีขึ้นในบริบทของเอกสารระยะสั้นหรือไม่

14 references text-mining topic-models natural-language

2

n-g ใดบ้างที่ทำให้เกิดการต่อต้าน

เมื่อทำการประมวลผลภาษาธรรมชาติเราสามารถใช้คลังข้อมูลและประเมินความน่าจะเป็นของคำถัดไปที่เกิดขึ้นในลำดับ n โดยปกติแล้ว n จะถูกเลือกเป็น 2 หรือ 3 (bigrams และ trigrams) มีจุดที่รู้กันหรือไม่ว่าการติดตามข้อมูลสำหรับห่วงโซ่ที่ n กลายเป็นการต่อต้านเนื่องจากระยะเวลาที่ใช้ในการจำแนกคลังข้อมูลเฉพาะครั้งเดียวในระดับนั้น หรือให้เวลาในการค้นหาความน่าจะเป็นจากพจนานุกรม (โครงสร้างข้อมูล)?

13 text-mining natural-language

คำถามติดแท็ก natural-language