คำถามติดแท็ก nlp

การประมวลผลภาษาธรรมชาติ (NLP) เป็นสาขาวิทยาศาสตร์คอมพิวเตอร์, ปัญญาประดิษฐ์และภาษาศาสตร์ที่เกี่ยวข้องกับการมีปฏิสัมพันธ์ระหว่างคอมพิวเตอร์และภาษามนุษย์ (ธรรมชาติ) ด้วยเหตุนี้ NLP จึงเกี่ยวข้องกับการปฏิสัมพันธ์ระหว่างมนุษย์และคอมพิวเตอร์ ความท้าทายหลายอย่างใน NLP เกี่ยวข้องกับการเข้าใจภาษาธรรมชาตินั่นคือทำให้คอมพิวเตอร์ได้รับความหมายจากการป้อนข้อมูลภาษามนุษย์หรือภาษาธรรมชาติและอื่น ๆ ที่เกี่ยวข้องกับการสร้างภาษาธรรมชาติ

4
การจัดสรร Dirichlet แฝงเทียบกับกระบวนการ Dirichlet ตามลำดับชั้น
Latent Dirichlet Allocation (LDA)และHierarchical Dirichlet Process (HDP)เป็นทั้งกระบวนการสร้างแบบจำลองหัวข้อ ข้อแตกต่างที่สำคัญคือ LDA ต้องการข้อมูลจำเพาะจำนวนหัวข้อและ HDP ไม่ต้องการ เหตุผลที่เป็นเช่นนั้น? และอะไรคือความแตกต่างข้อดีและข้อเสียของวิธีการสร้างแบบจำลองหัวข้อทั้งสอง
49 nlp  topic-model  lda 

5
อะไรคือวิธีมาตรฐานในการคำนวณระยะห่างระหว่างเอกสาร
เมื่อฉันพูดว่า "เอกสาร" ฉันนึกถึงหน้าเว็บต่างๆเช่นบทความ Wikipedia และเรื่องข่าว ฉันต้องการคำตอบที่ให้ทั้งตัวชี้วัดระยะทางวานิลลาคำศัพท์หรือตัวชี้วัดระยะทางความหมายรัฐของศิลปะที่มีการตั้งค่าที่แข็งแกร่งสำหรับหลัง

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
ฉันควรใช้อัลกอริทึมใดเพื่อจำแนกงานตามข้อมูลประวัติย่อ
โปรดทราบว่าฉันกำลังทำทุกอย่างในอาร์ ปัญหาเกิดขึ้นดังนี้: โดยทั่วไปฉันมีรายการเรซูเม่ (CVs) ผู้สมัครบางคนจะมีประสบการณ์การทำงานมาก่อนและบางคนไม่ เป้าหมายที่นี่คือ: ขึ้นอยู่กับข้อความในประวัติส่วนตัวของพวกเขาฉันต้องการแบ่งพวกเขาออกเป็นภาคงานที่แตกต่างกัน โดยเฉพาะอย่างยิ่งฉันในกรณีเหล่านี้ซึ่งผู้สมัครไม่มีประสบการณ์ใด ๆ / เป็นนักเรียนและฉันต้องการที่จะทำนายการจำแนกประเภทของงานที่ผู้สมัครคนนี้น่าจะเป็นหลังจบการศึกษา คำถามที่ 1: ฉันรู้อัลกอริทึมการเรียนรู้ของเครื่อง อย่างไรก็ตามฉันไม่เคยทำ NLP มาก่อน ฉันเจอการปันส่วน Dirichlet ของ Latent บนอินเทอร์เน็ต อย่างไรก็ตามฉันไม่แน่ใจว่านี่เป็นวิธีที่ดีที่สุดในการแก้ไขปัญหาของฉันหรือไม่ ความคิดเดิมของฉัน: ทำให้การเรียนรู้นี้ภายใต้การดูแลปัญหา สมมติว่าเรามีข้อมูลที่มีป้ายกำกับจำนวนมากอยู่แล้วซึ่งหมายความว่าเรามีการติดป้ายชื่อหมวดงานให้ถูกต้องสำหรับรายชื่อผู้สมัคร เราฝึกอบรมแบบจำลองโดยใช้อัลกอริธึม ML (เช่นเพื่อนบ้านที่ใกล้ที่สุด ... ) และป้อนข้อมูลในข้อมูลที่ไม่มีป้ายกำกับซึ่งเป็นผู้สมัครที่ไม่มีประสบการณ์การทำงาน / เป็นนักเรียนและพยายามคาดการณ์ว่าพวกเขาจะอยู่ในภาคส่วนใด อัปเดต คำถามที่ 2: เป็นการดีหรือไม่ที่จะสร้างไฟล์ข้อความโดยแยกทุกอย่างในประวัติย่อและพิมพ์ข้อมูลเหล่านี้ออกมาในไฟล์ข้อความเพื่อให้แต่ละเรซูเม่เกี่ยวข้องกับไฟล์ข้อความซึ่งมีสตริงที่ไม่มีโครงสร้างและจากนั้นเรา นำเทคนิคการขุดข้อความไปใช้กับไฟล์ข้อความและทำให้ข้อมูลมีโครงสร้างหรือแม้กระทั่งการสร้างเมทริกซ์ความถี่ของคำที่ใช้จากไฟล์ข้อความ? ตัวอย่างเช่นไฟล์ข้อความอาจมีลักษณะดังนี้: I deployed ML algorithm in this project and... Skills: Java, …

3
วิธีการทั่วไปในการแยกข้อความสำคัญออกจากประโยค (nlp)
รับประโยคเช่น: Complimentary gym access for two for the length of stay ($12 value per person per day) ฉันสามารถใช้วิธีการทั่วไปในการระบุคำว่ายิมหรือการเข้าถึงยิมอย่างไร

4
Word2Vec สำหรับการจดจำเอนทิตีที่มีชื่อ
ฉันกำลังมองหาที่จะใช้การใช้งาน word2vec ของ Google เพื่อสร้างระบบรู้จำชื่อเอนทิตี ฉันได้ยินมาว่าตาข่ายแบบวนซ้ำที่มีการแพร่กระจายกลับผ่านโครงสร้างนั้นเหมาะสำหรับงานการจดจำเอนทิตีที่มีชื่อ แต่ฉันไม่สามารถหาการใช้งานที่เหมาะสมหรือแบบฝึกหัดที่ดีสำหรับแบบจำลองชนิดนั้น เนื่องจากฉันทำงานกับคลังข้อมูลผิดปกติเครื่องมือ NER มาตรฐานใน NLTK และที่คล้ายกันจึงทำงานได้แย่มากและดูเหมือนว่าฉันจะต้องฝึกระบบของตัวเอง กล่าวโดยย่อคือทรัพยากรใดบ้างที่มีสำหรับปัญหาประเภทนี้ มีมาตรฐานการใช้งานเครือข่ายประสาทแบบเรียกซ้ำ?

3
เหตุใด NLP และชุมชนการเรียนรู้ของเครื่องจึงมีความสนใจในการเรียนรู้ลึก
ฉันหวังว่าคุณสามารถช่วยฉันได้เนื่องจากฉันมีคำถามในหัวข้อนี้ ฉันใหม่ในด้านการเรียนรู้อย่างลึกซึ้งและในขณะที่ฉันทำแบบฝึกหัดบางอย่างฉันไม่สามารถสร้างความสัมพันธ์หรือแยกแยะความคิดต่าง ๆ ได้

3
การเข้ารหัสตำแหน่งในรุ่นหม้อแปลงคืออะไร?
ฉันใหม่กับ ML และนี่เป็นคำถามแรกของฉันที่นี่ดังนั้นขออภัยถ้าคำถามของฉันโง่ ฉันกำลังพยายามอ่านและทำความเข้าใจกับกระดาษความสนใจคือสิ่งที่คุณต้องการและในนั้นมีรูปภาพ: ฉันไม่รู้ว่าการเข้ารหัสตำแหน่งคืออะไร โดยการฟังวิดีโอ youtube บางรายการฉันพบว่ามันเป็นการฝังทั้งความหมายและตำแหน่งของคำในนั้นและมีบางสิ่งที่เกี่ยวข้องกับหรือsin(x)sin(x)sin(x)cos(x)cos(x)cos(x) แต่ฉันไม่เข้าใจว่ามันคืออะไรและมันทำอย่างนั้น ดังนั้นฉันมาที่นี่เพื่อขอความช่วยเหลือ ขอบคุณล่วงหน้า.

3
อะไรคืออินพุตที่ดีกว่าสำหรับ Word2Vec
นี่เป็นเหมือนคำถาม NLP ทั่วไป การป้อนข้อมูลที่เหมาะสมในการฝึกอบรมการฝังคำคืออะไร Word2Vec ประโยคทั้งหมดที่เป็นของบทความควรเป็นเอกสารแยกต่างหากในคลังข้อมูลหรือไม่? หรือแต่ละบทความควรเป็นเอกสารในคลังข้อมูลดังกล่าว? นี่เป็นเพียงตัวอย่างการใช้ python และ gensim คอร์ปัสแยกตามประโยค: SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."], ["second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article."], ["second", "sentence", "of", "the", "second", "article."]] คอร์ปัสแยกตามบทความ: ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.", "second", "sentence", "of", …

3
ฉันจะโหลดแบบจำลอง FastText ที่ผ่านการอบรมด้วย Gensim ได้อย่างไร
ผมพยายามที่จะโหลด fastText รุ่น pretrained จากที่นี่รุ่น Fasttext ฉันใช้wiki.simple.en from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) แต่มันแสดงข้อผิดพลาดดังต่อไปนี้ Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), encoding=encoding) File "P:\major_project\venv\lib\site-packages\gensim\utils.py", line 235, in any2unicode return unicode(text, encoding, errors=errors) …
21 nlp  gensim 

2
การทำนายคำด้วยรูปแบบ Word2vec
ได้รับประโยค: "เมื่อฉันเปิด??ประตูก็จะเริ่มร้อนโดยอัตโนมัติ" ฉันต้องการรับรายการคำศัพท์ที่เป็นไปได้หรือไม่? ด้วยความน่าจะเป็น แนวคิดพื้นฐานที่ใช้ในรูปแบบ word2vec คือ "คาดการณ์" คำที่กำหนดบริบทโดยรอบ เมื่อแบบจำลองถูกสร้างขึ้นบริบทการทำงานของเวกเตอร์ที่ถูกต้องคืออะไรเพื่อดำเนินการทำนายของฉันในประโยคใหม่ มันเป็นเพียงผลรวมเชิงเส้นหรือไม่? model.most_similar(positive=['When','I','open','the','door','it','starts' ,'heating','automatically'])

4
ฉันจะวัดความคล้ายคลึงของคำได้อย่างไร
วิธีที่ดีที่สุดในการค้นหาความคล้ายคลึงกันทางความหมายของคำคืออะไร Word2Vec ไม่เป็นไร แต่ไม่เหมาะ: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to 'hot' than 'popular' In [9]: model.similarity('hot', 'popular') Out[9]: 0.33708479049537632 …

3
จะเพิ่มรายการคำที่เกี่ยวข้องตามคำหลักเริ่มต้นได้อย่างไร
ฉันเพิ่งเห็นคุณลักษณะเจ๋งที่ครั้งหนึ่งเคยมีอยู่ใน Google ชีต: คุณเริ่มต้นด้วยการเขียนคำหลักที่เกี่ยวข้องในเซลล์ต่อเนื่องกันพูดว่า: "สีฟ้า", "สีเขียว", "สีเหลือง" และจะสร้างคำหลักที่คล้ายกันโดยอัตโนมัติ สีอื่น ๆ ) ดูตัวอย่างเพิ่มเติมในวิดีโอ YouTubeนี้ ฉันต้องการทำซ้ำในโปรแกรมของฉันเอง ฉันกำลังคิดที่จะใช้ Freebase และมันจะใช้งานได้เช่นนี้อย่างสังหรณ์ใจ: ดึงรายการคำที่กำหนดใน Freebase; ค้นหา "ตัวหารร่วม" และสร้างตัวชี้วัดระยะทางตามสิ่งนี้ จัดลำดับแนวคิดอื่นตาม "ระยะทาง" ของคำหลักเดิม แสดงแนวคิดที่ใกล้เคียงที่สุดต่อไป เนื่องจากฉันไม่คุ้นเคยกับเรื่องนี้คำถามของฉันคือ: มีวิธีที่ดีกว่าในการทำเช่นนี้? มีเครื่องมืออะไรบ้างในแต่ละขั้นตอน?

4
วิธีการเพิ่มความคิดเห็นเอกสารข้อความด้วย meta-data
มีเอกสารข้อความจำนวนมาก (ในภาษาธรรมชาติไม่มีโครงสร้าง) อะไรคือวิธีที่เป็นไปได้ในการเพิ่มความน่าเชื่อถือด้วย meta-data แบบ semantic ตัวอย่างเช่นพิจารณาเอกสารสั้น ๆ : I saw the company's manager last day. เพื่อให้สามารถดึงข้อมูลจากข้อมูลนั้นจะต้องมีคำอธิบายประกอบพร้อมด้วยข้อมูลเพิ่มเติมเพื่อให้มีความคลุมเครือน้อยลง กระบวนการค้นหาข้อมูลเมตาดังกล่าวไม่ได้เป็นปัญหาดังนั้นให้ถือว่ามีการทำด้วยตนเอง คำถามคือวิธีการจัดเก็บข้อมูลเหล่านี้ในลักษณะที่การวิเคราะห์เพิ่มเติมสามารถทำได้สะดวก / มีประสิทธิภาพมากขึ้น? แนวทางที่เป็นไปได้คือการใช้แท็ก XML (ดูด้านล่าง) แต่ดูเหมือนว่าละเอียดเกินไปและอาจมีแนวทาง / แนวทางที่ดีกว่าสำหรับการจัดเก็บเมตาดาต้าในเอกสารข้อความ <Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s manager <Time value="2014-5-29">last day</Time>.

3
ชุดข้อมูลสำหรับการจดจำเอนทิตีที่มีชื่อในข้อความที่ไม่เป็นทางการ
ขณะนี้ฉันกำลังค้นหาชุดข้อมูลที่มีป้ายกำกับเพื่อฝึกโมเดลเพื่อแยกเอนทิตีที่มีชื่อออกจากข้อความที่ไม่เป็นทางการ (คล้ายกับทวีต) เนื่องจากการใช้ตัวพิมพ์ใหญ่และไวยากรณ์มักขาดเอกสารในชุดข้อมูลของฉันฉันจึงมองหาข้อมูลในโดเมนที่ค่อนข้าง "ไม่เป็นทางการ" มากกว่าบทความข่าวและรายการบันทึกประจำวันที่ระบบการรู้จำชื่อนิติบุคคลที่ทันสมัยในปัจจุบันหลายแห่ง ได้รับการฝึกฝน คำแนะนำใด ๆ จนถึงตอนนี้ฉันสามารถค้นหาโทเค็น 50k จาก twitter ที่เผยแพร่ที่นี่เท่านั้น
18 dataset  nlp 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.