วิทยาศาสตร์ข้อมูล nlp

4

การจัดสรร Dirichlet แฝงเทียบกับกระบวนการ Dirichlet ตามลำดับชั้น

Latent Dirichlet Allocation (LDA)และHierarchical Dirichlet Process (HDP)เป็นทั้งกระบวนการสร้างแบบจำลองหัวข้อ ข้อแตกต่างที่สำคัญคือ LDA ต้องการข้อมูลจำเพาะจำนวนหัวข้อและ HDP ไม่ต้องการ เหตุผลที่เป็นเช่นนั้น? และอะไรคือความแตกต่างข้อดีและข้อเสียของวิธีการสร้างแบบจำลองหัวข้อทั้งสอง

49 nlp topic-model lda

5

อะไรคือวิธีมาตรฐานในการคำนวณระยะห่างระหว่างเอกสาร

เมื่อฉันพูดว่า "เอกสาร" ฉันนึกถึงหน้าเว็บต่างๆเช่นบทความ Wikipedia และเรื่องข่าว ฉันต้องการคำตอบที่ให้ทั้งตัวชี้วัดระยะทางวานิลลาคำศัพท์หรือตัวชี้วัดระยะทางความหมายรัฐของศิลปะที่มีการตั้งค่าที่แข็งแกร่งสำหรับหลัง

34 machine-learning data-mining nlp text-mining similarity

1

ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?

ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

4

ฉันควรใช้อัลกอริทึมใดเพื่อจำแนกงานตามข้อมูลประวัติย่อ

โปรดทราบว่าฉันกำลังทำทุกอย่างในอาร์ ปัญหาเกิดขึ้นดังนี้: โดยทั่วไปฉันมีรายการเรซูเม่ (CVs) ผู้สมัครบางคนจะมีประสบการณ์การทำงานมาก่อนและบางคนไม่ เป้าหมายที่นี่คือ: ขึ้นอยู่กับข้อความในประวัติส่วนตัวของพวกเขาฉันต้องการแบ่งพวกเขาออกเป็นภาคงานที่แตกต่างกัน โดยเฉพาะอย่างยิ่งฉันในกรณีเหล่านี้ซึ่งผู้สมัครไม่มีประสบการณ์ใด ๆ / เป็นนักเรียนและฉันต้องการที่จะทำนายการจำแนกประเภทของงานที่ผู้สมัครคนนี้น่าจะเป็นหลังจบการศึกษา คำถามที่ 1: ฉันรู้อัลกอริทึมการเรียนรู้ของเครื่อง อย่างไรก็ตามฉันไม่เคยทำ NLP มาก่อน ฉันเจอการปันส่วน Dirichlet ของ Latent บนอินเทอร์เน็ต อย่างไรก็ตามฉันไม่แน่ใจว่านี่เป็นวิธีที่ดีที่สุดในการแก้ไขปัญหาของฉันหรือไม่ ความคิดเดิมของฉัน: ทำให้การเรียนรู้นี้ภายใต้การดูแลปัญหา สมมติว่าเรามีข้อมูลที่มีป้ายกำกับจำนวนมากอยู่แล้วซึ่งหมายความว่าเรามีการติดป้ายชื่อหมวดงานให้ถูกต้องสำหรับรายชื่อผู้สมัคร เราฝึกอบรมแบบจำลองโดยใช้อัลกอริธึม ML (เช่นเพื่อนบ้านที่ใกล้ที่สุด ... ) และป้อนข้อมูลในข้อมูลที่ไม่มีป้ายกำกับซึ่งเป็นผู้สมัครที่ไม่มีประสบการณ์การทำงาน / เป็นนักเรียนและพยายามคาดการณ์ว่าพวกเขาจะอยู่ในภาคส่วนใด อัปเดต คำถามที่ 2: เป็นการดีหรือไม่ที่จะสร้างไฟล์ข้อความโดยแยกทุกอย่างในประวัติย่อและพิมพ์ข้อมูลเหล่านี้ออกมาในไฟล์ข้อความเพื่อให้แต่ละเรซูเม่เกี่ยวข้องกับไฟล์ข้อความซึ่งมีสตริงที่ไม่มีโครงสร้างและจากนั้นเรา นำเทคนิคการขุดข้อความไปใช้กับไฟล์ข้อความและทำให้ข้อมูลมีโครงสร้างหรือแม้กระทั่งการสร้างเมทริกซ์ความถี่ของคำที่ใช้จากไฟล์ข้อความ? ตัวอย่างเช่นไฟล์ข้อความอาจมีลักษณะดังนี้: I deployed ML algorithm in this project and... Skills: Java, …

28 machine-learning classification nlp text-mining

3

วิธีการทั่วไปในการแยกข้อความสำคัญออกจากประโยค (nlp)

รับประโยคเช่น: Complimentary gym access for two for the length of stay ($12 value per person per day) ฉันสามารถใช้วิธีการทั่วไปในการระบุคำว่ายิมหรือการเข้าถึงยิมอย่างไร

27 machine-learning nlp text-mining data-cleaning

4

Word2Vec สำหรับการจดจำเอนทิตีที่มีชื่อ

ฉันกำลังมองหาที่จะใช้การใช้งาน word2vec ของ Google เพื่อสร้างระบบรู้จำชื่อเอนทิตี ฉันได้ยินมาว่าตาข่ายแบบวนซ้ำที่มีการแพร่กระจายกลับผ่านโครงสร้างนั้นเหมาะสำหรับงานการจดจำเอนทิตีที่มีชื่อ แต่ฉันไม่สามารถหาการใช้งานที่เหมาะสมหรือแบบฝึกหัดที่ดีสำหรับแบบจำลองชนิดนั้น เนื่องจากฉันทำงานกับคลังข้อมูลผิดปกติเครื่องมือ NER มาตรฐานใน NLTK และที่คล้ายกันจึงทำงานได้แย่มากและดูเหมือนว่าฉันจะต้องฝึกระบบของตัวเอง กล่าวโดยย่อคือทรัพยากรใดบ้างที่มีสำหรับปัญหาประเภทนี้ มีมาตรฐานการใช้งานเครือข่ายประสาทแบบเรียกซ้ำ?

25 machine-learning python neural-network nlp

3

เหตุใด NLP และชุมชนการเรียนรู้ของเครื่องจึงมีความสนใจในการเรียนรู้ลึก

ฉันหวังว่าคุณสามารถช่วยฉันได้เนื่องจากฉันมีคำถามในหัวข้อนี้ ฉันใหม่ในด้านการเรียนรู้อย่างลึกซึ้งและในขณะที่ฉันทำแบบฝึกหัดบางอย่างฉันไม่สามารถสร้างความสัมพันธ์หรือแยกแยะความคิดต่าง ๆ ได้

24 machine-learning data-mining neural-network nlp deep-learning

3

การเข้ารหัสตำแหน่งในรุ่นหม้อแปลงคืออะไร?

ฉันใหม่กับ ML และนี่เป็นคำถามแรกของฉันที่นี่ดังนั้นขออภัยถ้าคำถามของฉันโง่ ฉันกำลังพยายามอ่านและทำความเข้าใจกับกระดาษความสนใจคือสิ่งที่คุณต้องการและในนั้นมีรูปภาพ: ฉันไม่รู้ว่าการเข้ารหัสตำแหน่งคืออะไร โดยการฟังวิดีโอ youtube บางรายการฉันพบว่ามันเป็นการฝังทั้งความหมายและตำแหน่งของคำในนั้นและมีบางสิ่งที่เกี่ยวข้องกับหรือsin(x)sin(x)sin(x)cos(x)cos(x)cos(x) แต่ฉันไม่เข้าใจว่ามันคืออะไรและมันทำอย่างนั้น ดังนั้นฉันมาที่นี่เพื่อขอความช่วยเหลือ ขอบคุณล่วงหน้า.

23 nlp encoding attention-mechanism transformer

3

อะไรคืออินพุตที่ดีกว่าสำหรับ Word2Vec

นี่เป็นเหมือนคำถาม NLP ทั่วไป การป้อนข้อมูลที่เหมาะสมในการฝึกอบรมการฝังคำคืออะไร Word2Vec ประโยคทั้งหมดที่เป็นของบทความควรเป็นเอกสารแยกต่างหากในคลังข้อมูลหรือไม่? หรือแต่ละบทความควรเป็นเอกสารในคลังข้อมูลดังกล่าว? นี่เป็นเพียงตัวอย่างการใช้ python และ gensim คอร์ปัสแยกตามประโยค: SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."], ["second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article."], ["second", "sentence", "of", "the", "second", "article."]] คอร์ปัสแยกตามบทความ: ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.", "second", "sentence", "of", …

22 nlp word-embeddings

3

ฉันจะโหลดแบบจำลอง FastText ที่ผ่านการอบรมด้วย Gensim ได้อย่างไร

ผมพยายามที่จะโหลด fastText รุ่น pretrained จากที่นี่รุ่น Fasttext ฉันใช้wiki.simple.en from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) แต่มันแสดงข้อผิดพลาดดังต่อไปนี้ Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), encoding=encoding) File "P:\major_project\venv\lib\site-packages\gensim\utils.py", line 235, in any2unicode return unicode(text, encoding, errors=errors) …

21 nlp gensim

2

การทำนายคำด้วยรูปแบบ Word2vec

ได้รับประโยค: "เมื่อฉันเปิด??ประตูก็จะเริ่มร้อนโดยอัตโนมัติ" ฉันต้องการรับรายการคำศัพท์ที่เป็นไปได้หรือไม่? ด้วยความน่าจะเป็น แนวคิดพื้นฐานที่ใช้ในรูปแบบ word2vec คือ "คาดการณ์" คำที่กำหนดบริบทโดยรอบ เมื่อแบบจำลองถูกสร้างขึ้นบริบทการทำงานของเวกเตอร์ที่ถูกต้องคืออะไรเพื่อดำเนินการทำนายของฉันในประโยคใหม่ มันเป็นเพียงผลรวมเชิงเส้นหรือไม่? model.most_similar(positive=['When','I','open','the','door','it','starts' ,'heating','automatically'])

20 nlp predictive-modeling word-embeddings

4

ฉันจะวัดความคล้ายคลึงของคำได้อย่างไร

วิธีที่ดีที่สุดในการค้นหาความคล้ายคลึงกันทางความหมายของคำคืออะไร Word2Vec ไม่เป็นไร แต่ไม่เหมาะ: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to 'hot' than 'popular' In [9]: model.similarity('hot', 'popular') Out[9]: 0.33708479049537632 …

20 nlp word-embeddings word2vec nltk

3

จะเพิ่มรายการคำที่เกี่ยวข้องตามคำหลักเริ่มต้นได้อย่างไร

ฉันเพิ่งเห็นคุณลักษณะเจ๋งที่ครั้งหนึ่งเคยมีอยู่ใน Google ชีต: คุณเริ่มต้นด้วยการเขียนคำหลักที่เกี่ยวข้องในเซลล์ต่อเนื่องกันพูดว่า: "สีฟ้า", "สีเขียว", "สีเหลือง" และจะสร้างคำหลักที่คล้ายกันโดยอัตโนมัติ สีอื่น ๆ ) ดูตัวอย่างเพิ่มเติมในวิดีโอ YouTubeนี้ ฉันต้องการทำซ้ำในโปรแกรมของฉันเอง ฉันกำลังคิดที่จะใช้ Freebase และมันจะใช้งานได้เช่นนี้อย่างสังหรณ์ใจ: ดึงรายการคำที่กำหนดใน Freebase; ค้นหา "ตัวหารร่วม" และสร้างตัวชี้วัดระยะทางตามสิ่งนี้ จัดลำดับแนวคิดอื่นตาม "ระยะทาง" ของคำหลักเดิม แสดงแนวคิดที่ใกล้เคียงที่สุดต่อไป เนื่องจากฉันไม่คุ้นเคยกับเรื่องนี้คำถามของฉันคือ: มีวิธีที่ดีกว่าในการทำเช่นนี้? มีเครื่องมืออะไรบ้างในแต่ละขั้นตอน?

19 nlp text-mining freebase

4

วิธีการเพิ่มความคิดเห็นเอกสารข้อความด้วย meta-data

มีเอกสารข้อความจำนวนมาก (ในภาษาธรรมชาติไม่มีโครงสร้าง) อะไรคือวิธีที่เป็นไปได้ในการเพิ่มความน่าเชื่อถือด้วย meta-data แบบ semantic ตัวอย่างเช่นพิจารณาเอกสารสั้น ๆ : I saw the company's manager last day. เพื่อให้สามารถดึงข้อมูลจากข้อมูลนั้นจะต้องมีคำอธิบายประกอบพร้อมด้วยข้อมูลเพิ่มเติมเพื่อให้มีความคลุมเครือน้อยลง กระบวนการค้นหาข้อมูลเมตาดังกล่าวไม่ได้เป็นปัญหาดังนั้นให้ถือว่ามีการทำด้วยตนเอง คำถามคือวิธีการจัดเก็บข้อมูลเหล่านี้ในลักษณะที่การวิเคราะห์เพิ่มเติมสามารถทำได้สะดวก / มีประสิทธิภาพมากขึ้น? แนวทางที่เป็นไปได้คือการใช้แท็ก XML (ดูด้านล่าง) แต่ดูเหมือนว่าละเอียดเกินไปและอาจมีแนวทาง / แนวทางที่ดีกว่าสำหรับการจัดเก็บเมตาดาต้าในเอกสารข้อความ <Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s manager <Time value="2014-5-29">last day</Time>.

18 nlp metadata data-cleaning text-mining

3

ชุดข้อมูลสำหรับการจดจำเอนทิตีที่มีชื่อในข้อความที่ไม่เป็นทางการ

ขณะนี้ฉันกำลังค้นหาชุดข้อมูลที่มีป้ายกำกับเพื่อฝึกโมเดลเพื่อแยกเอนทิตีที่มีชื่อออกจากข้อความที่ไม่เป็นทางการ (คล้ายกับทวีต) เนื่องจากการใช้ตัวพิมพ์ใหญ่และไวยากรณ์มักขาดเอกสารในชุดข้อมูลของฉันฉันจึงมองหาข้อมูลในโดเมนที่ค่อนข้าง "ไม่เป็นทางการ" มากกว่าบทความข่าวและรายการบันทึกประจำวันที่ระบบการรู้จำชื่อนิติบุคคลที่ทันสมัยในปัจจุบันหลายแห่ง ได้รับการฝึกฝน คำแนะนำใด ๆ จนถึงตอนนี้ฉันสามารถค้นหาโทเค็น 50k จาก twitter ที่เผยแพร่ที่นี่เท่านั้น

18 dataset nlp

คำถามติดแท็ก nlp