วิทยาศาสตร์ข้อมูล similarity

5

อะไรคือวิธีมาตรฐานในการคำนวณระยะห่างระหว่างเอกสาร

เมื่อฉันพูดว่า "เอกสาร" ฉันนึกถึงหน้าเว็บต่างๆเช่นบทความ Wikipedia และเรื่องข่าว ฉันต้องการคำตอบที่ให้ทั้งตัวชี้วัดระยะทางวานิลลาคำศัพท์หรือตัวชี้วัดระยะทางความหมายรัฐของศิลปะที่มีการตั้งค่าที่แข็งแกร่งสำหรับหลัง

34 machine-learning data-mining nlp text-mining similarity

4

แอปพลิเคชันและความแตกต่างสำหรับความคล้ายคลึงกันของ Jaccard และ Cosine Similarity

ความคล้ายคลึงกันของ Jaccardและความเหมือนโคไซน์เป็นสองการวัดที่พบบ่อยมากในขณะที่เปรียบเทียบความคล้ายคลึงกันของรายการ อย่างไรก็ตามฉันไม่ชัดเจนในสถานการณ์ใดที่หนึ่งควรจะดีกว่าอีก ใครสามารถช่วยอธิบายความแตกต่างของการวัดทั้งสองนี้ (ความแตกต่างในแนวคิดหรือหลักการไม่ใช่คำจำกัดความหรือการคำนวณ) และแอปพลิเคชันที่ต้องการได้หรือไม่

27 similarity

5

ขั้นตอนวิธีปฏิบัติที่ดีที่สุดสำหรับความคล้ายคลึงของประโยค

ฉันมีสองประโยคคือ S1 และ S2 ซึ่งทั้งคู่มีจำนวนคำ (ปกติ) ต่ำกว่า 15 อะไรคืออัลกอริทึมที่มีประโยชน์และประสบความสำเร็จมากที่สุด (การเรียนรู้ของเครื่อง) ซึ่งอาจง่ายต่อการติดตั้ง (เครือข่ายประสาทเทียมก็โอเคยกเว้นว่าสถาปัตยกรรมนั้นซับซ้อนพอ ๆ กับ Google Inception เป็นต้น) ฉันกำลังมองหาอัลกอริทึมที่จะทำงานได้ดีโดยไม่ต้องใช้เวลามากเกินไป มีอัลกอริทึมใดบ้างที่คุณประสบความสำเร็จและใช้งานง่าย? สิ่งนี้สามารถทำได้ แต่ไม่จำเป็นต้องอยู่ในหมวดหมู่ของการทำคลัสเตอร์ พื้นหลังของฉันมาจากการเรียนรู้ของเครื่องดังนั้นคำแนะนำใด ๆ ยินดีต้อนรับ :)

18 nlp clustering word2vec similarity

4

การจัดกลุ่มตามคะแนนความคล้ายคลึงกัน

สมมติว่าเรามีชุดขององค์ประกอบEและความคล้ายคลึงกัน ( ไม่ใช่ระยะทาง ) ฟังก์ชั่นซิม (EI, EJ)ระหว่างสององค์ประกอบEI, EJ ∈ E เราจะจัดองค์ประกอบของEโดยใช้ซิมได้อย่างไร(อย่างมีประสิทธิภาพ) ตัวอย่างเช่นk -means ต้องการk ที่ให้มา, Canopy Clustering ต้องการค่าสองค่า ถ้าเราไม่ต้องการพารามิเตอร์ที่กำหนดไว้ล่วงหน้า โปรดทราบว่าซิมนั้นไม่จำเป็นต้องมีการวัด (เช่นความไม่เท่าเทียมกันของสามเหลี่ยมอาจหรืออาจไม่ถือ) ยิ่งกว่านั้นมันไม่สำคัญว่ากลุ่มจะแยกจากกัน (พาร์ติชันของE )

17 clustering algorithms similarity

5

ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น

ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

5

การทำนายความคล้ายคลึงกันของประโยค

ฉันกำลังมองหาที่จะแก้ปัญหาต่อไปนี้: ฉันมีชุดประโยคเป็นชุดข้อมูลของฉันและฉันต้องการที่จะสามารถพิมพ์ประโยคใหม่และค้นหาประโยคที่ประโยคใหม่คล้ายกับในชุดข้อมูล ตัวอย่างจะมีลักษณะดังนี้: ประโยคใหม่: " I opened a new mailbox" การทำนายขึ้นอยู่กับชุดข้อมูล: Sentence | Similarity A dog ate poop 0% A mailbox is good 50% A mailbox was opened by me 80% ฉันได้อ่านว่าโคไซน์ที่คล้ายคลึงกันสามารถใช้ในการแก้ปัญหาประเภทนี้ที่จับคู่กับ tf-idf (และ RNN ไม่ควรนำการปรับปรุงที่สำคัญไปใช้กับวิธีการพื้นฐาน) หรือword2vecใช้สำหรับปัญหาที่คล้ายกัน สิ่งเหล่านี้มีประโยชน์สำหรับการใช้งานในกรณีนี้หรือไม่ มีเทคนิค / อัลกอริธึมอื่น ๆ ที่จะแก้ปัญหานี้ (โดยเฉพาะกับ Python และ SKLearn แต่ฉันเปิดกว้างเพื่อเรียนรู้เกี่ยวกับ TensorFlow ด้วย)

15 python nlp scikit-learn similarity text

4

ทางเลือกแทน TF-IDF และ Cosine Similarity เมื่อเปรียบเทียบเอกสารที่มีรูปแบบต่างกัน

ฉันทำงานเกี่ยวกับโครงการส่วนตัวขนาดเล็กซึ่งใช้ทักษะการทำงานของผู้ใช้และแนะนำอาชีพที่เหมาะสมที่สุดสำหรับพวกเขาตามทักษะเหล่านั้น ฉันใช้ฐานข้อมูลของรายการงานเพื่อให้ได้สิ่งนี้ ในขณะนี้รหัสทำงานดังนี้: 1) ประมวลผลข้อความของแต่ละรายการงานเพื่อแยกทักษะที่ระบุไว้ในรายการ 2) สำหรับแต่ละอาชีพ (เช่น "นักวิเคราะห์ข้อมูล") ให้รวมข้อความที่ประมวลผลของรายการงานสำหรับอาชีพนั้นไว้ในเอกสารเดียว 3) คำนวณ TF-IDF ของแต่ละทักษะภายในเอกสารประกอบอาชีพ หลังจากนี้ฉันไม่แน่ใจว่าวิธีการใดที่ฉันควรใช้เพื่อจัดอันดับอาชีพตามรายการทักษะของผู้ใช้ วิธีที่ได้รับความนิยมมากที่สุดที่ฉันเคยเห็นก็คือการใช้ทักษะของผู้ใช้เป็นเอกสารเช่นกันจากนั้นคำนวณ TF-IDF สำหรับเอกสารทักษะและใช้สิ่งที่คล้ายโคไซน์เพื่อคำนวณความคล้ายคลึงกันระหว่างเอกสารทักษะและแต่ละ เอกสารประกอบอาชีพ ดูเหมือนจะไม่เป็นทางออกที่ดีสำหรับฉันเนื่องจากความคล้ายคลึงกันทางโคไซน์นั้นถูกใช้งานได้ดีที่สุดเมื่อเปรียบเทียบเอกสารสองฉบับในรูปแบบเดียวกัน สำหรับเรื่องนั้น TF-IDF ดูเหมือนจะไม่ตรงกับตัวชี้วัดที่เหมาะสมที่จะนำไปใช้กับรายการทักษะของผู้ใช้เลย ตัวอย่างเช่นหากผู้ใช้เพิ่มทักษะเพิ่มเติมลงในรายการ TF ของแต่ละทักษะจะลดลง ในความเป็นจริงฉันไม่สนใจสิ่งที่ความถี่ของทักษะอยู่ในรายการทักษะของผู้ใช้ - ฉันแค่ใส่ใจว่าพวกเขามีทักษะเหล่านั้น (และบางทีพวกเขารู้ทักษะเหล่านั้นดีแค่ไหน) ดูเหมือนว่าตัวชี้วัดที่ดีกว่าจะทำสิ่งต่อไปนี้: 1) สำหรับแต่ละทักษะที่ผู้ใช้มีให้คำนวณ TF-IDF ของทักษะนั้นในเอกสารประกอบอาชีพ 2) สำหรับแต่ละอาชีพสรุปผล TF-IDF สำหรับทักษะทั้งหมดของผู้ใช้ 3) อันดับอาชีพตามผลรวมข้างต้น ฉันกำลังคิดตามบรรทัดที่นี่หรือไม่ ถ้าเป็นเช่นนั้นมีอัลกอริทึมใดบ้างที่ใช้งานได้ตามบรรทัดเหล่านี้ แต่มีความซับซ้อนมากกว่าผลรวมแบบง่ายหรือไม่? ขอบคุณสำหรับความช่วยเหลือ!

12 nlp text-mining similarity cosine-distance

1

MinHashing vs SimHashing

สมมติว่าฉันมีห้าชุดที่ฉันต้องการจัดกลุ่ม ฉันเข้าใจว่าเทคนิค SimHashing อธิบายไว้ที่นี่: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ ได้ผลสามกลุ่ม ( {A}, {B,C,D}และ{E}) ตัวอย่างเช่นถ้าผลของมันคือ: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 ในทำนองเดียวกันเทคนิค MinHashing ที่อธิบายไว้ในบทที่ 3 ของหนังสือ MMDS: http://infolab.stanford.edu/~ullman/mmds/ch3.pdf ยังสามารถให้ผลเหมือนกันสามกลุ่มถ้าผลลัพธ์เป็น: A -> h01 - h02 - h03 B -> h04 - h05 - h06 | C -> …

12 clustering similarity

3

เวกเตอร์สเปซโมเดลโคไซน์ tf-idf สำหรับค้นหาเอกสารที่คล้ายกัน

มีคลังเอกสารมากกว่าล้านฉบับ สำหรับเอกสารที่ต้องการต้องการค้นหาเอกสารที่คล้ายกันโดยใช้โคไซน์เหมือนกับในแบบจำลองเวกเตอร์สเปซ d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) TF ทั้งหมดได้รับการทำให้เป็นมาตรฐานโดยใช้ความถี่ที่เพิ่มขึ้นเพื่อป้องกันความเอนเอียงไปสู่เอกสารที่ยาวขึ้นดังเช่นในtf-idf นี้ : tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} คำนวณล่วงหน้าทั้งหมด มีค่าสำหรับตัวหารคำนวณล่วงหน้า ดังนั้นสำหรับd 1 ที่ต้องการคะแนนมากกว่า 1 ล้านd 2 มีเกณฑ์ 0.6 โคไซน์สำหรับความคล้ายคลึงกัน ||d||||d||||d||d1d1d1d2d2d2 ฉันสามารถสังเกตได้ว่าสำหรับมีช่วงที่ค่อนข้างแคบของ| | d 2 | | สำหรับโคไซน์≥ 0.6 ตัวอย่างเช่นในการค้นหาเดียวสำหรับโคไซน์ของ≥ 0.6 และ a | | d 1 | | จาก 7.7631 จากนั้น| …

10 text-mining similarity

2

แยกสตริงที่ยอมรับจากรายการของสตริงที่มีเสียงดัง

ฉันมีหลายพันรายการของสตริงและแต่ละรายการมีประมาณ 10 สาย สตริงส่วนใหญ่ในรายการที่กำหนดจะคล้ายกันมากแม้ว่าบางสตริงจะไม่ค่อยเกี่ยวข้องกับสตริงอื่นและบางคำมีคำที่ไม่เกี่ยวข้อง พวกเขาอาจถูกพิจารณาว่าเป็นความแปรปรวนของสตริงที่ยอมรับได้ ฉันกำลังมองหาอัลกอริทึมหรือไลบรารีที่จะแปลงแต่ละรายการเป็นสตริงที่ยอมรับได้ นี่คือหนึ่งในรายการดังกล่าว Star Wars: Episode IV ความหวังใหม่ StarWars.com Star Wars Episode IV - ความหวังใหม่ (1977) Star Wars: Episode IV - ความหวังใหม่ - มะเขือเทศเน่า ดู Star Wars: Episode IV - ความหวังใหม่ออนไลน์ฟรี Star Wars (1977) - ภาพยนตร์ยอดเยี่ยม [REC] โปสเตอร์ 4 ใบรับประกันความตายโดย Outboard Motor - SciFiNow สำหรับรายการนี้สตริงใด ๆ …

10 nlp similarity information-retrieval

คำถามติดแท็ก similarity