มีคลังเอกสารมากกว่าล้านฉบับ
สำหรับเอกสารที่ต้องการต้องการค้นหาเอกสารที่คล้ายกันโดยใช้โคไซน์เหมือนกับในแบบจำลองเวกเตอร์สเปซ
TF ทั้งหมดได้รับการทำให้เป็นมาตรฐานโดยใช้ความถี่ที่เพิ่มขึ้นเพื่อป้องกันความเอนเอียงไปสู่เอกสารที่ยาวขึ้นดังเช่นในtf-idf นี้ :
คำนวณล่วงหน้าทั้งหมด
มีค่าสำหรับตัวหารคำนวณล่วงหน้า
ดังนั้นสำหรับd 1 ที่ต้องการคะแนนมากกว่า 1 ล้านd 2
มีเกณฑ์ 0.6 โคไซน์สำหรับความคล้ายคลึงกัน
ฉันสามารถสังเกตได้ว่าสำหรับมีช่วงที่ค่อนข้างแคบของ| | d 2 | | สำหรับโคไซน์≥ 0.6
ตัวอย่างเช่นในการค้นหาเดียวสำหรับโคไซน์ของ≥ 0.6 และ a | | d 1 | | จาก 7.7631 จากนั้น| | d 2 | | ช่วงจาก 7.0867 ถึง 8.8339
ซึ่งอยู่นอกเกณฑ์ของโคไซน์ 0.6 | | d 2 | | ช่วงจาก 0.7223 ถึง 89.3395
นี่คือมาตรฐานการจัดทำเอกสาร TF มาตรฐาน
มันดูมากที่ไม่มีโอกาสได้เป็นโคไซน์ 0.6 แมทช์
ในที่สุดคำถาม:
สำหรับการให้และ cosine ของ> = 0.6 จะกำหนดช่วงของ| | d 2 | | ที่มีโอกาส
ซึ่ง| | d 2 | | ฉันสามารถกำจัดได้อย่างปลอดภัย?
ฉันยังทราบจำนวนเทอมในและd 2หากมีช่วงการนับเทอม
ผ่านการทดสอบ
และ| | d 2 | | < | | d 1 | | / .8
ดูเหมือนว่าจะปลอดภัย แต่หวังว่าจะมีช่วงที่พิสูจน์แล้วว่าปลอดภัย
สร้างกรณีทดสอบบางคำที่มีคำศัพท์ที่ไม่เหมือนใครบางอย่างไม่เหมือนกันและบางกรณี คุณสามารถใช้คำที่ไม่ซ้ำกันมากที่สุดและเพิ่มความถี่นั้นในการเปรียบเทียบ ตัวนับจะ (ผลิตภัณฑ์ดอท) ขึ้นและจะ | | เปรียบเทียบ || และจะได้โคไซน์มาก ๆ ใกล้กับ 1
ประเภทที่เกี่ยวข้องและไม่ใช่คำถาม
ฉันยังใช้ tf-idf เพื่อจัดกลุ่มเอกสารเป็นกลุ่ม ฐานลูกค้าที่ฉันขายเข้านั้นถูกใช้เพื่ออยู่ใกล้กับกลุ่มที่อยู่ใกล้เคียง ที่นั่นฉันกำลังใช้วิธีการที่เกี่ยวข้องในขณะที่ฉันมองว่าเป็นคำที่เล็กที่สุดและประเมินมันเทียบกับคำที่มากถึง 3 เท่า จำนวนเทอมของ 10 จึงดูที่ 10 ถึง 30 (4-9 มีการยิงที่ 10) ที่นี่ฉันสามารถที่จะพลาดใครมีมันหยิบขึ้นมาในอีก ฉันทำไปแล้ว 10% และอัตราส่วนที่ใหญ่ที่สุดคือ 1.8
กรุณาระบุข้อบกพร่องในการวิเคราะห์นี้
ในฐานะที่เป็นออกแหลมโดย AN6U5 มีข้อบกพร่องในการวิเคราะห์นี้
มันไม่มีโคไซน์ถ้าเอกสารที่มีนัยในการถ่วงน้ำหนัก
และเป็นแหลมออกโดยแม็ตธิวยังไม่สามารถสรุปd1⋅d2≤d1⋅d1
ผม ยังคงหวังบางสิ่งบางอย่างที่จะให้ฉันฮาร์ดผูกพัน แต่คนที่ดูเหมือนว่าจะรู้ว่าสิ่งนี้จะบอกฉันไม่มี
ฉันไม่ต้องการที่จะเปลี่ยนคำถามดังนั้นเพียงแค่สนใจนี้
ฉันจะทำวิเคราะห์บางส่วนและอาจจะโพสต์คำถามแยกต่างหากในการฟื้นฟูเอกสาร
สำหรับ จุดประสงค์ของคำถามนี้ถือว่าเอกสารนั้นเป็นมาตรฐานของ raw tf
ขออภัย แต่ฉันไม่ดีกับสิ่งที่เคยใช้มาร์กอัปในการสร้างสมการ
ดังนั้นในสัญกรณ์ของฉัน
|| d1 | | = sqrt (ผลรวม (w1 x w1))
d1 dot d2 = SUM (w1 X w2)
สมมติ d1 เป็นเอกสารสั้น
ที่ดีที่สุดมาก d1 dot d2 ที่สามารถทำได้คือ d1 dot d1
ถ้า d1 คือแต่งงานกับ 100 paul 20
และ d2 คือแต่งงานกับ 100 paul 20 เปโตร 1
ปกติ
d1 คือแต่งงาน 1 paul 1/5
d2 แต่งงาน 1 paul 1/5 peter 1/100
ชัดเจนแต่งงานและ paul มี idf เดียวกันในเอกสารทั้งคู่
d1 dot d2 ที่ดีที่สุดที่เป็นไปได้คือ d1 dot d1
การจับคู่ที่เป็นไปได้สูงสุดคือ d1
cos = d1 dot d1 / || d1 || || || d2
ตารางทั้งสองฝ่าย
cos X cos = (d1 dot d1) X (d1 dot d1) / ((d1 dot d1) X (d2 dot d2)) cos X cos = (d1 dot d1) / (d2 dot d2)
ใช้ตาราง รากของทั้งสองด้าน
cos = || d1 || / || d2 ||
คือ || d2 || ไม่ได้ล้อมรอบด้วย cos?
ถ้าฉันใช้ || d2 || > = cos || d1 || และ || d2 || <= || d1 || / cos ฉันได้รับความเร็วในการคำนวณที่ฉันต้องการ