ฉันมางานปาร์ตี้สายนี้ แต่ฉันกำลังเล่นกับแนวคิดของtc-idf (ฉันต้องการเน้นคำว่า 'แนวคิด' เพราะฉันไม่ได้ติดตามหนังสือใด ๆ สำหรับการคำนวณจริงดังนั้นพวกเขาอาจจะค่อนข้างปิดและแน่นอน ดำเนินการได้ง่ายขึ้นด้วยแพคเกจเช่นตาม{tm: Text Mining Package}
ที่กล่าวไว้) และฉันคิดว่าสิ่งที่ฉันได้รับอาจเกี่ยวข้องกับคำถามนี้หรือในกรณีใด ๆ นี่อาจเป็นจุดที่เหมาะสำหรับการโพสต์
SET-UP:ฉันมีคลังของ5
ย่อหน้ายาวนำมาจากสื่อสิ่งพิมพ์text 1
ผ่าน5
เช่นนิวยอร์กไทม์ส ถูกกล่าวหาว่ามันเป็น "ร่างกาย" ที่มีขนาดเล็กมากห้องสมุดเล็ก ๆ ดังนั้นจะพูดแต่รายการในห้องสมุด "ดิจิตอล" นี้ไม่ได้สุ่ม: รายการแรกและที่ห้าจัดการกับฟุตบอล (หรือ 'ฟุตบอล' สำหรับ 'สโมสรสังคม' (?) แถว ๆ นี้) และเฉพาะเจาะจงมากขึ้นเกี่ยวกับทีมที่ยิ่งใหญ่ที่สุดในปัจจุบัน ตัวอย่างเช่นtext 1
เริ่มจาก ...
"ในช่วงเก้าปีที่ผ่านมาเมสซี่ได้พาสโมสรฟุตบอลบาร์เซโลนาไปสู่ตำแหน่งระดับชาติและระดับนานาชาติในขณะเดียวกันก็ทำลายสถิติของตัวเองในรูปแบบที่ดูเหมือนเป็นเรื่องไม่แน่นอน ... "
ดีมาก! ในอีกทางหนึ่งคุณจะต้องข้ามเนื้อหาในสามรายการในระหว่าง นี่คือตัวอย่าง ( text 2
):
"ในช่วงเวลาไม่กี่ชั่วโมงทั่วเท็กซัสมิสเตอร์รูบิโอแนะนำว่ามิสเตอร์ทรัมป์ได้ปัสสาวะใส่กางเกงของเขาและใช้ผู้อพยพผิดกฎหมายมาเคาะข้อความ Twitter ที่ไม่สิ้นสุดของเขา ... "
ดังนั้นจะทำอย่างไรที่จะหลีกเลี่ยงค่าใช้จ่ายทั้งหมด "ท่อง" จากtext 1
ไปtext 2
ขณะที่ยังคงที่จะชื่นชมยินดีในวรรณคดีเกี่ยวกับยิ่งใหญ่เอฟซีบาร์เซโลนาในtext 5
?
TC-IDF:ฉันแยกคำเหล่านี้text
ออกเป็นเวกเตอร์ที่มีความยาวทุกเส้น จากนั้นนับความถี่ของแต่ละคำสร้างเวกเตอร์ห้าตัว (หนึ่งอันสำหรับแต่ละอันtext
) ซึ่งนับเฉพาะคำที่พบในคำที่เกี่ยวข้องtext
เท่านั้น - คำอื่น ๆ ทั้งหมดที่เป็นtext
ของ s อื่น ๆนั้นมีค่าเป็นศูนย์ ในตัวอย่างแรกของtext 1
ตัวอย่างเช่นเวกเตอร์จะมีการนับ 1 สำหรับคำว่า "เมสซี่" ในขณะที่ "ทรัมป์" จะมี 0. นี้เป็นTCส่วนหนึ่ง
IDFส่วนหนึ่งก็ยังคำนวณแยกต่างหากสำหรับแต่ละtext
และผลใน 5 "พาหะ" (ผมคิดว่าผมได้รับการรักษาพวกเขาเป็นเฟรมข้อมูล) ที่มีการแปลงลอการิทึมของการนับของเอกสาร (เศร้าเพียงจากศูนย์ถึงห้าให้ห้องสมุดเล็ก ๆ ของเรา ) มีคำที่ระบุใน:
log(No. documents1+No. docs containing a word)text
01text
tc×idftext
การเปรียบเทียบ:ตอนนี้มันเป็นเพียงเรื่องของการแสดงผลิตภัณฑ์ดอทท่ามกลาง "พาหะของคำสำคัญ"
คาดการณ์ผลิตภัณฑ์จุดของtext 1
กับtext 5
เป็น13.42645
ขณะtext 1
v. เป็นเพียงtext2
2.511799
รหัส R clunky (ไม่มีอะไรที่จะเลียนแบบ) เป็นที่นี่
นี่เป็นการจำลองขั้นพื้นฐานมาก แต่ฉันคิดว่ามันเป็นภาพกราฟิกที่ดีมาก