Bag-of-Words สำหรับการจำแนกข้อความ: ทำไมไม่เพียงแค่ใช้ความถี่ของคำแทน TFIDF


24

วิธีการทั่วไปในการจัดประเภทข้อความคือการฝึกอบรมลักษณนามจาก 'คำพูด' ผู้ใช้ใช้ข้อความที่จะจัดประเภทและนับความถี่ของคำในแต่ละวัตถุตามด้วยการเรียงลำดับของการตัดแต่งบางอย่างเพื่อให้เมทริกซ์ที่เกิดจากขนาดที่จัดการได้

บ่อยครั้งที่ฉันเห็นผู้ใช้สร้างเวกเตอร์คุณลักษณะของพวกเขาโดยใช้ TFIDF กล่าวอีกนัยหนึ่งความถี่ของข้อความที่ระบุไว้ข้างต้นนั้นมีน้ำหนักลดลงตามความถี่ของคำในคลังข้อมูล ฉันเห็นว่าทำไม TFIDF ถึงมีประโยชน์ในการเลือกคำที่ 'โดดเด่นที่สุด' ของเอกสารที่กำหนดให้พูดแสดงกับนักวิเคราะห์ของมนุษย์ แต่ในกรณีของการจัดหมวดหมู่ข้อความโดยใช้เทคนิค ML แบบมาตรฐานภายใต้การดูแลทำไมต้องลดน้ำหนักลงด้วยความถี่ของเอกสารในคลังข้อมูล ผู้เรียนจะไม่ตัดสินใจตัดสินความสำคัญของแต่ละคำ / การรวมกันของคำศัพท์หรือไม่? ฉันขอขอบคุณสำหรับความคิดของคุณเกี่ยวกับคุณค่าที่ IDF เพิ่มถ้ามี

คำตอบ:


29

คำตอบนั้นตรงไปตรงมามาก: TF-IDF สามารถบรรลุผลลัพธ์ที่ดีกว่าความถี่ระยะง่ายเมื่อรวมกับวิธีการควบคุมบางอย่าง

ตัวอย่างที่ยอมรับได้คือการใช้ความคล้ายคลึงโคไซน์เป็นการวัดความคล้ายคลึงกันระหว่างเอกสาร การใช้มุมมองโคไซน์ของมุมมองระหว่างการแทนเวกเตอร์ TF-IDF ของเอกสารสามารถดึงเอกสารที่คล้ายกันที่เกี่ยวข้องได้สำเร็จและมีความแม่นยำสูงกว่า TF เพียงอย่างเดียว

นี่เป็นเพราะ IDF ลดน้ำหนักที่กำหนดให้กับคำทั่วไปและเน้นคำที่ผิดปกติในเอกสาร บทความข่าวส่วนใหญ่ไม่ได้เกี่ยวกับนกกระจอกเทศดังนั้นบทความข่าวที่มี "นกกระจอกเทศ" นั้นผิดปกติและเราต้องการทราบว่าเมื่อพยายามค้นหาเอกสารที่คล้ายกัน

แต่ในกรณีของการจัดหมวดหมู่ข้อความโดยใช้เทคนิค ML แบบมาตรฐานภายใต้การดูแลทำไมต้องลดน้ำหนักลงด้วยความถี่ของเอกสารในคลังข้อมูล ผู้เรียนจะไม่ตัดสินใจตัดสินความสำคัญของแต่ละคำ / การรวมกันของคำศัพท์หรือไม่?

xyxyy) จากนั้นเราได้ทำให้งานของเราง่ายขึ้นและคอมพิวเตอร์ที่ทำงานหนักเกินไปของเรา! ฉันคิดว่านี่เป็นองค์ประกอบที่ไม่ค่อยได้รับการยอมรับในแวดวงนี้ผู้คนใช้เวลาศึกษาและพิจารณาอัลกอริธึมเป็นจำนวนมากเพราะพวกเขาไม่ขึ้นกับโดเมน แต่รู้เพิ่มเติมเกี่ยวกับข้อมูลของคุณและปัญหาที่คุณพยายามแก้ไขสามารถแนะนำเส้นทางไป การรวบรวมข้อมูลที่ได้รับการปรับปรุงหรือการแสดงข้อมูลซึ่งทำให้งานง่ายขึ้นมากและง่ายมากจนไม่จำเป็นต้องมีรูปแบบของความซับซ้อนหรูหรา

สามารถพบทรัพยากรจำนวนมากที่นี่ซึ่งฉันทำซ้ำเพื่อความสะดวก

  • K. Sparck Jones "การตีความทางสถิติของคำเฉพาะเจาะจงและการนำไปใช้ในการสืบค้น". วารสารเอกสาร 28 (1) 1972

  • G. Salton และ Edward Fox และ Wu Harry Wu "การดึงข้อมูลบูลีนเสริม". การสื่อสารของ ACM, 26 (11) 1983

  • G. Salton และ MJ McGill "ความรู้เบื้องต้นเกี่ยวกับการดึงข้อมูลสมัยใหม่" 1983

  • G. Salton และ C. Buckley "วิธีการถ่วงน้ำหนักในการดึงข้อความอัตโนมัติ" การประมวลผลและการจัดการข้อมูล, 24 (5) 1988

  • H. Wu และ R. Luk และ K. Wong และ K. Kwok "การตีความน้ำหนักเทอม TF-IDF ว่าเป็นการตัดสินใจที่เกี่ยวข้อง" ธุรกรรม ACM ในระบบสารสนเทศ, 26 (3) 2008


ขอบคุณสำหรับ note @ user777! ขอบคุณมัน ฉันกำลังดูที่บทความเหล่านั้น มีคลาสทั่วไปของอัลกอริทึมที่เราคาดว่าจะได้รับประโยชน์มากกว่าจาก TFIDF เทียบกับ TF หรือไม่
shf8888

@ shf8888 ฉันไม่แน่ใจว่ามีคลาสทั่วไปที่ไหนที่ดีกว่า มันเป็นไปได้! เท่าที่ฉันทราบการสะท้อนแรกของคนที่ทำงานเกี่ยวกับงาน NLP คือลอง TF และจากนั้น TF-IDF เป็นวิธีการพื้นฐานก่อนที่จะก้าวหน้าไปสู่รูปแบบที่ซับซ้อนมากขึ้น ด้วยวิธีนี้คุณสามารถวัดปริมาณประสิทธิภาพที่เพิ่มขึ้นที่คุณซื้อสำหรับความพยายามที่เพิ่มขึ้นโดยใช้โมเดลที่ซับซ้อนมากขึ้น
Sycorax พูดว่า Reinstate Monica

ขอบคุณมาก ๆ! คำตอบที่ว่า "สังเกตุ TFIDF สามารถเพิ่มประสิทธิภาพให้กับ TF ด้วยอัลกอริธึม" (ถ้าคุณไม่คัดค้านการสรุปประโยคเดียวของฉัน) ก็ดีจากมุมมองของฉัน ขอบคุณสำหรับการอ้างอิง
shf8888

2

ในกรณีทั่วไปคุณอาจมีเอกสารในคลังข้อมูลของคุณมากกว่าเอกสารที่มีป้ายกำกับ นั่นหมายความว่า IDF สามารถคำนวณได้แม่นยำและสมบูรณ์มากขึ้นเมื่อใช้คลังข้อมูลทั้งหมด

ถัดไปให้พิจารณากรณีที่คลังข้อมูลที่คุณสามารถจัดการได้จนถึงขณะนี้คือทั้งหมดที่มีข้อความหรือชุดย่อยที่มีข้อความ "ใหญ่พอ" ในกรณีนี้จำนวนการวนซ้ำที่จำเป็นสำหรับการฝึกอบรมอาจน้อยลงเมื่อใช้ TfIDF เนื่องจากอัลกอริทึมการเรียนรู้ไม่จำเป็นต้องเรียนรู้มากนัก

ในที่สุดในกรณีเดียวกันนี้คุณสามารถให้ tf เท่านั้นหรือ tf และ idf แยกต่างหาก (หรือรวม tfidf ด้วย) ฉันคิดว่านี่อาจสร้างผลลัพธ์ที่ดีกว่าตัวอย่างเช่นเมื่อใช้ฟังก์ชันเคอร์เนลที่ซับซ้อน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.