ฉันกำลังมองหาคำแนะนำเกี่ยวกับวิธีการจัดการรายการคำหยุด มีใครรู้ / ใครบ้างที่สามารถแนะนำวิธีการที่ดีในการแยกรายการคำหยุดจากชุดข้อมูลสำหรับการประมวลผลและการกรองล่วงหน้าได้หรือไม่?
ข้อมูล:
การป้อนข้อความของมนุษย์จำนวนมากที่มีความยาวผันแปร (searchterms และทั้งประโยค (สูงสุด 200 ตัวอักษร)) ในช่วงหลายปีที่ผ่านมา ข้อความประกอบด้วยสแปมจำนวนมาก (เช่นอินพุตจากบอตคำเดียวการค้นหาโง่การค้นหาผลิตภัณฑ์ ... ) และดูเหมือนว่าจะมีประโยชน์เพียงไม่กี่% เท่านั้น ฉันรู้ว่าบางครั้งผู้คนค้นหาด้านของฉันด้วยการถามคำถามเจ๋ง ๆ คำถามเหล่านี้เจ๋งมากฉันคิดว่ามันคุ้มค่าที่จะมองลึกลงไปในพวกเขาเพื่อดูว่าผู้คนค้นหาในช่วงเวลาใดและหัวข้อที่ผู้คนสนใจในการใช้เว็บไซต์ของฉัน
ปัญหาของฉัน:
คือฉันกำลังดิ้นรนกับการประมวลผลล่วงหน้า (เช่นการทิ้งสแปม) ฉันได้ลองใช้รายการคำหยุดจากเว็บ (NLTK เป็นต้น) แล้ว แต่สิ่งเหล่านี้ไม่ได้ช่วยตอบสนองความต้องการของฉันเกี่ยวกับชุดข้อมูลนี้
ขอบคุณสำหรับความคิดและการสนทนาของคุณ!
stop words
ไม่เข้าใจสิ่งที่เป็น หยุด wrods เป็นรายการของคำที่พบมากที่สุดในบางภาษาเช่นI
, the
, a
และอื่น ๆ คุณจะลบคำนี้ออกจากข้อความของคุณก่อนที่จะเริ่มฝึกอัลกอริทึมของคุณซึ่งลองระบุว่าข้อความใดเป็นสแปมหรือไม่ ไม่ได้ช่วยให้คุณระบุว่าข้อความใดเป็นสแปมหรือไม่มันสามารถให้อัลกอริทึมการเรียนรู้ของคุณดีขึ้น