วิธีการดั้งเดิมของการสร้างฟีเจอร์สำหรับการขุดข้อความเป็นวิธีถุงแบบคำและสามารถปรับปรุงได้โดยใช้ tf-idf สำหรับการตั้งค่าคุณลักษณะเวกเตอร์ที่แสดงลักษณะของเอกสารข้อความที่กำหนด ในปัจจุบันฉันกำลังพยายามใช้โมเดลภาษาสองแกรมหรือ (N-Gram) เพื่อสร้างเวกเตอร์คุณลักษณะ แต่ไม่ทราบวิธีการทำเช่นนั้นใช่หรือไม่ เราสามารถทำตามวิธีการของคำพูดเช่นการคำนวณจำนวนความถี่ในรูปแบบของ bi-gram แทนที่จะเป็นคำพูดและปรับปรุงมันด้วยวิธีการถ่วงน้ำหนัก tf-idf?