แปลงข้อมูลข้อความเป็นหมวดหมู่ คุณสามารถลองทางเลือกที่แตกต่างกันสำหรับข้อมูลที่หมวดหมู่ควรมี แต่ต้องมีหมวดหมู่เฉพาะสำหรับแต่ละตัวแปร ตัวอย่างเช่นฉันจะถือว่าตัวแปรที่มาจากเขตข้อมูลข้อความของแบบสอบถามการสำรวจเกี่ยวกับวิธีที่ดีกว่าของผู้คนในการทำงาน
ในตอนแรกเราต้องตรวจสอบให้แน่ใจว่าคำตอบที่มีความหมายคล้ายกันนั้นเขียนในลักษณะเดียวกันและอยู่ในหมวดหมู่เดียวกัน (เช่น "จากจักรยาน", "ขี่จักรยาน", "ขี่จักรยาน" ทั้งหมดมีความหมายเหมือนกัน) จากนั้นคุณสามารถลองรวมเป็นหมวดหมู่ที่มีรายละเอียดน้อยลง (เช่นผสาน "รถราง", "รถไฟใต้ดิน" และ "รถบัส" เป็น "วิธีการขนส่งสาธารณะ") หรือมากกว่า (เช่น "เดิน", "วิ่ง", "ขี่จักรยาน" เป็น " กิจกรรมทางกายภาพ ") ขึ้นอยู่กับสิ่งที่คุณพยายามค้นหา
คุณยังสามารถใส่ชุดค่าผสมที่แตกต่างกันในชุดข้อมูลของคุณจากนั้นขั้นตอนต่อไปจะกำหนดชุดค่าที่จะใช้สำหรับการวิเคราะห์ ในกรณีที่ข้อมูลข้อความสามารถ "แปล" ในตัวแปรสั่งให้แน่ใจว่าคุณทำเช่นนี้ (เช่นถ้าคุณมี "เล็กกลางสูง" เปลี่ยนเป็น "1,2,3")
Principal Component Analysis
หรือNon-Negative Matrix Factorization
จะลดจำนวนของตัวแปรเพิ่มประสิทธิภาพข้อมูลที่กระจัดกระจายและเปลี่ยนตัวแปรทั้งหมดเป็นเชิงปริมาณ ยิ่งไปกว่านั้นการประเมินคุณภาพของรูปแบบการลดมิติข้อมูลผู้เขียนคำถามสามารถประเมินประโยชน์ของตัวแปรข้อความ