ฉันใช้เวลาสามวันกับเพื่อนtm
หลังจากอ่านกระดาษร่างโดยเพื่อนที่เขาสำรวจคลังข้อความด้วย UCINET แสดงคลาวด์ข้อความกราฟเครือข่ายสองโหมดและการแยกย่อยค่าแบบเดี่ยว (พร้อมกราฟิกโดยใช้ Stata) ฉันทำงานภายใต้ปัญหาจำนวนมาก: ใน Mac OS X มีปัญหากับ Java ที่อยู่หลังไลบรารีเช่น Snowball (Stemming) หรือ Rgraphviz (กราฟ)
สามารถชี้ให้คนที่ออกแพคเกจไม่ได้ - ผมมองที่tm
, wordfish
และwordscores
, และความรู้เกี่ยวกับ NLTK - แต่การวิจัยถ้าเป็นไปได้ด้วยรหัสบนข้อมูลต้นฉบับเดิมที่ประสบความสำเร็จในการใช้tm
หรือสิ่งอื่นใดในการวิเคราะห์ข้อมูลเช่นการอภิปรายของรัฐสภาหรือเอกสารนิติบัญญัติ? ฉันไม่สามารถค้นหาปัญหาได้มากนักและแม้แต่รหัสน้อยกว่าเพื่อเรียนรู้จาก
โครงการของฉันคือการอภิปรายในรัฐสภาสองเดือนโดยมีตัวแปรเหล่านี้แจ้งไว้ในไฟล์ CSV: เซสชันรัฐสภาลำโพงกลุ่มรัฐสภาข้อความการแทรกแซงด้วยปากเปล่า ฉันกำลังมองหาความแตกต่างระหว่างลำโพงและโดยเฉพาะอย่างยิ่งระหว่างกลุ่มรัฐสภาในการใช้คำที่หายากและหายากน้อยเช่น "การพูดคุยด้านความปลอดภัย" กับ "การพูดคุยเสรีภาพ"