ตัวอย่างการทำเหมืองข้อความด้วย R (แพ็คเกจ TM)


14

ฉันใช้เวลาสามวันกับเพื่อนtmหลังจากอ่านกระดาษร่างโดยเพื่อนที่เขาสำรวจคลังข้อความด้วย UCINET แสดงคลาวด์ข้อความกราฟเครือข่ายสองโหมดและการแยกย่อยค่าแบบเดี่ยว (พร้อมกราฟิกโดยใช้ Stata) ฉันทำงานภายใต้ปัญหาจำนวนมาก: ใน Mac OS X มีปัญหากับ Java ที่อยู่หลังไลบรารีเช่น Snowball (Stemming) หรือ Rgraphviz (กราฟ)

สามารถชี้ให้คนที่ออกแพคเกจไม่ได้ - ผมมองที่tm, wordfishและwordscores, และความรู้เกี่ยวกับ NLTK - แต่การวิจัยถ้าเป็นไปได้ด้วยรหัสบนข้อมูลต้นฉบับเดิมที่ประสบความสำเร็จในการใช้tmหรือสิ่งอื่นใดในการวิเคราะห์ข้อมูลเช่นการอภิปรายของรัฐสภาหรือเอกสารนิติบัญญัติ? ฉันไม่สามารถค้นหาปัญหาได้มากนักและแม้แต่รหัสน้อยกว่าเพื่อเรียนรู้จาก

โครงการของฉันคือการอภิปรายในรัฐสภาสองเดือนโดยมีตัวแปรเหล่านี้แจ้งไว้ในไฟล์ CSV: เซสชันรัฐสภาลำโพงกลุ่มรัฐสภาข้อความการแทรกแซงด้วยปากเปล่า ฉันกำลังมองหาความแตกต่างระหว่างลำโพงและโดยเฉพาะอย่างยิ่งระหว่างกลุ่มรัฐสภาในการใช้คำที่หายากและหายากน้อยเช่น "การพูดคุยด้านความปลอดภัย" กับ "การพูดคุยเสรีภาพ"


คำตอบ:


7

วิทยานิพนธ์ระดับปริญญาเอกจากผู้เขียนของ TM, Ingo Feinerer จากออสเตรียถูกเขียนในภาษาอังกฤษ บทที่ 7-10 ของเอกสารนี้มีแอปพลิเคชั่นของแพ็คเกจ tm ด้วยความซับซ้อนที่เพิ่มขึ้น

http://epub.wu.ac.at/1923/

บทที่ 7 นำเสนอแอปพลิเคชั่นของ tm โดยการวิเคราะห์รายชื่ออีเมลของ R-devel 2006 บทที่ 8 แสดงการประยุกต์ใช้การทำเหมืองข้อความสำหรับธุรกิจเพื่อการพาณิชย์อิเล็กทรอนิกส์สำหรับผู้บริโภค บทที่ 9 เป็นโปรแกรมประยุกต์ของ tm เพื่อตรวจสอบเขตอำนาจศาลปกครองสูงสุดของออสเตรียเกี่ยวกับค่าธรรมเนียมและภาษี [ ... ] บทที่ 10 แสดงแอปพลิเคชันสำหรับ stylometry และการระบุแหล่งที่มาของชุดข้อมูล Wizard of Oz

อ่านทั้งเอกสารให้ครอบคลุม แต่โปรดทราบว่าเอกสารที่ถูกเขียนขึ้นในปี 2008 และตั้งแต่นั้นมามีการเปลี่ยนแปลง API ไม่กี่ตัวอย่างเช่นวิทยานิพนธ์ปริญญาเอกกล่าวถึงฟังก์ชั่นที่ได้รับการเปลี่ยนชื่อเป็นtmMap() tm_map()ดังนั้นตัวอย่างโค้ดจะไม่ทำงานตามที่เป็นอยู่คุณไม่สามารถใช้การตัดและวางเพื่อลอง

คุณยังสามารถไปที่

http://tm.r-forge.r-project.org/users.html

"ในความพยายามที่จะแจ้งผู้ใช้ใหม่เกี่ยวกับแอพพลิเคชั่น tm ที่มีอยู่เว็บไซต์นี้มีวัตถุประสงค์เพื่อให้รายชื่อผู้ใช้ tm และความคิดเห็นของพวกเขา (ที่ไม่สมบูรณ์ตามตัวอักษร) ผู้ใช้ที่รู้จัก

และค้นหาบนหน้านั้นสำหรับวลี "เขียนกระดาษ" และคุณจะพบลิงค์มากมาย ฉันได้อ่านเอกสารเพียงฉบับเดียวเท่านั้น "การตรวจหาหัวข้ออัตโนมัติในเนื้อเพลง" ค่อนข้างน่าสนใจและตลก


ฉันคิดว่าวิทยานิพนธ์ของ Feinerer เป็นเอกสารที่ช่วยฉันได้มากที่สุด ขอบคุณ!
คุณพ่อ

5

จุดเริ่มต้นที่ดีอาจเป็นรายการสิ่งพิมพ์ที่เว็บไซต์tmเช่นนี้:

รายการอ้างอิงในตอนท้ายของแต่ละสิ่งพิมพ์เหล่านี้รวมถึงแอปพลิเคชันที่ประสบความสำเร็จtmซึ่งเป็นสิ่งที่คุณมองหา มีมากมาย - โดยเฉพาะถ้าคุณทำตามการอ้างอิงของการอ้างอิง

ตัวอย่างเช่นนี่คือสิ่งที่อาจเกี่ยวข้อง:

Feinerer I, Hornik K (2007) \ การขุดข้อความศาลปกครองสูงสุดของศาล "ใน C Preisach, H Burkhardt, L Schmidt-Thieme, R Decker (บรรณาธิการ), \ การวิเคราะห์ข้อมูล, การเรียนรู้ของเครื่องและการใช้งาน (การดำเนินการประชุมประจำปีของ Gesellschaft f ur Klassikation eV, 7 มีนาคม {9, 2550, ไฟร์บวร์กเยอรมนี), "การศึกษาในการจำแนก, การวิเคราะห์ข้อมูลและองค์กรความรู้ Springer-Verlag

โชคดี.


ขอบคุณสำหรับการอ้างอิง อย่างไรก็ตามระดับรายละเอียดไม่เพียงพอในสิ่งพิมพ์เหล่านี้ - ฉันต้องอ่านจากวิทยานิพนธ์ของ Feinerer เพื่อให้ได้รายละเอียดที่เพียงพอเกี่ยวกับวิธีการใช้งานtmที่ส่วนท้ายของฉัน ยังขอบคุณมาก :)
คุณพ่อ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.