หนังสือดี ๆ เกี่ยวกับการขุดข้อความ


11

สวัสดีฉันอยากรู้ว่ามีหนังสือดี ๆ เกี่ยวกับการทำเหมืองข้อความและการจำแนกประเภทด้วยกรณีศึกษาบ้างไหม? ถ้าไม่ใช่เอกสาร / วารสารที่สาธารณชนสามารถเข้าถึงได้ หากพวกเขาแสดงตัวอย่างของพวกเขาด้วย R ยิ่งขึ้น ฉันไม่ได้มองหาคู่มือทีละขั้นตอน แต่สิ่งที่แสดงให้เห็นถึงข้อดีข้อเสียของวิธีการทำเหมืองข้อความที่หลากหลายในการเรียนปัญหาต่าง ๆ

คำตอบ:


5

ลองดูที่ http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf การประมวลผลข้อความด้วย Data-Intensive ด้วย MapReduce - หนังสือเล่มนี้มีเนื้อหาเชิงวิชาการ แต่ครอบคลุมเทคนิคการประมวลผลข้อความที่ใช้กันทั่วไปจำนวนมาก บนชุดข้อมูลขนาดใหญ่โดยใช้การลดแผนที่

www.rtexttools.com นี่คือแพ็คเกจ R ที่ยอดเยี่ยมซึ่งช่วยให้คุณใช้อัลกอริธึมการจัดหมวดหมู่ที่หลากหลาย (รวมถึงวิธีการรวมกลุ่ม) กับการวิเคราะห์ข้อความ และ


4
ในการทำให้คำตอบนี้มีอยู่ในตัวเองคุณต้องการให้ข้อมูลสรุปโดยย่อของแต่ละลิงก์หรือไม่
chl

4

ฉันเพิ่งอ่านหนังสือสี่เล่มในสาขานี้:

เฟลด์แมน, อาร์และเจมส์แซงเจอร์, J. (2006) คู่มือการขุดข้อความ: แนวทางขั้นสูงในการวิเคราะห์ข้อมูลที่ไม่มีโครงสร้าง สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์

อันนี้มุ่งเน้นไปที่ตัวอย่างที่ใช้งานได้จริงซอฟต์แวร์และการขุดข้อความประยุกต์ มันให้หลายตัวอย่างของการใช้งานจริงของ text-mining มันอาจเป็นที่สนใจถ้าคุณต้องการอ่านเกี่ยวกับการใช้งานเชิงพาณิชย์ของเครื่องมือขุดข้อความ

Srivastava, AN และ Sahami, M. (2009) การทำเหมืองข้อความ: การจำแนกการจัดกลุ่มและแอปพลิเคชัน แชปแมน & ฮอล / CRC

มันเป็นชุดของงานวิจัยที่ใช้เป็นตัวอย่างของการใช้เครื่องมือขุดข้อความที่แตกต่างกัน มันค่อนข้างมุ่งเน้นเกินไปสำหรับการทดสอบเบื้องต้น

Weiss, SM, Indurkhya, N. , Zhang, T. และ Damerau, F. (2005) การทำเหมืองข้อความ: วิธีการทำนายการวิเคราะห์ข้อมูลที่ไม่มีโครงสร้าง สปริงเกอร์

ข้อความเกริ่นนำมากที่อธิบายปัญหาทั่วไปบางอย่าง

แมนนิ่ง, C. (1999) รากฐานของการประมวลผลภาษาธรรมชาติทางสถิติ กด MIT

นี่คือหนังสือที่ดีที่สุดที่ฉันได้อ่านในหัวข้อนี้ มันเขียนได้ดีชัดเจนลึกเข้าไปในทฤษฏีมากขึ้น เริ่มด้วยการแนะนำทั่วไป แต่มากกว่าการทบทวนวิธีและอัลกอริทึมที่ใช้กันมากที่สุด หากคุณต้องเลือกหนังสือเล่มเดียวฉันอยากจะแนะนำหนังสือเล่มนี้

คุณสามารถหาหนังสือหลายเล่มเกี่ยวกับการประมวลผลภาษาธรรมชาติและการขุดข้อความที่เน้นการใช้ R ( tm library) หรือ Python ( nltk library) ได้อย่างง่ายดาย


2

สิ่งนี้อาจไม่ตรงกับสิ่งที่คุณกำลังมองหา แต่การแสดงออกปกติของ Masteringโดย Jeffrey Friedl เป็นแหล่งที่ดีสำหรับการเรียนรู้วิธีการใช้นิพจน์ทั่วไปเพื่อวิเคราะห์ข้อความ เขาไม่ได้หารือเกี่ยวกับเทคนิคการสร้างแบบจำลอง แต่ด้วยอาวุธที่มีค่าจากการใช้การแสดงออกปกติคุณสามารถใช้วิธีการสร้างแบบจำลองมาตรฐานที่หลากหลาย


2

หนังสือเล่มหนึ่งที่ฉันย้อนกลับไปครั้งแล้วครั้งเล่าสำหรับแนวคิดคือการขุดข้อความ: วิธีการทำนาย ...โดย Sholom Weiss มันมีความคิดมากมายสำหรับการเข้าถึงปัญหาที่ฉันพบว่ามีประโยชน์เพราะบางครั้งการทำเหมืองข้อความเป็นเรื่องเกี่ยวกับการลองสิ่งต่าง ๆ - พจนานุกรม Global vs Local จำนวนคุณสมบัติที่จะเก็บ ฯลฯ ฉันพบว่าหนังสือเล่มนี้เป็นเครื่องกำเนิดความคิดที่ดี นอกจากนี้ยังมีกรณีศึกษา


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.