คำถามติดแท็ก text-mining

อ้างถึงชุดย่อยของ data mining ที่เกี่ยวข้องกับการดึงข้อมูลจากข้อมูลในรูปแบบของข้อความโดยการจดจำรูปแบบ เป้าหมายของการทำเหมืองข้อความมักจะจัดประเภทเอกสารที่กำหนดเป็นหนึ่งในจำนวนหมวดหมู่ในวิธีการอัตโนมัติและเพื่อปรับปรุงประสิทธิภาพนี้แบบไดนามิกทำให้มันเป็นตัวอย่างของการเรียนรู้ของเครื่อง ตัวอย่างหนึ่งของการขุดข้อความแบบนี้คือตัวกรองสแปมที่ใช้สำหรับอีเมล

2
จะคำนวณความสับสนของโฮลด์ได้อย่างไรด้วย Latent Dirichlet Allocation
ฉันสับสนเกี่ยวกับวิธีการคำนวณความฉงนสนเท่ห์ของตัวอย่างที่เก็บไว้เมื่อทำการจัดสรร Latent Dirichlet (LDA) เอกสารในหัวข้อง่ายกว่าทำให้ฉันคิดว่าฉันขาดอะไรบางอย่างที่ชัดเจน ... ความงุนงงถูกมองว่าเป็นตัวชี้วัดประสิทธิภาพที่ดีสำหรับ LDA แนวคิดคือให้คุณเก็บตัวอย่างของการพักการฝึกอบรม LDA ของคุณในส่วนที่เหลือของข้อมูลจากนั้นคำนวณความน่าฉงนของการถือออก ความน่างงสามารถกำหนดโดยสูตร: per(Dtest)=exp{−∑Md=1logp(wd)∑Md=1Nd}per(Dtest)=exp{−∑d=1Mlog⁡p(wd)∑d=1MNd}per(D_{test})=exp\{-\frac{\sum_{d=1}^{M}\log p(\mathbb{w}_d)}{\sum_{d=1}^{M}N_d}\} (นำมาจากการดึงภาพในฐานข้อมูลภาพขนาดใหญ่, Horster และคณะ ) นี่ คือจำนวนของเอกสาร (ในตัวอย่างทดสอบสมมุติ) W dหมายถึงคำในเอกสารd , N วันที่จำนวนของคำในเอกสารdMMMwdwd\mathbb{w}_ddddNdNdN_dddd มันไม่ชัดเจนสำหรับฉันที่จะประกาศอย่างสมเหตุสมผลเนื่องจากเราไม่มีหัวข้อผสมสำหรับเอกสารที่จัดขึ้น โดยหลักการแล้วเราจะรวมเข้ากับ Dirichlet ก่อนสำหรับการผสมหัวข้อที่เป็นไปได้ทั้งหมดและใช้หัวข้อมัลตินิเคชันที่เราเรียนรู้ การคำนวณอินทิกรัลนี้ดูเหมือนจะไม่ใช่เรื่องง่ายp(wd)p(wd)p(\mathbb{w}_d) หรือเราอาจพยายามเรียนรู้หัวข้อที่เหมาะสมที่สุดสำหรับแต่ละเอกสารที่จัดไว้ (กำหนดหัวข้อที่เรียนรู้ของเรา) และใช้สิ่งนี้เพื่อคำนวณความงุนงง นี่น่าจะเป็นไปได้ แต่มันก็ไม่สำคัญเหมือนเอกสารเช่น Horter et al และ Blei et al ดูเหมือนว่าจะแนะนำและไม่ชัดเจนสำหรับฉันทันทีว่าผลลัพธ์จะเทียบเท่ากับกรณีอุดมคติข้างต้น

5
การจำแนกข้อความขนาดใหญ่
ฉันต้องการจัดหมวดหมู่ข้อมูลข้อความของฉัน ฉันมี300 classes200 เอกสารการฝึกอบรมต่อชั้นเรียน (ดังนั้น60000 documents in total) และนี่น่าจะส่งผลให้ข้อมูลมิติสูงมาก (เราอาจมองเกินกว่า1 ล้านมิติ ) ฉันต้องการดำเนินการตามขั้นตอนต่อไปนี้ในไปป์ไลน์ (เพื่อให้คุณได้ทราบถึงความต้องการของฉัน): การแปลงแต่ละเอกสารเป็นฟีเจอร์เวกเตอร์ ( tf-idfหรือvector space model) Feature selection( Mutual Informationโดยเฉพาะอย่างยิ่งหรือมาตรฐานอื่น ๆ ) การฝึกอบรมลักษณนาม ( SVM, Naive Bayes, Logistic RegressionหรือRandom Forest) การทำนายข้อมูลที่มองไม่เห็นตามตัวจําแนกรุ่นที่ผ่านการฝึกอบรม ดังนั้นคำถามคือฉันใช้เครื่องมือ / กรอบการทำงานสำหรับจัดการข้อมูลมิติสูงเช่นนี้หรือไม่ ฉันตระหนักถึงผู้ต้องสงสัยตามปกติ (R, WEKA ... ) แต่เท่าที่ความรู้ของฉันไป (ฉันอาจผิด) อาจไม่มีใครสามารถจัดการข้อมูลขนาดใหญ่นี้ได้ มีเครื่องมือเก็บของอื่น ๆ ที่ฉันสามารถดูได้หรือไม่? ถ้าฉันต้องขนานมันฉันควรจะดูApache Mahoutหรือไม่? …

2
ทำไมตัวแยกประเภทการถดถอยของริดจ์ทำงานได้ค่อนข้างดีสำหรับการจัดประเภทข้อความ
ในระหว่างการทดสอบการจำแนกข้อความฉันพบว่าตัวจําแนกประเภทสันเขาสร้างผลลัพธ์ที่ยอดการทดสอบอย่างต่อเนื่องระหว่างตัวจําแนกเหล่านั้นซึ่งถูกกล่าวถึงมากขึ้นและถูกนําไปใช้ในงานการขุดข้อความเช่น SVM, NB, kNN เป็นต้น ในการเพิ่มประสิทธิภาพลักษณนามแต่ละตัวในงานการจัดหมวดหมู่ข้อความเฉพาะนี้ยกเว้นการปรับแต่งง่าย ๆ เกี่ยวกับพารามิเตอร์ ผลดังกล่าวยังได้กล่าวถึงDikran กระเป๋า ไม่ได้มาจากภูมิหลังทางสถิติหลังจากอ่านผ่านสื่อออนไลน์ฉันยังไม่สามารถหาสาเหตุหลักของเรื่องนี้ได้ มีใครให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ดังกล่าวบ้าง

1
ฉันต้องการสร้างดัชนีอาชญากรรมและดัชนีความไม่มั่นคงทางการเมืองตามข่าว
ฉันมีโครงการด้านนี้ที่ฉันรวบรวมข้อมูลเว็บไซต์ข่าวท้องถิ่นในประเทศของฉันและต้องการสร้างดัชนีอาชญากรรมและดัชนีความไม่มั่นคงทางการเมือง ฉันได้ครอบคลุมส่วนการดึงข้อมูลของโครงการแล้ว แผนของฉันคือการทำ: การแยกหัวข้อที่ไม่ได้รับอนุญาต ใกล้การตรวจจับรายการที่ซ้ำกัน การจำแนกประเภทและระดับเหตุการณ์ภายใต้การดูแล (อาชญากรรม / การเมือง - สูง / ปานกลาง / ต่ำ) ฉันจะใช้ python และ sklearn และได้ทำการวิจัยขั้นตอนวิธีที่ฉันสามารถใช้สำหรับงานเหล่านั้นแล้ว ฉันคิดว่า 2. สามารถให้ความเกี่ยวข้องกับเรื่องเล่าแก่ฉันได้: ยิ่งมีกระดาษข่าวจำนวนมากเผยแพร่เกี่ยวกับเรื่องราวหรือหัวข้อที่เกี่ยวข้องมากขึ้นสำหรับวันนั้น ขั้นตอนต่อไปของฉันคือการสร้างดัชนีรายเดือนรายสัปดาห์และรายวัน (ทั่วประเทศและต่อเมือง) ตามคุณลักษณะที่ฉันมีและฉันหลงทางเล็กน้อยเพราะ "ความไวต่อความไม่เสถียร" อาจเพิ่มขึ้นตามเวลา ฉันหมายถึงดัชนีจากเหตุการณ์ความไม่มั่นคงที่สำคัญของปีที่แล้วอาจน้อยกว่าดัชนีสำหรับปีนี้ นอกจากนี้หากใช้ระดับคงที่ 0-100 หรือไม่ ต่อมาฉันต้องการที่จะสามารถทำนายเหตุการณ์ที่เกิดขึ้นตามสิ่งนี้เช่นว่าการสืบทอดเหตุการณ์ในสัปดาห์ที่ผ่านมาจะนำไปสู่เหตุการณ์ที่สำคัญหรือไม่ แต่ตอนนี้ฉันจะมีความสุขกับการแบ่งประเภทการทำงานและสร้างแบบจำลองดัชนี ฉันขอขอบคุณตัวชี้ไปที่กระดาษการอ่านหรือความคิดที่เกี่ยวข้อง ขอบคุณ PD: ขออภัยหากคำถามไม่ได้อยู่ที่นี่ อัปเดต : ฉันยังไม่ได้ "สร้าง" แต่เมื่อเร็ว ๆ นี้มีข่าวเกี่ยวกับกลุ่มนักวิทยาศาสตร์ที่ทำงานในระบบเพื่อทำนายเหตุการณ์โดยใช้คลังข่าวและเผยแพร่กระดาษที่เกี่ยวข้องการทำเหมืองเว็บเพื่อทำนายเหตุการณ์ในอนาคต (PDF )

1
พารามิเตอร์อินพุตสำหรับการใช้การจัดสรร Dirichlet แฝง
เมื่อใช้การสร้างหัวข้อ (Latent Dirichlet Allocation) จำนวนหัวข้อคือพารามิเตอร์อินพุตที่ผู้ใช้ต้องระบุ ฉันคิดว่าเราควรจะมีชุดหัวข้อผู้สมัครที่กระบวนการ Dirichlet มีตัวอย่าง ความเข้าใจของฉันถูกต้องหรือไม่ ในทางปฏิบัติจะตั้งค่าหัวข้อผู้สมัครประเภทนี้ได้อย่างไร

1
การคาดคะเนหัวข้อโดยใช้การจัดสรร Dirichlet แฝง
ฉันใช้ LDA กับคลังเอกสารแล้วพบบางหัวข้อ ผลลัพธ์ของรหัสของฉันคือสองเมทริกซ์ที่มีความน่าจะเป็น ความน่าจะเป็นหัวข้อเอกสารหนึ่งรายการและความน่าจะเป็นหัวข้อคำอื่น ๆ แต่จริง ๆ แล้วฉันไม่รู้วิธีใช้ผลลัพธ์เหล่านี้เพื่อทำนายหัวข้อของเอกสารใหม่ ฉันใช้การสุ่มตัวอย่างของกิ๊บส์ ไม่มีใครรู้ได้อย่างไร ขอบคุณ

2
เราจะรวมการลดขนาดเข้ากับการรวมกลุ่มเมื่อใด
ฉันพยายามทำการจัดกลุ่มระดับเอกสาร ฉันสร้างเมทริกซ์ความถี่เอกสารระยะและฉันพยายามจัดกลุ่มเวกเตอร์มิติสูงเหล่านี้โดยใช้ค่าเฉลี่ย k แทนที่จะทำการจัดกลุ่มโดยตรงสิ่งที่ฉันทำคือการใช้การสลายตัวเวกเตอร์เอกพจน์ (การวิเคราะห์ความหมายแฝง) ของ LSA ก่อนเพื่อให้ได้เมทริกซ์ U, S, Vt เลือกเกณฑ์ที่เหมาะสมโดยใช้พล็อตหินกรวดและใช้การจัดกลุ่มบนเมทริกซ์ที่ลดลง มันทำให้ฉันมีข้อมูลเอกสารแนวคิด) ซึ่งดูเหมือนจะให้ผลลัพธ์ที่ดีแก่ฉัน ฉันเคยได้ยินบางคนพูดว่า SVD (เอกพจน์การสลายตัวของเวกเตอร์) เป็นการจัดกลุ่ม (โดยใช้การวัดความคล้ายคลึงกันของโคไซน์ ฯลฯ ) และไม่แน่ใจว่าฉันสามารถใช้ k-mean กับผลลัพธ์ของ SVD ได้หรือไม่ ฉันคิดว่ามันถูกต้องตามหลักเหตุผลเพราะ SVD เป็นเทคนิคการลดขนาดให้ฉันเป็นเวกเตอร์ใหม่ ในทางกลับกันค่า k จะใช้จำนวนกลุ่มเป็นอินพุตและแบ่งเวกเตอร์เหล่านี้เป็นจำนวนกลุ่มที่ระบุ ขั้นตอนนี้มีข้อบกพร่องหรือมีวิธีที่สามารถปรับปรุงได้หรือไม่ ข้อเสนอแนะใด ๆ

2
วิธีที่ดีสำหรับการจัดกลุ่มข้อความสั้นคืออะไร
ฉันกำลังทำงานกับปัญหาการจัดกลุ่มข้อความ ข้อมูลมีหลายประโยค มีอัลกอริทึมที่ดีซึ่งมีความแม่นยำสูงในข้อความสั้นหรือไม่? คุณสามารถให้การอ้างอิงที่ดีได้หรือไม่? อัลกอริทึมเช่น KMeans การจัดกลุ่มสเปกตรัมไม่ทำงานได้ดีสำหรับปัญหานี้

4
การทำเหมืองข้อความ: วิธีจัดกลุ่มข้อความ (เช่นบทความข่าว) ด้วยปัญญาประดิษฐ์ได้อย่างไร
ฉันได้สร้างเครือข่ายนิวรัล (MLP (เชื่อมต่อเต็ม), Elman (กำเริบ) สำหรับงานที่แตกต่างกันเช่นการเล่นโป่ง, การจำแนกตัวเลขหลักที่เขียนด้วยลายมือและสิ่งต่าง ๆ ... นอกจากนี้ฉันพยายามสร้างโครงข่ายประสาทเทียมแบบแรกเช่นสำหรับการจำแนกบันทึกย่อที่เขียนด้วยลายมือหลายหลัก แต่ฉันใหม่สมบูรณ์ในการวิเคราะห์และจัดกลุ่มข้อความเช่นในการรับรู้ภาพ / การจัดกลุ่มงานหนึ่งสามารถพึ่งพาอินพุตมาตรฐานเช่นรูปภาพขนาด 25x25 RGB หรือเฉดสีเทาและอื่น ๆ ... มีคุณสมบัติมากมายที่คาดการณ์ไว้ล่วงหน้า สำหรับการทำเหมืองข้อความตัวอย่างเช่นบทความข่าวคุณมีขนาดของการป้อนข้อมูลที่เปลี่ยนแปลงตลอดเวลา (คำต่าง ๆ ประโยคที่แตกต่างความยาวข้อความที่แตกต่างกัน ... ) เราจะใช้เครื่องมือขุดข้อความที่ทันสมัยโดยใช้ปัญญาประดิษฐ์โดยเฉพาะอย่างยิ่งโครงข่ายประสาทเทียม / SOM ได้อย่างไร? น่าเสียดายที่ฉันไม่สามารถหาบทแนะนำง่าย ๆ สำหรับการเริ่มต้นได้ เอกสารทางวิทยาศาสตร์ที่ซับซ้อนยากที่จะอ่านและไม่ใช่ตัวเลือกที่ดีที่สุดสำหรับการเรียนรู้หัวข้อ (ตามความเห็นของฉัน) ฉันได้อ่านบทความเกี่ยวกับ MLPs, เทคนิคการออกกลางคัน, โครงข่ายประสาทเทียมและอื่น ๆ แล้ว แต่ฉันไม่สามารถหาพื้นฐานเกี่ยวกับการทำเหมืองข้อความได้ - ทั้งหมดที่ฉันพบนั้นอยู่ในระดับที่สูงเกินไปสำหรับทักษะการทำเหมืองข้อความที่ จำกัด

3
อะไรคือความแตกต่างระหว่างการวิเคราะห์ความหมายแฝง (LSA), ดัชนีความหมายแฝง (LSI) และการสลายตัวของค่าเอกพจน์ (SVD)?
ข้อตกลงเหล่านี้มีอยู่มากมาย แต่ฉันอยากจะรู้ว่าคุณคิดว่าความแตกต่างคืออะไรถ้ามี ขอบคุณ
15 pca  text-mining  svd 

5
การจำแนกข้อความแบบชั้นเดียวทำอย่างไร?
ฉันต้องจัดการกับปัญหาการจำแนกข้อความ โปรแกรมรวบรวมข้อมูลเว็บรวบรวมข้อมูลหน้าเว็บของโดเมนบางโดเมนและสำหรับแต่ละหน้าเว็บฉันต้องการทราบว่าเป็นของชั้นเรียนเฉพาะหรือไม่ นั่นคือถ้าผมเรียกชั้นนี้บวกแต่ละหน้าเว็บรวบรวมข้อมูลเป็นอย่างใดอย่างหนึ่งในชั้นเรียนในเชิงบวกหรือไปเรียนไม่ใช่ในเชิงบวก ฉันมีการฝึกอบรมชุดใหญ่ของหน้าเว็บสำหรับการเรียนในเชิงบวก แต่จะสร้างชุดการฝึกอบรมสำหรับชั้นเรียนNon-Positiveซึ่งเป็นตัวแทนได้อย่างไร ฉันหมายความว่าฉันสามารถใช้ทุกอย่างโดยพื้นฐานสำหรับชั้นเรียนนั้นได้ ฉันสามารถรวบรวมหน้าเว็บตามอำเภอใจบางอย่างที่ไม่ได้เป็นของPositive Positiveหรือไม่? ฉันแน่ใจว่าประสิทธิภาพของอัลกอริทึมการจัดหมวดหมู่ข้อความ (ฉันต้องการใช้อัลกอริทึม Naive Bayes) ขึ้นอยู่กับว่าฉันเลือกเว็บเพจแบบไหนสำหรับคลาสที่ไม่เป็นบวก แล้วฉันจะทำยังไงดี? ใครช่วยกรุณาให้คำแนะนำกับฉันได้ไหม ขอบคุณมาก!

3
แบบจำลองหัวข้อสำหรับเอกสารสั้น ๆ
ได้รับแรงบันดาลใจจากคำถามนี้ฉันสงสัยว่างานใด ๆ ที่ทำกับแบบจำลองหัวข้อสำหรับคอลเลกชันขนาดใหญ่ของข้อความสั้น ๆ เป็นพิเศษหรือไม่ สัญชาตญาณของฉันคือ Twitter ควรเป็นแรงบันดาลใจตามธรรมชาติสำหรับโมเดลดังกล่าว อย่างไรก็ตามจากการทดลองที่ จำกัด บางครั้งดูเหมือนว่าหัวข้อโมเดลมาตรฐาน (LDA ฯลฯ ) จะทำงานได้ค่อนข้างแย่กับข้อมูลประเภทนี้ มีใครรู้บ้างเกี่ยวกับงานที่ทำในด้านนี้บ้างไหม บทความนี้พูดเกี่ยวกับการใช้ LDA กับ Twitter แต่ฉันสนใจจริง ๆ ว่ามีอัลกอริทึมอื่น ๆ ที่ทำงานได้ดีขึ้นในบริบทของเอกสารระยะสั้นหรือไม่

2
ตัวอย่างการทำเหมืองข้อความด้วย R (แพ็คเกจ TM)
ฉันใช้เวลาสามวันกับเพื่อนtmหลังจากอ่านกระดาษร่างโดยเพื่อนที่เขาสำรวจคลังข้อความด้วย UCINET แสดงคลาวด์ข้อความกราฟเครือข่ายสองโหมดและการแยกย่อยค่าแบบเดี่ยว (พร้อมกราฟิกโดยใช้ Stata) ฉันทำงานภายใต้ปัญหาจำนวนมาก: ใน Mac OS X มีปัญหากับ Java ที่อยู่หลังไลบรารีเช่น Snowball (Stemming) หรือ Rgraphviz (กราฟ) สามารถชี้ให้คนที่ออกแพคเกจไม่ได้ - ผมมองที่tm, wordfishและwordscores, และความรู้เกี่ยวกับ NLTK - แต่การวิจัยถ้าเป็นไปได้ด้วยรหัสบนข้อมูลต้นฉบับเดิมที่ประสบความสำเร็จในการใช้tmหรือสิ่งอื่นใดในการวิเคราะห์ข้อมูลเช่นการอภิปรายของรัฐสภาหรือเอกสารนิติบัญญัติ? ฉันไม่สามารถค้นหาปัญหาได้มากนักและแม้แต่รหัสน้อยกว่าเพื่อเรียนรู้จาก โครงการของฉันคือการอภิปรายในรัฐสภาสองเดือนโดยมีตัวแปรเหล่านี้แจ้งไว้ในไฟล์ CSV: เซสชันรัฐสภาลำโพงกลุ่มรัฐสภาข้อความการแทรกแซงด้วยปากเปล่า ฉันกำลังมองหาความแตกต่างระหว่างลำโพงและโดยเฉพาะอย่างยิ่งระหว่างกลุ่มรัฐสภาในการใช้คำที่หายากและหายากน้อยเช่น "การพูดคุยด้านความปลอดภัย" กับ "การพูดคุยเสรีภาพ"
14 r  text-mining 

2
n-g ใดบ้างที่ทำให้เกิดการต่อต้าน
เมื่อทำการประมวลผลภาษาธรรมชาติเราสามารถใช้คลังข้อมูลและประเมินความน่าจะเป็นของคำถัดไปที่เกิดขึ้นในลำดับ n โดยปกติแล้ว n จะถูกเลือกเป็น 2 หรือ 3 (bigrams และ trigrams) มีจุดที่รู้กันหรือไม่ว่าการติดตามข้อมูลสำหรับห่วงโซ่ที่ n กลายเป็นการต่อต้านเนื่องจากระยะเวลาที่ใช้ในการจำแนกคลังข้อมูลเฉพาะครั้งเดียวในระดับนั้น หรือให้เวลาในการค้นหาความน่าจะเป็นจากพจนานุกรม (โครงสร้างข้อมูล)?

1
การแยกคำหลักอัตโนมัติ: ใช้ความคล้ายคลึงโคไซน์เป็นคุณสมบัติ
ฉันมีเมทริกซ์เอกสารและตอนนี้ฉันต้องการแยกคำหลักสำหรับแต่ละเอกสารด้วยวิธีการเรียนรู้ภายใต้การดูแล (SVM, Naive Bayes, ... ) ในรุ่นนี้ฉันใช้แท็ก Tf-idf, Pos tag, ...MMM แต่ตอนนี้ฉันสงสัยเกี่ยวกับเน็กซ์ ฉันมีเมทริกซ์มีความเหมือนโคไซน์ระหว่างคำCCC มีความเป็นไปได้ไหมที่จะใช้ความคล้ายคลึงกันนี้เป็นคุณสมบัติสำหรับโมเดลของฉัน? ผมคิดว่าสำหรับระยะในเอกสาร , การใช้ค่าเฉลี่ยของความคล้ายคลึงกันโคไซน์ของข้อความทั้งหมดในเอกสารที่มีระยะเวลาฉันสิ่งนี้มีประโยชน์หรือไม่?iiiddddddiii

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.