สถิติและข้อมูลขนาดใหญ่ text-mining

2

เหตุใดจึงใช้ n-gram ในการระบุภาษาข้อความแทนที่จะเป็นคำ?

ในไลบรารีการระบุภาษาที่ได้รับความนิยมสองเครื่อง Compact Language Detector 2 สำหรับ C ++ และเครื่องตรวจจับภาษาสำหรับ Java ทั้งคู่ใช้ (ตามอักขระ) n-grams เพื่อแยกคุณลักษณะข้อความ ทำไมไม่ใช้ถุงแบบคำ (คำเดียว / พจนานุกรม) และข้อดีและข้อเสียของถุงแบบคำและ n-g คืออะไร นอกจากนี้การใช้แบบจำลอง n-grams อื่น ๆ ในการจำแนกข้อความมีประโยชน์อะไรบ้าง? โอ้โห ดูเหมือนว่ามีคำถามที่คล้ายกันที่นี่: เกี่ยวกับการใช้แบบจำลอง Bigram (N-Gram) เพื่อสร้างเวกเตอร์คุณลักษณะสำหรับเอกสารข้อความ แต่ใครบางคนสามารถให้คำตอบที่ครอบคลุมมากขึ้น? ในกรณีที่มีการระบุภาษาดีกว่า (หวังว่าฉันจะได้ความหมายของ n-gg และถุงของคำถูกต้องฮ่าฮ่าถ้าไม่ได้โปรดช่วยฉันด้วย)

12 machine-learning classification text-mining natural-language

7

แพ็คเกจการขุดข้อความสำหรับ R คืออะไรและมีโปรแกรมขุดข้อความโอเพ่นซอร์สอื่น ๆ อีกหรือไม่

คุณสามารถแนะนำแพ็คเกจการขุดข้อความใน R ที่สามารถใช้กับข้อมูลจำนวนมากได้หรือไม่? ประการที่สองมี GUI สำหรับแพ็คเกจการขุดข้อความใน R หรือไม่? ประการที่สามมีอีกโปรแกรมขุดข้อความโอเพนซอร์สที่ใช้งานง่ายและใช้งานง่ายหรือไม่

12 r text-mining

2

กระเป๋าคำเทียบกับเวกเตอร์สเปซโมเดล?

อะไรคือความแตกต่างระหว่างโมเดลการแทนค่าข้อความเหล่านี้: กระเป๋าคำและโมเดลเวกเตอร์สเปซ?

12 machine-learning text-mining

5

หนังสือดี ๆ เกี่ยวกับการขุดข้อความ

สวัสดีฉันอยากรู้ว่ามีหนังสือดี ๆ เกี่ยวกับการทำเหมืองข้อความและการจำแนกประเภทด้วยกรณีศึกษาบ้างไหม? ถ้าไม่ใช่เอกสาร / วารสารที่สาธารณชนสามารถเข้าถึงได้ หากพวกเขาแสดงตัวอย่างของพวกเขาด้วย R ยิ่งขึ้น ฉันไม่ได้มองหาคู่มือทีละขั้นตอน แต่สิ่งที่แสดงให้เห็นถึงข้อดีข้อเสียของวิธีการทำเหมืองข้อความที่หลากหลายในการเรียนปัญหาต่าง ๆ

11 references text-mining

1

IDF แบบเพิ่มหน่วย (ความถี่เอกสารผกผัน)

ในแอปพลิเคชันการทำเหมืองข้อความวิธีการง่ายๆอย่างหนึ่งคือการใช้การแก้ปัญหาเพื่อสร้างเวกเตอร์เป็นการนำเสนอที่กระจัดกระจายของเอกสาร นี่เป็นเรื่องปกติสำหรับการตั้งค่าแบบแบตช์ซึ่งเป็นที่รู้จักทั้งคลังข้อมูล a-Priori เนื่องจากต้องการทั้งคลังข้อมูลฉันd ft f- ฉันdฉtf−idftf-idfฉันdฉidfidf ฉันd ฉ( t ) = บันทึก| D || {d: t ∈ d} |ผมdฉ(เสื้อ)=เข้าสู่ระบบ⁡|D||{d:เสื้อ∈d}| \mathrm{idf}(t) = \log \frac{|D|}{|\{d: t \in d\}|} โดยที่คือคำศัพท์,คือเอกสาร,คือคลังเอกสาร, และ (ไม่แสดง) เป็นพจนานุกรมd D Tเสื้อเสื้อtdddDDDTTT อย่างไรก็ตามโดยทั่วไปแล้วจะได้รับเอกสารใหม่เมื่อเวลาผ่านไป ทางเลือกหนึ่งคือการใช้ที่มีอยู่ต่อไปจนกว่าจะได้รับเอกสารใหม่จำนวนหนึ่งและทำการคำนวณใหม่ อย่างไรก็ตามเรื่องนี้ดูเหมือนจะไม่มีประสิทธิภาพ ไม่มีใครรู้ของรูปแบบการปรับปรุงที่เพิ่มขึ้นที่ (อาจจะประมาณ) มาบรรจบกับค่าถ้าข้อมูลทั้งหมดถูกเห็นล่วงหน้า? หรืออีกวิธีหนึ่งจะมีมาตรการอื่นที่จับความคิดเดียวกัน แต่สามารถคำนวณในแบบที่เพิ่มขึ้น?ฉันdฉผมdฉidf นอกจากนี้ยังมีคำถามที่เกี่ยวข้องว่ายังคงใช้งานได้ดีเมื่อเวลาผ่านไป เนื่องจาก idf รวบรวมความคิดเกี่ยวกับความถี่ของคำศัพท์ของคลังข้อมูลมันเป็นไปได้ที่เอกสารเก่าในคลังข้อมูล (เช่นตัวอย่างเช่นคลังข้อมูลของฉันครอบคลุมบทความวารสารกว่า 100 ปี) เนื่องจากความถี่ของคำที่แตกต่างกันเปลี่ยนแปลงไปตามกาลเวลา ในกรณีนี้มันจริงอาจจะเหมาะสมที่จะโยนออกเอกสารเก่าเมื่อคนใหม่เข้ามาในผลการใช้หน้าต่างบานเลื่อนIDFน่าจะเป็นไปได้ที่เราสามารถเก็บเวกเตอร์ก่อนหน้านี้ทั้งหมดได้เมื่อใหม่แล้วถ้าเราต้องการเรียกเอกสารจาก …

11 time-series text-mining

1

ทำความเข้าใจเกี่ยวกับการใช้ลอการิทึมในลอการิทึม TF-IDF

ฉันกำลังอ่าน: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าทำไมสูตรจึงสร้างในแบบที่มันเป็น ฉันเข้าใจอะไร: iDF ควรที่จะวัดระดับความบ่อยครั้งที่คำ S ปรากฏในเอกสารแต่ละฉบับลดลงตามมูลค่าเมื่อคำนั้นปรากฏบ่อยขึ้น จากมุมมองนั้น ฉันD F.( S) = # ของเอกสาร# ของเอกสารที่มี SผมDF(S)=# ของเอกสาร# ของเอกสารที่มี S iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}} นอกจากนี้ความถี่เทอมสามารถอธิบายได้อย่างถูกต้องว่า t f( S, D ) = # ของเหตุการณ์ S ในเอกสาร D # จำนวนการเกิดขึ้นสูงสุดสำหรับสตริง Q ใด ๆ ในเอกสาร D …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

เกี่ยวกับการใช้โมเดล bigram (N-gram) เพื่อสร้างฟีเจอร์ vector สำหรับเอกสารข้อความ

วิธีการดั้งเดิมของการสร้างฟีเจอร์สำหรับการขุดข้อความเป็นวิธีถุงแบบคำและสามารถปรับปรุงได้โดยใช้ tf-idf สำหรับการตั้งค่าคุณลักษณะเวกเตอร์ที่แสดงลักษณะของเอกสารข้อความที่กำหนด ในปัจจุบันฉันกำลังพยายามใช้โมเดลภาษาสองแกรมหรือ (N-Gram) เพื่อสร้างเวกเตอร์คุณลักษณะ แต่ไม่ทราบวิธีการทำเช่นนั้นใช่หรือไม่ เราสามารถทำตามวิธีการของคำพูดเช่นการคำนวณจำนวนความถี่ในรูปแบบของ bi-gram แทนที่จะเป็นคำพูดและปรับปรุงมันด้วยวิธีการถ่วงน้ำหนัก tf-idf?

10 machine-learning data-mining text-mining natural-language language-models

1

การตีความของ sparsity นี้ถูกต้องหรือไม่?

ตามเอกสารของremoveSparseTermsฟังก์ชั่นจากtmแพคเกจนี่คือสิ่งที่ sparsity นำมาซึ่ง: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less than sparse. ดังนั้นการตีความที่ถูกต้องของสิ่งนี้คือการพูดว่าถ้าsparseเท่ากับ 0.99 เราจะลบคำที่ปรากฏในที่สุด 1% …

10 r text-mining natural-language

1

เพิ่มหนึ่งในความถี่เอกสารผกผันทำไม?

ตำราเรียนของฉันแสดงรายการ idf เป็นโดยที่l o g( 1 +ยังไม่มีข้อความnเสื้อ)ล.โอก.(1+ยังไม่มีข้อความnเสื้อ)log(1+\frac{N}{n_t}) ยังไม่มีข้อความยังไม่มีข้อความN : จำนวนเอกสาร nเสื้อnเสื้อn_t : จำนวนเอกสารที่มีคำศัพท์เสื้อเสื้อt รายการวิกิพีเดียสูตรนี้เป็นรุ่นที่เรียบของจริง{n_t}) สิ่งหนึ่งที่ฉันเข้าใจ: มันมีตั้งแต่ถึงซึ่งดูเหมือนจะเข้าใจง่าย แต่จากเป็นซึ่งดูแปลกมาก ... ฉันรู้เรื่องการปรับให้เรียบจากการสร้างแบบจำลองภาษาเล็กน้อย แต่คุณจะเพิ่มบางอย่างในตัวเศษ เช่นเดียวกับในตัวหารเพราะคุณเป็นห่วงเกี่ยวกับมวลความน่าจะเป็น แต่การเพิ่มไม่สมเหตุสมผลสำหรับฉัน เราพยายามทำอะไรให้สำเร็จที่นี่?l o g(ยังไม่มีข้อความnเสื้อ)ล.โอก.(ยังไม่มีข้อความnเสื้อ)log(\frac{N}{n_t})l o g(ยังไม่มีข้อความยังไม่มีข้อความ) = 0ล.โอก.(ยังไม่มีข้อความยังไม่มีข้อความ)=0log(\frac{N}{N})=0∞∞\inftyl o g( 1 +ยังไม่มีข้อความnเสื้อ)ล.โอก.(1+ยังไม่มีข้อความnเสื้อ)log(1+\frac{N}{n_t})l o g( 1 + 1 )ล.โอก.(1+1)log(1+1)∞∞\infty111

9 text-mining natural-language smoothing

2

VectorSource และ VCorpus คืออะไรในแพ็คเกจ 'tm' (การทำเหมืองข้อความ) ใน R

ฉันไม่แน่ใจว่า VectorSource และ VCorpus อยู่ในแพ็คเกจ 'tm' อย่างแน่นอน เอกสารไม่ชัดเจนเกี่ยวกับสิ่งเหล่านี้ทุกคนสามารถทำให้ฉันเข้าใจในแง่ง่ายหรือไม่?

9 r text-mining

1

การใช้เครื่องมือการประมวลผลข้อความ / ภาษาธรรมชาติสำหรับเศรษฐมิติ

ฉันไม่แน่ใจว่าคำถามนี้เหมาะสมอย่างยิ่งหรือไม่โปรดลบ ฉันเป็นนักเรียนที่จบการศึกษาด้านเศรษฐศาสตร์ สำหรับโครงการที่ตรวจสอบปัญหาในการประกันสังคมฉันสามารถเข้าถึงรายงานกรณีการบริหาร (> 200k) จำนวนมากซึ่งจัดการกับการประเมินสิทธิ์ รายงานเหล่านี้อาจเชื่อมโยงกับข้อมูลการดูแลส่วนบุคคล ฉันต้องการดึงข้อมูลจากรายงานเหล่านี้ที่สามารถนำมาใช้ในการวิเคราะห์เชิงปริมาณและการค้นหาคำหลัก / regex ง่าย ๆ โดยใช้grep/ awketc การประมวลผลภาษาธรรมชาติมีประโยชน์อย่างไรสำหรับสิ่งนี้ อะไรคือวิธีการขุดข้อความที่มีประโยชน์อื่น ๆ จากสิ่งที่ฉันเข้าใจว่านี่เป็นเขตข้อมูลขนาดใหญ่และส่วนใหญ่มีรายงานบางส่วนที่จะต้องถูกเปลี่ยนเป็นใช้เป็นคลังข้อมูล มันคุ้มค่าที่จะลงทุนสักระยะเพื่อทำความคุ้นเคยกับวรรณกรรมและวิธีการหรือไม่? มันจะมีประโยชน์และมีสิ่งที่คล้ายกันเคยทำมาก่อนหรือไม่ มันคุ้มค่าหรือไม่ในแง่ของรางวัลเช่นฉันสามารถดึงข้อมูลที่เป็นประโยชน์โดยใช้ NLP สำหรับการศึกษาเชิงประจักษ์ทางเศรษฐศาสตร์ได้หรือไม่? อาจมีการระดมทุนเพื่อจ้างคนอ่านและเตรียมรายงานบางส่วน นี่เป็นโครงการขนาดใหญ่และมีความเป็นไปได้ที่จะใช้เงินทุนเพิ่มเติม ฉันสามารถให้รายละเอียดเพิ่มเติมเกี่ยวกับหัวข้อหากจำเป็นอย่างเคร่งครัด ความซับซ้อนที่อาจเกิดขึ้นคือภาษาเยอรมันไม่ใช่ภาษาอังกฤษ เกี่ยวกับคุณวุฒิส่วนใหญ่ฉันได้รับการฝึกฝนด้านเศรษฐมิติและมีความรู้เกี่ยวกับสถิติการคำนวณในระดับHastie et al หนังสือ ฉันรู้จัก Python, R, Stata และอาจคุ้นเคยกับ Matlab อย่างรวดเร็ว ให้ห้องสมุดฉันคิดว่าหลามเป็นเครื่องมือของการเลือกนี้ ไม่มีการฝึกอบรมในวิธีการเชิงคุณภาพถ้ามันเกี่ยวข้อง แต่ฉันรู้ว่ามีบางคนที่ฉันสามารถติดต่อได้ ฉันดีใจที่ได้รับข้อมูลใด ๆ เกี่ยวกับเรื่องนี้เช่นถ้านี่อาจเป็นประโยชน์ถ้าเป็นเช่นนั้นสถานที่ที่จะเริ่มอ่านและเครื่องมือใดที่ควรให้ความสำคัญเป็นพิเศษ

9 machine-learning data-mining econometrics text-mining natural-language

1

จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร

สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

ทำความเข้าใจและใช้การวิเคราะห์ความเชื่อมั่น

ฉันเพิ่งได้รับมอบหมายให้ทำโครงการวิเคราะห์ความเชื่อมั่นสำหรับการรวบรวมเอกสารบางอย่าง โดย Googling การวิจัยเกี่ยวกับความเชื่อมั่นจำนวนมากได้ผุดขึ้นมา คำถามของฉันคือ: อะไรคือวิธีการที่สำคัญ / อัลกอริทึมสำหรับการวิเคราะห์ความเชื่อมั่นในด้านการเรียนรู้ของเครื่องและการวิเคราะห์ทางสถิติ? มีผลลัพธ์ที่เป็นที่ยอมรับหรือไม่ มีซอฟต์แวร์โอเพ่นซอร์สที่มีอยู่ที่สามารถทำการวิเคราะห์ความเชื่อมั่นได้หรือไม่?

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

4

วิธีการทดสอบไคสแควร์หลังการทดสอบหลายตารางในตาราง 2 X 3

ชุดข้อมูลของฉันประกอบด้วยการเสียชีวิตโดยรวมหรือการอยู่รอดของสิ่งมีชีวิตที่ไซต์สามประเภททั้งฝั่งกลางและกลาง ตัวเลขในตารางด้านล่างแสดงถึงจำนวนเว็บไซต์ 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 ฉันต้องการทราบว่า # ของเว็บไซต์ที่มีอัตราการตาย 100% มีความสำคัญตามประเภทของไซต์หรือไม่ ถ้าฉันใช้ไคสแควร์ 2 x 3 ฉันจะได้ผลลัพธ์ที่สำคัญ มีการเปรียบเทียบแบบคู่หลังที่ฉันสามารถเรียกใช้หรือฉันควรใช้ ANOVA จิสติกส์หรือการถดถอยด้วยการแจกแจงแบบทวินามหรือไม่ ขอบคุณ!

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

คำถามติดแท็ก text-mining