คำถามติดแท็ก text-mining

อ้างถึงชุดย่อยของ data mining ที่เกี่ยวข้องกับการดึงข้อมูลจากข้อมูลในรูปแบบของข้อความโดยการจดจำรูปแบบ เป้าหมายของการทำเหมืองข้อความมักจะจัดประเภทเอกสารที่กำหนดเป็นหนึ่งในจำนวนหมวดหมู่ในวิธีการอัตโนมัติและเพื่อปรับปรุงประสิทธิภาพนี้แบบไดนามิกทำให้มันเป็นตัวอย่างของการเรียนรู้ของเครื่อง ตัวอย่างหนึ่งของการขุดข้อความแบบนี้คือตัวกรองสแปมที่ใช้สำหรับอีเมล

2
เหตุใดจึงใช้ n-gram ในการระบุภาษาข้อความแทนที่จะเป็นคำ?
ในไลบรารีการระบุภาษาที่ได้รับความนิยมสองเครื่อง Compact Language Detector 2 สำหรับ C ++ และเครื่องตรวจจับภาษาสำหรับ Java ทั้งคู่ใช้ (ตามอักขระ) n-grams เพื่อแยกคุณลักษณะข้อความ ทำไมไม่ใช้ถุงแบบคำ (คำเดียว / พจนานุกรม) และข้อดีและข้อเสียของถุงแบบคำและ n-g คืออะไร นอกจากนี้การใช้แบบจำลอง n-grams อื่น ๆ ในการจำแนกข้อความมีประโยชน์อะไรบ้าง? โอ้โห ดูเหมือนว่ามีคำถามที่คล้ายกันที่นี่: เกี่ยวกับการใช้แบบจำลอง Bigram (N-Gram) เพื่อสร้างเวกเตอร์คุณลักษณะสำหรับเอกสารข้อความ แต่ใครบางคนสามารถให้คำตอบที่ครอบคลุมมากขึ้น? ในกรณีที่มีการระบุภาษาดีกว่า (หวังว่าฉันจะได้ความหมายของ n-gg และถุงของคำถูกต้องฮ่าฮ่าถ้าไม่ได้โปรดช่วยฉันด้วย)

7
แพ็คเกจการขุดข้อความสำหรับ R คืออะไรและมีโปรแกรมขุดข้อความโอเพ่นซอร์สอื่น ๆ อีกหรือไม่
คุณสามารถแนะนำแพ็คเกจการขุดข้อความใน R ที่สามารถใช้กับข้อมูลจำนวนมากได้หรือไม่? ประการที่สองมี GUI สำหรับแพ็คเกจการขุดข้อความใน R หรือไม่? ประการที่สามมีอีกโปรแกรมขุดข้อความโอเพนซอร์สที่ใช้งานง่ายและใช้งานง่ายหรือไม่
12 r  text-mining 


5
หนังสือดี ๆ เกี่ยวกับการขุดข้อความ
สวัสดีฉันอยากรู้ว่ามีหนังสือดี ๆ เกี่ยวกับการทำเหมืองข้อความและการจำแนกประเภทด้วยกรณีศึกษาบ้างไหม? ถ้าไม่ใช่เอกสาร / วารสารที่สาธารณชนสามารถเข้าถึงได้ หากพวกเขาแสดงตัวอย่างของพวกเขาด้วย R ยิ่งขึ้น ฉันไม่ได้มองหาคู่มือทีละขั้นตอน แต่สิ่งที่แสดงให้เห็นถึงข้อดีข้อเสียของวิธีการทำเหมืองข้อความที่หลากหลายในการเรียนปัญหาต่าง ๆ

1
IDF แบบเพิ่มหน่วย (ความถี่เอกสารผกผัน)
ในแอปพลิเคชันการทำเหมืองข้อความวิธีการง่ายๆอย่างหนึ่งคือการใช้การแก้ปัญหาเพื่อสร้างเวกเตอร์เป็นการนำเสนอที่กระจัดกระจายของเอกสาร นี่เป็นเรื่องปกติสำหรับการตั้งค่าแบบแบตช์ซึ่งเป็นที่รู้จักทั้งคลังข้อมูล a-Priori เนื่องจากต้องการทั้งคลังข้อมูลฉันd ft f- ฉันdฉtf−idftf-idfฉันdฉidfidf ฉันd ฉ( t ) = บันทึก| D || {d: t ∈ d} |ผมdฉ(เสื้อ)=เข้าสู่ระบบ⁡|D||{d:เสื้อ∈d}| \mathrm{idf}(t) = \log \frac{|D|}{|\{d: t \in d\}|} โดยที่คือคำศัพท์,คือเอกสาร,คือคลังเอกสาร, และ (ไม่แสดง) เป็นพจนานุกรมd D Tเสื้อเสื้อtdddDDDTTT อย่างไรก็ตามโดยทั่วไปแล้วจะได้รับเอกสารใหม่เมื่อเวลาผ่านไป ทางเลือกหนึ่งคือการใช้ที่มีอยู่ต่อไปจนกว่าจะได้รับเอกสารใหม่จำนวนหนึ่งและทำการคำนวณใหม่ อย่างไรก็ตามเรื่องนี้ดูเหมือนจะไม่มีประสิทธิภาพ ไม่มีใครรู้ของรูปแบบการปรับปรุงที่เพิ่มขึ้นที่ (อาจจะประมาณ) มาบรรจบกับค่าถ้าข้อมูลทั้งหมดถูกเห็นล่วงหน้า? หรืออีกวิธีหนึ่งจะมีมาตรการอื่นที่จับความคิดเดียวกัน แต่สามารถคำนวณในแบบที่เพิ่มขึ้น?ฉันdฉผมdฉidf นอกจากนี้ยังมีคำถามที่เกี่ยวข้องว่ายังคงใช้งานได้ดีเมื่อเวลาผ่านไป เนื่องจาก idf รวบรวมความคิดเกี่ยวกับความถี่ของคำศัพท์ของคลังข้อมูลมันเป็นไปได้ที่เอกสารเก่าในคลังข้อมูล (เช่นตัวอย่างเช่นคลังข้อมูลของฉันครอบคลุมบทความวารสารกว่า 100 ปี) เนื่องจากความถี่ของคำที่แตกต่างกันเปลี่ยนแปลงไปตามกาลเวลา ในกรณีนี้มันจริงอาจจะเหมาะสมที่จะโยนออกเอกสารเก่าเมื่อคนใหม่เข้ามาในผลการใช้หน้าต่างบานเลื่อนIDFน่าจะเป็นไปได้ที่เราสามารถเก็บเวกเตอร์ก่อนหน้านี้ทั้งหมดได้เมื่อใหม่แล้วถ้าเราต้องการเรียกเอกสารจาก …

1
ทำความเข้าใจเกี่ยวกับการใช้ลอการิทึมในลอการิทึม TF-IDF
ฉันกำลังอ่าน: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าทำไมสูตรจึงสร้างในแบบที่มันเป็น ฉันเข้าใจอะไร: iDF ควรที่จะวัดระดับความบ่อยครั้งที่คำ S ปรากฏในเอกสารแต่ละฉบับลดลงตามมูลค่าเมื่อคำนั้นปรากฏบ่อยขึ้น จากมุมมองนั้น ฉันD F.( S) = # ของเอกสาร# ของเอกสารที่มี SผมDF(S)=# ของเอกสาร# ของเอกสารที่มี S iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}} นอกจากนี้ความถี่เทอมสามารถอธิบายได้อย่างถูกต้องว่า t f( S, D ) = # ของเหตุการณ์ S ในเอกสาร D # จำนวนการเกิดขึ้นสูงสุดสำหรับสตริง Q ใด ๆ ในเอกสาร D …

3
เกี่ยวกับการใช้โมเดล bigram (N-gram) เพื่อสร้างฟีเจอร์ vector สำหรับเอกสารข้อความ
วิธีการดั้งเดิมของการสร้างฟีเจอร์สำหรับการขุดข้อความเป็นวิธีถุงแบบคำและสามารถปรับปรุงได้โดยใช้ tf-idf สำหรับการตั้งค่าคุณลักษณะเวกเตอร์ที่แสดงลักษณะของเอกสารข้อความที่กำหนด ในปัจจุบันฉันกำลังพยายามใช้โมเดลภาษาสองแกรมหรือ (N-Gram) เพื่อสร้างเวกเตอร์คุณลักษณะ แต่ไม่ทราบวิธีการทำเช่นนั้นใช่หรือไม่ เราสามารถทำตามวิธีการของคำพูดเช่นการคำนวณจำนวนความถี่ในรูปแบบของ bi-gram แทนที่จะเป็นคำพูดและปรับปรุงมันด้วยวิธีการถ่วงน้ำหนัก tf-idf?

1
การตีความของ sparsity นี้ถูกต้องหรือไม่?
ตามเอกสารของremoveSparseTermsฟังก์ชั่นจากtmแพคเกจนี่คือสิ่งที่ sparsity นำมาซึ่ง: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less than sparse. ดังนั้นการตีความที่ถูกต้องของสิ่งนี้คือการพูดว่าถ้าsparseเท่ากับ 0.99 เราจะลบคำที่ปรากฏในที่สุด 1% …

1
เพิ่มหนึ่งในความถี่เอกสารผกผันทำไม?
ตำราเรียนของฉันแสดงรายการ idf เป็นโดยที่l o g( 1 +ยังไม่มีข้อความnเสื้อ)ล.โอก.(1+ยังไม่มีข้อความnเสื้อ)log(1+\frac{N}{n_t}) ยังไม่มีข้อความยังไม่มีข้อความN : จำนวนเอกสาร nเสื้อnเสื้อn_t : จำนวนเอกสารที่มีคำศัพท์เสื้อเสื้อt รายการวิกิพีเดียสูตรนี้เป็นรุ่นที่เรียบของจริง{n_t}) สิ่งหนึ่งที่ฉันเข้าใจ: มันมีตั้งแต่ถึงซึ่งดูเหมือนจะเข้าใจง่าย แต่จากเป็นซึ่งดูแปลกมาก ... ฉันรู้เรื่องการปรับให้เรียบจากการสร้างแบบจำลองภาษาเล็กน้อย แต่คุณจะเพิ่มบางอย่างในตัวเศษ เช่นเดียวกับในตัวหารเพราะคุณเป็นห่วงเกี่ยวกับมวลความน่าจะเป็น แต่การเพิ่มไม่สมเหตุสมผลสำหรับฉัน เราพยายามทำอะไรให้สำเร็จที่นี่?l o g(ยังไม่มีข้อความnเสื้อ)ล.โอก.(ยังไม่มีข้อความnเสื้อ)log(\frac{N}{n_t})l o g(ยังไม่มีข้อความยังไม่มีข้อความ) = 0ล.โอก.(ยังไม่มีข้อความยังไม่มีข้อความ)=0log(\frac{N}{N})=0∞∞\inftyl o g( 1 +ยังไม่มีข้อความnเสื้อ)ล.โอก.(1+ยังไม่มีข้อความnเสื้อ)log(1+\frac{N}{n_t})l o g( 1 + 1 )ล.โอก.(1+1)log(1+1)∞∞\infty111

2
VectorSource และ VCorpus คืออะไรในแพ็คเกจ 'tm' (การทำเหมืองข้อความ) ใน R
ฉันไม่แน่ใจว่า VectorSource และ VCorpus อยู่ในแพ็คเกจ 'tm' อย่างแน่นอน เอกสารไม่ชัดเจนเกี่ยวกับสิ่งเหล่านี้ทุกคนสามารถทำให้ฉันเข้าใจในแง่ง่ายหรือไม่?
9 r  text-mining 

1
การใช้เครื่องมือการประมวลผลข้อความ / ภาษาธรรมชาติสำหรับเศรษฐมิติ
ฉันไม่แน่ใจว่าคำถามนี้เหมาะสมอย่างยิ่งหรือไม่โปรดลบ ฉันเป็นนักเรียนที่จบการศึกษาด้านเศรษฐศาสตร์ สำหรับโครงการที่ตรวจสอบปัญหาในการประกันสังคมฉันสามารถเข้าถึงรายงานกรณีการบริหาร (> 200k) จำนวนมากซึ่งจัดการกับการประเมินสิทธิ์ รายงานเหล่านี้อาจเชื่อมโยงกับข้อมูลการดูแลส่วนบุคคล ฉันต้องการดึงข้อมูลจากรายงานเหล่านี้ที่สามารถนำมาใช้ในการวิเคราะห์เชิงปริมาณและการค้นหาคำหลัก / regex ง่าย ๆ โดยใช้grep/ awketc การประมวลผลภาษาธรรมชาติมีประโยชน์อย่างไรสำหรับสิ่งนี้ อะไรคือวิธีการขุดข้อความที่มีประโยชน์อื่น ๆ จากสิ่งที่ฉันเข้าใจว่านี่เป็นเขตข้อมูลขนาดใหญ่และส่วนใหญ่มีรายงานบางส่วนที่จะต้องถูกเปลี่ยนเป็นใช้เป็นคลังข้อมูล มันคุ้มค่าที่จะลงทุนสักระยะเพื่อทำความคุ้นเคยกับวรรณกรรมและวิธีการหรือไม่? มันจะมีประโยชน์และมีสิ่งที่คล้ายกันเคยทำมาก่อนหรือไม่ มันคุ้มค่าหรือไม่ในแง่ของรางวัลเช่นฉันสามารถดึงข้อมูลที่เป็นประโยชน์โดยใช้ NLP สำหรับการศึกษาเชิงประจักษ์ทางเศรษฐศาสตร์ได้หรือไม่? อาจมีการระดมทุนเพื่อจ้างคนอ่านและเตรียมรายงานบางส่วน นี่เป็นโครงการขนาดใหญ่และมีความเป็นไปได้ที่จะใช้เงินทุนเพิ่มเติม ฉันสามารถให้รายละเอียดเพิ่มเติมเกี่ยวกับหัวข้อหากจำเป็นอย่างเคร่งครัด ความซับซ้อนที่อาจเกิดขึ้นคือภาษาเยอรมันไม่ใช่ภาษาอังกฤษ เกี่ยวกับคุณวุฒิส่วนใหญ่ฉันได้รับการฝึกฝนด้านเศรษฐมิติและมีความรู้เกี่ยวกับสถิติการคำนวณในระดับHastie et al หนังสือ ฉันรู้จัก Python, R, Stata และอาจคุ้นเคยกับ Matlab อย่างรวดเร็ว ให้ห้องสมุดฉันคิดว่าหลามเป็นเครื่องมือของการเลือกนี้ ไม่มีการฝึกอบรมในวิธีการเชิงคุณภาพถ้ามันเกี่ยวข้อง แต่ฉันรู้ว่ามีบางคนที่ฉันสามารถติดต่อได้ ฉันดีใจที่ได้รับข้อมูลใด ๆ เกี่ยวกับเรื่องนี้เช่นถ้านี่อาจเป็นประโยชน์ถ้าเป็นเช่นนั้นสถานที่ที่จะเริ่มอ่านและเครื่องมือใดที่ควรให้ความสำคัญเป็นพิเศษ

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
ทำความเข้าใจและใช้การวิเคราะห์ความเชื่อมั่น
ฉันเพิ่งได้รับมอบหมายให้ทำโครงการวิเคราะห์ความเชื่อมั่นสำหรับการรวบรวมเอกสารบางอย่าง โดย Googling การวิจัยเกี่ยวกับความเชื่อมั่นจำนวนมากได้ผุดขึ้นมา คำถามของฉันคือ: อะไรคือวิธีการที่สำคัญ / อัลกอริทึมสำหรับการวิเคราะห์ความเชื่อมั่นในด้านการเรียนรู้ของเครื่องและการวิเคราะห์ทางสถิติ? มีผลลัพธ์ที่เป็นที่ยอมรับหรือไม่ มีซอฟต์แวร์โอเพ่นซอร์สที่มีอยู่ที่สามารถทำการวิเคราะห์ความเชื่อมั่นได้หรือไม่?

4
วิธีการทดสอบไคสแควร์หลังการทดสอบหลายตารางในตาราง 2 X 3
ชุดข้อมูลของฉันประกอบด้วยการเสียชีวิตโดยรวมหรือการอยู่รอดของสิ่งมีชีวิตที่ไซต์สามประเภททั้งฝั่งกลางและกลาง ตัวเลขในตารางด้านล่างแสดงถึงจำนวนเว็บไซต์ 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 ฉันต้องการทราบว่า # ของเว็บไซต์ที่มีอัตราการตาย 100% มีความสำคัญตามประเภทของไซต์หรือไม่ ถ้าฉันใช้ไคสแควร์ 2 x 3 ฉันจะได้ผลลัพธ์ที่สำคัญ มีการเปรียบเทียบแบบคู่หลังที่ฉันสามารถเรียกใช้หรือฉันควรใช้ ANOVA จิสติกส์หรือการถดถอยด้วยการแจกแจงแบบทวินามหรือไม่ ขอบคุณ!
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.