คำถามติดแท็ก text-mining

อ้างถึงชุดย่อยของ data mining ที่เกี่ยวข้องกับการดึงข้อมูลจากข้อมูลในรูปแบบของข้อความโดยการจดจำรูปแบบ เป้าหมายของการทำเหมืองข้อความมักจะจัดประเภทเอกสารที่กำหนดเป็นหนึ่งในจำนวนหมวดหมู่ในวิธีการอัตโนมัติและเพื่อปรับปรุงประสิทธิภาพนี้แบบไดนามิกทำให้มันเป็นตัวอย่างของการเรียนรู้ของเครื่อง ตัวอย่างหนึ่งของการขุดข้อความแบบนี้คือตัวกรองสแปมที่ใช้สำหรับอีเมล

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
เลเยอร์ Keras 'การฝัง' ทำงานอย่างไร
จำเป็นต้องเข้าใจการทำงานของเลเยอร์ 'การฝัง' ในไลบรารี Keras ฉันรันโค้ดต่อไปนี้ใน Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) ซึ่งให้ผลลัพธ์ต่อไปนี้ input_array = [[4 1 3 3 3]] output_array = [[[ 0.03126476 0.00527241] [-0.02369716 -0.02856163] [ …

6
วิธีการจับคู่กึ่งเวกเตอร์ของสตริง (ใน R) อย่างไร
ฉันไม่แน่ใจว่าควรจะเรียกศัพท์นี้ได้อย่างไรดังนั้นโปรดแก้ไขให้ถูกต้องหากคุณรู้จักคำศัพท์ที่ดีขึ้น ฉันมีสองรายการ หนึ่งใน 55 รายการ (เช่น: เวกเตอร์ของสตริง) อีก 92 รายการชื่อจะคล้ายกัน แต่ไม่เหมือนกัน ฉันต้องการที่จะหาสิ่งที่ดีที่สุดสำหรับผู้สมัครsใน 92 รายการกับรายการใน 55 รายการ (จากนั้นผมก็จะผ่านมันไปและเลือกที่เหมาะสมถูกต้อง) จะทำอย่างไร? ความคิดเห็นที่ฉันมีต่อ: ดูรายการที่ตรงกันทั้งหมด (ใช้รายการที่ตรงกันหรือไม่) ลองใช้เมทริกซ์ระยะทางระหว่างสตริงเวกเตอร์ แต่ฉันไม่แน่ใจว่าจะกำหนดได้ดีที่สุดอย่างไร (จำนวนตัวอักษรเหมือนกันลำดับของสตริงล่ะ) ดังนั้นแพคเกจ / ฟังก์ชั่น / สาขาการวิจัยที่เกี่ยวข้องกับงานดังกล่าวและอย่างไร Update: นี่คือตัวอย่างของเวคเตอร์ที่ฉันต้องการจับคู่ vec55 <- c("Aeropyrum pernix", "Archaeoglobus fulgidus", "Candidatus_Korarchaeum_cryptofilum", "Candidatus_Methanoregula_boonei_6A8", "Cenarchaeum_symbiosum", "Desulfurococcus_kamchatkensis", "Ferroplasma acidarmanus", "Haloarcula_marismortui_ATCC_43049", "Halobacterium sp.", "Halobacterium_salinarum_R1", "Haloferax volcanii", "Haloquadratum_walsbyi", …
36 r  text-mining 

6
การจำแนกทางสถิติของข้อความ
ฉันเป็นโปรแกรมเมอร์ที่ไม่มีพื้นฐานด้านสถิติและตอนนี้ฉันกำลังมองหาวิธีการจำแนกประเภทที่แตกต่างกันสำหรับเอกสารจำนวนมากที่ฉันต้องการจัดหมวดหมู่เป็นหมวดหมู่ที่กำหนดไว้ล่วงหน้า ฉันได้อ่านเกี่ยวกับ kNN, SVM และ NN อย่างไรก็ตามฉันมีปัญหาในการเริ่มต้น คุณแนะนำแหล่งข้อมูลใด ฉันรู้ว่าแคลคูลัสตัวแปรเดียวและตัวแปรหลายตัวค่อนข้างดีดังนั้นคณิตศาสตร์ของฉันควรแข็งแรงพอ ฉันเองเป็นเจ้าของหนังสือของ Bishop ใน Neural Networks แต่มันก็พิสูจน์แล้วว่ามีความหนาแน่นเล็กน้อยในการแนะนำ

4
เทคนิคการเรียนรู้ของเครื่องสำหรับการวิเคราะห์สตริง?
ฉันมีสตริงที่อยู่จำนวนมาก: 1600 Pennsylvania Ave, Washington, DC 20500 USA ฉันต้องการแยกพวกเขาเป็นส่วนประกอบของพวกเขา street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA แต่แน่นอนว่าข้อมูลสกปรก: มันมาจากหลายประเทศในหลาย ๆ ภาษาเขียนในรูปแบบที่แตกต่างกันมีการสะกดผิดชิ้นส่วนที่ขาดหายไปมีขยะพิเศษ ฯลฯ ตอนนี้แนวทางของเราคือการใช้กฎรวมกับการจับคู่ gazetteer แต่เราต้องการสำรวจเทคนิคการเรียนรู้ของเครื่อง เราได้ระบุข้อมูลการฝึกอบรมเพื่อการเรียนรู้แบบมีผู้สอน คำถามคือปัญหาการเรียนรู้ของเครื่องเป็นแบบใด ดูเหมือนจะไม่ใช่การรวมกลุ่มหรือการจำแนกหรือการถดถอย .... สิ่งที่ใกล้เคียงที่สุดที่ฉันสามารถทำได้คือจำแนกแต่ละโทเค็น แต่คุณต้องการจัดหมวดหมู่ทั้งหมดพร้อมกันข้อ จำกัด ที่น่าพอใจเช่น "ควรมีอย่างน้อยหนึ่งประเทศ และจริงๆมีหลายวิธีในการโทเค็นสตริงและคุณต้องการลองแต่ละอันและเลือกสิ่งที่ดีที่สุด .... ฉันรู้ว่ามีบางสิ่งที่เรียกว่าการแยกวิเคราะห์ทางสถิติ แต่ไม่รู้อะไรเกี่ยวกับมัน ดังนั้น: เทคนิคการเรียนรู้ของเครื่องใดที่ฉันสามารถสำรวจเพื่อแยกที่อยู่ได้

3
การจัดหมวดหมู่ R เป็นข้อความได้ดีเพียงใด [ปิด]
ฉันพยายามเพิ่มความเร็วให้สูงขึ้นด้วย R. ในที่สุดฉันก็ต้องการใช้ไลบรารี R สำหรับการจำแนกข้อความ ฉันแค่สงสัยว่าประสบการณ์ของผู้คนเกี่ยวข้องกับความสามารถในการปรับขนาดของ R เมื่อพูดถึงการจำแนกข้อความ ฉันมีแนวโน้มที่จะพบข้อมูลมิติสูง (~ 300k มิติ) ฉันกำลังมองหาการใช้ SVM และ Random Forest โดยเฉพาะอย่างยิ่งเป็นอัลกอริทึมการจำแนกประเภท ไลบรารี R จะปรับขนาดตามขนาดปัญหาของฉันหรือไม่ ขอบคุณ แก้ไข 1: เพื่อชี้แจงชุดข้อมูลของฉันมีแนวโน้มที่จะมี 1,000-3,000 แถว (อาจเพิ่มอีกเล็กน้อย) และ 10 คลาส แก้ไข 2: ตั้งแต่ฉันยังใหม่กับ R ฉันจะขอโปสเตอร์ให้เฉพาะเจาะจงมากที่สุดเท่าที่จะเป็นไปได้ ตัวอย่างเช่นหากคุณกำลังแนะนำเวิร์กโฟลว์ / ไปป์ไลน์โปรดตรวจสอบให้แน่ใจว่าได้ระบุถึงไลบรารี R ที่เกี่ยวข้องในแต่ละขั้นตอนถ้าเป็นไปได้ พอยน์เตอร์เพิ่มเติมบางอย่าง (สำหรับตัวอย่างโค้ดตัวอย่าง ฯลฯ ) จะเป็นไอซิ่งบนเค้ก แก้ไข 3: ก่อนอื่นขอขอบคุณทุกคนสำหรับความคิดเห็นของคุณ และประการที่สองฉันขอโทษบางทีฉันควรจะให้บริบทมากขึ้นสำหรับปัญหา …

2
ความแตกต่างระหว่าง Bayes ไร้เดียงสาและ Bayes ไร้เดียงสาหลายอัน
ฉันเคยจัดการตัวจําแนกNaive Bayesมาก่อน ฉันได้อ่านเกี่ยวกับMultinomial Naive Bayesเมื่อเร็ว ๆ นี้ นอกจากนี้หลังน่าจะเป็น = (ก่อน * โอกาส) / (หลักฐาน) ข้อแตกต่างที่สำคัญเพียงอย่างเดียว (ในขณะที่เขียนโปรแกรมตัวแยกประเภทเหล่านี้) ที่ฉันพบระหว่าง Naive Bayes และ Multinomial Naive Bayes ก็คือ Multinomial Naive Bayesคำนวณความน่าจะเป็นที่จะนับคำ / โทเค็น (ตัวแปรสุ่ม) และNaive Bayesคำนวณความน่าจะเป็นที่จะติดตาม: ช่วยแก้ให้ด้วยนะถ้าฉันผิด!

4
แพ็กเกจ R สำหรับการสร้างแบบจำลองหัวข้อ / LDA: เพียง `topicmodels` และ` lda` [ปิด]
สำหรับฉันดูเหมือนว่ามีเพียงสองแพ็คเกจ R เท่านั้นที่สามารถดำเนินการจัดสรร Latent Dirichlet : หนึ่งคือldaประพันธ์โดย Jonathan Chang; และอื่น ๆ ที่topicmodelsเขียนโดย Bettina Grünและ Kurt Hornik อะไรคือความแตกต่างระหว่างสองแพ็คเกจนี้ในแง่ของประสิทธิภาพรายละเอียดการติดตั้งและการใช้งานที่เพิ่มขึ้น?

1
การตรวจสอบความถูกต้องไขว้เป็นการทดแทนที่เหมาะสมสำหรับชุดการตรวจสอบหรือไม่
ในการจัดประเภทข้อความฉันมีชุดการฝึกอบรมที่มีประมาณ 800 ตัวอย่างและชุดทดสอบที่มีประมาณ 150 ตัวอย่าง ไม่เคยใช้ชุดทดสอบและรอจนกว่าจะหมด ฉันใช้ชุดการฝึกอบรมตัวอย่าง 800 ชุดพร้อมการตรวจสอบไขว้ 10 เท่าในขณะที่ปรับแต่งและปรับแต่งตัวแยกประเภทและคุณสมบัติ ซึ่งหมายความว่าฉันไม่ได้มีชุดการตรวจสอบแยกต่างหาก แต่แต่ละชุดมี 10 เท่าชุดตรวจสอบจะถูกเลือกโดยอัตโนมัติ หลังจากที่ฉันจะพอใจกับทุกสิ่งและต้องการเข้าสู่ขั้นตอนสุดท้ายของการประเมินผลฉันจะฝึกตัวแยกประเภทของฉันในตัวอย่าง 800 ตัวอย่าง และทดสอบชุดทดสอบตัวอย่าง 150 ชุด ฉันเข้าใจหรือไม่ว่าการใช้การตรวจสอบข้ามในการจำแนกข้อความถูกต้องหรือไม่? วิธีนี้ใช้ได้หรือไม่ คำถามอื่นการตรวจสอบข้าม wrt คือ: แทนที่จะเป็น 10 เท่าฉันก็ลองใช้ตัวบ่งชี้ทั่วไปสำหรับการแสดงแทน เพราะสำหรับการออกไปข้างนอกเป็นไปไม่ได้ที่จะมีข้อมูลเกี่ยวกับ f1 / ความแม่นยำ / การเรียกคืนฉันสงสัยว่าความสัมพันธ์ระหว่างความถูกต้องจากการออกจากที่หนึ่งกับตัวชี้วัดจาก 10 เท่าคืออะไร ข้อมูลเชิงลึกใด ๆ จะได้รับการชื่นชมอย่างมาก แก้ไข: นี่เป็นการแนะนำที่ดีมากสำหรับการตรวจสอบความถูกต้องข้าม มันยังอ้างถึงงานวิจัยอื่น ๆ

7
ใน Naive Bayes ทำไมต้องกังวลกับ Laplace ที่ราบเรียบเมื่อเรามีคำที่ไม่รู้จักในชุดทดสอบ
วันนี้ฉันอ่านหนังสือจำแนก Naive Bayes ฉันอ่านภายใต้หัวข้อการประมาณค่าพารามิเตอร์ด้วยการเพิ่ม 1 การปรับให้เรียบ : ให้cccอ้างถึงคลาส (เช่นค่าบวกหรือค่าลบ) และให้wwwหมายถึงโทเค็นหรือคำ ตัวประมาณความน่าจะเป็นสูงสุดสำหรับP(w|c)P(w|c)P(w|c)คือcount(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. การประมาณค่าP(w|c)P(w|c)P(w|c)อาจเป็นปัญหาได้เนื่องจากมันจะทำให้เรามีความน่าจะเป็น000สำหรับเอกสารที่มีคำที่ไม่รู้จัก วิธีทั่วไปในการแก้ปัญหานี้คือการใช้ Laplace smoothing ให้ V เป็นชุดของคำในชุดฝึกอบรมเพิ่มองค์ประกอบใหม่UNKUNKUNK (ไม่ทราบ) ลงในชุดคำ กำหนดP(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=\frac{\text{count}(w,c) …

3
รูปแบบหัวข้อและวิธีการเกิดร่วมคำ
โมเดลหัวข้อยอดนิยมเช่น LDA มักจัดกลุ่มคำที่มีแนวโน้มที่จะเกิดร่วมกันในหัวข้อเดียวกัน (คลัสเตอร์) อะไรคือความแตกต่างหลักระหว่างโมเดลหัวข้อดังกล่าวและวิธีการจัดกลุ่มแบบง่าย ๆ ที่เกิดขึ้นร่วมกันเช่น PMI (PMI ย่อมาจาก Pointwise Information Mutual และใช้เพื่อระบุคำที่เกิดขึ้นร่วมกับคำที่กำหนด)

2
Bag-of-Words สำหรับการจำแนกข้อความ: ทำไมไม่เพียงแค่ใช้ความถี่ของคำแทน TFIDF
วิธีการทั่วไปในการจัดประเภทข้อความคือการฝึกอบรมลักษณนามจาก 'คำพูด' ผู้ใช้ใช้ข้อความที่จะจัดประเภทและนับความถี่ของคำในแต่ละวัตถุตามด้วยการเรียงลำดับของการตัดแต่งบางอย่างเพื่อให้เมทริกซ์ที่เกิดจากขนาดที่จัดการได้ บ่อยครั้งที่ฉันเห็นผู้ใช้สร้างเวกเตอร์คุณลักษณะของพวกเขาโดยใช้ TFIDF กล่าวอีกนัยหนึ่งความถี่ของข้อความที่ระบุไว้ข้างต้นนั้นมีน้ำหนักลดลงตามความถี่ของคำในคลังข้อมูล ฉันเห็นว่าทำไม TFIDF ถึงมีประโยชน์ในการเลือกคำที่ 'โดดเด่นที่สุด' ของเอกสารที่กำหนดให้พูดแสดงกับนักวิเคราะห์ของมนุษย์ แต่ในกรณีของการจัดหมวดหมู่ข้อความโดยใช้เทคนิค ML แบบมาตรฐานภายใต้การดูแลทำไมต้องลดน้ำหนักลงด้วยความถี่ของเอกสารในคลังข้อมูล ผู้เรียนจะไม่ตัดสินใจตัดสินความสำคัญของแต่ละคำ / การรวมกันของคำศัพท์หรือไม่? ฉันขอขอบคุณสำหรับความคิดของคุณเกี่ยวกับคุณค่าที่ IDF เพิ่มถ้ามี

1
รายงานประสิทธิภาพการทำงานที่ทันสมัยของการใช้เวกเตอร์ย่อหน้าสำหรับการวิเคราะห์ความเชื่อมั่นได้รับการทำซ้ำหรือไม่?
ฉันประทับใจกับผลลัพธ์ใน ICML 2014 กระดาษ "การแจกจ่ายการเป็นตัวแทนของประโยคและเอกสาร " โดย Le และ Mikolov เทคนิคที่พวกเขาอธิบายเรียกว่า "พาหะของย่อหน้า" เรียนรู้การแสดงที่ไม่มีผู้ดูแลของย่อหน้า / เอกสารที่ไม่มีกฎเกณฑ์โดยมีพื้นฐานอยู่บนส่วนขยายของรุ่น word2vec บทความนี้รายงานถึงประสิทธิภาพการวิเคราะห์ความเชื่อมั่นโดยใช้เทคนิคนี้ ฉันหวังว่าจะประเมินเทคนิคนี้กับปัญหาการจำแนกข้อความอื่น ๆ ซึ่งเป็นทางเลือกแทนการแสดงคำแบบถุง อย่างไรก็ตามฉันวิ่งข้ามโพสต์โดยผู้เขียนที่สองในหัวข้อในกลุ่ม word2vec Google ที่ให้ฉันหยุดชั่วคราว: ฉันพยายามทำซ้ำผลลัพธ์ของ Quoc ในช่วงฤดูร้อน ฉันสามารถได้รับอัตราความผิดพลาดในชุดข้อมูล IMDB ประมาณ 9.4% - 10% (ขึ้นอยู่กับว่าการจัดรูปแบบข้อความปกติดีแค่ไหน) อย่างไรก็ตามฉันไม่สามารถเข้าใกล้ทุกสิ่งที่ Quoc รายงานไว้ในกระดาษ (ข้อผิดพลาด 7.4% นั่นเป็นความแตกต่างใหญ่หลวง) ... แน่นอนเรายังถาม Quoc เกี่ยวกับรหัสด้วย เขาสัญญาว่าจะเผยแพร่ แต่ก็ยังไม่มีอะไรเกิดขึ้น ... ฉันเริ่มคิดว่าผลลัพธ์ของ Quoc นั้นไม่สามารถทำซ้ำได้จริง …

3
การเรียนแบบกึ่งมีผู้เรียน, การเรียนแบบกระตือรือร้นและการเรียนรู้ลึกเพื่อการจำแนกประเภท
การแก้ไขครั้งสุดท้ายพร้อมการอัปเดตทรัพยากรทั้งหมด: สำหรับโครงการฉันกำลังใช้อัลกอริธึมการเรียนรู้ของเครื่องเพื่อจัดหมวดหมู่ ถาม:ข้อมูลที่มีป้ายกำกับค่อนข้าง จำกัด และข้อมูลที่ไม่มีป้ายกำกับอีกมากมาย เป้าหมาย: ใช้การจำแนกประเภทภายใต้การดูแล ใช้กระบวนการการติดฉลากแบบกึ่งกำกับอย่างใด (ที่รู้จักกันว่าการเรียนรู้ที่ใช้งานอยู่) ฉันได้พบข้อมูลจำนวนมากจากงานวิจัยเช่นการใช้ EM, Transductive SVM หรือ S3VM (Semi Supervised SVM) หรือใช้ LDA อย่างอื่นเป็นต้นแม้จะมีหนังสือไม่กี่เล่มในหัวข้อนี้ คำถาม: การใช้งานและแหล่งข้อมูลที่เป็นประโยชน์อยู่ที่ไหน? อัปเดตครั้งสุดท้าย (ขึ้นอยู่กับความช่วยเหลือที่จัดทำโดย mpiktas, bayer และ Dikran Marsupial) การเรียนรู้แบบกึ่งภายใต้การดูแล: TSVM: ในSVMligthและSVMlin EM Naive Bayes ใน Python EM ในโครงการ LinePipe การเรียนรู้ที่ใช้งานอยู่: Dualist : การใช้งานการเรียนรู้อย่างคล่องแคล่วด้วยซอร์สโค้ดในการจำแนกข้อความ หน้าเว็บนี้ให้ภาพรวมที่ยอดเยี่ยมของการเรียนรู้ที่กระตือรือร้น การประชุมเชิงปฏิบัติการการออกแบบการทดลอง: ที่นี่ การเรียนรู้ลึก: วิดีโอแนะนำที่นี่ …

2
ทำไมการประมวลผลภาษาธรรมชาติไม่อยู่ในโดเมนการเรียนรู้ของเครื่อง? [ปิด]
ตามที่เป็นอยู่ในปัจจุบันคำถามนี้ไม่เหมาะสำหรับรูปแบบคำถาม & คำตอบของเรา เราคาดหวังคำตอบที่จะได้รับการสนับสนุนจากข้อเท็จจริงการอ้างอิงหรือความเชี่ยวชาญ แต่คำถามนี้อาจเรียกร้องให้มีการถกเถียงอภิปรายโต้แย้งหรือการอภิปรายเพิ่มเติม หากคุณรู้สึกว่าคำถามนี้สามารถปรับปรุงและเปิดใหม่ได้โปรดไปที่ศูนย์ช่วยเหลือเพื่อขอคำแนะนำ ปิดให้บริการใน7 ปีที่ผ่านมา ฉันพบมันในหนังสือหลายเล่มรวมทั้งเว็บ การประมวลผลภาษาธรรมชาติและการเรียนรู้ของเครื่องนั้นถูกกล่าวกันว่าเป็นส่วนย่อยที่แตกต่างกันของปัญญาประดิษฐ์ ทำไมล่ะ เราสามารถบรรลุผลลัพธ์ของการประมวลผลภาษาธรรมชาติด้วยการป้อนรูปแบบเสียงให้กับอัลกอริทึมการเรียนรู้ของเครื่อง แล้วความแตกต่างคืออะไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.