คำถามติดแท็ก natural-language

การประมวลผลภาษาธรรมชาติเป็นชุดของเทคนิคจากภาษาศาสตร์ปัญญาประดิษฐ์การเรียนรู้ของเครื่องจักรและสถิติที่มุ่งเน้นที่การประมวลผลและการทำความเข้าใจภาษามนุษย์

2
ความงุนงงและความเอนโทรปีของแบบจำลอง n-gram
พยายามเข้าใจความสัมพันธ์ระหว่างการเอนโทรปีและความงุนงง โดยทั่วไปสำหรับรูปแบบM , ฉงนสนเท่ห์ (M) = 2 ^ เอนโทรปี (M) ความสัมพันธ์นี้มีไว้สำหรับ n-grams ที่แตกต่างกันทั้งหมดเช่น unigram, bigram ฯลฯ หรือไม่

1
การตีความของ sparsity นี้ถูกต้องหรือไม่?
ตามเอกสารของremoveSparseTermsฟังก์ชั่นจากtmแพคเกจนี่คือสิ่งที่ sparsity นำมาซึ่ง: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less than sparse. ดังนั้นการตีความที่ถูกต้องของสิ่งนี้คือการพูดว่าถ้าsparseเท่ากับ 0.99 เราจะลบคำที่ปรากฏในที่สุด 1% …

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
เพิ่มหนึ่งในความถี่เอกสารผกผันทำไม?
ตำราเรียนของฉันแสดงรายการ idf เป็นโดยที่l o g( 1 +ยังไม่มีข้อความnเสื้อ)ล.โอก.(1+ยังไม่มีข้อความnเสื้อ)log(1+\frac{N}{n_t}) ยังไม่มีข้อความยังไม่มีข้อความN : จำนวนเอกสาร nเสื้อnเสื้อn_t : จำนวนเอกสารที่มีคำศัพท์เสื้อเสื้อt รายการวิกิพีเดียสูตรนี้เป็นรุ่นที่เรียบของจริง{n_t}) สิ่งหนึ่งที่ฉันเข้าใจ: มันมีตั้งแต่ถึงซึ่งดูเหมือนจะเข้าใจง่าย แต่จากเป็นซึ่งดูแปลกมาก ... ฉันรู้เรื่องการปรับให้เรียบจากการสร้างแบบจำลองภาษาเล็กน้อย แต่คุณจะเพิ่มบางอย่างในตัวเศษ เช่นเดียวกับในตัวหารเพราะคุณเป็นห่วงเกี่ยวกับมวลความน่าจะเป็น แต่การเพิ่มไม่สมเหตุสมผลสำหรับฉัน เราพยายามทำอะไรให้สำเร็จที่นี่?l o g(ยังไม่มีข้อความnเสื้อ)ล.โอก.(ยังไม่มีข้อความnเสื้อ)log(\frac{N}{n_t})l o g(ยังไม่มีข้อความยังไม่มีข้อความ) = 0ล.โอก.(ยังไม่มีข้อความยังไม่มีข้อความ)=0log(\frac{N}{N})=0∞∞\inftyl o g( 1 +ยังไม่มีข้อความnเสื้อ)ล.โอก.(1+ยังไม่มีข้อความnเสื้อ)log(1+\frac{N}{n_t})l o g( 1 + 1 )ล.โอก.(1+1)log(1+1)∞∞\infty111

1
ทำความเข้าใจกับการสลายตัวของมูลค่าเอกพจน์ในบริบทของ LSI
คำถามของฉันโดยทั่วไปเกี่ยวกับการแยกแยะมูลค่าเอกเทศ (SVD) และโดยเฉพาะอย่างยิ่งในการทำดัชนีความหมายแฝง (LSI) บอกว่าฉันมีที่มีความถี่ 5 คำสำหรับเอกสาร 7 ฉบับAw o r d× do c u m e n tAword×document A_{word \times document} A = matrix(data=c(2,0,8,6,0,3,1, 1,6,0,1,7,0,1, 5,0,7,4,0,5,6, 7,0,8,5,0,8,5, 0,10,0,0,7,0,0), ncol=7, byrow=TRUE) rownames(A) <- c('doctor','car','nurse','hospital','wheel') ฉันได้รับตีนเป็ดเมทริกซ์สำหรับโดยใช้ SVD: TAAAA = U⋅ D ⋅VTA=U⋅D⋅VTA = U \cdot D \cdot V^T s = svd(A) …

1
การใช้เครื่องมือการประมวลผลข้อความ / ภาษาธรรมชาติสำหรับเศรษฐมิติ
ฉันไม่แน่ใจว่าคำถามนี้เหมาะสมอย่างยิ่งหรือไม่โปรดลบ ฉันเป็นนักเรียนที่จบการศึกษาด้านเศรษฐศาสตร์ สำหรับโครงการที่ตรวจสอบปัญหาในการประกันสังคมฉันสามารถเข้าถึงรายงานกรณีการบริหาร (> 200k) จำนวนมากซึ่งจัดการกับการประเมินสิทธิ์ รายงานเหล่านี้อาจเชื่อมโยงกับข้อมูลการดูแลส่วนบุคคล ฉันต้องการดึงข้อมูลจากรายงานเหล่านี้ที่สามารถนำมาใช้ในการวิเคราะห์เชิงปริมาณและการค้นหาคำหลัก / regex ง่าย ๆ โดยใช้grep/ awketc การประมวลผลภาษาธรรมชาติมีประโยชน์อย่างไรสำหรับสิ่งนี้ อะไรคือวิธีการขุดข้อความที่มีประโยชน์อื่น ๆ จากสิ่งที่ฉันเข้าใจว่านี่เป็นเขตข้อมูลขนาดใหญ่และส่วนใหญ่มีรายงานบางส่วนที่จะต้องถูกเปลี่ยนเป็นใช้เป็นคลังข้อมูล มันคุ้มค่าที่จะลงทุนสักระยะเพื่อทำความคุ้นเคยกับวรรณกรรมและวิธีการหรือไม่? มันจะมีประโยชน์และมีสิ่งที่คล้ายกันเคยทำมาก่อนหรือไม่ มันคุ้มค่าหรือไม่ในแง่ของรางวัลเช่นฉันสามารถดึงข้อมูลที่เป็นประโยชน์โดยใช้ NLP สำหรับการศึกษาเชิงประจักษ์ทางเศรษฐศาสตร์ได้หรือไม่? อาจมีการระดมทุนเพื่อจ้างคนอ่านและเตรียมรายงานบางส่วน นี่เป็นโครงการขนาดใหญ่และมีความเป็นไปได้ที่จะใช้เงินทุนเพิ่มเติม ฉันสามารถให้รายละเอียดเพิ่มเติมเกี่ยวกับหัวข้อหากจำเป็นอย่างเคร่งครัด ความซับซ้อนที่อาจเกิดขึ้นคือภาษาเยอรมันไม่ใช่ภาษาอังกฤษ เกี่ยวกับคุณวุฒิส่วนใหญ่ฉันได้รับการฝึกฝนด้านเศรษฐมิติและมีความรู้เกี่ยวกับสถิติการคำนวณในระดับHastie et al หนังสือ ฉันรู้จัก Python, R, Stata และอาจคุ้นเคยกับ Matlab อย่างรวดเร็ว ให้ห้องสมุดฉันคิดว่าหลามเป็นเครื่องมือของการเลือกนี้ ไม่มีการฝึกอบรมในวิธีการเชิงคุณภาพถ้ามันเกี่ยวข้อง แต่ฉันรู้ว่ามีบางคนที่ฉันสามารถติดต่อได้ ฉันดีใจที่ได้รับข้อมูลใด ๆ เกี่ยวกับเรื่องนี้เช่นถ้านี่อาจเป็นประโยชน์ถ้าเป็นเช่นนั้นสถานที่ที่จะเริ่มอ่านและเครื่องมือใดที่ควรให้ความสำคัญเป็นพิเศษ

1
อัตราส่วน Log-likelihood ในการสรุปเอกสาร
ตอนแรกฉันถามสิ่งนี้เกี่ยวกับการล้นสแต็กและถูกส่งต่อไปยังไซต์นี้ดังนั้นต่อไปนี้: ฉันกำลังใช้วิธีการสรุปเอกสารตามเนื้อหาที่เลือกไม่ได้รับอนุญาตและคลายบีบอัดและฉันสับสนเกี่ยวกับสิ่งที่ตำราเรียนของฉันเรียกว่า หนังสือการพูดและการประมวลผลภาษาโดย Jurafsky & Martin อธิบายสั้น ๆ ดังนี้: LLR สำหรับคำหนึ่งเรียกว่าแลมบ์ดา (w) เป็นอัตราส่วนระหว่างความน่าจะเป็นในการสังเกต w ทั้งอินพุตและพื้นหลังคลังข้อมูลสมมติว่ามีความน่าจะเป็นเท่ากันทั้งใน corpora และความน่าจะเป็นในการสังเกต w ในทั้งสอง w ในอินพุตและคลังข้อมูลพื้นหลัง เมื่อสรุปลงมาแล้วเรามีตัวเศษ: "ความน่าจะเป็นในการสังเกต w ทั้งในอินพุทและในคอร์ปัสเบื้องหลังสมมติว่ามีความน่าจะเป็นเท่ากันทั้งใน corpora" - ฉันจะคำนวณความน่าจะเป็นที่จะใช้ที่นี่ได้อย่างไร และตัวส่วน: "ความน่าจะเป็นของการสังเกต w ในทั้งคู่โดยสมมติความน่าจะเป็นที่แตกต่างกันสำหรับ w ในอินพุตและคลังข้อมูลพื้นหลัง" - นี่ง่ายเหมือนความน่าจะเป็นของคำที่เกิดขึ้นในอินพุทคูณกับความน่าจะเป็นของคำที่เกิดขึ้นในคลังข้อมูลหรือไม่? อดีต: (นับ (คำ, อินพุต) / คำทั้งหมดในอินพุต) * (นับ (คำ, คลังข้อมูล) / คำทั้งหมดในคลัง) ฉันได้ดูกระดาษเอกสารอ้างอิงของฉันวิธีการที่ถูกต้องสำหรับสถิติของความประหลาดใจและความบังเอิญ (Dunning …

1
ความแตกต่างระหว่าง Naive Bayes กับ Recurrent Neural Network (LSTM)
ฉันต้องการที่จะทำการวิเคราะห์ความเชื่อมั่นในข้อความได้ผ่านหลายบทความบางคนกำลังใช้"Naive Bayes"และอื่น ๆ คือ"Recurrent Neural Network (LSTM)"ในทางกลับกันฉันได้เห็นห้องสมุดหลามสำหรับการวิเคราะห์ความเชื่อมั่นว่า คือ nltk มันใช้"Naive Bayes"ทุกคนสามารถอธิบายความแตกต่างระหว่างการใช้สองคนนี้ได้อย่างไร ฉันได้ผ่านโพสต์นี้ไปแล้ว แต่ไม่ชัดเจนเกี่ยวกับพวกเขาทั้งคู่ .. ความแตกต่างระหว่างเครือข่าย Bayes, โครงข่ายประสาทเทียม, ต้นไม้ตัดสินใจและมุ้ง Petri
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.