คำถามติดแท็ก laplace-smoothing

7
ใน Naive Bayes ทำไมต้องกังวลกับ Laplace ที่ราบเรียบเมื่อเรามีคำที่ไม่รู้จักในชุดทดสอบ
วันนี้ฉันอ่านหนังสือจำแนก Naive Bayes ฉันอ่านภายใต้หัวข้อการประมาณค่าพารามิเตอร์ด้วยการเพิ่ม 1 การปรับให้เรียบ : ให้cccอ้างถึงคลาส (เช่นค่าบวกหรือค่าลบ) และให้wwwหมายถึงโทเค็นหรือคำ ตัวประมาณความน่าจะเป็นสูงสุดสำหรับP(w|c)P(w|c)P(w|c)คือcount(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. การประมาณค่าP(w|c)P(w|c)P(w|c)อาจเป็นปัญหาได้เนื่องจากมันจะทำให้เรามีความน่าจะเป็น000สำหรับเอกสารที่มีคำที่ไม่รู้จัก วิธีทั่วไปในการแก้ปัญหานี้คือการใช้ Laplace smoothing ให้ V เป็นชุดของคำในชุดฝึกอบรมเพิ่มองค์ประกอบใหม่UNKUNKUNK (ไม่ทราบ) ลงในชุดคำ กำหนดP(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=\frac{\text{count}(w,c) …

3
คำศัพท์สำหรับ Bayesian posterior ค่าเฉลี่ยความน่าจะเป็นที่มีค่ามาก่อน
ถ้า Uniformและบินแล้วค่าเฉลี่ยหลังของจะได้รับจาก2}p∼p∼p \sim(0,1)(0,1)(0,1)X∼X∼X \sim(n,p)(n,p)(n, p)pppX+1n+2X+1n+2\frac{X+1}{n+2} มีชื่อสามัญสำหรับตัวประมาณค่านี้หรือไม่? ฉันพบว่ามันแก้ปัญหาของคนจำนวนมากและฉันต้องการที่จะชี้ให้ผู้คนอ้างอิง แต่ไม่สามารถหาชื่อที่ถูกต้องได้ ฉันจำได้ว่าสิ่งนี้เรียกว่า "+ 1 / + 2 ตัวประมาณ" อย่างคลุมเครือในสถิติ 101 หนังสือ แต่นั่นไม่ใช่คำที่ค้นหาได้มาก

2
Laplace smoothing และ Dirichlet มาก่อน
ในบทความวิกิพีเดียเรื่อง Laplace smoothing (หรือการปรับให้เรียบขึ้น) กล่าวกันว่าจากมุมมองแบบเบย์ สิ่งนี้สอดคล้องกับค่าคาดหวังของการแจกแจงหลังโดยใช้การแจกแจง Dirichlet แบบสมมาตรพร้อมพารามิเตอร์เหมือนก่อนαα\alpha ฉันสับสนเกี่ยวกับความจริงที่ว่า ใครช่วยให้ฉันเข้าใจว่าทั้งสองสิ่งนั้นเท่ากัน? ขอบคุณ!

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.