คำถามติดแท็ก information-retrieval

6
การจำแนกทางสถิติของข้อความ
ฉันเป็นโปรแกรมเมอร์ที่ไม่มีพื้นฐานด้านสถิติและตอนนี้ฉันกำลังมองหาวิธีการจำแนกประเภทที่แตกต่างกันสำหรับเอกสารจำนวนมากที่ฉันต้องการจัดหมวดหมู่เป็นหมวดหมู่ที่กำหนดไว้ล่วงหน้า ฉันได้อ่านเกี่ยวกับ kNN, SVM และ NN อย่างไรก็ตามฉันมีปัญหาในการเริ่มต้น คุณแนะนำแหล่งข้อมูลใด ฉันรู้ว่าแคลคูลัสตัวแปรเดียวและตัวแปรหลายตัวค่อนข้างดีดังนั้นคณิตศาสตร์ของฉันควรแข็งแรงพอ ฉันเองเป็นเจ้าของหนังสือของ Bishop ใน Neural Networks แต่มันก็พิสูจน์แล้วว่ามีความหนาแน่นเล็กน้อยในการแนะนำ

2
การวัดความคล้ายคลึงกันของเอกสาร
ในการจัดกลุ่มเอกสาร (ข้อความ) คุณต้องมีวิธีการวัดความคล้ายคลึงกันระหว่างคู่ของเอกสาร สองทางเลือกคือ: เปรียบเทียบเอกสารเป็นคำเวกเตอร์โดยใช้Cosine Similarity - และ TF / IDF เป็นน้ำหนักสำหรับคำศัพท์ เปรียบเทียบการแจกแจงความน่าจะเป็นของเอกสารแต่ละฉบับโดยใช้ f-divergence เช่นKullback-Leibler divergence มีเหตุผลที่เข้าใจง่ายหรือไม่ที่จะต้องการวิธีหนึ่งกับอีกวิธีหนึ่ง (สมมติว่าขนาดเอกสารเฉลี่ย 100 คำ)?

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
ค่าเฉลี่ยความแม่นยำเฉลี่ยเทียบกับค่าเฉลี่ยซึ่งกันและกันอันดับ
ฉันพยายามที่จะเข้าใจเมื่อมันเหมาะสมที่จะใช้แผนที่และควรใช้ MRR เมื่อใด ฉันพบงานนำเสนอนี้ที่ระบุว่า MRR จะใช้ประโยชน์ได้ดีที่สุดเมื่อจำนวนผลลัพธ์ที่เกี่ยวข้องน้อยกว่า 5 และดีที่สุดเมื่อเป็น 1 ในกรณีอื่น ๆ MAP เหมาะสม ฉันมีสองคำถาม: ฉันไม่เข้าใจจริงๆว่าทำไมถึงเป็นเช่นนั้น ฉันไม่พบการอ้างอิงที่อ้างอิงได้สำหรับการอ้างสิทธิ์นี้ โปรดทราบว่าฉันไม่มีภูมิหลังทางสถิติที่แข็งแกร่งมากดังนั้นคำอธิบายของคนธรรมดาจะช่วยได้มาก ขอบคุณ.

1
parellel ระหว่าง LSA และ pLSA
ในเอกสารต้นฉบับของpLSAผู้เขียนโทมัสฮอฟแมนวาดเส้นขนานระหว่าง pLSA และ LSA โครงสร้างข้อมูลที่ฉันต้องการจะพูดคุยกับคุณ พื้นหลัง: การได้รับแรงบันดาลใจจากการค้นคืนสารสนเทศคาดว่าเรามีการรวบรวม NNN เอกสาร D={d1,d2,....,dN}D={d1,d2,....,dN}D = \lbrace d_1, d_2, ...., d_N \rbrace และคำศัพท์ของ MMM เงื่อนไข Ω={ω1,ω2,...,ωM}Ω={ω1,ω2,...,ωM}\Omega = \lbrace \omega_1, \omega_2, ..., \omega_M \rbrace คลัง XXX สามารถแสดงโดย N×MN×MN \times M เมทริกซ์ของการอยู่ร่วมกัน ในการวิเคราะห์ความหมายแฝงโดยSVDเมทริกซ์XXX เป็นตัวประกอบในสามเมทริกซ์: X=UΣVTX=UΣVTX = U \Sigma V^T ที่ไหน Σ=diag{σ1,...,σs}Σ=diag{σ1,...,σs}\Sigma = diag \lbrace \sigma_1, ..., \sigma_s …

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
ทำความเข้าใจและใช้การวิเคราะห์ความเชื่อมั่น
ฉันเพิ่งได้รับมอบหมายให้ทำโครงการวิเคราะห์ความเชื่อมั่นสำหรับการรวบรวมเอกสารบางอย่าง โดย Googling การวิจัยเกี่ยวกับความเชื่อมั่นจำนวนมากได้ผุดขึ้นมา คำถามของฉันคือ: อะไรคือวิธีการที่สำคัญ / อัลกอริทึมสำหรับการวิเคราะห์ความเชื่อมั่นในด้านการเรียนรู้ของเครื่องและการวิเคราะห์ทางสถิติ? มีผลลัพธ์ที่เป็นที่ยอมรับหรือไม่ มีซอฟต์แวร์โอเพ่นซอร์สที่มีอยู่ที่สามารถทำการวิเคราะห์ความเชื่อมั่นได้หรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.