คำถามติดแท็ก metric

เมตริกคือฟังก์ชันที่แสดงระยะห่างระหว่าง 2 องค์ประกอบของชุดและตรงตามเกณฑ์ที่เข้มงวดบางอย่าง (ฟังก์ชัน 'ระยะทาง' บางอย่างไม่ใช่เมตริก)

8
ทำไมระยะทางแบบยุคลิดไม่เป็นตัวชี้วัดที่ดีในมิติที่สูง?
ฉันอ่านว่า 'ระยะทางแบบยุคลิดไม่ใช่ระยะทางที่ดีในมิติที่สูง' ฉันเดาว่าข้อความนี้มีส่วนเกี่ยวข้องกับคำสาปของความเป็นมิติ แต่อะไรกันแน่ นอกจากนี้ 'มิติสูง' คืออะไร? ฉันใช้การจัดกลุ่มแบบลำดับชั้นโดยใช้ระยะทางแบบยุคลิดกับ 100 ฟีเจอร์ คุณลักษณะนี้มีความปลอดภัยเพียงใดในการใช้การวัดนี้

6
เปอร์เซ็นต์ของส่วนที่ทับซ้อนกันของการแจกแจงปกติสองค่า
ฉันสงสัยว่าได้รับการแจกแจงปกติสองค่าด้วยและσ1, μ1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 ฉันจะคำนวณเปอร์เซ็นต์ของพื้นที่ที่ทับซ้อนกันของการแจกแจงสองแบบได้อย่างไร ฉันคิดว่าปัญหานี้มีชื่อเฉพาะคุณทราบชื่อเฉพาะที่อธิบายถึงปัญหานี้หรือไม่? คุณทราบหรือไม่ว่ามีการใช้งานสิ่งนี้ (เช่นรหัส Java)?

4
การเรียกคืนและความแม่นยำในการจำแนก
ฉันอ่านคำจำกัดความของการเรียกคืนและความแม่นยำแม้ว่าจะเป็นทุกครั้งในบริบทของการดึงข้อมูล ฉันสงสัยว่าบางคนสามารถอธิบายเรื่องนี้ได้มากกว่านี้ในบริบทการจำแนกประเภทและอาจแสดงตัวอย่างบางอย่าง พูดเช่นฉันมีตัวจําแนกไบนารี่ซึ่งให้ความแม่นยำ 60% และการเรียกคืน 95% นี่คือตัวจําแนกที่ดีหรือไม่ อาจช่วยให้เป้าหมายของฉันเพิ่มมากขึ้นตัวแยกประเภทที่ดีที่สุดตามตัวคุณคืออะไร? (ชุดข้อมูลนั้นไม่สมดุลคลาสส่วนใหญ่มีสองเท่าของตัวอย่างของชนกลุ่มน้อยคลาส) โดยส่วนตัวฉันจะบอกว่า5เพราะพื้นที่ใต้เส้นโค้งตัวรับสัญญาณ (อย่างที่คุณเห็นในที่นี้รุ่น 8 มีความแม่นยำต่ำเรียกคืนได้สูงมาก แต่หนึ่งใน AUC_ROC ที่ต่ำที่สุดนั่นทำให้มันเป็นแบบอย่างที่ดีหรือไม่? แก้ไข: ฉันมีไฟล์ excel พร้อมข้อมูลเพิ่มเติม: https://www.dropbox.com/s/6hq7ew5qpztwbo8/comparissoninbalance.xlsx ในเอกสารนี้สามารถหาบริเวณใต้เส้นโค้งตัวดำเนินการของตัวรับสัญญาณและพื้นที่ใต้เส้นโค้งเรียกคืนความแม่นยำ ร่วมกันกับแปลง

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
อะไรคือข้อดีของการวัด Wasserstein เมื่อเทียบกับ Kullback-Leibler divergence?
อะไรคือความแตกต่างระหว่างWasserstein metricและKullback-Leibler divergence ? Wasserstein metric เรียกอีกอย่างหนึ่งว่าระยะทางของผู้มีอิทธิพลของโลก จากวิกิพีเดีย: Wasserstein (หรือ Vaserstein) เมตริกเป็นฟังก์ชันระยะทางที่กำหนดระหว่างการแจกแจงความน่าจะเป็นในพื้นที่เมตริกที่กำหนด M และ Kullback – Leibler divergence เป็นการวัดว่าการแจกแจงความน่าจะเป็นหนึ่งแยกจากการแจกแจงความน่าจะเป็นที่สองอย่างไร ฉันเคยเห็น KL ถูกใช้ในการเรียนรู้การใช้งานเครื่อง แต่เมื่อเร็ว ๆ นี้ฉันได้พบกับตัวชี้วัดของ Wasserstein มีแนวทางที่ดีเมื่อใช้อย่างใดอย่างหนึ่งหรือไม่? (ฉันมีชื่อเสียงไม่เพียงพอที่จะสร้างแท็กใหม่ด้วยWassersteinหรือEarth mover's distance.)

5
วิธีการควบคุมค่าใช้จ่ายของการจำแนกประเภทในป่าสุ่ม?
เป็นไปได้หรือไม่ที่จะควบคุมค่าใช้จ่ายในการจำแนกประเภทใน R แพ็คเกจแบบสุ่มป่าไม้ ? ในงานของฉันเองเชิงลบเท็จ (เช่นหายไปในข้อผิดพลาดที่บุคคลอาจมีโรค) มีราคาแพงกว่าบวกเท็จ แพ็คเกจrpartช่วยให้ผู้ใช้สามารถควบคุมค่าใช้จ่ายในการจำแนกประเภทได้โดยการระบุเมทริกซ์การสูญเสียไปยังการจัดประเภทน้ำหนักที่แตกต่างกัน มีอะไรที่คล้ายกันเกิดขึ้นเพื่อrandomForestอะไร? ตัวอย่างเช่นฉันควรใช้classwtตัวเลือกในการควบคุมเกณฑ์ของ Gini หรือไม่

2
การเปรียบเทียบการจัดกลุ่ม: ดัชนีแรนด์เทียบกับการเปลี่ยนแปลงของข้อมูล
ฉันสงสัยว่าถ้าใครมีความเข้าใจหรือสัญชาตญาณหลังความแตกต่างระหว่างการเปลี่ยนแปลงของข้อมูลและดัชนีแรนด์สำหรับการเปรียบเทียบการจัดกลุ่ม ฉันได้อ่านบทความ "การเปรียบเทียบคลัสเตอร์ - ระยะทางจากข้อมูล " โดย Marina Melia (วารสารการวิเคราะห์หลายตัวแปร 2007) แต่นอกเหนือจากการสังเกตความแตกต่างในคำจำกัดความฉันไม่เข้าใจว่าการเปลี่ยนแปลงของข้อมูลคืออะไร จับภาพที่ดัชนีแรนด์ไม่ได้จับ

2
คุณเปรียบเทียบกระบวนการแบบเกาส์สองกระบวนการได้อย่างไร
Kullback-Leibler แตกต่างเป็นตัวชี้วัดเพื่อเปรียบเทียบฟังก์ชั่นความหนาแน่นสองน่าจะเป็น แต่สิ่งที่ตัวชี้วัดที่ใช้ในการเปรียบเทียบสองของ GP XXXและ ?YYY

2
เซ่นแชนนอน Divergence vs Kullback-Leibler Divergence?
ฉันรู้ว่า KL Divergence นั้นไม่สมมาตรและไม่สามารถถือได้ว่าเป็นเมตริกอย่างเคร่งครัด ถ้าเป็นเช่นนั้นเหตุใดจึงใช้เมื่อ JS Divergence เป็นไปตามคุณสมบัติที่จำเป็นสำหรับการวัด มีสถานการณ์ที่ KL divergence สามารถใช้ แต่ไม่ใช่ JS Divergence หรือในทางกลับกัน?

4
มีระยะทางน่าจะเป็นที่รักษาคุณสมบัติทั้งหมดของตัวชี้วัดหรือไม่?
ในการศึกษาระยะทาง Kullback – Leibler มีสองสิ่งที่เราเรียนรู้อย่างรวดเร็วคือมันไม่เคารพทั้งความไม่เท่าเทียมกันของสามเหลี่ยมและสมมาตรซึ่งเป็นคุณสมบัติที่จำเป็นของเมตริก คำถามของฉันคือว่ามีฟังก์ชั่นการวัดความหนาแน่นของความน่าจะเป็นที่ตอบสนองข้อ จำกัด ทั้งหมดของการวัดหรือไม่

4
ความไม่เท่าเทียมกันของสามเหลี่ยมเป็นจริงสำหรับระยะทางตามความสัมพันธ์เหล่านี้หรือไม่?
สำหรับการจัดกลุ่มแบบลำดับชั้นฉันมักจะเห็น "ตัวชี้วัด" สองตัวต่อไปนี้ (พวกเขาพูดไม่ตรงกัน) สำหรับการวัดระยะห่างระหว่างตัวแปรสุ่มสองตัวและ : \ newcommand {\ Cor} {\ mathrm {Cor}} \ start {align} d_1 (X, Y) และ = 1- | \ คอร์ (X, Y) | \\ d_2 (X, Y) และ = 1 - (\ คอร์ (X, Y)) ^ 2 \ end {} จัด ทำอย่างใดอย่างหนึ่ง ตอบสนองความไม่เท่าเทียมกันของสามเหลี่ยมหรือไม่? ถ้าเป็นเช่นนั้นฉันควรจะพิสูจน์ได้อย่างไรนอกจากการคำนวณแบบ bruteforce? …

2
ตัวชี้วัดสำหรับเมทริกซ์ความแปรปรวนร่วม: ข้อเสียและจุดแข็ง
ตัวชี้วัด "ที่ดีที่สุด" สำหรับเมทริกซ์ความแปรปรวนร่วมคืออะไรและเพราะเหตุใด เป็นที่ชัดเจนสำหรับฉันว่า Frobenius & c ไม่เหมาะสมและการกำหนดมุมมีปัญหาเช่นกัน อย่างสังหรณ์ใจอาจต้องการประนีประนอมระหว่างสองคนนี้ แต่ฉันอยากจะรู้ว่ามีแง่มุมอื่น ๆ ที่ต้องจำไว้และอาจเป็นมาตรฐานที่ดี ตัวชี้วัดทั่วไปมีข้อบกพร่องต่าง ๆ เนื่องจากมันไม่เป็นธรรมชาติสำหรับเมทริกซ์ความแปรปรวนร่วมเช่นพวกเขามักจะไม่ลงโทษเมทริกซ์ PSD ที่ไม่ใช่หรือไม่ได้ทำอันดับ wrt ที่ดี (ลองดูรูปไข่หมุนรอบสองระดับต่ำ - หมุนระดับกลางให้มีระยะทางที่ต่ำกว่าค่าเฉลี่ยตามองค์ประกอบซึ่งไม่ใช่กรณีที่มีและอาจเป็น Frobenius โปรดแก้ไขให้ฉันด้วยที่นี่) นอกจากนี้นูนไม่รับประกันเสมอ มันจะเป็นการดีหากได้เห็นสิ่งเหล่านี้และปัญหาอื่น ๆ ที่ได้รับการแก้ไขโดยการวัด "ดี"L1L1L_1 นี่คือการสนทนาที่ดีของบางประเด็นตัวอย่างหนึ่งจากการเพิ่มประสิทธิภาพเครือข่ายและจากวิสัยทัศน์คอมพิวเตอร์ และนี่คือคำถามที่คล้ายกันที่ได้รับการวัดอื่น ๆ แต่ไม่มีการอภิปราย

1
การจัดกลุ่มสูตรความเฉื่อยใน scikit เรียนรู้
ฉันต้องการรหัสการจัดกลุ่ม kmeans ใน python โดยใช้ pandas และ scikit เรียนรู้ ในการเลือก k ที่ดีฉันต้องการรหัสสถิติ Gap จาก Tibshirani และ al 2001 ( pdf ) ฉันต้องการทราบว่าฉันสามารถใช้ผลเฉื่อยจาก scikit และปรับสูตรสถิติช่องว่างโดยไม่ต้องคำนวณการคำนวณระยะทางทั้งหมดอีกครั้ง ไม่มีใครรู้สูตรความเฉื่อยที่ใช้ใน scikit / รู้วิธีที่ง่ายในการถอดรหัสสถิติช่องว่างโดยใช้ฟังก์ชั่นระยะทางระดับสูง?

2
ระยะทางจะต้องเป็น "ตัวชี้วัด" เพื่อให้การจัดกลุ่มแบบลำดับชั้นมีความถูกต้องหรือไม่
ให้เราบอกว่าเรากำหนดระยะทางซึ่งไม่ใช่ตัวชี้วัดระหว่างรายการ N ขึ้นอยู่กับระยะทางนี้เราก็ใช้การจัดกลุ่มตามลำดับชั้น Agglomerative เราสามารถใช้อัลกอริทึมที่รู้จักกัน (ลิงค์เดี่ยว / สูงสุด / avaerage ฯลฯ ) เพื่อให้ได้ผลลัพธ์ที่มีความหมายได้หรือไม่ หรือวางแตกต่างกันสิ่งที่เป็นปัญหากับการใช้พวกเขาหากระยะทางไม่ได้เป็นตัวชี้วัด?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.