คำถามติดแท็ก distance

การวัดระยะทางระหว่างการแจกแจงหรือตัวแปรเช่นระยะทางแบบยุคลิดระหว่างจุดในช่องว่าง

9
คำอธิบายจากระยะไกลถึงบนสุดของระยะทาง Mahalanobis คืออะไร?
ฉันเรียนรู้รูปแบบและสถิติและเกือบหนังสือฉันเปิดในเรื่องที่ทุกฉันชนแนวคิดของระยะทาง Mahalanobis หนังสือให้คำอธิบายที่เข้าใจง่าย แต่ก็ยังไม่ดีพอสำหรับฉันที่จะเข้าใจสิ่งที่เกิดขึ้นจริง ๆ ถ้ามีคนถามฉันว่า "มาฮาโลโนบิสระยะทางเท่าไหร่" ฉันทำได้แค่ตอบว่า: "มันเป็นสิ่งที่ดีมากซึ่งวัดระยะทางได้" :) คำจำกัดความมักจะมีค่าลักษณะเฉพาะและค่าลักษณะเฉพาะซึ่งฉันมีปัญหาเล็กน้อยในการเชื่อมต่อกับระยะทาง Mahalanobis ฉันเข้าใจความหมายของคำว่า eigenvector และค่าลักษณะเฉพาะ แต่พวกมันเกี่ยวข้องกับระยะทาง Mahalanobis อย่างไร มีอะไรเกี่ยวข้องกับการเปลี่ยนฐานใน Linear Algebra เป็นต้นหรือไม่? ฉันได้อ่านคำถามก่อนหน้านี้ในหัวข้อนี้ด้วย: ระยะ Mahalanobis คืออะไรและใช้ในการจดจำรูปแบบอย่างไร คำอธิบายที่ใช้งานง่ายสำหรับฟังก์ชั่นการแจกแจงแบบเกาส์และระยะทาง mahalanobis (Math.SE) ฉันได้อ่านคำอธิบายนี้ด้วย คำตอบที่ดีและภาพที่ดี แต่ยังคงฉันไม่ได้จริงๆได้รับมัน ... ฉันมีความคิด แต่ก็ยังคงอยู่ในความมืด ใครสามารถให้ "คุณจะอธิบายให้คุณยายของคุณ" ได้อย่างไร - อธิบายเพื่อที่ฉันจะได้สรุปในที่สุดและไม่เคยสงสัยอีกครั้งว่าห่าคือระยะทาง Mahalanobis? :) มันมาจากอะไรทำไม? UPDATE: นี่คือสิ่งที่ช่วยทำความเข้าใจสูตร Mahalanobis: https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-ellipsoid

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

5
สัญชาตญาณในความแตกต่าง Kullback-Leibler (KL)
ฉันได้เรียนรู้เกี่ยวกับสัญชาตญาณที่อยู่เบื้องหลัง KL Divergence ว่าฟังก์ชันการแจกแจงแบบจำลองแตกต่างจากการกระจายข้อมูลเชิงทฤษฎี / จริง แหล่งที่มาฉันอ่านก็จะบอกว่าเข้าใจง่ายของระยะห่างระหว่างทั้งสองกระจายเป็นประโยชน์ แต่ไม่ควรดำเนินการอย่างแท้จริงเพราะสองกระจายและที่ KL Divergence ไม่สมมาตรในและQPPPQQQPPPQQQ ฉันไม่แน่ใจว่าจะเข้าใจคำแถลงสุดท้ายได้อย่างไรหรือนี่คือสิ่งที่สัญชาตญาณของ 'ระยะทาง' แตกสลายหรือไม่ ฉันขอขอบคุณตัวอย่างที่เรียบง่าย แต่ลึกซึ้ง

2
การเลือกวิธีการเชื่อมโยงที่ถูกต้องสำหรับการทำคลัสเตอร์แบบลำดับชั้น
ฉันกำลังทำการจัดกลุ่มตามลำดับชั้นกับข้อมูลที่ฉันรวบรวมและประมวลผลจากการถ่ายโอนข้อมูล reddit ใน Google BigQuery กระบวนการของฉันมีดังต่อไปนี้: รับโพสต์ล่าสุด 1,000 รายการใน / r / การเมือง รวบรวมความคิดเห็นทั้งหมด ประมวลผลข้อมูลและคำนวณn x mเมทริกซ์ข้อมูล (n: ผู้ใช้ / ตัวอย่าง, m: โพสต์ / คุณสมบัติ) คำนวณเมทริกซ์ระยะทางสำหรับการจัดกลุ่มลำดับชั้น เลือกวิธีการลิงก์และดำเนินการจัดกลุ่มตามลำดับชั้น ลงจุดข้อมูลเป็น dendrogram คำถามของฉันคือฉันจะกำหนดวิธีการเชื่อมโยงที่ดีที่สุดได้อย่างไร ฉันกำลังใช้Wardแต่ฉันจะรู้ว่าฉันควรจะใช้single, complete, averageetc? ฉันยังใหม่กับสิ่งนี้ แต่ฉันไม่สามารถหาคำตอบที่ชัดเจนออนไลน์ได้เพราะฉันไม่แน่ใจว่ามี ดังนั้นอาจเป็นความคิดที่ดีสำหรับใบสมัครของฉัน? โปรดทราบว่าข้อมูลค่อนข้างเบาบางในแง่ที่ว่าn x mเมทริกซ์มีศูนย์เป็นจำนวนมาก (คนส่วนใหญ่ไม่แสดงความคิดเห็นในโพสต์มากกว่าสองสามโพสต์)

1
การแปลงเมทริกซ์ความคล้ายคลึงกันเป็นเมทริกซ์ระยะทาง (ยูคลิด)
ในอัลกอริธึม Random Forest, Breiman (ผู้เขียน) สร้างเมทริกซ์ความเหมือนกันดังนี้ ส่งตัวอย่างการเรียนรู้ทั้งหมดลงต้นไม้ในป่า ถ้าสองตัวอย่างลงดินในองค์ประกอบที่สอดคล้องกันของการเพิ่มขึ้นของใบไม้เดียวกันในเมทริกซ์ความเหมือนกันทีละ 1 ทำให้เมทริกซ์เป็นปกติด้วยจำนวนต้นไม้ เขาพูดว่า: ความผิดปกติระหว่างเคส n และ k ก่อให้เกิดเมทริกซ์ {prox (n, k)} จากคำจำกัดความมันง่ายที่จะแสดงว่าเมทริกซ์นี้เป็นสมมาตรบวกแน่นอนและล้อมรอบด้วย 1 โดยมีองค์ประกอบเส้นทแยงมุมเท่ากับ 1 มันตามมาว่าค่า 1-prox (n, k) เป็นระยะกำลังสองในยูคลิด พื้นที่ของมิติไม่เกินจำนวนกรณี แหล่ง ในการดำเนินการของเขาเขาใช้sqrt (1-prox)โดยที่proxเป็นเมทริกซ์ความคล้ายคลึงกันเพื่อแปลงเป็นเมทริกซ์ระยะทาง ฉันเดาว่ามันมีบางอย่างเกี่ยวกับ "ระยะทางตอร์เรสในอวกาศยูคลิด" - ยกมาจากข้างบน ใครบางคนสามารถส่องแสงเล็ก ๆ น้อย ๆ ว่าทำไมมันตามมาว่า 1-prox เป็นระยะทางกำลังสองในอวกาศยูคลิดและทำไมเขาใช้รากกำลังสองเพื่อรับเมทริกซ์ระยะทาง


1
สามารถขยายการทดสอบ Mantel เป็นเมทริกซ์แบบอสมมาตรได้หรือไม่?
การทดสอบหิ้งมักจะใช้กับเมทริกซ์ระยะทาง / ความแตกต่างสมมาตร เท่าที่ฉันเข้าใจสมมติฐานของการทดสอบก็คือการวัดที่ใช้ในการกำหนดความแตกต่างจะต้องเป็นอย่างน้อยกึ่ง - ตัวชี้วัด (ตรงตามข้อกำหนดมาตรฐานของตัวชี้วัด สมมติฐานของความสมมาตรสามารถผ่อนคลายได้หรือไม่ (ให้ pre-metric)? เป็นไปได้หรือไม่ที่จะใช้การทดสอบการเปลี่ยนแปลงในกรณีนี้โดยใช้เมทริกซ์แบบเต็ม?

1
ใช้ความสัมพันธ์เป็นตัวชี้วัดระยะทาง (สำหรับการจัดกลุ่มแบบลำดับชั้น)
ฉันต้องการจัดกลุ่มข้อมูลของฉันแบบลำดับชั้น แต่แทนที่จะใช้ระยะทางแบบยุคลิดฉันต้องการใช้ความสัมพันธ์ นอกจากนี้เนื่องจากค่าสัมประสิทธิ์สหสัมพันธ์มีค่าตั้งแต่ -1 ถึง 1 โดยที่ทั้ง -1 และ 1 แสดงถึง "การควบคุมร่วม" ในการศึกษาของฉันฉันจึงรักษาทั้ง -1 และ 1 เป็น d = 0 ดังนั้นการคำนวณของฉันคือ d= 1 - | r | d=1-|R|\ d = 1-|r| ผมอ่านในคำถามที่แยกต่างหาก (เกี่ยวกับ K-วิธีการจัดกลุ่ม) ที่คุณควรแปลงRเข้าจริง euclidean dใช้ทฤษฎีบทโคไซน์:d= 2 ( 1 - r )-------√d=2(1-R)d = \sqrt{2(1-r)} วิธีที่ถูกต้องที่สุดในการแปลงสหสัมพันธ์เป็นระยะทางสำหรับการจัดกลุ่มแบบลำดับชั้นคืออะไร

8
ดำเนินการจัดกลุ่ม K-Mean (หรือญาติสนิท) ด้วยเมทริกซ์ระยะทางไม่ใช่ข้อมูลแบบจุดต่อจุด
ฉันต้องการทำการจัดกลุ่ม K- หมายถึงการจัดกลุ่มบนวัตถุที่ฉันมี แต่วัตถุไม่ได้อธิบายว่าเป็นจุดในอวกาศเช่นobjects x featuresชุดข้อมูล อย่างไรก็ตามฉันสามารถคำนวณระยะห่างระหว่างวัตถุสองชนิดใดก็ได้ (มันขึ้นอยู่กับฟังก์ชันความคล้ายคลึงกัน) objects x objectsดังนั้นฉันจึงทิ้งของเมทริกซ์ระยะทาง ฉันเคยใช้ K-mean มาก่อน แต่นั่นก็มีจุดเข้าชุดข้อมูล; และด้วยการป้อนเมทริกซ์ระยะทางมันไม่ชัดเจนสำหรับฉันที่จะอัปเดตกลุ่มให้เป็น "ศูนย์" ของคลัสเตอร์โดยไม่ต้องใช้การแทนจุด ปกติจะทำเช่นนี้ได้อย่างไร? มีเวอร์ชั่นของ K-Mean หรือเมธอดอยู่ใกล้ไหม

3
การแจกแจงความแตกต่างระหว่างการแจกแจงสองแบบปกติ
ฉันมีฟังก์ชันความหนาแน่นของความน่าจะเป็นสองแบบของการแจกแจงแบบปกติ: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } และ f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } ฉันกำลังมองหาฟังก์ชั่นความหนาแน่นของความน่าจะเป็นของการแยกระหว่างx1x1x_1และx2x2x_2 2 ฉันคิดว่านั่นหมายถึงฉันกำลังมองหาฟังก์ชันความหนาแน่นของความน่าจะเป็นของ|x1−x2||x1−x2||x_1 - x_2|. ถูกต้องหรือไม่ ฉันจะหาสิ่งนั้นได้อย่างไร

4
เหตุใดข้อมูลที่หลากหลายจึงเป็นปัญหาสำหรับอัลกอริธึมการจัดกลุ่มแบบอิงยูคลิด
อัลกอริธึมการจัดกลุ่มและการลดขนาดแบบคลาสสิกส่วนใหญ่ (การจัดกลุ่มแบบลำดับชั้นการวิเคราะห์องค์ประกอบหลัก, k-mean, การจัดระเบียบแผนที่เอง ... ) ได้รับการออกแบบมาโดยเฉพาะสำหรับข้อมูลตัวเลขและข้อมูลอินพุตของพวกเขาถูกมองว่าเป็นจุด นี่เป็นปัญหาแน่นอนเนื่องจากคำถามในโลกแห่งความเป็นจริงนั้นเกี่ยวข้องกับข้อมูลที่หลากหลาย: ตัวอย่างเช่นหากเราศึกษารถเมล์ความสูงและความยาวและขนาดมอเตอร์จะเป็นตัวเลข แต่เราอาจสนใจสีด้วย (ตัวแปรเด็ดขาด: สีน้ำเงิน / แดง / เขียว ... ) และคลาสความจุ (ตัวแปรที่สั่ง: ความจุขนาดเล็ก / กลาง / ใหญ่) โดยเฉพาะเราอาจต้องการศึกษาตัวแปรประเภทต่าง ๆ เหล่านี้พร้อมกัน มีวิธีการหลายวิธีในการขยาย algos การจัดกลุ่มแบบคลาสสิกเป็นข้อมูลแบบผสมเช่นการใช้ Gower dissimilarity เพื่อเชื่อมต่อเข้ากับการจัดกลุ่มแบบลำดับชั้นหรือการปรับขนาดแบบหลายมิติหรือวิธีการอื่นที่ใช้เมทริกซ์ระยะทางเป็นอินพุต หรือเช่นวิธีการนี้เป็นส่วนเสริมของ SOM เพื่อผสมข้อมูล คำถามของฉันคือทำไมเราไม่สามารถใช้ระยะทางแบบยุคลิดในตัวแปรผสมได้ หรือเพราะเหตุใดจึงไม่ดีที่จะทำเช่นนั้น? ทำไมเราไม่จำลองหุ่นตัวแปรที่เป็นหมวดหมู่ทำให้ตัวแปรทั้งหมดเป็นปกติเพื่อให้พวกมันมีน้ำหนักใกล้เคียงกันระหว่างการสังเกตและเรียกใช้ algos ปกติบนเมทริกซ์เหล่านี้ มันง่ายมากและไม่เคยทำเลยดังนั้นฉันคิดว่ามันผิดมาก แต่ทุกคนสามารถบอกฉันได้ว่าทำไม และ / หรือให้ฉันอ้างอิงบางอย่าง? ขอบคุณ

1
เชื่อมโยงระหว่างความแปรปรวนและระยะทางคู่ภายในตัวแปร
โปรดพิสูจน์ว่าถ้าเรามีสองตัวแปร (ขนาดตัวอย่างเท่ากัน)และและความแปรปรวนในมากกว่าในแล้วผลรวมของความแตกต่างกำลังสอง (เช่นระยะห่างแบบยุคลิดกำลังสอง) ระหว่างจุดข้อมูลภายในนั้นมากกว่า ว่าภายในYYXXXYYYYXXXYYYYXXXYYY

9
ระยะทาง Mahalanobis Pairwise
ฉันจำเป็นต้องคำนวณตัวอย่างระยะทาง Mahalanobis ใน R ระหว่างการสังเกตทุกคู่ในเมทริกซ์n×pn×pn \times pของ covariates ฉันต้องการวิธีแก้ปัญหาที่มีประสิทธิภาพเช่นคำนวณระยะทางn(n−1)/2n(n−1)/2n(n-1)/2เท่านั้นและนำไปใช้ใน C / RCpp / Fortran เป็นต้นฉันคิดว่าเมทริกซ์ความแปรปรวนร่วมของประชากรไม่เป็นที่รู้จักและใช้ตัวอย่าง เมทริกซ์ความแปรปรวนร่วมในสถานที่ΣΣ\Sigma ฉันสนใจเป็นพิเศษในคำถามนี้เนื่องจากดูเหมือนจะไม่มีวิธี "ฉันทามติ" สำหรับการคำนวณระยะทาง Mahalanobis ในระดับ R แบบ pairwiseนั่นคือมันไม่ได้ใช้งานในdistฟังก์ชั่นหรือในcluster::daisyฟังก์ชั่น mahalanobisฟังก์ชั่นไม่ได้คำนวณระยะทางจากจำนวนโดยไม่ต้องทำงานเพิ่มขึ้นจากโปรแกรมเมอร์ นี่ถูกถามแล้วที่นี่ระยะทาง Pairwise Mahalanobis ใน Rแต่การแก้ปัญหาที่นั่นดูเหมือนไม่ถูกต้อง นี่คือที่ถูกต้อง แต่ไม่มีประสิทธิภาพชะมัด (ตั้งแต่n×nn×nn \times nระยะทางคำนวณ) วิธีการ: set.seed(0) x0 <- MASS::mvrnorm(33,1:10,diag(c(seq(1,1/2,l=10)),10)) dM = as.dist(apply(x0, 1, function(i) mahalanobis(x0, i, cov = cov(x0)))) …
18 r  algorithms  distance 

3
คำนวณ Kullback-Leibler Divergence ในทางปฏิบัติหรือไม่?
ฉันใช้ KL Divergence เป็นตัวชี้วัดความแตกต่างกันระหว่าง 2และQp.m.f.p.m.f.p.m.f. PPPQQQ DKL(P||Q)=∑i=1Nln(PiQi)PiDKL(P||Q)=∑i=1Nln⁡(PiQi)PiD_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i =−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) ถ้าP(Xi)=0P(Xi)=0P(X_i)=0 เราสามารถคำนวณ P ( X i ) l n ( P ( X i ) ) = 0P(Xi)ln(Q(Xi))=0P(Xi)ln(Q(Xi))=0P(X_i)ln\left(Q(X_i)\right)=0 P(Xi)ln(P(Xi))=0P(Xi)ln(P(Xi))=0P(X_i)ln\left(P(X_i)\right)=0 แต่ถ้าP(Xi)≠0P(Xi)≠0P(X_i)\ne0และQ(Xi)=0Q(Xi)=0Q(X_i)=0 วิธีการคำนวณP(Xi)ln(Q(Xi))P(Xi)ln(Q(Xi))P(X_i)ln\left(Q(X_i)\right)

3
มูลค่าสูงสุดของการผันแปร Kullback-Leibler (KL) คืออะไร
ฉันจะใช้ KL divergence ในรหัสหลามของฉันและฉันได้รับการสอนนี้ ในบทช่วยสอนนั้นการใช้ KL divergence นั้นค่อนข้างง่าย kl = (model * np.log(model/actual)).sum() ดังที่ฉันเข้าใจการกระจายความน่าจะเป็นของmodelและactualควรเป็น <= 1 คำถามของฉันคืออะไรค่าสูงสุดที่เป็นไปได้ / ค่าสูงสุดที่เป็นไปได้คือ k ฉันจำเป็นต้องรู้ค่าสูงสุดที่เป็นไปได้ของระยะทาง kl สำหรับขอบเขตสูงสุดในรหัสของฉัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.