คำถามติดแท็ก distance-functions

ฟังก์ชันระยะทางหมายถึงฟังก์ชันที่ใช้ในการหาจำนวนความคิดของระยะห่างระหว่างสมาชิกของเซตหรือระหว่างวัตถุ

5
การคำนวณ divergence ของ Jensen-Shannon สำหรับ 3 ดิสทริบิวชันโพรไบชัน: มันโอเคไหม?
ฉันต้องการคำนวณ divergence ของเซ่น - แชนนอนสำหรับเขาหลังจากการกระจาย 3 ครั้ง การคำนวณด้านล่างถูกต้องหรือไม่ (ฉันติดตามสูตร JSD จากวิกิพีเดีย ): P1 a:1/2 b:1/2 c:0 P2 a:0 b:1/10 c:9/10 P3 a:1/3 b:1/3 c:1/3 All distributions have equal weights, ie 1/3. JSD(P1, P2, P3) = H[(1/6, 1/6, 0) + (0, 1/30, 9/30) + (1/9,1/9,1/9)] - [1/3*H[(1/2,1/2,0)] + 1/3*H[(0,1/10,9/10)] + 1/3*H[(1/3,1/3,1/3)]] …

5
วัดระยะทางที่ดีที่สุดที่จะใช้
บริบท ฉันมีข้อมูลสองชุดที่ฉันต้องการเปรียบเทียบ แต่ละองค์ประกอบข้อมูลในทั้งสองชุดเป็นเวกเตอร์ที่มี 22 มุม (ทั้งหมดระหว่างและ ) มุมนั้นเกี่ยวข้องกับรูปแบบท่าถ่ายรูปของมนุษย์ที่กำหนดดังนั้นท่ามุมจึงถูกกำหนดโดยมุมต่อ 22 มุมเธ−π−π-\piππ\pi ในที่สุดสิ่งที่ฉันพยายามทำคือกำหนด "ความใกล้ชิด" ของข้อมูลสองชุด ดังนั้นสำหรับแต่ละท่า (เวกเตอร์ 22D) ในชุดเดียวฉันต้องการค้นหาเพื่อนบ้านที่ใกล้ที่สุดในชุดอื่นและสร้างพล็อตระยะทางสำหรับคู่ที่ใกล้ที่สุด คำถาม ฉันสามารถใช้ระยะทางแบบยุคลิดหรือไม่? เพื่อให้มีความหมายฉันคิดว่าการวัดระยะทางจะต้องมีการกำหนดเป็น: , โดยที่คือค่าสัมบูรณ์และ mod คือ modulo แล้วใช้ที่เกิด 22 Thetas ผมสามารถดำเนินการคำนวณระยะทางยุคลิดมาตรฐาน2}| . . . | √θ=|θ1−θ2|modπθ=|θ1−θ2|modπ\theta = |\theta_1 - \theta_2| \quad mod \quad \pi|...||...||...|t21+t22+…+t222−−−−−−−−−−−−−−√t12+t22+…+t222\sqrt{t_1^2 + t_2^2 + \ldots + t_{22}^2} ถูกต้องหรือไม่ การวัดระยะทางอื่นจะมีประโยชน์มากกว่าเช่นไคสแควร์หรือ …

1
ฟังก์ชั่นระยะทางที่ดีที่สุดสำหรับบุคคลคืออะไรเมื่อมีการระบุคุณสมบัติ?
ฉันไม่ทราบว่าฟังก์ชั่นระยะทางระหว่างบุคคลที่จะใช้ในกรณีที่มีคุณสมบัติระบุ (unordered เด็ดขาด) ฉันกำลังอ่านหนังสือเรียนและพวกเขาแนะนำฟังก์ชั่นการจับคู่อย่างง่ายแต่หนังสือบางเล่มแนะนำว่าฉันควรเปลี่ยนชื่อเป็นแอตทริบิวต์ไบนารีและใช้ค่าสัมประสิทธิ์Jaccard อย่างไรก็ตามจะเกิดอะไรขึ้นถ้าค่าของแอตทริบิวต์ที่ระบุไม่ใช่ 2 เกิดอะไรขึ้นถ้ามีค่าสามหรือสี่ค่าในแอตทริบิวต์นั้น ฉันควรใช้ฟังก์ชันระยะทางใดสำหรับคุณลักษณะที่ระบุ

2
ระยะทางระหว่างตัวแปรที่ทำเมทริกซ์ความแปรปรวนร่วมคืออะไร
ฉันมีเมทริกซ์ความแปรปรวนร่วมและต้องการแบ่งพาร์ติชันตัวแปรเป็นกลุ่มโดยใช้การจัดกลุ่มแบบลำดับชั้น (ตัวอย่างเช่นเพื่อเรียงลำดับเมทริกซ์ความแปรปรวนร่วม)n×nn×nn \times nkkk มีฟังก์ชั่นระยะทางทั่วไประหว่างตัวแปร (เช่นระหว่างคอลัมน์ / แถวของเมทริกซ์ความแปรปรวนร่วมสี่เหลี่ยม) หรือไม่ หรือถ้ามีมากขึ้นมีการอ้างอิงที่ดีในหัวข้อ?

2
ระยะ Mahalanobis คืออะไรและใช้ในการจดจำรูปแบบอย่างไร
บางคนสามารถอธิบายแนวคิดเรื่องระยะทางของมาฮาลาโนบิสได้หรือไม่? ตัวอย่างเช่นอะไรคือระยะทาง Mahalanobis ระหว่างสองจุด x และ y และโดยเฉพาะอย่างยิ่งมันตีความอย่างไรสำหรับการจดจำรูปแบบ?

1
ทฤษฎีบทความเปรียบต่างสัมพัทธ์จาก Beyer และคณะ paper:“ พฤติกรรมที่น่าแปลกใจของมาตรวัดระยะทางในพื้นที่มิติสูง” ทำให้เข้าใจผิด?
สิ่งนี้ถูกอ้างถึงบ่อยมากเมื่อพูดถึงคำสาปของมิติและไป (สูตรทางขวามือเรียกว่าความเปรียบต่างสัมพัทธ์) limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxkd−DminkdDminkd→0limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxdk−DmindkDmindk→0 \lim_{d\rightarrow \infty} \text{var} \left(\frac{||X_d||_k}{E[||X_d||_k]} \right) = 0, \text{then}: \frac{D_{\max^{k}_{d}} - D_{\min^{k}_{d}}}{D_{\min^{k}_{d}}} \rightarrow 0 ผลของทฤษฎีบทแสดงให้เห็นว่าความแตกต่างระหว่างระยะทางสูงสุดและต่ำสุดไปยังจุดสอบถามที่กำหนดไม่ได้เพิ่มขึ้นเร็วเท่ากับระยะทางที่ใกล้ที่สุดไปยังจุดใด ๆ ในพื้นที่มิติสูง สิ่งนี้ทำให้เคียวรีความใกล้เคียงไม่มีความหมายและไม่เสถียรเนื่องจากมีการเลือกปฏิบัติที่ไม่ดีระหว่างเพื่อนบ้านที่อยู่ใกล้ที่สุดและไกลที่สุด ลิงค์ แต่ถ้ามีใครลองคำนวณความแตกต่างสัมพัทธ์สำหรับค่าตัวอย่างความหมายจะใช้เวกเตอร์ที่มีค่าน้อยมากและคำนวณระยะห่างจากศูนย์เวกเตอร์และทำเช่นเดียวกันสำหรับเวกเตอร์ที่มีค่าที่มีขนาดใหญ่กว่ามาก มิติที่ 3 และมิติที่ใหญ่กว่า10910910^9เท่าจะเห็นว่าในขณะที่อัตราส่วนลดลงการเปลี่ยนแปลงนั้นเล็กมากจนไม่เกี่ยวข้องกับจำนวนมิติที่ใช้จริงในทางปฏิบัติ ด้วยข้อมูลที่มีขนาดขนาดของหมายเลขเกรแฮม - ซึ่งฉันคิดว่าเป็นขนาดที่จำเป็นสำหรับเอฟเฟกต์ที่อธิบายว่ากระดาษมีความเกี่ยวข้องจริง ๆ - ฉันคิดว่าไม่) ดังที่ได้กล่าวไปแล้วทฤษฎีบทนี้มักถูกอ้างถึงมากเพื่อสนับสนุนคำแถลงว่าการวัดความใกล้เคียงตามปริภูมิแบบยุคลิดเป็นกลยุทธ์ที่ไม่ดีในพื้นที่มิติสูงผู้เขียนพูดอย่างนั้นเองแต่ทว่าพฤติกรรมที่เสนอไม่ได้เกิดขึ้นจริง คิดว่าทฤษฎีบทนี้ถูกนำมาใช้ในแบบที่ทำให้เข้าใจผิด ตัวอย่าง: ด้วยdมิติ a=np.ones((d,)) / 1e5 b=np.ones((d,)) * 1e5 dmin,dmax=norm(a), norm(b) (dmax-dmin)/dmin สำหรับ d = 3 9999999999.0 สำหรับ …

3
ระยะทาง Mahalanobis ผ่าน PCA เมื่อ
ฉันมีเมทริกซ์โดยที่คือจำนวนยีนและคือจำนวนผู้ป่วย ทุกคนที่ทำงานกับข้อมูลดังกล่าวรู้ว่านั้นใหญ่กว่าเสมอ โดยใช้การเลือกคุณลักษณะฉันมีอากาศลงไปจำนวนที่เหมาะสมมากขึ้น แต่ยังคงสูงกว่าnn×pn×pn\times ppppnnnpppnnnppppppnnn ฉันต้องการคำนวณความคล้ายคลึงกันของผู้ป่วยตามโปรไฟล์ทางพันธุกรรมของพวกเขา ฉันสามารถใช้ระยะทางแบบยุคลิดได้ แต่มาฮาโลโนบิสดูเหมือนจะเหมาะสมกว่าเพราะมันเกี่ยวข้องกับความสัมพันธ์ระหว่างตัวแปร ปัญหาที่เกิดขึ้น (ตามที่ระบุไว้ในนี้โพสต์ ) เป็นว่าระยะทาง Mahalanobis เฉพาะเมทริกซ์ความแปรปรวนร่วมไม่ทำงานเมื่อ&lt;p เมื่อฉันเรียกใช้ระยะทาง Mahalanobis ใน R ข้อผิดพลาดที่ฉันได้รับคือ:n&lt;pn&lt;pn < p Error in solve.default(cov, ...) : system is computationally singular: reciprocal condition number = 2.81408e-21 จนถึงตอนนี้ที่จะลองแก้ปัญหานี้ฉันใช้ PCA และแทนที่จะใช้ยีนฉันใช้ส่วนประกอบและดูเหมือนว่าจะทำให้ฉันคำนวณระยะทาง Mahalanobis ได้ 5 ส่วนประกอบแทนประมาณ 80% ของความแปรปรวนดังนั้นตอนนี้Pn&gt;pn&gt;pn > p คำถามของฉันคือ:ฉันสามารถใช้ PCA เพื่อให้ได้ระยะทาง Mahalanobis …

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.