คำถามติดแท็ก distance-functions

ฟังก์ชันระยะทางหมายถึงฟังก์ชันที่ใช้ในการหาจำนวนความคิดของระยะห่างระหว่างสมาชิกของเซตหรือระหว่างวัตถุ

8
ทำไมระยะทางแบบยุคลิดไม่เป็นตัวชี้วัดที่ดีในมิติที่สูง?
ฉันอ่านว่า 'ระยะทางแบบยุคลิดไม่ใช่ระยะทางที่ดีในมิติที่สูง' ฉันเดาว่าข้อความนี้มีส่วนเกี่ยวข้องกับคำสาปของความเป็นมิติ แต่อะไรกันแน่ นอกจากนี้ 'มิติสูง' คืออะไร? ฉันใช้การจัดกลุ่มแบบลำดับชั้นโดยใช้ระยะทางแบบยุคลิดกับ 100 ฟีเจอร์ คุณลักษณะนี้มีความปลอดภัยเพียงใดในการใช้การวัดนี้

6
การเลือกวิธีการจัดกลุ่ม
เมื่อใช้การวิเคราะห์กลุ่มบนชุดข้อมูลเพื่อจัดกลุ่มกรณีที่คล้ายกันเราจำเป็นต้องเลือกวิธีการจัดกลุ่มจำนวนมากและการวัดระยะทาง บางครั้งตัวเลือกหนึ่งอาจมีผลต่อตัวเลือกอื่น ๆ แต่มีวิธีการที่เป็นไปได้หลายวิธีผสมกัน ใครบ้างมีคำแนะนำเกี่ยวกับวิธีการเลือกระหว่างอัลกอริทึมการจัดกลุ่ม / วิธีการและการวัดระยะทางที่หลากหลาย ? สิ่งนี้เกี่ยวข้องกับธรรมชาติของตัวแปร (เช่นหมวดหมู่หรือตัวเลข) และปัญหาการจัดกลุ่มอย่างไร มีเทคนิคที่ดีที่สุดหรือไม่?

6
ทำไมอัลกอริทึมการจัดกลุ่ม k หมายถึงใช้เฉพาะการวัดระยะทางแบบยุคลิดเท่านั้น
มีจุดประสงค์เฉพาะในแง่ของประสิทธิภาพหรือการทำงานทำไมอัลกอริธึม k - หมายถึงไม่ใช้เช่นโคไซน์ (dis) ความคล้ายคลึงกันเป็นตัวชี้วัดระยะทาง แต่สามารถใช้บรรทัดฐานแบบยุคลิดเท่านั้น? โดยทั่วไปวิธี K-mean จะปฏิบัติตามและถูกต้องเมื่อมีการพิจารณาหรือใช้ระยะทางอื่นนอกเหนือจาก Euclidean หรือไม่? [เพิ่มโดย @ttnphns คำถามคือสองเท่า "(ไม่ใช่) ระยะทางแบบยุคลิด" อาจเกี่ยวข้องกับระยะห่างระหว่างจุดข้อมูลสองจุดหรือระยะห่างระหว่างจุดข้อมูลและจุดศูนย์กลางคลัสเตอร์ ทั้งสองวิธีมีความพยายามในการตอบที่อยู่ในคำตอบจนถึง]

3
การกระจายระยะทางแบบยุคลิดระหว่างตัวแปรสุ่มแบบกระจายสองตัวคืออะไร?
สมมติว่าคุณจะได้รับวัตถุทั้งสองมีสถานที่ที่แน่นอนไม่เป็นที่รู้จัก แต่จะมีการกระจายไปตามการแจกแจงปรกติกับพารามิเตอร์ที่รู้จักกัน (เช่นและ(วีที)) เราสามารถสันนิษฐานได้ว่าสิ่งเหล่านี้เป็นทั้งบรรทัดฐาน bivariate เช่นตำแหน่งที่ถูกอธิบายโดยการกระจายข้ามพิกัด ( (เช่นและเป็นเวกเตอร์ที่มีพิกัดคาดหวังสำหรับและตามลำดับ) เราจะถือว่าวัตถุนั้นเป็นอิสระa ∼ N( m , s )a~ยังไม่มีข้อความ(ม.,s)a \sim N(m, s)b ∼ N( v , t ) )ข~ยังไม่มีข้อความ(โวลต์,เสื้อ))b \sim N(v, t))( x , y)(x,Y)(x,y)ม.ม.mโวลต์โวลต์v( x , y)(x,Y)(x,y)aaaขขb ไม่มีใครรู้ว่าการกระจายตัวของปริภูมิแบบยุคลิดแบบสแควร์ระหว่างวัตถุสองชิ้นนี้คือการแจกแจงแบบพารามิเตอร์หรือไม่? หรือวิธีการหา PDF / CDF สำหรับฟังก์ชั่นนี้วิเคราะห์?

2
Kullback – Leibler vs Kolmogorov-Smirnov ระยะทาง
ฉันเห็นได้ว่ามีความแตกต่างอย่างเป็นทางการระหว่าง Kullback – Leibler กับ Kolmogorov-Smirnov อย่างไรก็ตามทั้งสองถูกใช้เพื่อวัดระยะห่างระหว่างการแจกแจง มีสถานการณ์ทั่วไปที่ควรใช้อย่างใดอย่างหนึ่งแทนอีกสถานการณ์หนึ่งหรือไม่? เหตุผลที่ต้องทำคืออะไร?

2
การจัดกลุ่มตามลำดับชั้นด้วยข้อมูลชนิดผสม - มีระยะทาง / ความคล้ายคลึงกันในการใช้งานอย่างไร
ในชุดข้อมูลของฉันเรามีทั้งตัวแปรต่อเนื่องและไม่ต่อเนื่องตามธรรมชาติ ฉันต้องการทราบว่าเราสามารถทำการจัดกลุ่มแบบลำดับชั้นโดยใช้ตัวแปรทั้งสองประเภทได้หรือไม่ และถ้าใช่มีการวัดระยะทางที่เหมาะสม?

1
การเปรียบเทียบการจัดกลุ่มลำดับชั้นแบบย่อที่ได้จากระยะทางและวิธีการต่าง ๆ
[ชื่อเริ่มต้น "การวัดความคล้ายคลึงกันสำหรับต้นไม้การจัดกลุ่มแบบลำดับชั้น" ถูกเปลี่ยนในภายหลังโดย @ttnphns เพื่อให้สะท้อนหัวข้อได้ดียิ่งขึ้น] ฉันกำลังทำการวิเคราะห์คลัสเตอร์แบบลำดับชั้นจำนวนหนึ่งเกี่ยวกับ dataframe ของบันทึกผู้ป่วย (เช่นคล้ายกับhttp://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) ฉันกำลังทดลองกับการวัดระยะทางที่แตกต่างกันน้ำหนักของพารามิเตอร์ที่แตกต่างกันและวิธีการลำดับชั้นที่แตกต่างกันเพื่อทำความเข้าใจผลกระทบที่มีต่อกลุ่ม / โครงสร้าง / มุมมองสุดท้ายของต้นไม้ (dendrogram) คำถามของฉันไม่ว่าจะมีการคำนวณมาตรฐาน / การวัดเพื่อคำนวณความแตกต่างระหว่างต้นไม้แบบลำดับชั้นที่แตกต่างกันและวิธีการใช้สิ่งนี้ใน R (เช่นเพื่อหาจำนวนที่ต้นไม้บางต้นเกือบเหมือนกันและแตกต่างกันอย่างมาก)

5
การวัด "ระยะทาง" ระหว่างการแจกแจงหลายตัวแปรสองค่า
ฉันกำลังมองหาคำศัพท์ที่ดีเพื่ออธิบายสิ่งที่ฉันพยายามทำเพื่อให้ง่ายต่อการค้นหาแหล่งข้อมูล ดังนั้นบอกว่าฉันมีสองกลุ่มของจุด A และ B แต่ละคนที่เกี่ยวข้องกับสองค่า X และ Y และฉันต้องการวัด "ระยะทาง" ระหว่าง A และ B - นั่นคือโอกาสที่พวกเขาถูกสุ่มตัวอย่างจากการกระจายเดียวกัน (ฉันสามารถสันนิษฐานได้ว่าการแจกแจงเป็นเรื่องปกติ) ตัวอย่างเช่นถ้า X และ Y มีความสัมพันธ์ใน A แต่ไม่ใช่ใน B การแจกแจงจะแตกต่างกัน โดยสังหรณ์ใจฉันจะได้เมทริกซ์ความแปรปรวนร่วมของ A แล้วดูว่าแต่ละจุดใน B น่าจะพอดีกับที่นั่นและในทางกลับกัน (อาจใช้ Someting เหมือนระยะทาง Mahalanobis) แต่นั่นเป็นบิต "ad-hoc" และอาจมีวิธีการอธิบายที่เข้มงวดกว่านี้ (แน่นอนในทางปฏิบัติฉันมีชุดข้อมูลมากกว่าสองชุดที่มีตัวแปรมากกว่าสองตัว - ฉันพยายามระบุว่าชุดข้อมูลชุดใดของฉัน เป็นค่าผิดปกติ) ขอบคุณ!

2
มีตัวประมาณระยะทางของ Hellinger ระหว่างการแจกแจงสองแบบหรือไม่?
ในการตั้งค่าที่หนึ่งสังเกตกระจายออกมาจากการกระจายความหนาแน่นฉันสงสัยว่ามีการประมาณการที่เป็นกลาง (ตามx_i 's) ของระยะทาง Hellinger การกระจายที่มีความหนาแน่นอีกf_0คือ mathfrak \ {H} (f, f_0) = \ left \ {1 - \ int_ \ mathcal {X} \ sqrt {f (x) f_0 (x)} \ text {d} x \ right \} ^ {1/2} \ ,. f X ฉันf 0 H ( f , f 0 ) …

1
เมื่อใดที่ต้องใช้ระยะทางแบบยุคลิดแบบถ่วงน้ำหนักและวิธีการกำหนดน้ำหนักที่จะใช้
ฉันมีชุดของข้อมูลที่ข้อมูลแต่ละประกอบด้วยมาตรการที่แตกต่างกัน สำหรับการวัดแต่ละครั้งฉันมีค่ามาตรฐาน ฉันต้องการทราบว่าข้อมูลแต่ละอันใกล้เคียงกับค่ามาตรฐานอย่างไรnnn ฉันคิดถึงการใช้ระยะทางแบบยุคลิดแบบถ่วงน้ำหนักเช่นนี้: dx , b= ( ∑ni = 1Wผม( xผม- ขผม)2) )1 / 2dx,ข=(Σผม=1nWผม(xผม-ขผม)2))1/2\hspace{0.5in} d_{x,b}=\left( \sum_{i=1}^{n}w_i(x_i-b_i)^2)\right)^{1/2} ที่ไหน xผมxผม\hspace{0.5in}x_iคือค่าของการวัด i-th สำหรับข้อมูลเฉพาะ ขผมขผม\hspace{0.5in}b_iเป็นค่ามาตรฐานที่สอดคล้องกันสำหรับการวัดนั้น WผมWผม\hspace{0.5in} w_iคือค่าของน้ำหนักระหว่างฉันจะแนบไปกับการวัด i-th ภายใต้เงื่อนไขดังต่อไปนี้: 0 &lt; wผม&lt; 10&lt;Wผม&lt;1\hspace{1in}0<w_i<1และΣni = 11Σผม=1n1\sum_{i=1}^{n}1 อย่างไรก็ตามจากเอกสารนี้ฉันพบว่าน้ำหนักที่ใช้เป็นส่วนต่างของความแปรปรวนของการวัด i-th ฉันไม่คิดว่าการให้น้ำหนักแบบนี้จะคำนึงถึงความสำคัญที่ฉันจะแนบไปกับการวัดแต่ละครั้ง ดังนั้น: มีวิธีการในการจัดทำชุดของน้ำหนักที่สะท้อนถึงความสำคัญของสัมพัทธ์ของผู้สังเกตการณ์ของการวัดหรือผู้สังเกตการณ์สามารถกำหนดค่าโดยพลการสำหรับน้ำหนักได้หรือไม่? เหมาะสมที่จะใช้ระยะทางแบบยุคลิดแบบถ่วงน้ำหนักเพื่อแก้ไขปัญหานี้หรือไม่?

3
การใช้ระยะทางแมนฮัตตันกับการเชื่อมโยงระหว่างคลัสเตอร์ของวอร์ดในการจัดกลุ่มตามลำดับชั้นเป็นเรื่องที่ดีหรือไม่?
ฉันใช้การจัดกลุ่มแบบลำดับชั้นเพื่อวิเคราะห์ข้อมูลอนุกรมเวลา รหัสของฉันถูกนำไปใช้โดยใช้ฟังก์ชั่นMathematicaDirectAgglomerate[...]ซึ่งสร้างกลุ่มแบบลำดับชั้นซึ่งกำหนดอินพุตต่อไปนี้: เมทริกซ์ระยะทาง D ชื่อของวิธีการที่ใช้เพื่อกำหนดการเชื่อมโยงระหว่างคลัสเตอร์ ฉันคำนวณระยะทางเมทริกซ์ D โดยใช้ระยะทางแมนฮัตตัน: d(x,y)=∑i|xi−yi|d(x,y)=∑i|xi−yi|d(x,y) = \sum_i|x_i - y_i| โดยที่และn ≈ 150คือจำนวนจุดข้อมูลในอนุกรมเวลาของฉันi=1,⋯,ni=1,⋯,ni = 1,\cdots, nn≈150n≈150n \approx 150 คำถามของฉันคือการใช้การเชื่อมโยงระหว่างคลัสเตอร์ของวอร์ดกับแมนฮัตตันนั้น แหล่งข้อมูลบางแหล่งชี้ให้เห็นว่าการเชื่อมโยงของวอร์ดควรใช้กับระยะยูคลิดเท่านั้น โปรดทราบว่าDirectAgglomerate[...]คำนวณการเชื่อมโยงของ Ward โดยใช้เมทริกซ์ระยะทางเท่านั้นไม่ใช่แบบสำรวจดั้งเดิม น่าเสียดายที่ฉันไม่แน่ใจว่าMathematicaแก้ไขอัลกอริทึมดั้งเดิมของ Ward ซึ่ง (จากความเข้าใจของฉัน) ทำงานอย่างไรโดยการลดผลรวมของข้อผิดพลาดของกำลังสองของการสังเกตให้เหลือน้อยที่สุดซึ่งคำนวณโดยเทียบกับค่าเฉลี่ยของคลัสเตอร์ ตัวอย่างเช่นสำหรับคลัสเตอร์ที่ประกอบด้วยเวกเตอร์ของการสังเกตแบบ univariate Ward จะกำหนดผลรวมข้อผิดพลาดของกำลังสองเป็น:ccc (∑j||cj−mean(c)||2)2(∑j||cj−mean(c)||2)2(\sum_j||c_j - mean(c)||_2)^2 (เครื่องมือซอฟต์แวร์อื่น ๆ เช่น Matlab และ R ยังใช้การจัดกลุ่มของ Ward โดยใช้เมทริกซ์ระยะทางดังนั้นคำถามจึงไม่เฉพาะเจาะจงกับ Mathematica)

1
การทำคลัสเตอร์: ฉันควรใช้ Jensen-Shannon Divergence หรือจตุรัสของมันหรือไม่?
ฉันจัดกลุ่มการแจกแจงความน่าจะเป็นโดยใช้อัลกอริธึมการขยายความสัมพันธ์และฉันวางแผนที่จะใช้ Jensen-Shannon Divergence เป็นตัวชี้วัดระยะทางของฉัน มันถูกต้องหรือไม่ที่จะใช้ JSD เป็นระยะทางหรือ JSD กำลังสอง? ทำไม? ความแตกต่างอะไรจะเป็นผลมาจากการเลือกอย่างใดอย่างหนึ่ง?

3
หรือ
ไม่มีใครใช้L1L1L_1หรือL.5L.5L_.5ตัวชี้วัดสำหรับการจัดกลุ่มมากกว่าL2L2L_2 ? Aggarwal และคณะ, เกี่ยวกับพฤติกรรมที่น่าประหลาดใจของการวัดระยะทางในพื้นที่มิติสูง กล่าวว่า (ในปี 2001) L1L1L_1เป็นที่นิยมมากกว่าอย่างต่อเนื่องจากนั้น Euclidean distance metro L2L2L_2สำหรับการใช้งานการขุดข้อมูลขนาดสูง และอ้างว่าL.5L.5L_.5หรือL.1L.1L_.1สามารถทำได้ดีกว่า เหตุผลในการใช้L1L1L_1หรือL.5L.5L_.5อาจเป็นเชิงทฤษฎีหรือเชิงทดลองเช่นความอ่อนไหวต่อค่าผิดปกติ / เอกสารของKabánหรือโปรแกรมที่ทำงานบนข้อมูลจริงหรือสังเคราะห์ (ทำซ้ำได้) ตัวอย่างหรือรูปภาพจะช่วยปรีชาของคนธรรมดาของฉัน คำถามนี้เป็นคำถามติดตามคำตอบบ๊อบ Durrant ไป เมื่อ-is-ใกล้ที่สุด-เพื่อนบ้านที่มีความหมายต่อวัน ดังที่เขากล่าวตัวเลือกของpppจะเป็นทั้งข้อมูลและแอพพลิเคชั่น อย่างไรก็ตามรายงานจากประสบการณ์จริงจะเป็นประโยชน์ หมายเหตุได้เพิ่มอังคาร 7 มิถุนายน: ฉันพบ "การวิเคราะห์ข้อมูลทางสถิติตาม L1-norm และวิธีการที่เกี่ยวข้อง", Dodge ed., 2002, 454p, is 37n 3764369205 - เอกสารการประชุมนับสิบ ทุกคนสามารถวิเคราะห์ความเข้มข้นของระยะทางสำหรับคุณสมบัติเด่นของ iid ได้หรือไม่? เหตุผลหนึ่งที่ทำให้เอ็กซ์โปเนนเชียลคือ ; อื่น (ไม่ใช่ผู้เชี่ยวชาญ) คือการกระจายสูงสุดของเอนโทรปี≥ 0; …

3
คะแนนระยะทางแบบยุคลิดและความคล้ายคลึงกัน
ฉันแค่ทำงานกับหนังสือ Collective Intelligence (โดย Toby Segaran) และเจอคะแนนระยะทางแบบยุคลิด ในหนังสือเล่มนี้แสดงให้เห็นว่าผู้เขียนวิธีการคำนวณความคล้ายคลึงกันระหว่างสองอาร์เรย์คำแนะนำ (เช่น )คะแนน ×คนภาพยนตร์ ↦)person×movie↦score)\textrm{person} \times \textrm{movie} \mapsto \textrm{score}) เขาคำนวณระยะทางแบบยุคลิดสำหรับคนสองคนและp 2โดย d ( p 1 , p 2 ) = √พี1p1p_1พี2p2p_2d( หน้า1, p2) = ∑ฉัน∈ รายการ ( sพี1- sพี2)2-------------√d(p1,p2)=∑i ∈ item(sp1−sp2)2d(p_1, p_2) = \sqrt{\sum_{i~\in~\textrm{item}} (s_{p_1} - s_{p_2})^2} เรื่องนี้ทำให้ฉันรู้สึกอย่างสมบูรณ์ สิ่งที่ฉันไม่เข้าใจจริงๆคือเหตุผลที่เขาคำนวณตอนท้ายต่อไปนี้เพื่อให้ได้ "ความคล้ายคลึงกันตามระยะทาง": 11 + d( …

1
ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom
หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.