คำถามติดแท็ก distance

การวัดระยะทางระหว่างการแจกแจงหรือตัวแปรเช่นระยะทางแบบยุคลิดระหว่างจุดในช่องว่าง

2
ความคลาดเคลื่อนเฉลี่ยสูงสุด (การกระจายระยะทาง)
ฉันมีชุดข้อมูลสองชุด (แหล่งข้อมูลและข้อมูลเป้าหมาย) ซึ่งเป็นไปตามการแจกแจงที่แตกต่างกัน ฉันกำลังใช้ MMD - นั่นคือการกระจายระยะทางแบบไม่อิงพารามิเตอร์ - เพื่อคำนวณการกระจายระยะขอบระหว่างข้อมูลต้นทางและเป้าหมาย แหล่งข้อมูล Xs ข้อมูลเป้าหมาย Xt การปรับเมทริกซ์ A * ข้อมูลที่คาดการณ์ไว้ Zs = A '* Xs และ Zt = A' Xt * MMD => ระยะทาง (P (Xs), P (Xt)) = | Mean (A'Xs) - mean (A ' Xt) | นั่นหมายถึง: ระยะห่างของการกระจายระหว่างข้อมูลต้นทางและปลายทางในพื้นที่ดั้งเดิมเท่ากับระยะห่างระหว่างวิธีการของแหล่งข้อมูลที่คาดการณ์และข้อมูลเป้าหมายในพื้นที่ฝังตัว ฉันมีคำถามเกี่ยวกับแนวคิดของ MMD ในสูตร …

3
วิธีการวัด "ระยะทาง" ทางสถิติระหว่างการแจกแจงความถี่สองครั้ง
ฉันกำลังดำเนินโครงการวิเคราะห์ข้อมูลซึ่งเกี่ยวข้องกับการตรวจสอบเวลาการใช้งานเว็บไซต์ตลอดระยะเวลาหนึ่งปี สิ่งที่ฉันต้องการจะทำคือการเปรียบเทียบว่า "สอดคล้อง" รูปแบบการใช้พูดว่าใกล้เคียงกับรูปแบบที่เกี่ยวข้องกับการใช้งานเป็นเวลา 1 ชั่วโมงสัปดาห์ละครั้งหรือหนึ่งที่เกี่ยวข้องกับการใช้มันเป็นเวลา 10 นาทีต่อครั้ง 6 สัปดาห์ละครั้ง ฉันตระหนักถึงหลายสิ่งที่สามารถคำนวณได้: เอนโทรปีของแชนนอน:วัดว่า "ความแน่นอน" ในผลลัพธ์นั้นแตกต่างกันเท่าใดนั่นคือการกระจายความน่าจะเป็นที่ต่างไปจากชุดที่เป็นเท่าไหร่; Kullback-Liebler divergence:วัดว่าการกระจายความน่าจะเป็นหนึ่งที่แตกต่างจากที่อื่น Jensen-Shannon divergence:คล้ายกับ KL-divergence แต่มีประโยชน์มากกว่าเมื่อมันส่งคืนค่า จำกัด การทดสอบ Smirnov-Kolmogorov : การทดสอบเพื่อตรวจสอบว่าฟังก์ชันการแจกแจงสะสมสองฟังก์ชันสำหรับตัวแปรสุ่มต่อเนื่องมาจากตัวอย่างเดียวกันหรือไม่ การทดสอบแบบไคสแควร์: การทดสอบความดีพอดีเพื่อตัดสินว่าการกระจายความถี่แตกต่างจากการกระจายความถี่ที่คาดหวังได้ดีเพียงใด สิ่งที่ฉันต้องการจะทำคือการเปรียบเทียบระยะเวลาการใช้งานจริง (สีฟ้า) แตกต่างจากเวลาการใช้งานที่เหมาะสมที่สุด (สีส้ม) ในการกระจาย การแจกแจงเหล่านี้ไม่ต่อเนื่องและรุ่นด้านล่างจะถูกทำให้เป็นมาตรฐานเพื่อการแจกแจงความน่าจะเป็น แกนนอนแสดงจำนวนเวลา (เป็นนาที) ที่ผู้ใช้ใช้บนเว็บไซต์ สิ่งนี้ถูกบันทึกไว้ในแต่ละวันของปี; หากผู้ใช้ไม่ได้ไปที่เว็บไซต์เลยนับว่าเป็นระยะเวลาเป็นศูนย์ แต่สิ่งเหล่านี้จะถูกลบออกจากการแจกแจงความถี่ ด้านขวาเป็นฟังก์ชันการแจกแจงสะสม ปัญหาเดียวของฉันคือแม้ว่าฉันจะได้รับ JS-divergence เพื่อคืนค่า จำกัด เมื่อฉันดูผู้ใช้ที่แตกต่างกันและเปรียบเทียบการกระจายการใช้งานของพวกเขากับอุดมคติ แต่ฉันได้รับค่าที่เหมือนกันมากที่สุด (ซึ่งไม่ดี ตัวบ่งชี้ว่ามีความแตกต่างกันเท่าใด) นอกจากนี้ข้อมูลบางส่วนจะหายไปเมื่อ normalizing …

1
มีการอธิบายลักษณะเฉพาะของความสัมพันธ์ทางไกลหรือไม่?
ฉันเฝ้าดูหน้าวิกิพีเดียเพื่อหาความสัมพันธ์ทางไกลที่ซึ่งมันดูเหมือนว่าจะถูกกำหนดโดยวิธีการคำนวณ ในขณะที่ฉันจะทำการคำนวณที่ผมต่อสู้เพื่อให้ได้รับมาตรการความสัมพันธ์สิ่งที่ระยะทางและทำไมการคำนวณดูที่พวกเขาทำ มีลักษณะของการสัมพันธ์ทางไกลที่เข้าใจได้ง่ายขึ้น (หรือมากขึ้น) ที่จะช่วยให้ฉันเข้าใจว่ามันวัดได้อย่างไร? ฉันรู้ว่าการขอสัญชาติญาณนั้นค่อนข้างคลุมเครือ แต่ถ้าฉันรู้ว่าฉันต้องการสัญชาติญาณแบบใดฉันคงไม่ได้ถามในตอนแรก ฉันก็จะมีความสุขกับสัญชาตญาณเกี่ยวกับกรณีของความสัมพันธ์ระยะทางระหว่างตัวแปรสุ่มสองตัว (แม้ว่าความสัมพันธ์ของระยะทางจะถูกกำหนดระหว่างเวกเตอร์สุ่มสองตัว)

5
ฉันจะแปลงระยะทาง (ยูคลิดแดน) เป็นคะแนนความคล้ายคลึงกันได้อย่างไร
ฉันใช้หมายถึงการรวมกลุ่มเป็นเสียงของกลุ่มลำโพง เมื่อฉันเปรียบเทียบคำพูดกับข้อมูลลำโพงแบบคลัสเตอร์ฉันจะได้รับความผิดเพี้ยนเฉลี่ย (อิงตามปริภูมิแบบยุคลิด) ระยะนี้อาจจะอยู่ในช่วงinfty] ฉันต้องการแปลงระยะทางนี้เป็นคะแนนความเหมือนโปรดแนะนำฉันเกี่ยวกับวิธีที่ฉันสามารถบรรลุสิ่งนี้[ 0 , ∞ ] [ 0 , 1 ]kkk[0,∞][0,∞][0,\infty][0,1][0,1][0,1]

4
มีระยะทางน่าจะเป็นที่รักษาคุณสมบัติทั้งหมดของตัวชี้วัดหรือไม่?
ในการศึกษาระยะทาง Kullback – Leibler มีสองสิ่งที่เราเรียนรู้อย่างรวดเร็วคือมันไม่เคารพทั้งความไม่เท่าเทียมกันของสามเหลี่ยมและสมมาตรซึ่งเป็นคุณสมบัติที่จำเป็นของเมตริก คำถามของฉันคือว่ามีฟังก์ชั่นการวัดความหนาแน่นของความน่าจะเป็นที่ตอบสนองข้อ จำกัด ทั้งหมดของการวัดหรือไม่

4
ความไม่เท่าเทียมกันของสามเหลี่ยมเป็นจริงสำหรับระยะทางตามความสัมพันธ์เหล่านี้หรือไม่?
สำหรับการจัดกลุ่มแบบลำดับชั้นฉันมักจะเห็น "ตัวชี้วัด" สองตัวต่อไปนี้ (พวกเขาพูดไม่ตรงกัน) สำหรับการวัดระยะห่างระหว่างตัวแปรสุ่มสองตัวและ : \ newcommand {\ Cor} {\ mathrm {Cor}} \ start {align} d_1 (X, Y) และ = 1- | \ คอร์ (X, Y) | \\ d_2 (X, Y) และ = 1 - (\ คอร์ (X, Y)) ^ 2 \ end {} จัด ทำอย่างใดอย่างหนึ่ง ตอบสนองความไม่เท่าเทียมกันของสามเหลี่ยมหรือไม่? ถ้าเป็นเช่นนั้นฉันควรจะพิสูจน์ได้อย่างไรนอกจากการคำนวณแบบ bruteforce? …

4
วัตถุประสงค์ของการฟื้นฟูแถวคืออะไร
ฉันเข้าใจเหตุผลที่อยู่เบื้องหลังการทำให้คอลัมน์เป็นมาตรฐานเนื่องจากทำให้คุณสมบัตินั้นมีน้ำหนักเท่ากันแม้ว่าจะไม่ได้วัดในระดับเดียวกัน - อย่างไรก็ตามบ่อยครั้งในวรรณกรรมเพื่อนบ้านที่ใกล้ที่สุดทั้งคอลัมน์และแถวจะถูกทำให้เป็นมาตรฐาน การนอร์มัลไลซ์แถวสำหรับ / ทำไมทำให้แถวเป็นมาตรฐาน โดยเฉพาะผลลัพธ์ของการปรับสภาพแถวมีผลต่อความเหมือน / ระยะห่างระหว่างเวกเตอร์แถวอย่างไร

2
ระยะห่างของโกเวอร์คำนวณความแตกต่างระหว่างตัวแปรไบนารีอย่างไร
ฉันมี 17 ตัวเลขและ 5 ไบนารี (0-1) ตัวแปรโดยมี 73 ตัวอย่างในชุดข้อมูลของฉัน ฉันต้องการเรียกใช้การวิเคราะห์คลัสเตอร์ ฉันรู้ว่าระยะทางของโกเวอร์เป็นตัวชี้วัดที่ดีสำหรับชุดข้อมูลที่มีตัวแปรแบบผสม อย่างไรก็ตามฉันไม่เข้าใจว่าระยะทางของโกเวอร์คำนวณความแตกต่างระหว่างตัวแปรไบนารีได้อย่างไร สำหรับฉันดูเหมือนว่ามันไม่แตกต่างจากระยะทางแบบยุคลิด

1
นัยสำคัญทางสถิติของความแตกต่างระหว่างระยะทาง
ฉันมีเวกเตอร์มากกว่า 3,000 ตัวบนกริดสองมิติพร้อมการกระจายแบบไม่ต่อเนื่องโดยประมาณ เวกเตอร์คู่หนึ่งตอบสนองเงื่อนไขที่แน่นอน หมายเหตุ: เงื่อนไขนี้ใช้ได้กับคู่เวกเตอร์เท่านั้นไม่ใช่กับเวกเตอร์แต่ละตัว ฉันมีรายการประมาณ 1,500 คู่ดังกล่าวลองเรียกมันว่ากลุ่ม 1 กลุ่มที่ 2 มีคู่เวกเตอร์อื่น ๆ ทั้งหมด ฉันต้องการตรวจสอบว่าระยะห่างระหว่างเวกเตอร์ในคู่ในกลุ่ม 1 นั้นมีขนาดเล็กกว่าระยะทางเฉลี่ยระหว่างสองเวกเตอร์หรือไม่ ฉันจะทำสิ่งนั้นได้อย่างไร การทดสอบทางสถิติ : ทฤษฎีบทขีด จำกัด กลางสามารถใช้กับกรณีของฉันได้หรือไม่? นั่นคือฉันสามารถใช้ตัวอย่างระยะทางและใช้การทดสอบ t ของนักเรียนเพื่อเปรียบเทียบวิธีของตัวอย่างที่ปฏิบัติตามเงื่อนไขด้วยวิธีการตัวอย่างที่ไม่ตรงตามเงื่อนไขหรือไม่ มิฉะนั้นการทดสอบทางสถิติใดที่เหมาะสมที่นี่ ขนาดตัวอย่างและจำนวนตัวอย่าง : ฉันเข้าใจว่ามีสองตัวแปรที่นี่สำหรับแต่ละกลุ่มสองฉันต้องใช้ตัวอย่างnขนาดmและหาค่าเฉลี่ยของตัวอย่างแต่ละตัวอย่าง มีวิธีใดหลักการในการเลือกnและm ? พวกเขาควรมีขนาดใหญ่ที่สุด หรือควรให้น้อยที่สุดเท่าที่จะเป็นไปได้ตราบใดที่พวกเขาแสดงนัยสำคัญทางสถิติ? พวกเขาควรจะเหมือนกันสำหรับแต่ละกลุ่มหรือไม่ หรือควรใหญ่กว่าสำหรับกลุ่ม 2 ซึ่งมีจำนวนคู่เวกเตอร์มากกว่านี้

2
ระยะห่างระหว่างส่วนผสม Gaussian จำกัด และ Gaussian จำกัด คืออะไร
สมมติว่าฉันมีส่วนผสมของ Gaussians จำนวนมากที่มีน้ำหนัก, ค่าเฉลี่ย, และค่าเบี่ยงเบนมาตรฐาน วิธีการไม่เท่ากัน แน่นอนว่าค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของการผสมสามารถคำนวณได้เนื่องจากช่วงเวลานั้นมีค่าเฉลี่ยถ่วงน้ำหนักของช่วงเวลาของส่วนประกอบ ส่วนผสมไม่ได้เป็นการกระจายตัวแบบธรรมดา แต่ไกลแค่ไหนจากปกติ? ภาพด้านบนแสดงความหนาแน่นของความน่าจะเป็นที่เป็นไปได้สำหรับส่วนผสมแบบเกาส์พร้อมส่วนประกอบหมายถึงคั่นด้วยส่วนเบี่ยงเบนมาตรฐาน (ของส่วนประกอบ) และแบบเกาส์เดียวที่มีค่าเฉลี่ยและความแปรปรวนเหมือนกัน222 111 แรงจูงใจ:ฉันไม่เห็นด้วยกับคนขี้เกียจบางคนเกี่ยวกับการแจกแจงจริงบางอย่างที่พวกเขาไม่ได้วัดซึ่งพวกเขาคิดว่าใกล้เคียงกับปกติเพราะจะดี ฉันก็ขี้เกียจเหมือนกัน ฉันไม่ต้องการวัดการกระจายตัวเช่นกัน ฉันต้องการที่จะบอกว่าสมมติฐานของพวกเขานั้นไม่สอดคล้องกันเพราะพวกเขาบอกว่าการผสมผสานอัน จำกัด ของ Gaussians ด้วยวิธีการที่แตกต่างกันคือ Gaussian ซึ่งไม่ถูกต้อง ฉันไม่อยากจะบอกว่ารูปร่างของหางนั้นผิดเพราะสิ่งเหล่านี้เป็นเพียงการประมาณซึ่งควรจะมีความแม่นยำพอสมควรภายในค่าเบี่ยงเบนมาตรฐานของค่าเฉลี่ย ฉันอยากจะบอกว่าถ้าส่วนประกอบมีการประมาณค่าปกติจากการแจกแจงปกติแล้วส่วนผสมไม่ได้และฉันต้องการที่จะหาปริมาณนี้ L1L1L^12221/41/41/4

1
ฟังก์ชั่นระยะทางที่ดีที่สุดสำหรับบุคคลคืออะไรเมื่อมีการระบุคุณสมบัติ?
ฉันไม่ทราบว่าฟังก์ชั่นระยะทางระหว่างบุคคลที่จะใช้ในกรณีที่มีคุณสมบัติระบุ (unordered เด็ดขาด) ฉันกำลังอ่านหนังสือเรียนและพวกเขาแนะนำฟังก์ชั่นการจับคู่อย่างง่ายแต่หนังสือบางเล่มแนะนำว่าฉันควรเปลี่ยนชื่อเป็นแอตทริบิวต์ไบนารีและใช้ค่าสัมประสิทธิ์Jaccard อย่างไรก็ตามจะเกิดอะไรขึ้นถ้าค่าของแอตทริบิวต์ที่ระบุไม่ใช่ 2 เกิดอะไรขึ้นถ้ามีค่าสามหรือสี่ค่าในแอตทริบิวต์นั้น ฉันควรใช้ฟังก์ชันระยะทางใดสำหรับคุณลักษณะที่ระบุ

2
ทฤษฎีบทของ Mercer ทำงานในสิ่งที่ตรงกันข้ามหรือไม่?
เพื่อนร่วมงานที่มีฟังก์ชั่นและสำหรับวัตถุประสงค์ของเรามันเป็นกล่องดำ ฟังก์ชั่นวัดความคล้ายคลึงของสองวัตถุs ( , B )ssss ( a , b )s(a,b)s(a,b) เรารู้แน่ว่ามีคุณสมบัติเหล่านี้:sss คะแนนความคล้ายคลึงกันคือตัวเลขจริงระหว่าง 0 ถึง 1 รวม เฉพาะวัตถุที่เหมือนตัวเองเท่านั้นที่มีคะแนน 1 ดังนั้นหมายถึงและในทางกลับกันa = bs ( a , b ) = 1s(a,b)=1s(a,b)=1a = ba=ba=b เราจะรับประกันว่า(ขก)s ( a , b ) = s ( b , a )s(a,b)=s(b,a)s(a,b) = s(b,a) ตอนนี้เขาต้องการทำงานกับอัลกอริธึมที่ต้องการระยะทางเป็นอินพุทและขึ้นอยู่กับอินพุตที่ตอบสนองความจริงของระยะทาง ความคิดของฉันคือเราสามารถรักษาคะแนนความคล้ายคลึงกันราวกับว่าพวกเขาเป็นผลมาจากเคอร์เนล RBF ที่มีระยะทาง …

2
ระยะทางระหว่างตัวแปรที่ทำเมทริกซ์ความแปรปรวนร่วมคืออะไร
ฉันมีเมทริกซ์ความแปรปรวนร่วมและต้องการแบ่งพาร์ติชันตัวแปรเป็นกลุ่มโดยใช้การจัดกลุ่มแบบลำดับชั้น (ตัวอย่างเช่นเพื่อเรียงลำดับเมทริกซ์ความแปรปรวนร่วม)n×nn×nn \times nkkk มีฟังก์ชั่นระยะทางทั่วไประหว่างตัวแปร (เช่นระหว่างคอลัมน์ / แถวของเมทริกซ์ความแปรปรวนร่วมสี่เหลี่ยม) หรือไม่ หรือถ้ามีมากขึ้นมีการอ้างอิงที่ดีในหัวข้อ?

3
ระยะทางที่จะใช้? เช่น manhattan, euclidean, Bray-Curtis เป็นต้น
ฉันไม่ใช่นักนิเวศวิทยาชุมชน แต่วันนี้ฉันกำลังทำงานกับข้อมูลนิเวศวิทยาชุมชน สิ่งที่ฉันไม่เข้าใจนอกเหนือจากคณิตศาสตร์ของระยะทางเหล่านี้คือเกณฑ์สำหรับแต่ละระยะทางที่จะใช้และในสถานการณ์ที่สามารถนำไปใช้ได้ ตัวอย่างเช่นจะใช้กับข้อมูลการนับอย่างไร จะแปลงมุมความชันระหว่างสองตำแหน่งเป็นระยะทางได้อย่างไร หรืออุณหภูมิหรือปริมาณน้ำฝนที่สองสถานที่? สมมติฐานสำหรับแต่ละระยะทางคืออะไรและเมื่อใดที่เหมาะสม

4
การแปรปรวนเวลาแบบไดนามิกสำหรับอนุกรมเวลาที่ผิดปกติ
ฉันได้อ่านเกี่ยวกับ Dynamic Time Warping (DTW) เมื่อไม่นานมานี้ ฉันประหลาดใจมากที่ไม่มีวรรณกรรมเลยในการใช้ DTW กับซีรี่ย์เวลาที่ผิดปกติหรืออย่างน้อยฉันก็หาไม่เจอ ใครช่วยให้ฉันอ้างอิงถึงบางสิ่งที่เกี่ยวข้องกับปัญหานั้นหรือแม้กระทั่งการใช้งานได้หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.