ระยะทางที่จะใช้? เช่น manhattan, euclidean, Bray-Curtis เป็นต้น


11

ฉันไม่ใช่นักนิเวศวิทยาชุมชน แต่วันนี้ฉันกำลังทำงานกับข้อมูลนิเวศวิทยาชุมชน

สิ่งที่ฉันไม่เข้าใจนอกเหนือจากคณิตศาสตร์ของระยะทางเหล่านี้คือเกณฑ์สำหรับแต่ละระยะทางที่จะใช้และในสถานการณ์ที่สามารถนำไปใช้ได้ ตัวอย่างเช่นจะใช้กับข้อมูลการนับอย่างไร จะแปลงมุมความชันระหว่างสองตำแหน่งเป็นระยะทางได้อย่างไร หรืออุณหภูมิหรือปริมาณน้ำฝนที่สองสถานที่? สมมติฐานสำหรับแต่ละระยะทางคืออะไรและเมื่อใดที่เหมาะสม


วิธีที่เชื่อถือได้เพื่อทำความเข้าใจตัวชี้วัดระยะทางสมมติฐานความหมายและการบังคับใช้ของพวกเขาคือการทำสมาธิในสูตรของพวกเขา คุณรู้ไหมว่ากายวิภาคเปรียบเทียบช่วยให้สามารถทำนายได้ว่าสัตว์ต่าง ๆ มีชีวิตและมีพฤติกรรมอย่างไร นอกจากนี้อ่านหนังสือ / บทความเกี่ยวกับการวัดระยะทาง
ttnphns

2
หมายเหตุคนหยาบคาย: Bray – Curtis ไม่ใช่ระยะทาง แต่เป็นความแตกต่าง
Franck Dernoncourt

คำตอบ:


13

น่าเสียดายที่ในสถานการณ์ส่วนใหญ่ไม่มีคำตอบที่ชัดเจนสำหรับคำถามของคุณ นั่นคือสำหรับแอปพลิเคชันใดก็ตามมีตัวชี้วัดระยะทางจำนวนมากซึ่งจะให้คำตอบที่เหมือนกันและแม่นยำ เมื่อพิจารณาว่ามีการใช้เมตริกระยะทางที่ถูกต้องหลายสิบและร้อยอาจเป็นไปได้แนวคิดที่ว่าคุณสามารถค้นหาระยะทาง "ถูกต้อง" ไม่ใช่วิธีที่มีประสิทธิผลในการคิดเกี่ยวกับปัญหาในการเลือกตัวชี้วัดระยะทางที่เหมาะสม

ฉันจะมุ่งเน้นที่จะไม่เลือกการวัดระยะทางที่ผิด คุณต้องการให้ระยะทางของคุณสะท้อน "ขนาดเต็ม" (ตัวอย่างเช่นคุณสนใจที่จะใช้ระยะทางในการระบุหุ้นที่มีค่าเฉลี่ยใกล้เคียงกัน) หรือเพื่อสะท้อนรูปร่างโดยรวมของการตอบสนอง (เช่นราคาหุ้นที่ผันผวนในช่วงเวลาเดียวกัน) แต่อาจมีค่าดิบแตกต่างกันอย่างสิ้นเชิง) สถานการณ์ในอดีตจะบ่งบอกถึงระยะทางเช่นแมนฮัตตันและยุคลิดในขณะที่หลังจะระบุระยะทางสหสัมพันธ์เช่น

หากคุณรู้ว่าโครงสร้างความแปรปรวนร่วมของข้อมูลของคุณระยะทาง Mahalanobis น่าจะเหมาะสมกว่า สำหรับข้อมูลเชิงหมวดหมู่ล้วนมีระยะทางที่เสนอมากมายเช่นระยะทางที่ตรงกัน สำหรับระยะทางที่หลากหลายและต่อเนื่องของโกเวอร์นั้นเป็นที่นิยม (แม้ว่าฉันจะไม่พอใจในความคิดของฉัน)

ในที่สุดฉันคิดว่าการวิเคราะห์ของคุณจะแข็งแกร่งขึ้นหากคุณแสดงให้เห็นว่าผลลัพธ์และข้อสรุปของคุณมีความแข็งแกร่งต่อการเลือกตัวชี้วัดระยะทาง (ภายในชุดย่อยของระยะทางที่เหมาะสมแน่นอน) หากการวิเคราะห์ของคุณเปลี่ยนไปอย่างมากเมื่อมีการเปลี่ยนแปลงเล็กน้อยในการวัดระยะทางที่ใช้ควรทำการศึกษาเพิ่มเติมเพื่อระบุสาเหตุของความไม่สอดคล้องกัน


1
คุณหมายถึงcorrelation distanceอะไร 1- R ?
ttnphns

1
1-Rρ[-1,1]โอs-1(ρ)1-ρ2-2ρพีRaเสื้อผมอี

การอ้างอิงสำหรับความคิดเห็นล่าสุดของฉัน: Krzanowski (1983) Biometrika, 70 (1), 235--243 ดูหน้า 236
ahfoss

1
โอเคขอบคุณ. โปรดตรวจสอบคำตอบนี้ด้วย มันตรงกับความจริงที่ว่าrสัมพันธ์กับระยะทางแบบยุคลิดที่ได้จากข้อมูลมาตรฐาน (โปรไฟล์ถูกเปรียบเทียบ) ซึ่งเป็นreflect overall shape of the responseคำพูดของคุณ
ttnphns

1
โพสต์ที่ดี ตัวชี้วัดทั้งสองนั้นมีความเกี่ยวข้องกันอย่างแท้จริงเมื่อคุณชี้ให้เห็น เพื่อให้บริบทของคุณชี้ไปที่การสนทนาปัจจุบันความแตกต่างที่สำคัญคือในตัวแปรระยะทางแบบยุคลิดไม่ได้อยู่กึ่งกลาง ดังนั้นความสัมพันธ์จึงไม่แปรเปลี่ยนกับการแปลงเชิงเส้นในขณะที่ระยะทางแบบยุคลิดไม่จำเป็นต้องเป็น
ahfoss

6

การเลือกระยะทางที่ถูกต้องไม่ใช่งานเบื้องต้น เมื่อเราต้องการทำการวิเคราะห์แบบกลุ่มบนชุดข้อมูลผลลัพธ์ที่แตกต่างกันอาจปรากฏขึ้นโดยใช้ระยะทางที่แตกต่างกันดังนั้นจึงเป็นเรื่องสำคัญมากที่จะต้องระมัดระวังในการเลือกระยะทางเพราะเราสามารถสร้างสิ่งประดิษฐ์ที่ดีที่จับความแปรปรวนได้ดี ความรู้สึกในปัญหาของเรา

ยุคลิดระยะที่เหมาะสมเมื่อฉันมีตัวแปรที่เป็นตัวเลขอย่างต่อเนื่องและฉันต้องการที่จะสะท้อนให้เห็นถึงระยะทางที่แน่นอน ระยะนี้คำนึงถึงทุกตัวแปรและไม่ลบความซ้ำซ้อนดังนั้นถ้าฉันมีสามตัวแปรที่อธิบายเหมือนกัน (มีความสัมพันธ์กัน) ฉันจะให้น้ำหนักกับเอฟเฟกต์นี้สามครั้ง ยิ่งไปกว่านั้นระยะทางนี้ไม่ใช่ค่าคงที่ขนาดดังนั้นโดยทั่วไปฉันต้องปรับขนาดก่อนหน้านี้เพื่อใช้ระยะทาง
ตัวอย่างนิเวศวิทยา: เรามีข้อสังเกตที่แตกต่างจากหลายท้องที่ซึ่งผู้เชี่ยวชาญได้นำตัวอย่างของปัจจัยทางจุลชีววิทยาร่างกายและเคมี เราต้องการค้นหารูปแบบในระบบนิเวศ ปัจจัยเหล่านี้มีความสัมพันธ์สูง แต่เรารู้ว่าทุกคนมีความเกี่ยวข้องดังนั้นเราจึงไม่ต้องการลบความซ้ำซ้อนเหล่านี้ออก เราใช้ระยะทางแบบยุคลิดกับข้อมูลสเกลเพื่อหลีกเลี่ยงผลกระทบของหน่วย

Mahalanobisระยะที่เหมาะสมเมื่อฉันมีตัวแปรที่เป็นตัวเลขอย่างต่อเนื่องและฉันต้องการที่จะสะท้อนให้เห็นถึงระยะทางที่แน่นอน แต่เราต้องการที่จะลบความซ้ำซ้อน หากเรามีตัวแปรซ้ำ ๆ ผลซ้ำ ๆ ของพวกเขาจะหายไป

ครอบครัวHellinger , โปรไฟล์ชี่และระยะคอร์ดมีความเหมาะสมเมื่อเราต้องการที่จะให้ความสำคัญกับความแตกต่างระหว่างตัวแปรเมื่อเราต้องการที่จะแยกความแตกต่างโปรไฟล์ ระยะทางเหล่านี้มีน้ำหนักตามปริมาณรวมของการสังเกตแต่ละครั้งในลักษณะที่ระยะทางมีขนาดเล็กเมื่อตัวแปรโดยตัวแปรแต่ละคนมีความคล้ายคลึงกันมากขึ้นแม้ว่าในขนาดที่แน่นอนแตกต่างกันมาก ระวัง! ระยะทางเหล่านี้สะท้อนความแตกต่างระหว่างโปรไฟล์ได้ดีมาก แต่สูญเสียเอฟเฟ็กต์ขนาด มันอาจมีประโยชน์มากเมื่อเรามีขนาดตัวอย่างที่แตกต่างกัน
ตัวอย่างนิเวศวิทยา: เราต้องการศึกษาสัตว์ในหลาย ๆ พื้นที่และเรามีเมทริกซ์ข้อมูลของรายการของหอยทาก (สถานที่สุ่มตัวอย่างในแถวและชื่อสปีชีส์ในคอลัมน์) เมทริกซ์นั้นมีลักษณะเป็นศูนย์โดยมีค่าเป็นศูนย์และมีขนาดต่างกันเพราะบางพื้นที่มีสปีชีส์บางแห่งและสปีชีส์อื่นมีสปีชีส์อื่น เราสามารถใช้ระยะทาง Hellinger

Bray-Curtisค่อนข้างคล้ายกัน แต่จะเหมาะสมกว่าเมื่อเราต้องการแยกความแตกต่างของโปรไฟล์และคำนึงถึงขนาดสัมพัทธ์


ขอบคุณสำหรับความแตกต่างกรณีการใช้งานและตัวอย่าง พบว่าสิ่งนี้มีประโยชน์มากในการประยุกต์ใช้กับรูปแบบการจัดหมวดหมู่อากาศ
S3DEV

4

เกี่ยวกับระยะทางแมนฮัตตัน: ลิตรลีโอนาร์ดและปีเตอร์เจรูสซียู "การค้นหากลุ่มในข้อมูล: การวิเคราะห์คลัสเตอร์เบื้องต้น" (2005)

แนะนำให้ใช้ระยะทางแมนฮัตตันในสถานการณ์เหล่านั้นซึ่งตัวอย่างเช่นความแตกต่างของ 1 ในตัวแปรแรกและ 3 ในตัวแปรที่สองจะเหมือนกับความแตกต่างของ 2 ในตัวแปรแรกและ 2 ในวินาที

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.