ความสัมพันธ์ของระยะทางกับข้อมูลร่วมกัน


15

ฉันทำงานกับข้อมูลร่วมกันมาระยะหนึ่งแล้ว แต่ฉันพบว่ามีการวัดล่าสุดใน "โลกแห่งความสัมพันธ์" ที่สามารถใช้เพื่อวัดความเป็นอิสระของการกระจายตัวที่เรียกว่า "ระยะทางสหสัมพันธ์" (หรือเรียกอีกอย่างว่าความสัมพันธ์ Brownian): http://en.wikipedia.org/wiki/Brownian_covariance . ฉันตรวจสอบเอกสารที่มีการใช้มาตรการนี้ แต่ไม่พบการพาดพิงถึงข้อมูลร่วมกัน

ดังนั้นคำถามของฉันคือ:

  • พวกเขาแก้ปัญหาเดียวกันได้หรือไม่? ถ้าไม่ปัญหาต่างกันอย่างไร?
  • และหากคำถามก่อนหน้านี้สามารถตอบคำถามในเชิงบวกข้อดีของการใช้อย่างใดอย่างหนึ่งคืออะไร

พยายามเขียน 'ความสัมพันธ์ของระยะทาง' และ 'ข้อมูลร่วม' อย่างชัดเจนสำหรับตัวอย่างง่ายๆ ในกรณีที่สองคุณจะได้ลอการิทึมในขณะที่ในครั้งแรก - ไม่
Piotr Migdal

@PiotrMigdal ใช่ฉันรู้ถึงความแตกต่างนั้น คุณช่วยอธิบายได้ไหมว่าทำไมมันถึงสำคัญ โปรดพิจารณาว่าฉันไม่ใช่นักสถิติ ...
dsign

สำหรับเครื่องมือมาตรฐานที่ใช้วัดการพึ่งพาซึ่งกันและกันของการแจกแจงความน่าจะเป็นเป็นข้อมูลร่วมกัน มันมีคุณสมบัติที่ดีมากมายและการตีความก็ตรงไปตรงมา อย่างไรก็ตามอาจมีปัญหาเฉพาะที่ต้องการความสัมพันธ์กับระยะทาง (แต่ฉันไม่เคยใช้มันมาก่อนในชีวิต) ดังนั้นปัญหาที่คุณพยายามแก้ไขคืออะไร
Piotr Migdal

2
ความคิดเห็นนี้ไม่กี่ปีที่ผ่านมา แต่แผนกสถิติมหาวิทยาลัยโคลัมเบียทำปีการศึกษา 2556-2557 ต่อปีของการมุ่งเน้นไปที่มาตรการการพึ่งพา ในเดือนเมษายนถึงพฤษภาคม 2014 มีการจัดประชุมเชิงปฏิบัติการที่รวบรวมนักวิชาการชั้นนำที่ทำงานในสาขานี้รวมถึง Reshef Brothers (MIC), Gabor Szekely (สหสัมพันธ์ระยะทาง) Subhadeep Mukhopadhay เพื่อบอกชื่อไม่กี่คน นี่คือลิงค์ไปยังโปรแกรมที่มีไฟล์ PDF จำนวนมากจากงานนำเสนอ dependence2013.wikischolars.columbia.edu/…
ไมค์ฮันเตอร์

คำตอบ:


9

ข้อมูล / ข้อมูลร่วมไม่ได้ขึ้นอยู่กับค่าที่เป็นไปได้มันขึ้นอยู่กับความน่าจะเป็นเท่านั้นดังนั้นจึงมีความอ่อนไหวน้อยกว่า ความสัมพันธ์ของระยะทางมีประสิทธิภาพมากขึ้นและง่ายต่อการคำนวณ สำหรับการเปรียบเทียบดู

http://www-stat.stanford.edu/~tibs/reshef/comment.pdf


2
สวัสดีขอบคุณสำหรับคำตอบของคุณ! กระดาษที่คุณอ้างถึงเป็นเรื่องเกี่ยวกับ MIC ซึ่งฉันเชื่อว่าเป็นอะไรที่มากกว่า MI ฉันใช้การวัดความสัมพันธ์ของระยะทางและฉันไม่คิดว่าจะง่ายกว่า MI สำหรับกรณีองค์ประกอบของตัวแปรหมวดหมู่แบบแยก จากนั้นอีกสิ่งหนึ่งที่ฉันได้เรียนรู้คือ DCM นั้นถูกนิยามไว้อย่างดีและมีความประพฤติดีสำหรับตัวแปรต่อเนื่อง แต่ด้วย MI คุณจำเป็นต้องทำ binning หรือสิ่งต่าง ๆ ที่สวยงาม ala MIC
dsign

3
อย่างไรก็ตาม DCM ดูเหมือนจะต้องการเมทริกซ์จตุรัสซึ่งด้านคือจำนวนตัวอย่าง กล่าวอีกนัยหนึ่งความซับซ้อนของพื้นที่ปรับขนาดเป็นสองส่วน หรืออย่างน้อยก็เป็นความประทับใจของฉันฉันอยากจะผิดพลาด MIC ทำได้ดีกว่าเพราะคุณสามารถปรับแต่งมันได้ในรูปแบบของการประนีประนอมระหว่างความแม่นยำและประสิทธิภาพ
dsign
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.