ทำความเข้าใจเกี่ยวกับการคำนวณความสัมพันธ์ระยะทาง


15

เท่าที่ฉันเข้าใจความสัมพันธ์ของระยะทางเป็นวิธีที่มีประสิทธิภาพและเป็นสากลในการตรวจสอบว่ามีความสัมพันธ์ระหว่างตัวแปรตัวเลขสองตัวหรือไม่ ตัวอย่างเช่นหากเรามีชุดจำนวนคู่:

(x1, y1)
(x2, y2)
...
(xn, yn)

เราสามารถใช้ความสัมพันธ์ของระยะทางเพื่อตรวจสอบว่ามีความสัมพันธ์ใด ๆ (ไม่จำเป็นต้องเป็นเชิงเส้น) ระหว่างตัวแปรสองตัว ( xและy) ยิ่งกว่านั้นxและyสามารถเป็นเวกเตอร์ที่มีขนาดต่างกัน

มันค่อนข้างง่ายในการคำนวณความสัมพันธ์ของระยะทาง ก่อนอื่นเราใช้xผมในการคำนวณระยะทางเมทริกซ์ จากนั้นเราจะคำนวณเมทริกซ์ระยะทางโดยใช้yผมฉัน เมทริกซ์ระยะทางทั้งสองจะมีขนาดเท่ากันเนื่องจากจำนวนxผมและyผมเท่ากัน (เพราะมาเป็นคู่)

ตอนนี้เรามีระยะทางมากมายที่สามารถจับคู่ได้ ตัวอย่างเช่นองค์ประกอบ(2,3)จากเมทริกซ์ระยะทางแรกถูกจับคู่กับองค์ประกอบ(2,3)จากเมทริกซ์ระยะทางที่สอง ดังนั้นเรามีชุดของระยะทางคู่หนึ่งและเราสามารถใช้มันเพื่อคำนวณความสัมพันธ์ (ความสัมพันธ์ระหว่างระยะทาง)

หากระยะทางสองประเภทนั้นมีความสัมพันธ์กันมากกว่าที่หมายความว่า close Xs มักจะหมายถึง close Ys ตัวอย่างเช่นถ้าใกล้เคียงกับx 13มากกว่านั่นหมายความว่าy 7น่าจะใกล้เคียงกับy 13x7x13Y7Y13 13ดังนั้นเราสามารถสรุปได้ว่า Xs และ Ys ขึ้นอยู่กับ

ฟังดูสมเหตุสมผล แต่มีสองด้านที่ผมไม่เข้าใจ

อันดับแรกเพื่อคำนวณความสัมพันธ์ของระยะทางเราไม่ได้ใช้เมทริกซ์ระยะทางสองตัวโดยตรง เราใช้กับพวกเขาสองขั้นตอนกลาง (เพื่อให้ผลรวมขององค์ประกอบทั้งหมดในแถวใด ๆ (หรือคอลัมน์) เท่ากับศูนย์) ฉันไม่เข้าใจว่าทำไมเราต้องทำ ตรรกะ (หรือสัญชาตญาณ) คืออะไรที่อยู่เบื้องหลังขั้นตอนนี้

ประการที่สองในเมทริกซ์ระยะทางดั้งเดิมเรามีเลขศูนย์บนเส้นทแยงมุม ดังนั้นหากเราคำนวณความสัมพันธ์ระหว่างระยะทางเราจะมีความสัมพันธ์อย่างมีนัยสำคัญทางสถิติเพียงเพราะศูนย์จำนวนมากจากเมทริกซ์แรกถูกจับคู่กับศูนย์ที่สอดคล้องกันในเมทริกซ์ที่สอง ปัญหานี้แก้ไขได้อย่างไร?

คำตอบ:


16

ระยะทางความแปรปรวนร่วม / สหสัมพันธ์ (= ความแปรปรวนร่วม Brownian / ความสัมพันธ์) คำนวณในขั้นตอนต่อไปนี้:

  1. เมทริกซ์ Compute ของระยะทางแบบยุคลิดระหว่างNกรณีโดยตัวแปรและอีกเช่นเดียวกันเมทริกซ์โดยตัวแปรY คุณลักษณะเชิงปริมาณใด ๆ ของทั้งสองอย่างคือXหรือYอาจเป็นหลายตัวแปรไม่ใช่เพียงแค่ตัวแปรเดียวXYXY
  2. ดำเนินการอยู่ตรงกลางของแต่ละเมทริกซ์ ดูว่าปกติการจัดกึ่งกลางสองครั้งจะทำอย่างไร อย่างไรก็ตามในกรณีของเราเมื่อทำเช่นนั้นจะไม่ทำให้ระยะห่างเริ่มต้นเป็นสองเท่าและไม่หารด้วย2ในที่สุด แถว, ค่าเฉลี่ยคอลัมน์และค่าเฉลี่ยโดยรวมขององค์ประกอบกลายเป็นศูนย์
  3. คูณเมทริกซ์เมทริกซ์สองตัวคูณกันและคำนวณผลรวม หรือเท่ากันให้ดึงเมทริกซ์ออกเป็นสองคอลัมน์เวกเตอร์และคำนวณผลรวมข้ามของมัน
  4. N^2โดยเฉลี่ยแล้วหารด้วยจำนวนขององค์ประกอบที่
  5. ใช้รากที่สอง ผลที่ได้คือความแปรปรวนทางไกลระหว่างและYXY
  6. ความแปรปรวนของระยะทางคือความแปรปรวนร่วมระยะทางของ , Y ที่มีองค์ประกอบของตัวเองคุณคำนวณพวกมันเช่นเดียวกันจุด 3-4-5XY
  7. ความสัมพันธ์ของระยะทางนั้นได้มาจากตัวเลขสามตัวในทำนองเดียวกันว่าความสัมพันธ์ของเพียร์สันนั้นได้มาจากความแปรปรวนร่วมแบบปกติและคู่ของความแปรปรวน

ความแปรปรวนทางไกล (และความสัมพันธ์) ไม่ใช่ความแปรปรวนร่วม (หรือความสัมพันธ์) ระหว่างระยะทาง มันเป็นความแปรปรวนร่วม (สหสัมพันธ์) ระหว่างผลิตภัณฑ์สเกลาร์พิเศษ(ผลิตภัณฑ์ดอท) ซึ่งเมทริกซ์ "กึ่งกลาง" ประกอบด้วย

ในอวกาศแบบยุคลิดผลิตภัณฑ์สเกลาร์นั้นมีความคล้ายคลึงกันโดยไม่ผูกติดกันกับระยะทางที่สอดคล้องกัน หากคุณมีสองจุด (เวกเตอร์) คุณอาจแสดงความใกล้ชิดของพวกเขาเป็นผลิตภัณฑ์สเกลาร์แทนที่จะเป็นระยะทางโดยไม่สูญเสียข้อมูล

อย่างไรก็ตามในการคำนวณผลิตภัณฑ์สเกลาร์คุณต้องอ้างถึงจุดกำเนิดของช่องว่าง (เวกเตอร์มาจากจุดกำเนิด) โดยทั่วไปแล้วคน ๆ หนึ่งสามารถวางต้นกำเนิดในที่ที่เขาชอบ แต่บ่อยครั้งและสะดวกสบายคือวางไว้ที่กึ่งกลางทางเรขาคณิตของก้อนเมฆของคะแนน เนื่องจากค่าเฉลี่ยอยู่ในพื้นที่เดียวกับเมฆที่ถูกขยายออกมิติจึงไม่ขยายออก

ทีนี้การที่ศูนย์กลางของเมทริกซ์ระยะทางสองเท่าปกติ (ระหว่างจุดของคลาวด์) คือการทำงานของการแปลงระยะทางไปยังผลิตภัณฑ์สเกลาร์ในขณะที่วางต้นกำเนิดที่จุดกึ่งกลางทางเรขาคณิตนั้น ในการทำเช่นนั้น "เครือข่าย" ของระยะทางจะถูกแทนที่ด้วย "การระเบิด" ของเวกเตอร์ซึ่งมีความยาวและมุมที่กำหนดเป็นคู่จากแหล่งกำเนิด:

ป้อนคำอธิบายรูปภาพที่นี่

[กลุ่มดาวในภาพตัวอย่างของฉันคือระนาบซึ่งบอกว่า "ตัวแปร" บอกว่ามันคือซึ่งสร้างมาเป็นสองมิติ เมื่อXเป็นตัวแปรคอลัมน์เดียวคะแนนทั้งหมดอยู่ในหนึ่งบรรทัดแน่นอน]XX

เพียงเล็กน้อยอย่างเป็นทางการเกี่ยวกับการดำเนินการอยู่ตรงกลางคู่ อนุญาตให้n points x p dimensionsdata (ในกรณี univariate, ) ให้Dเป็นเมทริกซ์ของระยะทางแบบยุคลิดระหว่างจุด ให้Cเป็นXโดยมีคอลัมน์อยู่กึ่งกลาง จากนั้นS = double-centered  D 2เท่ากับC C ผลิตภัณฑ์เซนต์คิตส์และเนวิสระหว่างแถวหลังจากกลุ่มเมฆของจุดอยู่กึ่งกลาง คุณสมบัติหลักของการจัดกึ่งกลางคู่คือ1Xp=1Dn x nnCXS=double-centered D2CCและผลรวมเท่ากับผลรวมของเมื่อตะกี้ปิดองค์ประกอบ -diagonal ของS12nD2=trace(S)=trace(CC)S

กลับไปที่ความสัมพันธ์ของระยะทาง เรากำลังทำอะไรเมื่อเราคำนวณความแปรปรวนทางไกล เราได้แปลงอวนระยะทางทั้งคู่ให้เป็นพาหะที่สอดคล้องกัน จากนั้นเราคำนวณความแปรปรวนร่วม (และความสัมพันธ์ต่อกัน) ระหว่างค่าที่สอดคล้องกันของทั้งสองกลุ่ม: ค่าผลิตภัณฑ์เซนต์คิตส์และเนวิส (ค่าระยะทางก่อนหน้า) ของการกำหนดค่าหนึ่งจะถูกคูณด้วยหนึ่งในการกำหนดค่าอื่น ๆ ที่สามารถมองเห็นได้เป็น (ดังที่ได้กล่าวไว้ในจุดที่ 3) การคำนวณความแปรปรวนร่วมแบบปกติระหว่างสองตัวแปรหลังจาก vectorizing เมทริกซ์สองตัวใน "ตัวแปร" เหล่านั้น

ดังนั้นเรากำลังแปรสภาพความคล้ายคลึงกันสองชุด (ผลิตภัณฑ์สเกลาร์ซึ่งเป็นระยะทางที่ถูกแปลงสภาพ) ความแปรปรวนร่วมใด ๆ ก็คือผลคูณของช่วงเวลา: คุณต้องคำนวณช่วงเวลาเหล่านั้น, การเบี่ยงเบนจากค่าเฉลี่ย, อันดับแรก - และการจัดกึ่งกลางสองครั้งเป็นการคำนวณนั้น นี่คือคำตอบสำหรับคำถามของคุณ: ความแปรปรวนร่วมต้องขึ้นอยู่กับช่วงเวลา แต่ระยะทางไม่ใช่ระยะเวลา

การเอาสแควร์รูทมาเพิ่มเติม (จุดที่ 5) ดูสมเหตุสมผลเพราะในกรณีของเราช่วงเวลานั้นเป็นความแปรปรวนร่วม (ผลิตภัณฑ์สเกลาร์และความแปรปรวนร่วมเป็นโครงสร้างเชิงซ้อน ) และมันก็มาถึงคุณด้วยความแปรปรวนร่วมคูณสองครั้ง ดังนั้นเพื่อที่จะสืบย้อนกลับไปที่ระดับของค่าของข้อมูลดั้งเดิม (และเพื่อให้สามารถคำนวณค่าสหสัมพันธ์) ได้จะต้องทำการรูทในภายหลัง

สิ่งสำคัญอย่างหนึ่งที่ควรทราบในที่สุดก็ควรจะไป ถ้าเราทำสองวิธีที่กึ่งกลางแบบคลาสสิกนั่นคือหลังจากยกกำลังระยะทางแบบยุคลิด - แล้วเราก็จะจบลงด้วยความแปรปรวนแบบระยะทางที่ไม่ใช่ความแปรปรวนแบบระยะทางที่แท้จริงและไม่มีประโยชน์ มันจะปรากฏว่าลดลงเป็นปริมาณที่เกี่ยวข้องกับความแปรปรวนปกติ (และความสัมพันธ์ระยะทางจะเป็นหน้าที่ของสหสัมพันธ์เชิงเส้นเพียร์สัน) สิ่งที่ทำให้ความแปรปรวนร่วมระยะทาง / ความสัมพันธ์ที่ไม่ซ้ำกันและมีความสามารถในการวัดไม่ได้เชื่อมโยงเชิงเส้น แต่เป็นรูปแบบทั่วไปของการพึ่งพาดังนั้น dCov = 0 ถ้าหากเฉพาะตัวแปรที่เป็นอิสระ - คือการขาดการยกกำลังสองระยะทาง จุดที่ 2) ที่จริงแล้วพลังใด ๆ ของระยะทางในช่วงจะทำอย่างไรรูปแบบมาตรฐานคือทำในอำนาจที่1 ทำไมอำนาจนี้และไม่ใช่กำลัง 2ช่วยให้สัมประสิทธิ์กลายเป็นตัวชี้วัดของการพึ่งพาซึ่งกันและกันแบบไม่เชิงเส้นเป็นปัญหาทางคณิตศาสตร์ที่ยากลำบาก (สำหรับฉัน) ที่แสดงถึงลักษณะหน้าที่ของการแจกแจงและฉันอยากจะได้ยินใครบางคน ความแปรปรวนร่วม / มีความสัมพันธ์กับคำง่าย ๆ (ฉันเคยลองไม่ประสบความสำเร็จ)(0,2)12


โดย "summed cross product" ในขั้นตอนที่ 3 คุณหมายถึงผลิตภัณฑ์สเกลาร์ปกติหรือไม่?
kram1032

1
@ kram1032, ใช่ scp และผลิตภัณฑ์ scalar เป็นคำพ้องstats.stackexchange.com/a/22520/3277
ttnphns

8

ฉันคิดว่าคำถามของคุณทั้งสองเชื่อมโยงกันอย่างลึกซึ้ง ในขณะที่ diagonals ดั้งเดิมในเมทริกซ์ระยะทางคือ 0 สิ่งที่ใช้สำหรับความแปรปรวนร่วม (ซึ่งกำหนดตัวเศษของสหสัมพันธ์) คือค่ากึ่งกลางของระยะทางทวีคูณ - ซึ่งสำหรับเวกเตอร์ที่มีการแปรผันหมายความว่า diagonals จะเป็น เชิงลบ

งั้นลองดูกรณีอิสระอย่างง่ายและดูว่ามันช่วยให้เรามีสัญชาตญาณว่าเหตุใดความสัมพันธ์เป็น 0 เมื่อตัวแปรสองตัวนั้นเป็นอิสระ

(X,Y)=[(0,0),(0,1),(1,0),(1,1)]

XY

a=[0011001111001100]

b=[0101101001011010]

A

A=[.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5]

B=[.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5]

.5.5=.25.5.5=.25.5.5=.250

0และถ้าความสัมพันธ์ของระยะทางเป็น 0 ดังนั้นตัวแปรมีความเป็นอิสระ (หลักฐานการอ้างสิทธิ์ทั้งสองสามารถพบได้ในรายงานฉบับปี 2550ที่นำเสนอความสัมพันธ์ของระยะทาง)

ฉันพบว่าใช้งานง่ายที่การอยู่ตรงกลางสร้างคุณสมบัติที่ต้องการนี้ (นั่น 0มีความสำคัญเป็นพิเศษ) หากเราเพิ่งนำค่าเฉลี่ยของผลคูณองค์ประกอบที่ฉลาดของa และ เราจะต้องจบลงด้วย 0.25และมันจะต้องใช้ความพยายามบางอย่างเพื่อตรวจสอบว่าหมายเลขนี้สอดคล้องกับความเป็นอิสระ การใช้ "Mean" เชิงลบเป็นวิธีการแนวทแยงที่ได้รับการดูแลตามธรรมชาติ แต่คุณอาจต้องการคิดว่าเพราะเหตุใดการจัดกึ่งกลางสองครั้งจึงมีคุณสมบัตินี้: มันจะใช้การจัดกึ่งกลางเดี่ยว (เช่นแถว, คอลัมน์, หรือค่าเฉลี่ยใหญ่) เราไม่สามารถปรับระยะทางจริง ๆ และตั้งค่าเส้นทแยงมุมเป็นลบของผลรวมของแถวผลรวมคอลัมน์หรือผลรวมทั้งหมดได้หรือไม่

(ตามที่ ttnphns ชี้ให้เห็นด้วยตัวมันเองมันไม่เพียงพอในขณะที่พลังยังมีความสำคัญเราสามารถทำสองเท่ากัน แต่ถ้าเราเพิ่มพวกเขาในพื้นที่สี่เหลี่ยมจัตุรัสเราจะสูญเสียถ้าและเพียงถ้าทรัพย์สิน)


1
คุณจะรังเกียจไหมถ้าฉันแก้ไขเมทริกซ์ในคำตอบนี้
shadowtalker

@ssdecontrol ขอบคุณสำหรับข้อเสนอ! ฉันผ่านและทำด้วยตัวเอง แต่อย่าลังเลที่จะทำการเปลี่ยนแปลงการจัดรูปแบบอื่น ๆ
Matthew Graves

1
ฉันไม่เข้าใจสิ่งที่คุณหมายถึง "คนเดียว" ในกรณีนี้ (มันคือสิ่งที่ Mattew กล่าวหรืออื่น ๆ ?) อะไรคือสิ่งที่ลึกลับจริงๆ / สำคัญกับผม (ที่ผมแสดงไว้ในส่วนท้ายของคำตอบของฉัน) เป็นทำไม ( ตามหลักวิชา) เมื่อเราทำการจัดกึ่งกลางสองครั้งโดยไม่ยกกำลังสองระยะทางก่อนอื่นเราจะช่วยให้ dCov มีคุณสมบัติที่เป็นเอกลักษณ์และมีประโยชน์
ttnphns

1
@ttnphns: By single centering I meant subtracting grand mean from each distance value. In any case, I agree that distance covariance is mysterious.
amoeba says Reinstate Monica

1
@amoeba i wish the authors would write a follow-up with some kind of intuitive explanation and an efficient implementation for multiple pairs of variables. It's closing in on a decade since their original paper and distance covariance is still mostly just a quixotic diversion for grad students. the only time I've ever seen it used in practice was in a then-unimplemented feature in Stan to diagnose MC chains
shadowtalker
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.