ระยะทางความแปรปรวนร่วม / สหสัมพันธ์ (= ความแปรปรวนร่วม Brownian / ความสัมพันธ์) คำนวณในขั้นตอนต่อไปนี้:
- เมทริกซ์ Compute ของระยะทางแบบยุคลิดระหว่าง
N
กรณีโดยตัวแปรและอีกเช่นเดียวกันเมทริกซ์โดยตัวแปรY คุณลักษณะเชิงปริมาณใด ๆ ของทั้งสองอย่างคือXหรือYอาจเป็นหลายตัวแปรไม่ใช่เพียงแค่ตัวแปรเดียวXYXY
- ดำเนินการอยู่ตรงกลางของแต่ละเมทริกซ์ ดูว่าปกติการจัดกึ่งกลางสองครั้งจะทำอย่างไร อย่างไรก็ตามในกรณีของเราเมื่อทำเช่นนั้นจะไม่ทำให้ระยะห่างเริ่มต้นเป็นสองเท่าและไม่หารด้วย−2ในที่สุด แถว, ค่าเฉลี่ยคอลัมน์และค่าเฉลี่ยโดยรวมขององค์ประกอบกลายเป็นศูนย์
- คูณเมทริกซ์เมทริกซ์สองตัวคูณกันและคำนวณผลรวม หรือเท่ากันให้ดึงเมทริกซ์ออกเป็นสองคอลัมน์เวกเตอร์และคำนวณผลรวมข้ามของมัน
N^2
โดยเฉลี่ยแล้วหารด้วยจำนวนขององค์ประกอบที่
- ใช้รากที่สอง ผลที่ได้คือความแปรปรวนทางไกลระหว่างและYXY
- ความแปรปรวนของระยะทางคือความแปรปรวนร่วมระยะทางของ , Y ที่มีองค์ประกอบของตัวเองคุณคำนวณพวกมันเช่นเดียวกันจุด 3-4-5XY
- ความสัมพันธ์ของระยะทางนั้นได้มาจากตัวเลขสามตัวในทำนองเดียวกันว่าความสัมพันธ์ของเพียร์สันนั้นได้มาจากความแปรปรวนร่วมแบบปกติและคู่ของความแปรปรวน
ความแปรปรวนทางไกล (และความสัมพันธ์) ไม่ใช่ความแปรปรวนร่วม (หรือความสัมพันธ์) ระหว่างระยะทาง มันเป็นความแปรปรวนร่วม (สหสัมพันธ์) ระหว่างผลิตภัณฑ์สเกลาร์พิเศษ(ผลิตภัณฑ์ดอท) ซึ่งเมทริกซ์ "กึ่งกลาง" ประกอบด้วย
ในอวกาศแบบยุคลิดผลิตภัณฑ์สเกลาร์นั้นมีความคล้ายคลึงกันโดยไม่ผูกติดกันกับระยะทางที่สอดคล้องกัน หากคุณมีสองจุด (เวกเตอร์) คุณอาจแสดงความใกล้ชิดของพวกเขาเป็นผลิตภัณฑ์สเกลาร์แทนที่จะเป็นระยะทางโดยไม่สูญเสียข้อมูล
อย่างไรก็ตามในการคำนวณผลิตภัณฑ์สเกลาร์คุณต้องอ้างถึงจุดกำเนิดของช่องว่าง (เวกเตอร์มาจากจุดกำเนิด) โดยทั่วไปแล้วคน ๆ หนึ่งสามารถวางต้นกำเนิดในที่ที่เขาชอบ แต่บ่อยครั้งและสะดวกสบายคือวางไว้ที่กึ่งกลางทางเรขาคณิตของก้อนเมฆของคะแนน เนื่องจากค่าเฉลี่ยอยู่ในพื้นที่เดียวกับเมฆที่ถูกขยายออกมิติจึงไม่ขยายออก
ทีนี้การที่ศูนย์กลางของเมทริกซ์ระยะทางสองเท่าปกติ (ระหว่างจุดของคลาวด์) คือการทำงานของการแปลงระยะทางไปยังผลิตภัณฑ์สเกลาร์ในขณะที่วางต้นกำเนิดที่จุดกึ่งกลางทางเรขาคณิตนั้น ในการทำเช่นนั้น "เครือข่าย" ของระยะทางจะถูกแทนที่ด้วย "การระเบิด" ของเวกเตอร์ซึ่งมีความยาวและมุมที่กำหนดเป็นคู่จากแหล่งกำเนิด:
[กลุ่มดาวในภาพตัวอย่างของฉันคือระนาบซึ่งบอกว่า "ตัวแปร" บอกว่ามันคือซึ่งสร้างมาเป็นสองมิติ เมื่อXเป็นตัวแปรคอลัมน์เดียวคะแนนทั้งหมดอยู่ในหนึ่งบรรทัดแน่นอน]XX
เพียงเล็กน้อยอย่างเป็นทางการเกี่ยวกับการดำเนินการอยู่ตรงกลางคู่ อนุญาตให้n points x p dimensions
data (ในกรณี univariate, ) ให้Dเป็นเมทริกซ์ของระยะทางแบบยุคลิดระหว่างจุด ให้Cเป็นXโดยมีคอลัมน์อยู่กึ่งกลาง จากนั้นS = double-centered D 2เท่ากับC C ′ผลิตภัณฑ์เซนต์คิตส์และเนวิสระหว่างแถวหลังจากกลุ่มเมฆของจุดอยู่กึ่งกลาง คุณสมบัติหลักของการจัดกึ่งกลางคู่คือ1Xp=1
Dn x n
n
CXS=double-centered D2CC′และผลรวมเท่ากับผลรวมของเมื่อตะกี้ปิดองค์ประกอบ -diagonal ของS12n∑D2=trace(S)=trace(C′C)S
กลับไปที่ความสัมพันธ์ของระยะทาง เรากำลังทำอะไรเมื่อเราคำนวณความแปรปรวนทางไกล เราได้แปลงอวนระยะทางทั้งคู่ให้เป็นพาหะที่สอดคล้องกัน จากนั้นเราคำนวณความแปรปรวนร่วม (และความสัมพันธ์ต่อกัน) ระหว่างค่าที่สอดคล้องกันของทั้งสองกลุ่ม: ค่าผลิตภัณฑ์เซนต์คิตส์และเนวิส (ค่าระยะทางก่อนหน้า) ของการกำหนดค่าหนึ่งจะถูกคูณด้วยหนึ่งในการกำหนดค่าอื่น ๆ ที่สามารถมองเห็นได้เป็น (ดังที่ได้กล่าวไว้ในจุดที่ 3) การคำนวณความแปรปรวนร่วมแบบปกติระหว่างสองตัวแปรหลังจาก vectorizing เมทริกซ์สองตัวใน "ตัวแปร" เหล่านั้น
ดังนั้นเรากำลังแปรสภาพความคล้ายคลึงกันสองชุด (ผลิตภัณฑ์สเกลาร์ซึ่งเป็นระยะทางที่ถูกแปลงสภาพ) ความแปรปรวนร่วมใด ๆ ก็คือผลคูณของช่วงเวลา: คุณต้องคำนวณช่วงเวลาเหล่านั้น, การเบี่ยงเบนจากค่าเฉลี่ย, อันดับแรก - และการจัดกึ่งกลางสองครั้งเป็นการคำนวณนั้น นี่คือคำตอบสำหรับคำถามของคุณ: ความแปรปรวนร่วมต้องขึ้นอยู่กับช่วงเวลา แต่ระยะทางไม่ใช่ระยะเวลา
การเอาสแควร์รูทมาเพิ่มเติม (จุดที่ 5) ดูสมเหตุสมผลเพราะในกรณีของเราช่วงเวลานั้นเป็นความแปรปรวนร่วม (ผลิตภัณฑ์สเกลาร์และความแปรปรวนร่วมเป็นโครงสร้างเชิงซ้อน ) และมันก็มาถึงคุณด้วยความแปรปรวนร่วมคูณสองครั้ง ดังนั้นเพื่อที่จะสืบย้อนกลับไปที่ระดับของค่าของข้อมูลดั้งเดิม (และเพื่อให้สามารถคำนวณค่าสหสัมพันธ์) ได้จะต้องทำการรูทในภายหลัง
สิ่งสำคัญอย่างหนึ่งที่ควรทราบในที่สุดก็ควรจะไป ถ้าเราทำสองวิธีที่กึ่งกลางแบบคลาสสิกนั่นคือหลังจากยกกำลังระยะทางแบบยุคลิด - แล้วเราก็จะจบลงด้วยความแปรปรวนแบบระยะทางที่ไม่ใช่ความแปรปรวนแบบระยะทางที่แท้จริงและไม่มีประโยชน์ มันจะปรากฏว่าลดลงเป็นปริมาณที่เกี่ยวข้องกับความแปรปรวนปกติ (และความสัมพันธ์ระยะทางจะเป็นหน้าที่ของสหสัมพันธ์เชิงเส้นเพียร์สัน) สิ่งที่ทำให้ความแปรปรวนร่วมระยะทาง / ความสัมพันธ์ที่ไม่ซ้ำกันและมีความสามารถในการวัดไม่ได้เชื่อมโยงเชิงเส้น แต่เป็นรูปแบบทั่วไปของการพึ่งพาดังนั้น dCov = 0 ถ้าหากเฉพาะตัวแปรที่เป็นอิสระ - คือการขาดการยกกำลังสองระยะทาง จุดที่ 2) ที่จริงแล้วพลังใด ๆ ของระยะทางในช่วงจะทำอย่างไรรูปแบบมาตรฐานคือทำในอำนาจที่1 ทำไมอำนาจนี้และไม่ใช่กำลัง 2ช่วยให้สัมประสิทธิ์กลายเป็นตัวชี้วัดของการพึ่งพาซึ่งกันและกันแบบไม่เชิงเส้นเป็นปัญหาทางคณิตศาสตร์ที่ยากลำบาก (สำหรับฉัน) ที่แสดงถึงลักษณะหน้าที่ของการแจกแจงและฉันอยากจะได้ยินใครบางคน ความแปรปรวนร่วม / มีความสัมพันธ์กับคำง่าย ๆ (ฉันเคยลองไม่ประสบความสำเร็จ)(0,2)12