เมื่อความแปรปรวนทางไกลมีความเหมาะสมน้อยกว่าความแปรปรวนเชิงเส้นตรงหรือไม่


21

ฉันได้รับการแนะนำเพียง (ราง) เพื่อBrownian / ระยะทางแปรปรวน ดูเหมือนว่ามีประโยชน์โดยเฉพาะอย่างยิ่งในสถานการณ์ที่ไม่ใช่เชิงเส้นเมื่อทำการทดสอบเพื่อการพึ่งพา แต่ดูเหมือนว่าจะไม่ได้ใช้บ่อยนักถึงแม้ว่าความแปรปรวนร่วม / ความสัมพันธ์มักใช้กับข้อมูลที่ไม่เป็นเชิงเส้น / ไม่เป็นระเบียบ

ฉันคิดว่าอาจมีข้อเสียเปรียบในการแปรปรวนระยะทาง แล้วพวกมันคืออะไรและทำไมทุกคนไม่ใช้ความแปรปรวนแบบระยะทางเสมอ



ฉันอ่านว่าคุณกำลังใช้ dcov เพื่อเปรียบเทียบอนุกรมเวลาที่ไม่ใช่เชิงเส้นและรวมเข้ากับน้ำหนัก .. ฉันสงสัยว่าสิ่งที่คุณทำคือการใช้ความแปรปรวนร่วมระยะทางถ่วงน้ำหนัก .. หมายความว่าคุณให้น้ำหนักที่แตกต่างกับข้อมูลของคุณโดยใช้เวกเตอร์น้ำหนักเพื่อคำนวณ ความสัมพันธ์ของระยะทาง? ฉันกำลังพยายามทำ แต่ฉันไม่แน่ใจว่าการแนะนำเวกเตอร์น้ำหนักลงในสูตรความสัมพันธ์ของระยะทางเป็นวิธีที่เหมาะสมหรือไม่
user3757561

ไม่ขอโทษ @ user3757561 ฉันแค่ลองใช้สหสัมพันธ์ทางไกลแทนความสัมพันธ์แล้วสร้างน้ำหนักตามนั้น แต่ฉันก็ไม่ได้ใช้มันเลย ...
naught101

คำตอบ:


18

ฉันพยายามรวบรวมข้อสังเกตเกี่ยวกับความแปรปรวนทางไกลตามการแสดงผลของฉันจากการอ่านข้อมูลอ้างอิงด้านล่าง อย่างไรก็ตามฉันไม่คิดว่าตัวเองเป็นผู้เชี่ยวชาญในหัวข้อนี้ ความคิดเห็นการแก้ไขคำแนะนำ ฯลฯ ยินดีต้อนรับ

ข้อสังเกตคือ (ขอ) ลำเอียงต่อข้อบกพร่องที่อาจเกิดขึ้นตามที่ร้องขอในคำถามเดิม

อย่างที่ฉันเห็นมันข้อเสียที่เป็นไปได้มีดังนี้:

  1. วิธีการใหม่ ฉันเดาว่านี่เป็นปัจจัยที่ใหญ่ที่สุดเพียงอย่างเดียวเกี่ยวกับการขาดความนิยมในเวลานี้ เอกสารสรุปความแปรปรวนของระยะทางเริ่มต้นขึ้นในช่วงกลางยุค 2000 และดำเนินไปจนถึงปัจจุบัน กระดาษที่อ้างถึงข้างต้นเป็นกระดาษที่ได้รับความสนใจมากที่สุด (hype?) และมีอายุน้อยกว่าสามปี ในทางตรงกันข้ามทฤษฎีและผลลัพธ์เกี่ยวกับมาตรการที่มีความสัมพันธ์และมีความสัมพันธ์เหมือนกันนั้นมีผลงานมากกว่าหนึ่งศตวรรษแล้ว
  2. แนวคิดพื้นฐานจะท้าทายมากขึ้น ความสัมพันธ์ระหว่างช่วงเวลาผลิตภัณฑ์ของ Pearson ในระดับปฏิบัติการนั้นสามารถอธิบายให้นักศึกษาใหม่ได้โดยไม่ต้องมีพื้นฐานด้านแคลคูลัสค่อนข้างพร้อม สามารถกำหนดมุมมอง "อัลกอริทึม" แบบง่ายและสัญชาตญาณทางเรขาคณิตนั้นง่ายต่อการอธิบาย ในทางตรงกันข้ามในกรณีของความแปรปรวนทางไกลแม้แต่ความคิดของผลรวมของระยะทางแบบยุคลิดแบบคู่ก็ค่อนข้างยากขึ้นและความคิดเรื่องความแปรปรวนร่วมที่เกี่ยวกับกระบวนการสุ่มไปไกลเกินกว่าที่จะอธิบายได้อย่างสมเหตุสมผล .
  3. มันเป็นคอมพิวเตอร์มากขึ้นเรียกร้อง อัลกอริทึมพื้นฐานสำหรับการคำนวณสถิติการทดสอบคือในขนาดตัวอย่างเมื่อเทียบกับO ( n )สำหรับการวัดความสัมพันธ์มาตรฐาน สำหรับกลุ่มตัวอย่างขนาดเล็กนี่ไม่ใช่เรื่องใหญ่ แต่สำหรับกลุ่มที่มีขนาดใหญ่กว่ามันจะมีความสำคัญมากกว่าO(n2)O(n)
  4. สถิติการทดสอบไม่ได้ถูกแจกจ่ายฟรีแม้จะเป็นแบบไม่แสดงอาการ ใครบางคนอาจหวังว่าสำหรับสถิติการทดสอบที่สอดคล้องกับทางเลือกทั้งหมดว่าการกระจายอย่างน้อย asymptotically อาจเป็นอิสระจากการแจกแจงพื้นฐานของและYภายใต้สมมติฐานว่าง นี่ไม่ใช่กรณีของความแปรปรวนทางไกลเนื่องจากการกระจายภายใต้ศูนย์จะขึ้นอยู่กับการแจกแจงพื้นฐานของXและYแม้ว่าขนาดตัวอย่างมีแนวโน้มที่จะไม่มีที่สิ้นสุด มันเป็นความจริงที่กระจายกำลังล้อมรอบอย่างสม่ำเสมอโดยχ 2 1การจัดจำหน่ายซึ่งจะช่วยให้การคำนวณที่อนุรักษ์นิยมค่าวิกฤตXYXYχ12
  5. |ρ|
  6. คุณสมบัติอำนาจที่ไม่รู้จัก การสอดคล้องกับทางเลือกทั้งหมดเป็นหลักรับประกันได้ว่าความแปรปรวนทางไกลต้องมีพลังงานต่ำมากเมื่อเทียบกับทางเลือกอื่น ในหลาย ๆ กรณีเรายินดีที่จะยอมแพ้เพื่อที่จะได้รับพลังเพิ่มเติมจากทางเลือกที่น่าสนใจโดยเฉพาะ เอกสารต้นฉบับแสดงตัวอย่างบางส่วนที่พวกเขาอ้างว่ามีพลังสูงเมื่อเทียบกับตัวชี้วัดความสัมพันธ์มาตรฐาน แต่ฉันเชื่อว่าจะกลับไปที่ (1) ข้างต้นพฤติกรรมของมันกับทางเลือกยังไม่เป็นที่เข้าใจกัน

เพื่อเป็นการย้ำคำตอบนี้อาจเป็นไปในแง่ลบทีเดียว แต่นั่นไม่ใช่ความตั้งใจ มีแนวคิดที่สวยงามและน่าสนใจบางอย่างที่เกี่ยวข้องกับความแปรปรวนทางไกลและความแปลกใหม่ของสัมพัทธ์ของมันยังเปิดลู่ทางการวิจัยเพื่อความเข้าใจที่สมบูรณ์ยิ่งขึ้น

การอ้างอิง :

  1. GJ Szekely และ ML Rizzo (2009), ความแปรปรวนของระยะทาง Brownian , Ann Appl statist ฉบับ 3 หมายเลข 4, 1236–1265
  2. จีเจ Szekely, ML Rizzo และ NK Bakirov (2007), การวัดและการทดสอบความเป็นอิสระจากความสัมพันธ์ของระยะทาง , แอน statist ฉบับ 35, 2769–2794
  3. R. Lyons (2012), ความแปรปรวนทางไกลในพื้นที่เมตริก , แอน Probab (เพื่อให้ปรากฏ)

คำตอบที่ดีเยี่ยมขอบคุณ บางส่วนมันอยู่เหนือหัวของฉัน แต่ฉันคิดว่าฉันจะสามารถแก้ไขได้ด้วยตัวเอง :)
naught101

1
ดูสรุปและการอภิปรายของ:“ วารสารบราวนี่ระยะไกล” คลับวารสาร 36-825 Benjamin Cowley และ Giuseppe Vinci 27 ตุลาคม 2014 stat.cmu.edu/~ryantibs/journalclub/dcov.pdf
Felipe G. Nievinski

2
O(nlogn)

3

ฉันอาจจะหายไปบางสิ่งบางอย่าง แต่เพียงแค่มีปริมาณของการพึ่งพาแบบไม่เชิงเส้นระหว่างสองตัวแปรดูเหมือนจะไม่ได้รับผลตอบแทนมาก มันจะไม่บอกคุณถึงรูปร่างของความสัมพันธ์ มันจะไม่ให้วิธีการใด ๆ แก่คุณในการทำนายตัวแปรหนึ่งจากตัวแปรอื่น โดยการเปรียบเทียบเมื่อทำการวิเคราะห์ข้อมูลเชิงสำรวจบางครั้งใช้เส้นโค้งเหลือง (scatterplot ถ่วงน้ำหนักในพื้นที่นุ่มนวล) เป็นขั้นตอนแรกสู่การดูว่าข้อมูลนั้นถูกสร้างแบบจำลองที่ดีที่สุดด้วยเส้นตรง, กำลังสอง, ลูกบาศก์ ฯลฯ แต่เหลืองและ ของตัวเองไม่ได้เป็นเครื่องมือในการทำนายที่มีประโยชน์มาก มันเป็นเพียงการประมาณครั้งแรกเกี่ยวกับวิธีการหาสมการที่ใช้การได้เพื่ออธิบายรูปทรง bivariate สมการนั้นแตกต่างจากดินเหลือง (หรือผลลัพธ์ความแปรปรวนทางไกล) สามารถสร้างพื้นฐานของแบบจำลองการยืนยัน


สำหรับวัตถุประสงค์ของฉันมันมีผลตอบแทน ฉันไม่ได้ใช้ dcov () เพื่อทำนายอะไรเลยแทนที่จะเปรียบเทียบซีรีย์เวลาที่ไม่ใช่เชิงเส้นหลายชุดในชุดและรวมกับน้ำหนักตามการพึ่งพาของพวกเขา ในสถานการณ์นี้ dcov () มีประโยชน์มากมายที่อาจเกิดขึ้น
naught101

@ naught101 คุณสามารถใส่ข้อมูลแร่บางอย่างเมื่อคุณพูดว่า'combine 'ได้ไหม? ฟังดูน่าสนใจสำหรับฉันในแง่ของน้ำหนักตามการพึ่งพาแบบไม่เชิงเส้น คุณหมายถึงการแบ่งเวลาออกเป็นกลุ่มหรือไม่? น้ำหนักสูงกับน้ำหนักต่ำเน้นอะไรในสถานการณ์นี้
รถบรรทุก

2
@PraneethVepakomma: ตรวจสอบคำตอบของฉันที่stats.stackexchange.com/questions/562/…
naught101

1
นอกจากนี้หากคุณทราบรูปแบบทั่วไปของการพึ่งพา (เช่นสมการพหุนาม) คุณอาจวัดความแข็งแรงของการพึ่งพาโดยใช้สัมประสิทธิ์การตัดสินใจดูตัวอย่างการคำนวณ R2 สำหรับการคำนวณพหุนาม
Felipe G. Nievinski
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.