การวัดการพึ่งพาแบบไม่เชิงเส้น

ความแปรปรวนร่วมระหว่างตัวแปรสุ่มสองตัวกำหนดการวัดว่าพวกมันเกี่ยวข้องกันอย่างไร แต่จะเกิดอะไรขึ้นถ้าการกระจายข้อต่อเป็นแบบวงกลม? แน่นอนว่ามีโครงสร้างในการกระจาย โครงสร้างนี้ถูกดึงออกมาได้อย่างไร?

covariance-matrix

— ความไม่มีที่สิ้นสุด
แหล่งที่มา

คำตอบ:

โดย "แบบวงกลม" ฉันเข้าใจว่าการกระจายนั้นเน้นไปที่พื้นที่วงกลมเช่นเดียวกับในโครงร่างเส้นโค้งของ pdf

พล็อต Contour ของการกระจายแบบวงกลม

หากโครงสร้างดังกล่าวมีอยู่แม้บางส่วนวิธีธรรมชาติในการระบุและวัดก็คือการหาค่าเฉลี่ยของการกระจายแบบวงกลมรอบศูนย์กลางของมัน (สัญชาตญาณที่นี้หมายถึงว่าสำหรับแต่ละรัศมีไปได้เราควรจะกระจายความน่าจะเป็นของการเป็นที่ระยะจากศูนย์อย่างเท่าเทียมกันทั่วในทุกทิศทาง.) Denoting ตัวแปรเป็น , ศูนย์ต้องอยู่ที่จุดของ ช่วงเวลาแรกmu_Y) ในการหาค่าเฉลี่ยจะสะดวกในการกำหนดฟังก์ชันการกระจายรัศมี $r$ $r$ $(X,Y)$ $(\mu_X, \mu_Y)$

F (ρ) = Pr [(X - μ_{X})^{2} + (Y - μ_{Y})^{2} \leq ρ^{2}], ρ \geq 0;

$F(\rho) = \Pr[(X-\mu_X)^2 + (Y-\mu_Y)^2 \le \rho^2], \rho \ge 0;$

F (ρ) = 0, ρ < 0.

$F(\rho) = 0, \rho \lt 0.$

สิ่งนี้จะจับความน่าจะเป็นทั้งหมดของการโกหกระหว่างระยะทางและของศูนย์ ที่จะแพร่กระจายออกไปในทุกทิศทางให้เป็นตัวแปรสุ่มที่มี CDFและจะเป็นตัวแปรสุ่มเครื่องแบบอิสระจากRสองตัวแปรตัวแปรสุ่มเป็นเฉลี่ยวงกลมของY) (นี่คืองานที่เราต้องการสัญชาตญาณของ "ค่าเฉลี่ยวงกลม" เพราะ (a) มันมีการกระจายรัศมีที่ถูกต้องคือโดยการก่อสร้างและ (b) ทุกทิศทางจากศูนย์กลาง ( $0$ $\rho$ $R$ $F$ $\Theta$ $[0, 2\pi]$ $R$ $(\Xi, H) = (R\cos(\Theta) + \mu_X, R\sin(\Theta)+\mu_Y)$ $(X,Y)$ $F$ $\Theta$ ) มีความเป็นไปได้อย่างเท่าเทียมกัน)

ณ จุดนี้คุณมีทางเลือกมากมายทุกคนที่ยังคงอยู่คือการเปรียบเทียบการกระจายของกับที่H) ความเป็นไปได้รวมถึงระยะทางและKullback-Leibler divergence (พร้อมด้วยมาตรการระยะทางที่เกี่ยวข้องมากมาย: ความแตกต่างแบบสมมาตรระยะทาง Hellinger ข้อมูลร่วมกันฯลฯ ) การเปรียบเทียบให้เห็นอาจมีโครงสร้างวงกลมเมื่อมันเป็น "ปิด" เพื่อH) ในกรณีนี้โครงสร้างที่สามารถ "สกัด" จากคุณสมบัติของFตัวอย่างเช่นการวัดตำแหน่งกลางของเช่นค่าเฉลี่ยหรือค่ามัธยฐานระบุ "รัศมี" ของการแจกแจง $(X,Y)$ $(\Xi, H)$ $L^p$ $(X,Y)$ $(\Xi, H)$ $F$ $F$ $(X,Y)$ และค่าเบี่ยงเบนมาตรฐาน (หรือมาตรการอื่น ๆ ของขนาด) ของเป็นการแสดงออกถึงวิธีการ "กระจายออกไป"อยู่ในทิศทางรัศมีเกี่ยวกับสถานที่กลางของพวกเขาmu_Y) $F$ $(X,Y)$ $(\mu_X, \mu_Y)$

เมื่อสุ่มตัวอย่างจากการแจกแจงด้วยข้อมูล , การทดสอบแบบวงกลมที่สมเหตุสมผลคือการประมาณค่าตำแหน่งกลางตามปกติ (ด้วยค่าเฉลี่ยหรือค่ามัธยฐาน) จากนั้นจึงแปลงค่าแต่ละค่าเป็นพิกัดเชิงขั้วสัมพันธ์กับศูนย์กลางโดยประมาณนั้น เปรียบเทียบค่าเบี่ยงเบนมาตรฐาน (หรือ IQR) ของรัศมีกับค่าเฉลี่ย (หรือค่ามัธยฐาน) สำหรับการแจกแจงที่ไม่เป็นวงกลมอัตราส่วนจะมีขนาดใหญ่ สำหรับการแจกแจงแบบวงกลมมันควรจะมีขนาดค่อนข้างเล็ก (ถ้าคุณมีรูปแบบเฉพาะในใจสำหรับการแจกแจงพื้นฐานคุณสามารถทำงานจากการกระจายตัวตัวอย่างของสถิติรัศมีและสร้างการทดสอบที่สำคัญกับมัน) แยกกันทดสอบพิกัดเชิงมุมเพื่อความสม่ำเสมอในช่วงเวลา $(x_i,y_i), 1 \le i \le n$ $(x_i,y_i)$ $(r_i, \theta_i)$ $[0, 2\pi)$ PI) มันจะเหมือนกันโดยประมาณสำหรับการแจกแจงแบบวงกลม (และสำหรับการแจกแจงแบบอื่นเช่นกัน); ไม่ใช่ความสม่ำเสมอแสดงถึงการออกเดินทางจากเวียน

— whuber
แหล่งที่มา

ขอบคุณ! แม้ว่าจะไม่ชัดเจนทั้งหมดนี้จะให้ความคิดบางอย่างกับฉัน คุณช่วยแนะนำการอ่านที่การแจกแจงแบบนี้ได้ไหม? ฉันได้สัมผัสกับ Gaussians และการแจกแจงมาตรฐานอื่น ๆ เท่านั้น คำถามอื่น ๆ สิ่งนี้เกี่ยวข้องกับฟังก์ชันการกระจายรัศมีของอะตอมหรือไม่?

— อินฟินิตี้

@ อินฟินิตี้แจ้งให้เราทราบว่าส่วนใดไม่ชัดเจนดังนั้นฉันสามารถลองแก้ไขมันได้ ฉันไม่รู้ว่าจะพูดถึงเรื่องการแจกแจงแบบไหน แต่การวิเคราะห์ที่เกี่ยวข้องสามารถพบได้ในวรรณกรรมเรื่อง "การแจกแจงแบบวงกลม" ความคิดพื้นฐานทางคณิตศาสตร์นั้นเกี่ยวข้องกับทฤษฎีวงโคจรของอะตอมค่อนข้างบางอย่าง แนวคิดที่เกี่ยวข้องรวมถึงความสามารถในการแยกของสมการชโรดิงเงอร์ในพิกัดทรงกลมการสร้างการวัด Haar ของกลุ่มโกหกที่มีขนาดกะทัดรัดโดยการหาค่าเฉลี่ยและการเปรียบเทียบ orbitals โดยใช้อินทิกรัลซ้อนทับกัน

— whuber

ขอบคุณ ฉันใหม่มากต่อความน่าจะเป็นและสถิติดังนั้นมันอาจเป็นเพราะสิ่งนั้น ฉันไม่เข้าใจสิ่งที่คุณหมายถึงโดย "เฉลี่ยการกระจายแบบวงกลมไปรอบ ๆ ศูนย์กลาง" ฉันคิดว่ามันจะเฉลี่ยวงกลมทุกวงเพื่อให้มีวงกลมเพียงวงเดียวที่เหลืออยู่ตรงกลางที่และรัศมีเหมือนเส้นถดถอยเชิงเส้นพอดี ถูกต้องหรือไม่

(μ_{X}, μ_{Y})

$(\mu_X, \mu_Y)$

ρ

$\rho$

— อินฟินิตี้

อีกข้อสงสัยหนึ่งที่ฉันมีคือฟังก์ชั่นการแจกแจงดูเหมือนจะอธิบายแผ่นดิสก์ แต่ตัวเลข (และสิ่งที่ฉันมีอยู่ในใจ) เป็นวงแหวน ตัวแปรสุ่ม อธิบายถึงค่าเฉลี่ยของวงกลมในรูปแบบขั้ว ฉันขอโทษฉันไม่ชัดเจนว่าจะเกิดอะไรขึ้นต่อไป ฉันเข้าใจว่าเราเปรียบเทียบการแจกแจงสองรายการโดยใช้การวัดระยะทาง แต่ทำไมพิเศษและทำไมมันถึงช่วยฉันไม่สามารถให้เหตุผลได้ ฉันขอโทษถ้าคำถามดูเหมือนโง่เกินไป

F (ρ)

$F(\rho)$

(Ξ, H)

$(\Xi, H)$

(Ξ, H)

$(\Xi, H)$

— อินฟินิตี้

@Infinity ฉันได้เพิ่มคำพูดที่ชี้แจงบางอย่าง คุณไม่ได้เฉลี่ยวงการ ค่อนข้างคุณเฉลี่ย (หรือ "ป้าย") ความน่าจะเป็นทั้งหมดในแต่ละวงกลมเพื่อให้ไม่ว่าคุณจะเริ่มด้วยอะไรก็ตามมันก็จะดูเหมือนภาพของฉัน หากการกระจายดั้งเดิมเป็นวงกลมอย่างแท้จริงค่าเฉลี่ยนี้จะไม่เปลี่ยนแปลง ดังนั้นการเปรียบเทียบการแจกแจงกับเวอร์ชั่นเฉลี่ยจะบอกคุณว่ามันมาจากการวนในตอนแรกมากแค่ไหน

— whuber

ข้อมูลร่วมกันมีคุณสมบัติคล้ายกับความแปรปรวนร่วม ความแปรปรวนร่วมคือจำนวนที่เป็น 0 สำหรับตัวแปรอิสระและไม่ใช่ศูนย์สำหรับตัวแปรที่ขึ้นอยู่กับแบบเชิงเส้น โดยเฉพาะถ้าตัวแปรสองตัวเหมือนกันดังนั้นความแปรปรวนร่วมเท่ากับความแปรปรวน (ซึ่งมักจะเป็นจำนวนบวก) ประเด็นหนึ่งที่แปรปรวนร่วมกับความแปรปรวนร่วมคือมันอาจจะเป็นศูนย์แม้ว่าตัวแปรสองตัวจะไม่เป็นอิสระหากการพึ่งพานั้นไม่เชิงเส้น

ข้อมูลรวม (MI) เป็นตัวเลขที่ไม่เป็นลบ มันจะเป็นศูนย์ถ้าหากทั้งสองตัวแปรมีความเป็นอิสระทางสถิติ คุณสมบัตินี้มีความเป็นทั่วไปมากกว่าความแปรปรวนร่วมและครอบคลุมการพึ่งพาใด ๆ รวมถึงวัตถุที่ไม่เชิงเส้น

หากตัวแปรทั้งสองเหมือนกัน MI จะเท่ากับเอนโทรปีของตัวแปร (อีกครั้งโดยทั่วไปจะเป็นจำนวนบวก) หากตัวแปรแตกต่างกันและไม่สัมพันธ์กันอย่างแน่นอน MI ก็เล็กกว่าเอนโทรปี ในแง่นี้ MI ของตัวแปรสองตัวจะอยู่ระหว่าง 0 และ H (ค่าเอนโทรปี) โดยมีค่าเป็น 0 หากเป็นอิสระและ H ก็ต่อเมื่อขึ้นอยู่กับการกำหนด

ข้อแตกต่างอย่างหนึ่งจากความแปรปรวนร่วมก็คือละเว้น "เครื่องหมาย" ของการพึ่งพานั้น เช่นแต่(X) $Cov(X, -X) = -Cov(X, X) = -Var(X)$ $MI(X, -X) = MI(X, X) = H(X)$

— SheldonCooper
แหล่งที่มา

คุณช่วยขยายแนวคิดนี้ให้คำตอบสำหรับคำถามได้อย่างไร

— onestop

โปรดดูบทความต่อไปนี้จากวิทยาศาสตร์ - มันอยู่ที่จุดของคุณว่า:

การตรวจจับการเชื่อมโยงนวนิยายในชุดข้อมูลขนาดใหญ่โดย David N. Reshef และคณะ

จากนามธรรม:

การระบุความสัมพันธ์ที่น่าสนใจระหว่างคู่ของตัวแปรในชุดข้อมูลขนาดใหญ่มีความสำคัญมากขึ้น ที่นี่เรานำเสนอการวัดการพึ่งพาสำหรับความสัมพันธ์สองตัวแปร: ค่าสัมประสิทธิ์ข้อมูลสูงสุด (MIC) MIC รวบรวมความสัมพันธ์ที่หลากหลายทั้งการใช้งานและไม่ใช้งานและสำหรับความสัมพันธ์ในการใช้งานให้คะแนนที่ประมาณเท่ากับค่าสัมประสิทธิ์การตัดสินใจ (R ^ 2) ของข้อมูลที่สัมพันธ์กับฟังก์ชันการถดถอย MIC เป็นของชั้นเรียนขนาดใหญ่ของสถิติการสำรวจ nonparametric (MINE) ตามข้อมูลสูงสุดสำหรับการระบุและการจำแนกความสัมพันธ์ เราใช้ MIC และ MINE กับชุดข้อมูลในการดูแลสุขภาพทั่วโลกการแสดงออกของยีนเบสบอลเมเจอร์ลีกและจุลินทรีย์ในลำไส้ของมนุษย์และระบุความสัมพันธ์ที่รู้จักและแปลกใหม่

คุณพบเนื้อหาเพิ่มเติมได้ที่นี่: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1

ผู้เขียนยังมีเครื่องมือฟรีที่รวมวิธีการใหม่ที่สามารถใช้กับ R และ Python: http://www.exploredata.net/

— vonjd
แหล่งที่มา