การวัดการพึ่งพาแบบไม่เชิงเส้น


11

ความแปรปรวนร่วมระหว่างตัวแปรสุ่มสองตัวกำหนดการวัดว่าพวกมันเกี่ยวข้องกันอย่างไร แต่จะเกิดอะไรขึ้นถ้าการกระจายข้อต่อเป็นแบบวงกลม? แน่นอนว่ามีโครงสร้างในการกระจาย โครงสร้างนี้ถูกดึงออกมาได้อย่างไร?

คำตอบ:


8

โดย "แบบวงกลม" ฉันเข้าใจว่าการกระจายนั้นเน้นไปที่พื้นที่วงกลมเช่นเดียวกับในโครงร่างเส้นโค้งของ pdf

พล็อต Contour ของการกระจายแบบวงกลม

หากโครงสร้างดังกล่าวมีอยู่แม้บางส่วนวิธีธรรมชาติในการระบุและวัดก็คือการหาค่าเฉลี่ยของการกระจายแบบวงกลมรอบศูนย์กลางของมัน (สัญชาตญาณที่นี้หมายถึงว่าสำหรับแต่ละรัศมีไปได้เราควรจะกระจายความน่าจะเป็นของการเป็นที่ระยะจากศูนย์อย่างเท่าเทียมกันทั่วในทุกทิศทาง.) Denoting ตัวแปรเป็น , ศูนย์ต้องอยู่ที่จุดของ ช่วงเวลาแรกmu_Y) ในการหาค่าเฉลี่ยจะสะดวกในการกำหนดฟังก์ชันการกระจายรัศมีr ( X , Y ) ( μ X , μ Y )rr(X,Y)(μX,μY)

F ( ρ ) = 0 , ρ < 0

F(ρ)=Pr[(XμX)2+(YμY)2ρ2],ρ0;
F(ρ)=0,ρ<0.

สิ่งนี้จะจับความน่าจะเป็นทั้งหมดของการโกหกระหว่างระยะทางและของศูนย์ ที่จะแพร่กระจายออกไปในทุกทิศทางให้เป็นตัวแปรสุ่มที่มี CDFและจะเป็นตัวแปรสุ่มเครื่องแบบอิสระจากRสองตัวแปรตัวแปรสุ่มเป็นเฉลี่ยวงกลมของY) (นี่คืองานที่เราต้องการสัญชาตญาณของ "ค่าเฉลี่ยวงกลม" เพราะ (a) มันมีการกระจายรัศมีที่ถูกต้องคือโดยการก่อสร้างและ (b) ทุกทิศทางจากศูนย์กลาง (0ρRFΘ[0,2π]R(Ξ,H)=(Rcos(Θ)+μX,Rsin(Θ)+μY)(X,Y)FΘ) มีความเป็นไปได้อย่างเท่าเทียมกัน)

ณ จุดนี้คุณมีทางเลือกมากมายทุกคนที่ยังคงอยู่คือการเปรียบเทียบการกระจายของกับที่H) ความเป็นไปได้รวมถึงระยะทางและKullback-Leibler divergence (พร้อมด้วยมาตรการระยะทางที่เกี่ยวข้องมากมาย: ความแตกต่างแบบสมมาตรระยะทาง Hellinger ข้อมูลร่วมกันฯลฯ ) การเปรียบเทียบให้เห็นอาจมีโครงสร้างวงกลมเมื่อมันเป็น "ปิด" เพื่อH) ในกรณีนี้โครงสร้างที่สามารถ "สกัด" จากคุณสมบัติของFตัวอย่างเช่นการวัดตำแหน่งกลางของเช่นค่าเฉลี่ยหรือค่ามัธยฐานระบุ "รัศมี" ของการแจกแจง(X,Y)(Ξ,H)Lp(X,Y)(Ξ,H)FF(X,Y)และค่าเบี่ยงเบนมาตรฐาน (หรือมาตรการอื่น ๆ ของขนาด) ของเป็นการแสดงออกถึงวิธีการ "กระจายออกไป"อยู่ในทิศทางรัศมีเกี่ยวกับสถานที่กลางของพวกเขาmu_Y)F(X,Y)(μX,μY)

เมื่อสุ่มตัวอย่างจากการแจกแจงด้วยข้อมูล , การทดสอบแบบวงกลมที่สมเหตุสมผลคือการประมาณค่าตำแหน่งกลางตามปกติ (ด้วยค่าเฉลี่ยหรือค่ามัธยฐาน) จากนั้นจึงแปลงค่าแต่ละค่าเป็นพิกัดเชิงขั้วสัมพันธ์กับศูนย์กลางโดยประมาณนั้น เปรียบเทียบค่าเบี่ยงเบนมาตรฐาน (หรือ IQR) ของรัศมีกับค่าเฉลี่ย (หรือค่ามัธยฐาน) สำหรับการแจกแจงที่ไม่เป็นวงกลมอัตราส่วนจะมีขนาดใหญ่ สำหรับการแจกแจงแบบวงกลมมันควรจะมีขนาดค่อนข้างเล็ก (ถ้าคุณมีรูปแบบเฉพาะในใจสำหรับการแจกแจงพื้นฐานคุณสามารถทำงานจากการกระจายตัวตัวอย่างของสถิติรัศมีและสร้างการทดสอบที่สำคัญกับมัน) แยกกันทดสอบพิกัดเชิงมุมเพื่อความสม่ำเสมอในช่วงเวลา(xi,yi),1in(xi,yi)(ri,θi)[0,2π)PI) มันจะเหมือนกันโดยประมาณสำหรับการแจกแจงแบบวงกลม (และสำหรับการแจกแจงแบบอื่นเช่นกัน); ไม่ใช่ความสม่ำเสมอแสดงถึงการออกเดินทางจากเวียน


1
ขอบคุณ! แม้ว่าจะไม่ชัดเจนทั้งหมดนี้จะให้ความคิดบางอย่างกับฉัน คุณช่วยแนะนำการอ่านที่การแจกแจงแบบนี้ได้ไหม? ฉันได้สัมผัสกับ Gaussians และการแจกแจงมาตรฐานอื่น ๆ เท่านั้น คำถามอื่น ๆ สิ่งนี้เกี่ยวข้องกับฟังก์ชันการกระจายรัศมีของอะตอมหรือไม่?
อินฟินิตี้

1
@ อินฟินิตี้แจ้งให้เราทราบว่าส่วนใดไม่ชัดเจนดังนั้นฉันสามารถลองแก้ไขมันได้ ฉันไม่รู้ว่าจะพูดถึงเรื่องการแจกแจงแบบไหน แต่การวิเคราะห์ที่เกี่ยวข้องสามารถพบได้ในวรรณกรรมเรื่อง "การแจกแจงแบบวงกลม" ความคิดพื้นฐานทางคณิตศาสตร์นั้นเกี่ยวข้องกับทฤษฎีวงโคจรของอะตอมค่อนข้างบางอย่าง แนวคิดที่เกี่ยวข้องรวมถึงความสามารถในการแยกของสมการชโรดิงเงอร์ในพิกัดทรงกลมการสร้างการวัด Haar ของกลุ่มโกหกที่มีขนาดกะทัดรัดโดยการหาค่าเฉลี่ยและการเปรียบเทียบ orbitals โดยใช้อินทิกรัลซ้อนทับกัน
whuber

ขอบคุณ ฉันใหม่มากต่อความน่าจะเป็นและสถิติดังนั้นมันอาจเป็นเพราะสิ่งนั้น ฉันไม่เข้าใจสิ่งที่คุณหมายถึงโดย "เฉลี่ยการกระจายแบบวงกลมไปรอบ ๆ ศูนย์กลาง" ฉันคิดว่ามันจะเฉลี่ยวงกลมทุกวงเพื่อให้มีวงกลมเพียงวงเดียวที่เหลืออยู่ตรงกลางที่และรัศมีเหมือนเส้นถดถอยเชิงเส้นพอดี ถูกต้องหรือไม่ (μX,μY)ρ
อินฟินิตี้

อีกข้อสงสัยหนึ่งที่ฉันมีคือฟังก์ชั่นการแจกแจงดูเหมือนจะอธิบายแผ่นดิสก์ แต่ตัวเลข (และสิ่งที่ฉันมีอยู่ในใจ) เป็นวงแหวน ตัวแปรสุ่ม อธิบายถึงค่าเฉลี่ยของวงกลมในรูปแบบขั้ว ฉันขอโทษฉันไม่ชัดเจนว่าจะเกิดอะไรขึ้นต่อไป ฉันเข้าใจว่าเราเปรียบเทียบการแจกแจงสองรายการโดยใช้การวัดระยะทาง แต่ทำไมพิเศษและทำไมมันถึงช่วยฉันไม่สามารถให้เหตุผลได้ ฉันขอโทษถ้าคำถามดูเหมือนโง่เกินไป F(ρ)(Ξ,H)(Ξ,H)
อินฟินิตี้

1
@Infinity ฉันได้เพิ่มคำพูดที่ชี้แจงบางอย่าง คุณไม่ได้เฉลี่ยวงการ ค่อนข้างคุณเฉลี่ย (หรือ "ป้าย") ความน่าจะเป็นทั้งหมดในแต่ละวงกลมเพื่อให้ไม่ว่าคุณจะเริ่มด้วยอะไรก็ตามมันก็จะดูเหมือนภาพของฉัน หากการกระจายดั้งเดิมเป็นวงกลมอย่างแท้จริงค่าเฉลี่ยนี้จะไม่เปลี่ยนแปลง ดังนั้นการเปรียบเทียบการแจกแจงกับเวอร์ชั่นเฉลี่ยจะบอกคุณว่ามันมาจากการวนในตอนแรกมากแค่ไหน
whuber

5

ข้อมูลร่วมกันมีคุณสมบัติคล้ายกับความแปรปรวนร่วม ความแปรปรวนร่วมคือจำนวนที่เป็น 0 สำหรับตัวแปรอิสระและไม่ใช่ศูนย์สำหรับตัวแปรที่ขึ้นอยู่กับแบบเชิงเส้น โดยเฉพาะถ้าตัวแปรสองตัวเหมือนกันดังนั้นความแปรปรวนร่วมเท่ากับความแปรปรวน (ซึ่งมักจะเป็นจำนวนบวก) ประเด็นหนึ่งที่แปรปรวนร่วมกับความแปรปรวนร่วมคือมันอาจจะเป็นศูนย์แม้ว่าตัวแปรสองตัวจะไม่เป็นอิสระหากการพึ่งพานั้นไม่เชิงเส้น

ข้อมูลรวม (MI) เป็นตัวเลขที่ไม่เป็นลบ มันจะเป็นศูนย์ถ้าหากทั้งสองตัวแปรมีความเป็นอิสระทางสถิติ คุณสมบัตินี้มีความเป็นทั่วไปมากกว่าความแปรปรวนร่วมและครอบคลุมการพึ่งพาใด ๆ รวมถึงวัตถุที่ไม่เชิงเส้น

หากตัวแปรทั้งสองเหมือนกัน MI จะเท่ากับเอนโทรปีของตัวแปร (อีกครั้งโดยทั่วไปจะเป็นจำนวนบวก) หากตัวแปรแตกต่างกันและไม่สัมพันธ์กันอย่างแน่นอน MI ก็เล็กกว่าเอนโทรปี ในแง่นี้ MI ของตัวแปรสองตัวจะอยู่ระหว่าง 0 และ H (ค่าเอนโทรปี) โดยมีค่าเป็น 0 หากเป็นอิสระและ H ก็ต่อเมื่อขึ้นอยู่กับการกำหนด

ข้อแตกต่างอย่างหนึ่งจากความแปรปรวนร่วมก็คือละเว้น "เครื่องหมาย" ของการพึ่งพานั้น เช่นแต่(X)M I ( X , - X ) = M I ( X , X ) = H ( X )Cov(X,X)=Cov(X,X)=Var(X)MI(X,X)=MI(X,X)=H(X)


4
คุณช่วยขยายแนวคิดนี้ให้คำตอบสำหรับคำถามได้อย่างไร
onestop

3

โปรดดูบทความต่อไปนี้จากวิทยาศาสตร์ - มันอยู่ที่จุดของคุณว่า:

การตรวจจับการเชื่อมโยงนวนิยายในชุดข้อมูลขนาดใหญ่โดย David N. Reshef และคณะ

จากนามธรรม:

การระบุความสัมพันธ์ที่น่าสนใจระหว่างคู่ของตัวแปรในชุดข้อมูลขนาดใหญ่มีความสำคัญมากขึ้น ที่นี่เรานำเสนอการวัดการพึ่งพาสำหรับความสัมพันธ์สองตัวแปร: ค่าสัมประสิทธิ์ข้อมูลสูงสุด (MIC) MIC รวบรวมความสัมพันธ์ที่หลากหลายทั้งการใช้งานและไม่ใช้งานและสำหรับความสัมพันธ์ในการใช้งานให้คะแนนที่ประมาณเท่ากับค่าสัมประสิทธิ์การตัดสินใจ (R ^ 2) ของข้อมูลที่สัมพันธ์กับฟังก์ชันการถดถอย MIC เป็นของชั้นเรียนขนาดใหญ่ของสถิติการสำรวจ nonparametric (MINE) ตามข้อมูลสูงสุดสำหรับการระบุและการจำแนกความสัมพันธ์ เราใช้ MIC และ MINE กับชุดข้อมูลในการดูแลสุขภาพทั่วโลกการแสดงออกของยีนเบสบอลเมเจอร์ลีกและจุลินทรีย์ในลำไส้ของมนุษย์และระบุความสัมพันธ์ที่รู้จักและแปลกใหม่

คุณพบเนื้อหาเพิ่มเติมได้ที่นี่: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1

ผู้เขียนยังมีเครื่องมือฟรีที่รวมวิธีการใหม่ที่สามารถใช้กับ R และ Python: http://www.exploredata.net/

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.