ความแปรปรวนร่วมระหว่างตัวแปรสุ่มสองตัวกำหนดการวัดว่าพวกมันเกี่ยวข้องกันอย่างไร แต่จะเกิดอะไรขึ้นถ้าการกระจายข้อต่อเป็นแบบวงกลม? แน่นอนว่ามีโครงสร้างในการกระจาย โครงสร้างนี้ถูกดึงออกมาได้อย่างไร?
ความแปรปรวนร่วมระหว่างตัวแปรสุ่มสองตัวกำหนดการวัดว่าพวกมันเกี่ยวข้องกันอย่างไร แต่จะเกิดอะไรขึ้นถ้าการกระจายข้อต่อเป็นแบบวงกลม? แน่นอนว่ามีโครงสร้างในการกระจาย โครงสร้างนี้ถูกดึงออกมาได้อย่างไร?
คำตอบ:
โดย "แบบวงกลม" ฉันเข้าใจว่าการกระจายนั้นเน้นไปที่พื้นที่วงกลมเช่นเดียวกับในโครงร่างเส้นโค้งของ pdf
หากโครงสร้างดังกล่าวมีอยู่แม้บางส่วนวิธีธรรมชาติในการระบุและวัดก็คือการหาค่าเฉลี่ยของการกระจายแบบวงกลมรอบศูนย์กลางของมัน (สัญชาตญาณที่นี้หมายถึงว่าสำหรับแต่ละรัศมีไปได้เราควรจะกระจายความน่าจะเป็นของการเป็นที่ระยะจากศูนย์อย่างเท่าเทียมกันทั่วในทุกทิศทาง.) Denoting ตัวแปรเป็น , ศูนย์ต้องอยู่ที่จุดของ ช่วงเวลาแรกmu_Y) ในการหาค่าเฉลี่ยจะสะดวกในการกำหนดฟังก์ชันการกระจายรัศมีr ( X , Y ) ( μ X , μ Y )
F ( ρ ) = 0 , ρ < 0
สิ่งนี้จะจับความน่าจะเป็นทั้งหมดของการโกหกระหว่างระยะทางและของศูนย์ ที่จะแพร่กระจายออกไปในทุกทิศทางให้เป็นตัวแปรสุ่มที่มี CDFและจะเป็นตัวแปรสุ่มเครื่องแบบอิสระจากRสองตัวแปรตัวแปรสุ่มเป็นเฉลี่ยวงกลมของY) (นี่คืองานที่เราต้องการสัญชาตญาณของ "ค่าเฉลี่ยวงกลม" เพราะ (a) มันมีการกระจายรัศมีที่ถูกต้องคือโดยการก่อสร้างและ (b) ทุกทิศทางจากศูนย์กลาง () มีความเป็นไปได้อย่างเท่าเทียมกัน)
ณ จุดนี้คุณมีทางเลือกมากมายทุกคนที่ยังคงอยู่คือการเปรียบเทียบการกระจายของกับที่H) ความเป็นไปได้รวมถึงระยะทางและKullback-Leibler divergence (พร้อมด้วยมาตรการระยะทางที่เกี่ยวข้องมากมาย: ความแตกต่างแบบสมมาตรระยะทาง Hellinger ข้อมูลร่วมกันฯลฯ ) การเปรียบเทียบให้เห็นอาจมีโครงสร้างวงกลมเมื่อมันเป็น "ปิด" เพื่อH) ในกรณีนี้โครงสร้างที่สามารถ "สกัด" จากคุณสมบัติของFตัวอย่างเช่นการวัดตำแหน่งกลางของเช่นค่าเฉลี่ยหรือค่ามัธยฐานระบุ "รัศมี" ของการแจกแจงและค่าเบี่ยงเบนมาตรฐาน (หรือมาตรการอื่น ๆ ของขนาด) ของเป็นการแสดงออกถึงวิธีการ "กระจายออกไป"อยู่ในทิศทางรัศมีเกี่ยวกับสถานที่กลางของพวกเขาmu_Y)
เมื่อสุ่มตัวอย่างจากการแจกแจงด้วยข้อมูล , การทดสอบแบบวงกลมที่สมเหตุสมผลคือการประมาณค่าตำแหน่งกลางตามปกติ (ด้วยค่าเฉลี่ยหรือค่ามัธยฐาน) จากนั้นจึงแปลงค่าแต่ละค่าเป็นพิกัดเชิงขั้วสัมพันธ์กับศูนย์กลางโดยประมาณนั้น เปรียบเทียบค่าเบี่ยงเบนมาตรฐาน (หรือ IQR) ของรัศมีกับค่าเฉลี่ย (หรือค่ามัธยฐาน) สำหรับการแจกแจงที่ไม่เป็นวงกลมอัตราส่วนจะมีขนาดใหญ่ สำหรับการแจกแจงแบบวงกลมมันควรจะมีขนาดค่อนข้างเล็ก (ถ้าคุณมีรูปแบบเฉพาะในใจสำหรับการแจกแจงพื้นฐานคุณสามารถทำงานจากการกระจายตัวตัวอย่างของสถิติรัศมีและสร้างการทดสอบที่สำคัญกับมัน) แยกกันทดสอบพิกัดเชิงมุมเพื่อความสม่ำเสมอในช่วงเวลาPI) มันจะเหมือนกันโดยประมาณสำหรับการแจกแจงแบบวงกลม (และสำหรับการแจกแจงแบบอื่นเช่นกัน); ไม่ใช่ความสม่ำเสมอแสดงถึงการออกเดินทางจากเวียน
ข้อมูลร่วมกันมีคุณสมบัติคล้ายกับความแปรปรวนร่วม ความแปรปรวนร่วมคือจำนวนที่เป็น 0 สำหรับตัวแปรอิสระและไม่ใช่ศูนย์สำหรับตัวแปรที่ขึ้นอยู่กับแบบเชิงเส้น โดยเฉพาะถ้าตัวแปรสองตัวเหมือนกันดังนั้นความแปรปรวนร่วมเท่ากับความแปรปรวน (ซึ่งมักจะเป็นจำนวนบวก) ประเด็นหนึ่งที่แปรปรวนร่วมกับความแปรปรวนร่วมคือมันอาจจะเป็นศูนย์แม้ว่าตัวแปรสองตัวจะไม่เป็นอิสระหากการพึ่งพานั้นไม่เชิงเส้น
ข้อมูลรวม (MI) เป็นตัวเลขที่ไม่เป็นลบ มันจะเป็นศูนย์ถ้าหากทั้งสองตัวแปรมีความเป็นอิสระทางสถิติ คุณสมบัตินี้มีความเป็นทั่วไปมากกว่าความแปรปรวนร่วมและครอบคลุมการพึ่งพาใด ๆ รวมถึงวัตถุที่ไม่เชิงเส้น
หากตัวแปรทั้งสองเหมือนกัน MI จะเท่ากับเอนโทรปีของตัวแปร (อีกครั้งโดยทั่วไปจะเป็นจำนวนบวก) หากตัวแปรแตกต่างกันและไม่สัมพันธ์กันอย่างแน่นอน MI ก็เล็กกว่าเอนโทรปี ในแง่นี้ MI ของตัวแปรสองตัวจะอยู่ระหว่าง 0 และ H (ค่าเอนโทรปี) โดยมีค่าเป็น 0 หากเป็นอิสระและ H ก็ต่อเมื่อขึ้นอยู่กับการกำหนด
ข้อแตกต่างอย่างหนึ่งจากความแปรปรวนร่วมก็คือละเว้น "เครื่องหมาย" ของการพึ่งพานั้น เช่นแต่(X)M I ( X , - X ) = M I ( X , X ) = H ( X )
โปรดดูบทความต่อไปนี้จากวิทยาศาสตร์ - มันอยู่ที่จุดของคุณว่า:
การตรวจจับการเชื่อมโยงนวนิยายในชุดข้อมูลขนาดใหญ่โดย David N. Reshef และคณะ
จากนามธรรม:
การระบุความสัมพันธ์ที่น่าสนใจระหว่างคู่ของตัวแปรในชุดข้อมูลขนาดใหญ่มีความสำคัญมากขึ้น ที่นี่เรานำเสนอการวัดการพึ่งพาสำหรับความสัมพันธ์สองตัวแปร: ค่าสัมประสิทธิ์ข้อมูลสูงสุด (MIC) MIC รวบรวมความสัมพันธ์ที่หลากหลายทั้งการใช้งานและไม่ใช้งานและสำหรับความสัมพันธ์ในการใช้งานให้คะแนนที่ประมาณเท่ากับค่าสัมประสิทธิ์การตัดสินใจ (R ^ 2) ของข้อมูลที่สัมพันธ์กับฟังก์ชันการถดถอย MIC เป็นของชั้นเรียนขนาดใหญ่ของสถิติการสำรวจ nonparametric (MINE) ตามข้อมูลสูงสุดสำหรับการระบุและการจำแนกความสัมพันธ์ เราใช้ MIC และ MINE กับชุดข้อมูลในการดูแลสุขภาพทั่วโลกการแสดงออกของยีนเบสบอลเมเจอร์ลีกและจุลินทรีย์ในลำไส้ของมนุษย์และระบุความสัมพันธ์ที่รู้จักและแปลกใหม่
คุณพบเนื้อหาเพิ่มเติมได้ที่นี่: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1
ผู้เขียนยังมีเครื่องมือฟรีที่รวมวิธีการใหม่ที่สามารถใช้กับ R และ Python: http://www.exploredata.net/