อัลกอริทึม MIC สำหรับตรวจจับความสัมพันธ์ที่ไม่ใช่เชิงเส้นสามารถอธิบายได้อย่างง่ายดายหรือไม่?


20

อีกไม่นานฉันอ่านบทความสองเรื่อง อย่างแรกคือเกี่ยวกับประวัติของสหสัมพันธ์และที่สองเกี่ยวกับวิธีการใหม่ที่เรียกว่า Maximal Information Coefficient (MIC) ฉันต้องการความช่วยเหลือของคุณเกี่ยวกับการทำความเข้าใจกับวิธี MIC เพื่อประเมินความสัมพันธ์แบบไม่เป็นเชิงเส้นระหว่างตัวแปร

นอกจากนี้คำแนะนำสำหรับการใช้งานใน R สามารถพบได้บนเว็บไซต์ของผู้เขียน (ภายใต้ดาวน์โหลด ):

ฉันหวังว่านี่จะเป็นแพลตฟอร์มที่ดีในการพูดคุยและเข้าใจวิธีการนี้ ความสนใจของฉันที่จะหารือเกี่ยวกับสัญชาตญาณเบื้องหลังวิธีนี้และสามารถขยายออกไปได้อย่างไรตามที่ผู้เขียนกล่าว

" ... เราต้องการส่วนขยายของ MIC (X, Y) ถึง MIC (X, Y | Z) เราจะต้องการทราบว่าต้องใช้ข้อมูลจำนวนเท่าใดในการประมาณค่า MIC ที่มีเสถียรภาพและมีความอ่อนไหวต่อค่าผิดปกติอย่างไร - หรือความสัมพันธ์ที่สูงขึ้นมิติมันจะพลาดและอื่น ๆ MIC เป็นขั้นตอนที่ดีข้างหน้า แต่มีขั้นตอนอื่น ๆ อีกมากมายที่จะใช้.. "


คำถามน่าสนใจ แต่ฉันคิดว่ามันตอบไม่ได้ คุณช่วยอธิบายให้เฉพาะเจาะจงมากขึ้นได้ไหม?
mpiktas

3
การอภิปรายจะถูกขัดขวางโดยความจริงที่ว่าบทความในวิทยาศาสตร์ไม่สามารถเข้าถึงได้
Itamar

7
นี่คือสำเนาของกระดาษที่ได้รับการปลดปล่อยจากผู้เขียนคนหนึ่ง

10
ในระยะสั้น MIC คือการขุดความคิดเก่าของ "พล็อต - ทั้งหมด - กระจาย - และ - ยอด - ที่ - ที่ใหญ่ที่สุด - ขาว - พื้นที่" ดังนั้นมันส่วนใหญ่ก่อให้เกิดผลบวกปลอมมีความซับซ้อนที่ไม่จริงของO(M2) (ซึ่งผู้เขียนซ่อนอยู่หลังฮิวริสติกแบบทดสอบเพียงอย่างเดียวบางคู่ที่สุ่มเลือก) และโดยการออกแบบคิดถึงการโต้ตอบแบบแปรผันทั้งสามและมากกว่า

4
สำหรับรายละเอียดทางเทคนิคเกี่ยวกับ MIC วัสดุสนับสนุนออนไลน์มีข้อมูลมากกว่าบทความนั้น
ความละเอียด

คำตอบ:


22

มันไม่ได้บอกว่าสิ่งนี้ถูกตีพิมพ์ในวารสารที่ไม่ใช่เชิงสถิติซึ่งเราไม่แน่ใจว่ามีการตรวจสอบโดยเพื่อนหรือไม่? ปัญหานี้ได้รับการแก้ไขโดย Hoeffding ในปี 1948 (พงศาวดารของคณิตศาสตร์สถิติ 19: 546) ผู้พัฒนาอัลกอริทึมตรงไปตรงมาที่ไม่ต้องใช้ binning หรือหลายขั้นตอน งานของ Hoeffding ไม่ได้อ้างอิงในบทความ Science นี่เป็นhoeffdฟังก์ชั่นR ในHmiscแพ็คเกจมานานหลายปี นี่คือตัวอย่าง (พิมพ์example(hoeffd)R):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffdใช้การใช้ Fortran อย่างมีประสิทธิภาพในวิธีการของ Hoeffding แนวคิดพื้นฐานของการทดสอบของเขาคือการพิจารณาความแตกต่างระหว่างการจัดอันดับร่วมของ X และ Y และผลิตภัณฑ์ของการจัดอันดับส่วนต่างของ X และการจัดอันดับส่วนล่างของ Y การปรับขนาดอย่างเหมาะสม

ปรับปรุง

D

HmiscD|F(x,y)G(x)H(y)|D


6
(+1) กระดาษของ Hoeffdingมีให้ทางออนไลน์
res

1
ยินดีที่ได้พบ อาจเป็นสิ่งที่ควรค่าเมื่อเทียบกับวิทยาศาสตร์ในการเปรียบเทียบประสิทธิภาพของ Hoeffding กับของพวกเขา เป็นเรื่องน่าเสียดายที่การศึกษาที่ดีจำนวนมาก (ในหลาย ๆ สาขา) จากยุค 50 ถูกลืมไปหลายปี
Itamar

6

MI=H(X)+H(Y)H(X,Y)
H(X)=ip(zi)logp(zi)
H(X,Y)=i,jp(xi,yj)logp(xi,yj)

แนวคิดหลักของผู้แต่งคือการแยกข้อมูลลงบนกริดสองมิติที่แตกต่างกันจำนวนมากและคำนวณคะแนนปกติที่แสดงข้อมูลร่วมกันของตัวแปรทั้งสองในแต่ละกริด คะแนนถูกทำให้เป็นมาตรฐานเพื่อให้แน่ใจว่าการเปรียบเทียบที่เป็นธรรมระหว่างกริดที่แตกต่างกันและแตกต่างกันระหว่าง 0 (uncorrelated) และ 1 (สหสัมพันธ์สูง)

R2


3

ฉันพบบทความสองบทความที่อธิบายความคิดของ MIC โดยเฉพาะอย่างยิ่งบทความนี้ ; ที่นี่ที่สองที่สอง

ดังที่ฉันเข้าใจจากการอ่านเหล่านี้คือคุณสามารถขยายไปสู่ความซับซ้อนและระดับความสัมพันธ์ที่แตกต่างกันระหว่างตัวแปรสองตัวโดยการสำรวจกริดที่แตกต่างกัน กริดเหล่านี้ใช้เพื่อแยกพื้นที่ 2 มิติออกเป็นเซลล์ โดยการเลือกกริดที่เก็บข้อมูลส่วนใหญ่เกี่ยวกับวิธีการแบ่งพาร์ติชันของพื้นที่ที่คุณเลือก MIC

ฉันอยากจะถาม @mbq ว่าเขาสามารถขยายสิ่งที่เขาเรียกว่า "plot-all-scatterplots - and-peak-the- ที่มีพื้นที่สีขาวที่ใหญ่ที่สุด" และความซับซ้อนที่ไม่จริงของ O (M2)


4
ฉันกังวลเกี่ยวกับวิธีการทางสถิติใด ๆ ที่ใช้ binning
Frank Harrell

@ FrankHarrell คุณสามารถให้การอ้างอิงหรือปรีชาญาณซึ่งรายละเอียดทำไม binning ไม่ดี? โดยสังหรณ์ใจฉันจะเห็นว่าคุณกำลังทิ้งข้อมูลเนื่องจากการ binning แต่ต้องมีเหตุผลมากกว่านั้นทำไม?
Kiran K.

มีการอ้างอิงจำนวนมากเกินไปที่จะทราบว่าจะเริ่มต้นอย่างไร ในท้ายที่สุดไม่มีวิธีการทางสถิติใด ๆ Arbitrariness เป็นหนึ่งในปัญหามากมาย
Frank Harrell

@FrankHarrell ขอบคุณความคิดเห็น เหตุผลที่ฉันขอการอ้างอิงคือฉันเป็นนักศึกษาปริญญาเอกและกำลังศึกษาแนวคิดการพึ่งพาอาศัยกันและแนวคิดการพึ่งพาหลายตัวแปรในตอนนี้และชอบที่จะอ่านเอกสารเหล่านี้และกล่าวถึงพวกเขาในงานของตัวเองในอนาคต หากคุณสามารถพูดถึงหนึ่งหรือสองที่โดดเด่นฉันแน่ใจว่าฉันสามารถหาคนที่เหลือที่คุณกำลังพูดถึง ฉันจะทำการขุดและโพสต์อ้างอิงที่นี่ถ้าฉันพบคนดี
Kiran K.

เริ่มต้นด้วยciteulike.org/user/harrelfe/article/13265458แล้วดูข้อมูลอื่น ๆ เกี่ยว dichotomization ที่biostat.mc.vanderbilt.edu/CatContinuous สำหรับมาตรการที่ต้องพึ่งพาอาศัยกันโดยทั่วไปซึ่งไม่ต้องการการทำอาหารใด ๆ อย่าพลาดciteulike.org/user/harrelfe/article/13264312
Frank Harrell
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.