คำถามติดแท็ก mutual-information

ข้อมูลร่วมกันเป็นแนวคิดจากทฤษฎีสารสนเทศ เป็นการวัดการพึ่งพาร่วมกันระหว่างตัวแปรสุ่มสองตัวซึ่งไม่เหมือนกับค่าสัมประสิทธิ์สหสัมพันธ์ปกติ จำกัด เฉพาะตัวแปรสเกลาร์


3
อัลกอริทึม MIC สำหรับตรวจจับความสัมพันธ์ที่ไม่ใช่เชิงเส้นสามารถอธิบายได้อย่างง่ายดายหรือไม่?
อีกไม่นานฉันอ่านบทความสองเรื่อง อย่างแรกคือเกี่ยวกับประวัติของสหสัมพันธ์และที่สองเกี่ยวกับวิธีการใหม่ที่เรียกว่า Maximal Information Coefficient (MIC) ฉันต้องการความช่วยเหลือของคุณเกี่ยวกับการทำความเข้าใจกับวิธี MIC เพื่อประเมินความสัมพันธ์แบบไม่เป็นเชิงเส้นระหว่างตัวแปร นอกจากนี้คำแนะนำสำหรับการใช้งานใน R สามารถพบได้บนเว็บไซต์ของผู้เขียน (ภายใต้ดาวน์โหลด ): ฉันหวังว่านี่จะเป็นแพลตฟอร์มที่ดีในการพูดคุยและเข้าใจวิธีการนี้ ความสนใจของฉันที่จะหารือเกี่ยวกับสัญชาตญาณเบื้องหลังวิธีนี้และสามารถขยายออกไปได้อย่างไรตามที่ผู้เขียนกล่าว " ... เราต้องการส่วนขยายของ MIC (X, Y) ถึง MIC (X, Y | Z) เราจะต้องการทราบว่าต้องใช้ข้อมูลจำนวนเท่าใดในการประมาณค่า MIC ที่มีเสถียรภาพและมีความอ่อนไหวต่อค่าผิดปกติอย่างไร - หรือความสัมพันธ์ที่สูงขึ้นมิติมันจะพลาดและอื่น ๆ MIC เป็นขั้นตอนที่ดีข้างหน้า แต่มีขั้นตอนอื่น ๆ อีกมากมายที่จะใช้.. "

2
การผูกข้อมูลร่วมกันที่กำหนดขอบเขตบนข้อมูลร่วมกันตามจุด
สมมติว่าฉันมีสองชุดและและกระจายความน่าจะร่วมกันมากกว่าชุดนี้y) อนุญาตให้และแสดงถึงการกระจายตัวเล็กน้อยเหนือและตามลำดับXXXYYYp(x,y)p(x,y)p(x,y)p(x)p(x)p(x)p(y)p(y)p(y)XXXYYY ข้อมูลร่วมกันระหว่างและถูกกำหนดให้เป็น: XXXYYYI(X;Y)=∑x,yp(x,y)⋅log(p(x,y)p(x)p(y))I(X;Y)=∑x,yp(x,y)⋅log⁡(p(x,y)p(x)p(y))I(X; Y) = \sum_{x,y}p(x,y)\cdot\log\left(\frac{p(x,y)}{p(x)p(y)}\right) คือมันเป็นค่าเฉลี่ยของ PMI pointwise ข้อมูลร่วมกันขวา)(x,y)≡log(p(x,y)p(x)p(y))(x,y)≡log⁡(p(x,y)p(x)p(y))(x,y) \equiv \log\left(\frac{p(x,y)}{p(x)p(y)}\right) สมมติว่าฉันรู้ขอบเขตบนและล่างของ pmi : นั่นคือฉันรู้ว่าสำหรับมีดังต่อไปนี้: (x,y)(x,y)(x,y)x,yx,yx,y−k≤log(p(x,y)p(x)p(y))≤k−k≤log⁡(p(x,y)p(x)p(y))≤k-k \leq \log\left(\frac{p(x,y)}{p(x)p(y)}\right) \leq k สิ่งที่ถูกผูกไว้ด้านบนนี้จะบ่งบอกเกี่ยวกับI(X;Y)I(X;Y)I(X; Y)Y) แน่นอนว่ามันหมายถึงI(X;Y)≤kI(X;Y)≤kI(X; Y) \leq kแต่ฉันต้องการขอบเขตที่แน่นกว่าถ้าเป็นไปได้ นี้ดูเหมือนว่าเป็นไปได้กับผมเพราะพีกำหนดกระจายความน่าจะเป็นและ PMI (x,y)(x,y)(x,y)ไม่สามารถใช้ค่าสูงสุด (หรือแม้กระทั่งไม่เป็นลบ) สำหรับค่าของทุกxxxและy ที่yyy

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 


1
ความสัมพันธ์ของระยะทางกับข้อมูลร่วมกัน
ฉันทำงานกับข้อมูลร่วมกันมาระยะหนึ่งแล้ว แต่ฉันพบว่ามีการวัดล่าสุดใน "โลกแห่งความสัมพันธ์" ที่สามารถใช้เพื่อวัดความเป็นอิสระของการกระจายตัวที่เรียกว่า "ระยะทางสหสัมพันธ์" (หรือเรียกอีกอย่างว่าความสัมพันธ์ Brownian): http://en.wikipedia.org/wiki/Brownian_covariance . ฉันตรวจสอบเอกสารที่มีการใช้มาตรการนี้ แต่ไม่พบการพาดพิงถึงข้อมูลร่วมกัน ดังนั้นคำถามของฉันคือ: พวกเขาแก้ปัญหาเดียวกันได้หรือไม่? ถ้าไม่ปัญหาต่างกันอย่างไร? และหากคำถามก่อนหน้านี้สามารถตอบคำถามในเชิงบวกข้อดีของการใช้อย่างใดอย่างหนึ่งคืออะไร

1
อะไรคือความหมายของ eigenvector ของเมทริกซ์ข้อมูลร่วมกัน?
เมื่อมองไปที่ไอเก็นเวกเตอร์ของเมทริกซ์ความแปรปรวนร่วมเราจะได้คำแนะนำของความแปรปรวนสูงสุด (ไอเกนวีคตัวแรกคือทิศทางที่ข้อมูลแตกต่างกันมากที่สุด ฯลฯ ); สิ่งนี้เรียกว่าการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันสงสัยว่าการดู eigenvector / คุณค่าของเมทริกซ์ข้อมูลร่วมหมายความว่าพวกเขาจะชี้ไปในทิศทางของเอนโทรปีสูงสุดหรือไม่

1
การใช้ข้อมูลร่วมกันเพื่อประเมินความสัมพันธ์ระหว่างตัวแปรต่อเนื่องและตัวแปรเด็ดขาด
สำหรับชื่อเรื่องความคิดคือการใช้ข้อมูลร่วมกันที่นี่และหลัง MI เพื่อประมาณค่า "สหสัมพันธ์" (นิยามว่า "เท่าที่ฉันรู้เกี่ยวกับ A เมื่อฉันรู้จัก B") ระหว่างตัวแปรต่อเนื่องและตัวแปรเด็ดขาด ฉันจะบอกคุณความคิดของฉันเกี่ยวกับเรื่องนี้ในช่วงเวลาหนึ่ง แต่ก่อนที่ฉันจะแนะนำให้คุณอ่านคำถาม / คำตอบอื่น ๆ เกี่ยวกับ CrossValidatedเนื่องจากมีข้อมูลที่มีประโยชน์ ตอนนี้เนื่องจากเราไม่สามารถรวมกับตัวแปรเด็ดขาดเราต้องแยกแยะตัวแปรต่อเนื่อง สิ่งนี้สามารถทำได้ค่อนข้างง่ายใน R ซึ่งเป็นภาษาที่ฉันได้ทำการวิเคราะห์ด้วย ฉันชอบที่จะใช้cutฟังก์ชั่นนี้เพราะมันก็ใช้แทนค่า แต่ก็มีตัวเลือกอื่นเช่นกัน ประเด็นก็คือเราต้องตัดสินใจก่อนถึงจำนวนของ "ถังขยะ" (สถานะที่ไม่ต่อเนื่อง) ก่อนที่จะสามารถแยกแยะได้ อย่างไรก็ตามปัญหาหลักเป็นอีกปัญหาหนึ่ง: MI อยู่ในช่วงตั้งแต่ 0 ถึง∞เนื่องจากเป็นการวัดที่ไม่ได้มาตรฐานซึ่งหน่วยเป็นบิต ทำให้ยากมากที่จะใช้มันเป็นค่าสัมประสิทธิ์สหสัมพันธ์ ส่วนนี้สามารถแก้ไขได้โดยใช้สัมประสิทธิ์สหสัมพันธ์ทั่วโลกที่นี่และหลัง GCC ซึ่งเป็นเวอร์ชันมาตรฐานของ MI; GCC ถูกกำหนดดังนี้: การอ้างอิง: สูตรมาจากข้อมูลร่วมกันเป็นเครื่องมือไม่เชิงเส้นสำหรับการวิเคราะห์ตลาดหุ้นโลกาภิวัตน์โดย Andreia Dionísio, Rui Menezes & Diana Mendes, 2010 GCC …

2
ข้อมูลรวมเป็นความน่าจะเป็น
ข้อมูลร่วมกันของเอนโทรปีสามารถร่วมกันได้: 0 ≤ ฉัน( X, วาย)H( X,วาย)≤ 10≤I(X,Y)H(X,Y)≤1 0 \leq \frac{I(X,Y)}{H(X,Y)} \leq 1 หมายถึง: "ความน่าจะเป็นในการถ่ายทอดข้อมูลจาก X ถึง Y"? ฉันขอโทษที่ไร้เดียงสามาก แต่ฉันไม่เคยศึกษาทฤษฎีข้อมูลและฉันพยายามเข้าใจแนวคิดบางอย่างของเรื่องนั้น

1
ข้อมูลที่ได้รับซึ่งกันและกันสามารถมีค่ามากกว่า 1
ฉันมีข้อสงสัยพื้นฐานมาก ขออภัยถ้าสิ่งนี้ทำให้หงุดหงิดเล็กน้อย ฉันรู้ว่าค่าข้อมูลรวมควรมากกว่า 0 แต่ควรน้อยกว่า 1 หรือไม่ มันถูกล้อมรอบด้วยค่าสูงสุดใด ๆ ? ขอบคุณ Amit

1
ข้อดีและข้อเสียของการใช้ข้อมูลร่วมกันแบบจุดในเมทริกซ์การคิดคำก่อน SVD คืออะไร?
วิธีหนึ่งในการสร้างคำ embeddings มีดังนี้ ( กระจก ): รับ corpora เช่น "ฉันสนุกกับการบินฉันชอบ NLP ฉันชอบการเรียนรู้ลึก" สร้างเมทริกซ์การทับซ้อนของคำจากมัน: ดำเนินการ SVD บนXXXและเก็บคอลัมน์kkkแรกของ U U1:|V|,1:kU1:|V|,1:kU_{1:|V|,1:k} ระหว่างขั้นตอนที่ 2 และ 3 ข้อมูลบางอย่างจะถูกนำมาใช้ร่วมกันในบางจุด(เช่นA. Herbelot และ EM Vecchi 2015. การสร้างโลกที่ใช้ร่วมกัน: การทำแผนที่การกระจายไปยังพื้นที่เชิงความหมายแบบจำลองเชิงทฤษฎีในการประชุม . ลิสบอน, โปรตุเกส .) ข้อดีและข้อเสียของการใช้ข้อมูลร่วมกันแบบจุดในเมทริกซ์การคิดคำก่อน SVD คืออะไร?

1
เหตุใดผู้คนจึงใช้คำว่า "น้ำหนักของหลักฐาน" และแตกต่างจาก "ข้อมูลร่วมกันแบบชี้จุด" อย่างไร
ที่นี่ "น้ำหนักของหลักฐาน" (WOE) เป็นคำทั่วไปในวรรณคดีทางวิทยาศาสตร์และนโยบายการตีพิมพ์ที่พบบ่อยที่สุดในบริบทของการประเมินความเสี่ยงที่กำหนดโดย: W ( e : h ) = บันทึกพี ( e | h )พี ( e | h¯¯¯)w(e:h)=log⁡p(e|h)p(e|h¯)w(e : h) = \log\frac{p(e|h)}{p(e|\overline{h})} โดยที่คือหลักฐานhอีeeชั่วโมงhhคือสมมุติฐาน ตอนนี้ฉันต้องการทราบว่าอะไรคือความแตกต่างที่สำคัญกับ PMI (ข้อมูลร่วมกันแบบจุด) p m i ( e , h ) = บันทึกp ( e , h )p ( e ) ∗ p ( …

1
ทำไมนักสถิติจึงไม่ใช้ข้อมูลร่วมกันเพื่อเป็นตัวชี้วัดความสัมพันธ์?
ฉันได้เห็นการพูดคุยสองสามครั้งโดยนักสถิติที่ไม่ใช่พวกเขาดูเหมือนจะนำเสนอมาตรการความสัมพันธ์โดยใช้ข้อมูลร่วมกันมากกว่าการถดถอย ฉันคิดว่ามันมีเหตุผลที่ดีที่นักสถิติไม่ใช้วิธีนี้ ความเข้าใจของคนธรรมดาของฉันคือการประมาณการของข้อมูลเอนโทรปี / ข้อมูลร่วมกันมีแนวโน้มที่จะเป็นปัญหาและไม่เสถียร ฉันถือว่าพลังเป็นปัญหาเช่นกัน: พวกเขาพยายามหลีกเลี่ยงสิ่งนี้โดยอ้างว่าพวกเขาไม่ได้ใช้กรอบการทดสอบแบบพารามิเตอร์ โดยทั่วไปแล้วงานประเภทนี้จะไม่รบกวนการคำนวณพลังงานหรือแม้แต่ความมั่นใจ / ความน่าเชื่อถือ แต่ถ้าจะรับตำแหน่งผู้สนับสนุนของปีศาจมันเป็นการบรรจบกันอย่างช้าๆซึ่งเป็นเรื่องใหญ่เมื่อชุดข้อมูลมีขนาดใหญ่มาก? นอกจากนี้บางครั้งวิธีการเหล่านี้ดูเหมือนจะ "ทำงาน" ในแง่ที่ว่าสมาคมได้รับการตรวจสอบความถูกต้องโดยการศึกษาติดตามผล บทวิจารณ์ที่ดีที่สุดในการใช้ข้อมูลร่วมกันเป็นตัวชี้วัดความเชื่อมโยงคืออะไรและทำไมจึงไม่ใช้กันอย่างแพร่หลายในการฝึกสถิติ แก้ไข: นอกจากนี้ยังมีเอกสารที่ดีที่ครอบคลุมปัญหาเหล่านี้หรือไม่

1
วิธีการคำนวณข้อมูลร่วมกัน?
ฉันสับสนเล็กน้อย บางคนสามารถอธิบายให้ฉันทราบถึงวิธีการคำนวณข้อมูลร่วมกันระหว่างคำสองคำที่ยึดตามเมทริกซ์เอกสารระยะที่เกิดขึ้นกับคำศัพท์ไบนารีเป็นน้ำหนักได้หรือไม่ Document1Document2Document3′Why′111′How′101′When′111′Where′100′Why′′How′′When′′Where′Document11111Document21010Document31110 \begin{matrix} & 'Why' & 'How' & 'When' & 'Where' \\ Document1 & 1 & 1 & 1 & 1 \\ Document2 & 1 & 0 & 1 & 0 \\ Document3 & 1 & 1 & 1 & 0 \end{matrix} I(X;Y)=∑y∈Y∑x∈Xp(x,y)log(p(x,y)p(x)p(y))I(X;Y)=∑y∈Y∑x∈Xp(x,y)log⁡(p(x,y)p(x)p(y))I(X;Y)= \sum_{y \in Y} \sum_{x \in X} …

3
การเลือกคุณสมบัติโดยใช้ข้อมูลร่วมกันใน Matlab
ฉันกำลังพยายามใช้ความคิดของข้อมูลร่วมกันกับการเลือกคุณสมบัติตามที่อธิบายไว้ในบันทึกการบรรยายเหล่านี้ (หน้า 5) แพลตฟอร์มของฉันคือ Matlab ปัญหาหนึ่งที่ฉันพบเมื่อคำนวณข้อมูลร่วมกันจากข้อมูลเชิงประจักษ์ก็คือจำนวนนั้นจะเอนเอียงเสมอไป ฉันพบไฟล์ประมาณ 3 ~ 4 ไฟล์เพื่อคำนวณ MI บน Matlab Central และพวกเขาทั้งหมดให้จำนวนมาก (เช่น> 0.4) เมื่อฉันป้อนในตัวแปรสุ่มแบบอิสระ ฉันไม่ใช่ผู้เชี่ยวชาญ แต่ปัญหาดูเหมือนว่าถ้าคุณใช้ความหนาแน่นแบบร่วมและส่วนเพิ่มในการคำนวณ MI ระบบจะนำความลำเอียงมาใช้เนื่องจาก MI มีความหมายในเชิงบวก ใครบ้างมีคำแนะนำการปฏิบัติเกี่ยวกับวิธีการประเมินข้อมูลร่วมกันอย่างถูกต้อง? คำถามที่เกี่ยวข้องคือในทางปฏิบัติผู้คนใช้ MI เพื่อเลือกคุณสมบัติอย่างไร ฉันไม่เห็นชัดเจนว่าจะเกิดขึ้นกับค่าเกณฑ์ได้อย่างไรเนื่องจาก MI อยู่ในทฤษฎีที่ไม่มีขอบเขต หรือผู้คนเพียงแค่จัดอันดับคุณสมบัติของ MI และใช้คุณสมบัติ k อันดับต้น ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.