คำถามติดแท็ก information-theory

สาขาคณิตศาสตร์ / สถิติที่ใช้ในการกำหนดความสามารถในการรองรับข้อมูลของช่องสัญญาณไม่ว่าจะเป็นที่ใช้สำหรับการสื่อสารหรือที่ถูกกำหนดในความหมายที่เป็นนามธรรม เอนโทรปีเป็นหนึ่งในมาตรการที่นักทฤษฎีสารสนเทศสามารถวัดปริมาณความไม่แน่นอนที่เกี่ยวข้องในการทำนายตัวแปรสุ่ม

2
ข้อมูลรวมเป็นความน่าจะเป็น
ข้อมูลร่วมกันของเอนโทรปีสามารถร่วมกันได้: 0 ≤ ฉัน( X, วาย)H( X,วาย)≤ 10≤I(X,Y)H(X,Y)≤1 0 \leq \frac{I(X,Y)}{H(X,Y)} \leq 1 หมายถึง: "ความน่าจะเป็นในการถ่ายทอดข้อมูลจาก X ถึง Y"? ฉันขอโทษที่ไร้เดียงสามาก แต่ฉันไม่เคยศึกษาทฤษฎีข้อมูลและฉันพยายามเข้าใจแนวคิดบางอย่างของเรื่องนั้น

1
ข้อมูลที่ได้รับซึ่งกันและกันสามารถมีค่ามากกว่า 1
ฉันมีข้อสงสัยพื้นฐานมาก ขออภัยถ้าสิ่งนี้ทำให้หงุดหงิดเล็กน้อย ฉันรู้ว่าค่าข้อมูลรวมควรมากกว่า 0 แต่ควรน้อยกว่า 1 หรือไม่ มันถูกล้อมรอบด้วยค่าสูงสุดใด ๆ ? ขอบคุณ Amit

3
ทฤษฎีข้อมูล จำกัด ทฤษฎีบทกลาง
รูปแบบที่ง่ายที่สุดของ CLT เชิงทฤษฎีข้อมูล ได้แก่ : ให้จะ IID ที่มีค่าเฉลี่ยและความแปรปรวน1 ปล่อยให้f_nเป็นความหนาแน่นของผลรวม\ frac {\ sum_ {i = 1} ^ n X_i} {\ sqrt {n}}และ\ phiเป็นความหนาแน่นแบบเกาส์มาตรฐาน จากนั้นข้อมูลเชิงทฤษฎี CLT ระบุว่าถ้าD (f_n \ | \ phi) = \ int f_n \ log (f_n / \ phi) dxมีขอบเขตสำหรับnบางตัวดังนั้นD (f_n \ | \ phi) \ to 0เป็นn \ …

2
ความสัมพันธ์ระหว่างไพ่สองสำรับ?
ฉันได้เขียนโปรแกรมเพื่อจำลองการสลับไพ่ ฟาด ไพ่แต่ละใบมีหมายเลขโดยมีชุดสูทจากCLUBS, DIAMONDS, HEARTS, SPADESและอันดับจากสองถึงสิบจากนั้นแจ็ค, Queen, King และ Ace ดังนั้น Two of Clubs จึงมีหมายเลข 1, Three of Clubs a 2 .... Ace of Clubs คือ 13 ... Ace of Spades คือ 52 หนึ่งในวิธีการในการกำหนดวิธีสับไพ่คือการเปรียบเทียบกับไพ่ที่ไม่ได้สับไพ่และดูว่าลำดับของไพ่มีความสัมพันธ์กันหรือไม่ นั่นคือฉันอาจมีการ์ดเหล่านี้พร้อมกับการ์ดที่ไม่มีการสับเพื่อเปรียบเทียบ: Unshuffled Shuffled Unshuffled number Shuffled number Two of Clubs Three of Clubs 1 2 Three …

2
ตัวชี้วัดที่ดีในการประเมินคุณภาพของ PCA คืออะไรเพื่อเลือกจำนวนขององค์ประกอบ
อะไรคือการวัดที่ดีสำหรับการประเมินคุณภาพของการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันใช้อัลกอริทึมนี้กับชุดข้อมูล วัตถุประสงค์ของฉันคือลดจำนวนฟีเจอร์ (ข้อมูลซ้ำซ้อนมาก) ฉันรู้ว่าเปอร์เซ็นต์ของความแปรปรวนที่เก็บไว้เป็นตัวบ่งชี้ที่ดีว่าเราเก็บข้อมูลไว้มากน้อยเพียงใดจะมีตัวชี้วัดข้อมูลอื่นที่ฉันสามารถใช้เพื่อให้แน่ใจว่าฉันลบข้อมูลซ้ำซ้อนและไม่สูญเสียข้อมูลดังกล่าวหรือไม่

3
การลดขนาดสูญเสียข้อมูลบางส่วนหรือไม่?
เช่นเดียวกับชื่อเรื่องการลดขนาดจะสูญเสียข้อมูลบางส่วนหรือไม่ พิจารณาตัวอย่าง PCA หากข้อมูลที่ฉันมีอยู่น้อยมากฉันจะถือว่า "การเข้ารหัสที่ดีกว่า" สามารถพบได้ (นี่เกี่ยวข้องกับการจัดอันดับของข้อมูลหรือไม่) และไม่มีอะไรจะหายไป

1
วิธีการคำนวณข้อมูลร่วมกัน?
ฉันสับสนเล็กน้อย บางคนสามารถอธิบายให้ฉันทราบถึงวิธีการคำนวณข้อมูลร่วมกันระหว่างคำสองคำที่ยึดตามเมทริกซ์เอกสารระยะที่เกิดขึ้นกับคำศัพท์ไบนารีเป็นน้ำหนักได้หรือไม่ Document1Document2Document3′Why′111′How′101′When′111′Where′100′Why′′How′′When′′Where′Document11111Document21010Document31110 \begin{matrix} & 'Why' & 'How' & 'When' & 'Where' \\ Document1 & 1 & 1 & 1 & 1 \\ Document2 & 1 & 0 & 1 & 0 \\ Document3 & 1 & 1 & 1 & 0 \end{matrix} I(X;Y)=∑y∈Y∑x∈Xp(x,y)log(p(x,y)p(x)p(y))I(X;Y)=∑y∈Y∑x∈Xp(x,y)log⁡(p(x,y)p(x)p(y))I(X;Y)= \sum_{y \in Y} \sum_{x \in X} …

3
การเลือกคุณสมบัติโดยใช้ข้อมูลร่วมกันใน Matlab
ฉันกำลังพยายามใช้ความคิดของข้อมูลร่วมกันกับการเลือกคุณสมบัติตามที่อธิบายไว้ในบันทึกการบรรยายเหล่านี้ (หน้า 5) แพลตฟอร์มของฉันคือ Matlab ปัญหาหนึ่งที่ฉันพบเมื่อคำนวณข้อมูลร่วมกันจากข้อมูลเชิงประจักษ์ก็คือจำนวนนั้นจะเอนเอียงเสมอไป ฉันพบไฟล์ประมาณ 3 ~ 4 ไฟล์เพื่อคำนวณ MI บน Matlab Central และพวกเขาทั้งหมดให้จำนวนมาก (เช่น> 0.4) เมื่อฉันป้อนในตัวแปรสุ่มแบบอิสระ ฉันไม่ใช่ผู้เชี่ยวชาญ แต่ปัญหาดูเหมือนว่าถ้าคุณใช้ความหนาแน่นแบบร่วมและส่วนเพิ่มในการคำนวณ MI ระบบจะนำความลำเอียงมาใช้เนื่องจาก MI มีความหมายในเชิงบวก ใครบ้างมีคำแนะนำการปฏิบัติเกี่ยวกับวิธีการประเมินข้อมูลร่วมกันอย่างถูกต้อง? คำถามที่เกี่ยวข้องคือในทางปฏิบัติผู้คนใช้ MI เพื่อเลือกคุณสมบัติอย่างไร ฉันไม่เห็นชัดเจนว่าจะเกิดขึ้นกับค่าเกณฑ์ได้อย่างไรเนื่องจาก MI อยู่ในทฤษฎีที่ไม่มีขอบเขต หรือผู้คนเพียงแค่จัดอันดับคุณสมบัติของ MI และใช้คุณสมบัติ k อันดับต้น ๆ

2
การทดสอบสมมติฐานและระยะทางรวมทั้งหมดกับ Kullback-Leibler divergence
ในการวิจัยของฉันฉันพบปัญหาทั่วไปต่อไปนี้: ฉันมีการแจกแจงและครั้งในโดเมนเดียวกันและมีตัวอย่างจำนวนมาก (แต่ จำกัด ) จากการแจกแจงเหล่านั้น ตัวอย่างมีการกระจายอย่างเป็นอิสระและเหมือนกันจากหนึ่งในสองการแจกแจง (แม้ว่าการแจกแจงอาจเกี่ยวข้อง: ตัวอย่างเช่นQอาจเป็นส่วนผสมของPและการกระจายอื่น ๆ ) สมมติฐานว่างเปล่าคือตัวอย่างมาจากPสมมุติฐานสำรองคือ ตัวอย่างมาจากQPPPQQQQQQPPPPPPQQQ ฉันพยายามที่จะอธิบายลักษณะ Type I และ Type II ข้อผิดพลาดในการทดสอบตัวอย่างที่รู้กระจายPPPและQQQQโดยเฉพาะอย่างยิ่งผมสนใจในขอบเขตหนึ่งข้อผิดพลาดที่กำหนดอื่น ๆ นอกเหนือไปจากความรู้ของPPPและQQQQ ฉันได้ถามคำถามทางคณิตศาสตร์เกี่ยวกับความสัมพันธ์ของระยะทางรวมการเปลี่ยนแปลงระหว่างPPPและQQQกับการทดสอบสมมติฐานและได้รับคำตอบที่ฉันยอมรับ คำตอบนั้นสมเหตุสมผล แต่ฉันยังไม่สามารถสรุปความหมายที่ลึกกว่าความสัมพันธ์ของระยะทางรวมของการเปลี่ยนแปลงและการทดสอบสมมติฐานที่เกี่ยวข้องกับปัญหาของฉัน ดังนั้นฉันตัดสินใจที่จะเปิดฟอรั่มนี้ คำถามแรกของฉันคือ: ความผันแปรทั้งหมดนั้นรวมกับผลรวมของความน่าจะเป็นของข้อผิดพลาด Type I และ Type II ที่เป็นอิสระจากวิธีการทดสอบสมมติฐานที่มีอยู่หรือไม่ ในสาระสำคัญตราบใดที่มีความน่าจะเป็นที่ไม่ใช่ศูนย์ที่ตัวอย่างอาจถูกสร้างขึ้นโดยการแจกแจงอย่างใดอย่างหนึ่งความน่าจะเป็นที่มีข้อผิดพลาดอย่างน้อยหนึ่งข้อต้องไม่เป็นศูนย์ โดยพื้นฐานแล้วคุณไม่สามารถหลบหนีความเป็นไปได้ที่ผู้ทดสอบสมมติฐานของคุณจะทำผิดพลาดไม่ว่าคุณจะประมวลผลสัญญาณมากแค่ไหน และขอบเขตความแปรปรวนโดยรวมที่เป็นไปได้แน่นอน ความเข้าใจของฉันถูกต้องหรือไม่ นอกจากนี้ยังมีความสัมพันธ์ระหว่าง Type I และข้อผิดพลาดครั้งที่สองและพื้นฐานแจกแจงความน่าจะอีกและคือKL แตกต่าง ดังนั้นคำถามที่สองของฉันคือ: KL-divergence ผูกมัดใช้ได้กับวิธีการทดสอบสมมติฐานเฉพาะวิธีเดียวเท่านั้น (ดูเหมือนว่าจะเกิดขึ้นรอบ ๆ วิธีอัตราส่วนความน่าจะเป็นในการเข้าสู่ระบบมาก) หรือหนึ่งสามารถใช้ได้กับวิธีการทดสอบสมมติฐานทั้งหมด …

3
ไฮเปอร์เพลนจำแนกข้อมูลได้อย่างเหมาะสมที่สุดเมื่ออินพุตไม่ขึ้นกับเงื่อนไข - ทำไม?
ในกระดาษที่เรียกว่าการเรียนรู้อย่างลึกซึ้งและหลักการคอขวดข้อมูลผู้เขียนระบุไว้ในส่วน II A) ดังต่อไปนี้: เซลล์ประสาทเดี่ยวจัดประเภทอินพุตแบบแยกได้เชิงเส้นเท่านั้นเนื่องจากพวกมันสามารถนำไฮเปอร์เพลนมาใช้ในพื้นที่อินพุตเท่านั้น u = w h + bu=wh+bu = wh+b. ไฮเปอร์เพลนสามารถจำแนกข้อมูลได้อย่างเหมาะสมที่สุดเมื่ออินพุทถูกปล่อยให้เป็นอิสระ เพื่อแสดงสิ่งนี้พวกเขาได้รับสิ่งต่อไปนี้ ใช้ทฤษฎีบทของเบย์พวกเขาได้: p ( y| x)=11 + e x p ( - l o gp ( x | y)p ( x |Y')- l o gp ( y)p (Y'))p(y|x)=11+exp(−logp(x|y)p(x|y′)−logp(y)p(y′))p(y|x) = \frac{1}{1 + exp(-log\frac{p(x|y)}{p(x|y')} -log\frac{p(y)}{p(y')})} (1) ที่ไหน xxx …

2
ที่โมเดล Normal และ Binomial ความแปรปรวนด้านหลังจะน้อยกว่าความแปรปรวนก่อนหน้าเสมอหรือไม่
หรือมีเงื่อนไขอะไรรับประกันได้บ้าง โดยทั่วไป (และไม่เพียง แต่แบบจำลองทั่วไปและแบบทวินาม) ฉันคิดว่าเหตุผลหลักที่ทำให้การอ้างสิทธิ์นี้แตกต่างกันคือมีความไม่สอดคล้องกันระหว่างแบบจำลองตัวอย่างและแบบก่อน แต่มีอะไรอีกบ้าง ฉันเริ่มต้นด้วยหัวข้อนี้ดังนั้นฉันขอขอบคุณตัวอย่างง่าย ๆ

2
จำนวนของช่องเก็บเมื่อคำนวณข้อมูลร่วมกัน
ฉันต้องการหาปริมาณความสัมพันธ์ระหว่างตัวแปรสองตัวคือ A และ B โดยใช้ข้อมูลร่วมกัน วิธีการคำนวณก็คือการทำข้อสังเกต (ดูตัวอย่างโค้ดไพ ธ อนด้านล่าง) อย่างไรก็ตามสิ่งที่ปัจจัยกำหนดจำนวนถังขยะที่เหมาะสม? ฉันต้องการการคำนวณที่รวดเร็วดังนั้นฉันจึงไม่สามารถใช้ถังขยะจำนวนมากเพื่อความปลอดภัย from sklearn.metrics import mutual_info_score def calc_MI(x, y, bins): c_xy = np.histogram2d(x, y, bins)[0] mi = mutual_info_score(None, None, contingency=c_xy) return mi

1
เครือข่ายประสาทเทียมใช้การเข้ารหัสที่มีประสิทธิภาพหรือไม่
คำถามของฉันเกี่ยวข้องกับความสัมพันธ์ระหว่างสมมติฐานการเข้ารหัสที่มีประสิทธิภาพซึ่งแสดงไว้ในหน้า Wikipedia เกี่ยวกับการเข้ารหัสที่มีประสิทธิภาพและอัลกอริทึมการเรียนรู้เครือข่ายประสาท ความสัมพันธ์ระหว่างสมมติฐานการเข้ารหัสที่มีประสิทธิภาพกับเครือข่ายประสาทเทียมคืออะไร มีโครงข่ายประสาทเทียมใดที่ได้รับแรงบันดาลใจจากสมมติฐานการเข้ารหัสที่มีประสิทธิภาพหรือไม่ หรือมันจะยุติธรรมกว่าที่จะบอกว่าอัลกอริธึมการเรียนรู้โครงข่ายประสาททั้งหมดอย่างน้อยที่สุดก็ขึ้นอยู่กับการเข้ารหัสที่มีประสิทธิภาพ?

1
การใช้ทฤษฎีสารสนเทศในศาสตร์ข้อมูลประยุกต์
วันนี้ฉันวิ่งข้ามหนังสือ"ทฤษฎีข้อมูล: บทแนะนำการสอน"โดย James Stone และคิดสักครู่หรือสองครั้งเกี่ยวกับขอบเขตของการใช้ทฤษฎีข้อมูลในวิทยาศาสตร์ข้อมูลประยุกต์ (ถ้าคุณไม่พอใจกับคำนี้ค่อนข้างคลุมเครือ คิดว่าการวิเคราะห์ข้อมูลซึ่งวิทยาศาสตร์ข้อมูลของ IMHO เป็นรุ่นที่ได้รับเกียรติ) ฉันตระหนักดีถึงการใช้งานที่สำคัญของทฤษฎีสารสนเทศ -based วิธี , วิธีการและมาตรการโดยเฉพาะอย่างยิ่งเอนโทรปี , ภายใต้ประทุนเทคนิคทางสถิติและวิธีการต่างๆในการวิเคราะห์ข้อมูล อย่างไรก็ตามฉันอยากรู้เกี่ยวกับขอบเขต / ระดับความรู้ที่จำเป็นสำหรับนักวิทยาศาสตร์สังคมประยุกต์ที่ประสบความสำเร็จในการเลือกและใช้แนวคิดมาตรการและเครื่องมือเหล่านั้นโดยไม่ต้องดำลึกเข้าไปในจุดกำเนิดทางคณิตศาสตร์ของทฤษฎี ฉันหวังว่าจะได้คำตอบของคุณซึ่งอาจกล่าวถึงข้อกังวลของฉันภายในบริบทของหนังสือที่กล่าวถึงข้างต้น (หรือหนังสือที่คล้ายคลึงกันอื่น ๆ - อย่าลังเลที่จะแนะนำ) หรือโดยทั่วไป ฉันขอขอบคุณข้อเสนอแนะบางอย่างสำหรับแหล่งข้อมูลการพิมพ์หรือออนไลน์ที่กล่าวถึงทฤษฎีข้อมูลและแนวคิดแนวทางวิธีการและมาตรการในบริบทของ ( เปรียบเทียบกับ) วิธีการทางสถิติแบบดั้งเดิมอื่น ๆ (เพิ่มเติม) (ผู้ใช้บ่อยและBayesian )

2
บันทึก (p (x, y)) ทำข้อมูลร่วมกันให้เป็นจุดปกติได้อย่างไร
ฉันกำลังพยายามที่จะเข้าใจรูปแบบของข้อมูลร่วมกันแบบจุดตามปกติ npmi=pmi(x,y)log(p(x,y))npmi=pmi(x,y)log(p(x,y))npmi = \frac{pmi(x,y)}{log(p(x,y))} เหตุใดความน่าจะเป็นร่วมของบันทึกจึงทำให้ข้อมูลร่วมกันที่เป็นจุดเป็นปกติอยู่ระหว่าง [-1, 1]? ข้อมูลร่วมกันที่ชาญฉลาดคือ: pmi=log(p(x,y)p(x)p(y))pmi=log(p(x,y)p(x)p(y))pmi = log(\frac{p(x,y)}{p(x)p(y)}) p (x, y) ถูกล้อมรอบด้วย [0, 1] ดังนั้นล็อก (p (x, y)) ถูกล้อมรอบด้วย (, 0] ดูเหมือนว่าบันทึก (p (x, y)) ควรเปลี่ยนแปลงสมดุลใน ตัวเศษ แต่ฉันไม่เข้าใจอย่างชัดเจนว่ามันทำให้ฉันนึกถึงเอนโทรปีh=−log(p(x))h=−log(p(x))h=-log(p(x))แต่อีกครั้งฉันไม่เข้าใจความสัมพันธ์ที่แน่นอน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.