คำถามติดแท็ก entropy

ปริมาณทางคณิตศาสตร์ที่ออกแบบมาเพื่อวัดปริมาณการสุ่มของตัวแปรสุ่ม

13
อะไรคือบทบาทของลอการิทึมในเอนโทรปีของแชนนอน?
เอนโทรปีของแชนนอนนั้นเป็นผลลบของผลรวมของความน่าจะเป็นของผลลัพธ์แต่ละรายการคูณด้วยลอการิทึมของความน่าจะเป็นสำหรับแต่ละผลลัพธ์ ลอการิทึมมีจุดประสงค์อะไรในสมการนี้ คำตอบที่ใช้งานง่ายหรือภาพ (ตรงข้ามกับคำตอบทางคณิตศาสตร์อย่างลึกซึ้ง) จะได้รับคะแนนโบนัส!

9
การวัดเอนโทรปี / ข้อมูล / รูปแบบของเมทริกซ์ไบนารี 2d
ฉันต้องการวัดความหนาแน่นของข้อมูลเอนโทรปี / ข้อมูล / รูปแบบความคล้ายคลึงของเมทริกซ์ไบนารีสองมิติ ให้ฉันแสดงภาพเพื่อความกระจ่าง: จอแสดงผลนี้ควรมีเอนโทรปีค่อนข้างสูง: A) สิ่งนี้ควรมีเอนโทรปีปานกลาง: B) ในที่สุดภาพเหล่านี้ทั้งหมดควรมีค่าใกล้ศูนย์ - เอนโทรปี: C) D) E) มีดัชนีที่จับเอนโทรปีหรือไม่ "รูปแบบเหมือนกัน" ของจอแสดงผลเหล่านี้คืออะไร? แน่นอนว่าอัลกอริทึมแต่ละตัว (เช่นอัลกอริธึมการบีบอัดหรืออัลกอริทึมการหมุนที่เสนอโดย ttnphns ) นั้นไวต่อคุณสมบัติอื่น ๆ ของจอแสดงผล ฉันกำลังมองหาอัลกอริทึมที่พยายามจับภาพคุณสมบัติต่อไปนี้: สมมาตรการหมุนและแกน ปริมาณของการทำคลัสเตอร์ ซ้ำ อาจจะซับซ้อนกว่านี้อัลกอริทึมอาจมีความอ่อนไหวต่อคุณสมบัติของจิตวิทยา " หลักการเกสตัลต์ " โดยเฉพาะ: กฎหมายของความใกล้ชิด: กฎแห่งความสมมาตร: ภาพสมมาตรถูกรับรู้ร่วมกันแม้จะอยู่ในระยะไกล: แสดงด้วยคุณสมบัติเหล่านี้ควรได้รับการกำหนด "ค่าเอนโทรปีต่ำ"; จอแสดงผลที่มีคะแนนค่อนข้างสุ่ม / ไม่มีโครงสร้างควรได้รับการกำหนด "ค่าเอนโทรปีสูง" ฉันทราบว่าอาจไม่มีอัลกอริทึมเดียวที่จะจับภาพคุณลักษณะเหล่านี้ทั้งหมด ดังนั้นคำแนะนำสำหรับอัลกอริทึมที่กล่าวถึงเพียงคุณลักษณะบางอย่างหรือแม้แต่คุณสมบัติเดียวก็ยินดีต้อนรับเช่นกัน โดยเฉพาะอย่างยิ่งฉันกำลังมองหาที่เป็นรูปธรรมอัลกอริทึมที่มีอยู่หรือความคิดที่นำไปใช้เฉพาะ (และฉันจะให้รางวัลตามเกณฑ์เหล่านี้)

3
คะแนน Akaike Information Criterion (AIC) ของแบบจำลองหมายถึงอะไร
ฉันได้เห็นคำถามบางอย่างที่นี่เกี่ยวกับความหมายในแง่คนธรรมดา แต่สิ่งเหล่านี้มันธรรมดาเกินไปสำหรับวัตถุประสงค์ของฉันที่นี่ ฉันกำลังพยายามที่จะเข้าใจทางคณิตศาสตร์ว่าคะแนน AIC หมายถึงอะไร แต่ในเวลาเดียวกันฉันไม่ต้องการหลักฐานที่เข้มงวดซึ่งจะทำให้ฉันไม่เห็นประเด็นที่สำคัญกว่านี้ ตัวอย่างเช่นถ้านี่คือแคลคูลัสฉันจะมีความสุขกับ infinitesimals และถ้านี่เป็นทฤษฎีความน่าจะเป็น ความพยายามของฉัน โดยอ่านที่นี่และสัญกรณ์น้ำตาลของฉันเองเป็นเกณฑ์ AIC ของรุ่นบนชุดข้อมูลดังนี้: ที่เป็นจำนวนพารามิเตอร์ของแบบจำลองและเป็นค่าฟังก์ชั่นความน่าจะเป็นสูงสุดของรุ่นบนชุดDAICm,DAICm,D\text{AIC}_{m,D}mmmDDDAICm,D=2km−2ln(Lm,D)AICm,D=2km−2ln⁡(Lm,D) \text{AIC}_{m,D} = 2k_m - 2 \ln(L_{m,D}) kmkmk_mmmmLm,DLm,DL_{m,D}mmmDDD นี่คือความเข้าใจของฉันในสิ่งที่ข้างต้นหมายถึง: m=arg maxθPr(D|θ)m=arg maxθPr(D|θ) m = \underset{\theta}{\text{arg max}\,} \Pr(D|\theta) ทางนี้: kmkmk_mเป็นจำนวนพารามิเตอร์ของม.mmm Lm,D=Pr(D|m)=L(m|D)Lm,D=Pr(D|m)=L(m|D)L_{m,D} = \Pr(D|m) = \mathcal{L}(m|D)D) ตอนนี้ลองเขียน AIC: AICm,D===2km−2ln(Lm,D)2km−2ln(Pr(D|m))2km−2loge(Pr(D|m))AICm,D=2km−2ln⁡(Lm,D)=2km−2ln⁡(Pr(D|m))=2km−2loge⁡(Pr(D|m))\begin{split} \text{AIC}_{m,D} =& 2k_m - 2 \ln(L_{m,D})\\ =& 2k_m - 2 …

2
เอนโทรปีบอกอะไรเรา
ฉันกำลังอ่านเกี่ยวกับเอนโทรปีและมีช่วงเวลาที่ยากลำบากในการคิดว่ามันหมายถึงอะไรในกรณีอย่างต่อเนื่อง หน้า wiki ระบุสิ่งต่อไปนี้: การแจกแจงความน่าจะเป็นของเหตุการณ์บวกกับจำนวนข้อมูลของทุกเหตุการณ์สร้างตัวแปรสุ่มซึ่งค่าที่คาดหวังคือจำนวนข้อมูลเฉลี่ยหรือเอนโทรปีที่เกิดจากการแจกแจงนี้ ดังนั้นถ้าฉันคำนวณเอนโทรปีที่เกี่ยวข้องกับการแจกแจงความน่าจะเป็นแบบต่อเนื่องนั่นจะบอกอะไรฉันจริง ๆ พวกเขาให้ตัวอย่างเกี่ยวกับการพลิกเหรียญดังนั้นกรณีที่แยกกัน แต่ถ้ามีวิธีที่เข้าใจง่ายที่จะอธิบายผ่านตัวอย่างเช่นในกรณีต่อเนื่องนั่นจะยอดเยี่ยม! ถ้ามันช่วยได้นิยามของเอนโทรปีสำหรับตัวแปรสุ่มต่อเนื่องคือ:XXX H(X)=−∫P(x)logbP(x)dxH(X)=−∫P(x)logb⁡P(x)dxH(X)=-\int P(x)\log_b P(x)dx โดยที่เป็นฟังก์ชันการแจกแจงความน่าจะเป็นP(x)P(x)P(x) หากต้องการลองทำสิ่งนี้ให้เป็นรูปธรรมมากขึ้นให้พิจารณากรณีของจากนั้นตามที่Wikipediaระบุว่าเอนโทรปีคือX∼Gamma(α,β)X∼Gamma(α,β)X\sim \text{Gamma}(\alpha,\beta) H( X)= E [ - ln( P( X) ) ]]= E [ - α ln( β) + ln( Γ ( α ) ) + ln( Γ ( α ) ) - ( α - …
32 entropy 

6
ทำไมเอนโทรปีถึงใหญ่ที่สุดเมื่อการกระจายความน่าจะเป็นแบบเดียวกัน?
ฉันรู้ว่าเอนโทรปีคือการวัดแบบแผนของกระบวนการ / ตัวแปรและสามารถกำหนดได้ดังนี้ สำหรับตัวแปรสุ่มX ∈X∈X \inชุด: - H ( X ) = Σ x ฉัน ∈ - P ( x ฉัน ) เข้าสู่ระบบ( P ( x ฉัน ) ) ในหนังสือเกี่ยวกับเอนโทรปีและทฤษฎีข้อมูลโดยแมคเคย์เขาได้ให้ถ้อยแถลงนี้ใน Ch2AAH(X)=∑xi∈A−p(xi)log(p(xi))H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i)) เอนโทรปีจะถูกขยายให้มากที่สุดถ้า p เป็นชุด ฉันสามารถเข้าใจได้เช่นถ้าดาต้าพอยน์ทั้งหมดในชุดAAAถูกเลือกด้วยความน่าจะเป็น1 / m1/m1/m ( mmmเป็นความสำคัญของเซตAAA ) จากนั้นการสุ่มหรือเอนโทรปีจะเพิ่มขึ้น แต่ถ้าเรารู้ว่าบางจุดในเซตAAAจะเกิดขึ้นโดยมีความน่าจะเป็นมากกว่าคนอื่น ๆ (พูดในกรณีของการแจกแจงแบบปกติที่ความเข้มข้นสูงสุดของจุดข้อมูลอยู่รอบค่าเฉลี่ยและพื้นที่เบี่ยงเบนมาตรฐานขนาดเล็กรอบมัน …

3
การพิสูจน์จากเอนโทรปีของลูกศร Bayesian แบบย้อนหลังของ Shalizi ของเวลาที่ผิดธรรมดา?
ในบทความนี้นักวิจัยที่มีความสามารถคอสมาชาลิซีีระบุว่าจะยอมรับอย่างเต็มที่มุมมองคชกรรมอัตนัยหนึ่งยังต้องยอมรับผล unphysical ที่ลูกศรของเวลา (ที่ได้รับจากการไหลของเอนโทรปี) จริงควรไปข้างหลัง นี้เป็นส่วนใหญ่ความพยายามที่จะเถียงกับเอนโทรปีสูงสุด / อัตนัยอย่างเต็มที่มุมมองแบบเบย์นำไปข้างหน้าและความนิยมโดยET เจย์นส์ มากกว่าที่LessWrongผู้ให้หลายคนมีความสนใจมากในทฤษฎีความน่าจะเป็นแบบเบย์และยังอยู่ในวิธีการแบบเบย์อัตนัยเป็นพื้นฐานสำหรับทฤษฎีการตัดสินใจอย่างเป็นทางการและหินก้าวต่อที่แข็งแกร่ง AI เอลีเซอร์ยัดคาสกีเป็นผู้สนับสนุนร่วมกันมีและฉันเพิ่งอ่านโพสต์นี้เมื่อฉัน พบกับความคิดเห็นนี้ (ความคิดเห็นที่ดีอื่น ๆ อีกไม่นานหลังจากนั้นในหน้าโพสต์ต้นฉบับ) ทุกคนสามารถให้ความเห็นเกี่ยวกับความถูกต้องของการโต้แย้งของ Shalizi ของ Yudkowsky โดยสังเขปเหตุผลของ Yudkowsky คือกลไกทางกายภาพซึ่งตัวแทนการให้เหตุผลปรับปรุงความเชื่อของตนจำเป็นต้องมีการทำงานดังนั้นจึงมีค่าใช้จ่ายทางอุณหพลศาสตร์ที่ Shalizi กวาดใต้พรม ในความคิดเห็นอื่น Yudkowsky ปกป้องสิ่งนี้พูดว่า: "ถ้าคุณใช้มุมมองของผู้สังเกตการณ์ที่สมบูรณ์แบบที่มีเหตุผลรอบนอกระบบความคิดของ" เอนโทรปี "นั้นค่อนข้างไร้ความหมายเช่นเดียวกับ" ความน่าจะเป็น "- คุณไม่จำเป็นต้องใช้อุณหพลศาสตร์เชิงสถิติในการสร้างแบบจำลองอะไรเลย สมการคลื่น " probabilists หรือ statistcal ใด ๆ สามารถแสดงความคิดเห็นเกี่ยวกับเรื่องนี้ได้หรือไม่? ฉันไม่สนใจข้อโต้แย้งจากผู้มีอำนาจเกี่ยวกับสถานะของ Shalizi หรือ Yudkowsky แต่ฉันอยากจะเห็นบทสรุปของวิธีการที่ Yudkowsky ทั้งสามประเด็นเสนอวิจารณ์ของบทความของ Shalizi …

3
Kullback-Leibler divergence โดยไม่มีทฤษฎีข้อมูล
หลังจากผ่านการตรวจสอบของ Cross Validated แล้วฉันยังไม่รู้สึกว่าฉันเข้าใกล้การเข้าใจความแตกต่างของ KL นอกทฤษฎีข้อมูล มันค่อนข้างแปลกสำหรับใครบางคนที่มีพื้นฐานทางคณิตศาสตร์เพื่อให้เข้าใจคำอธิบายทฤษฎีข้อมูลได้ง่ายขึ้น เพื่อสรุปความเข้าใจของฉันจากเบื้องหลังทฤษฎีข้อมูล: ถ้าเรามีตัวแปรสุ่มที่มีจำนวนผลลัพธ์ที่แน่นอนมีการเข้ารหัสที่ดีที่สุดซึ่งช่วยให้เราสามารถสื่อสารผลลัพธ์กับคนอื่นโดยเฉลี่ยกับข้อความสั้นที่สุด (ฉันพบสิ่งนี้ง่ายที่สุดในการ รูปภาพในรูปของบิต) ความยาวที่คาดหวังของข้อความจะต้องสื่อสารผลลัพธ์โดยหากใช้การเข้ารหัสที่เหมาะสมที่สุด หากคุณต้องใช้การเข้ารหัสที่เหมาะสมที่สุดย่อยแล้ว KL divergence จะบอกเราโดยเฉลี่ยว่าข้อความของเราจะนานเท่าไร- ∑αพีαเข้าสู่ระบบ2( หน้าα)-Σαพีαเข้าสู่ระบบ2⁡(พีα) -\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha}) ฉันชอบคำอธิบายนี้เพราะมันค่อนข้างเกี่ยวข้องกับความไม่สมมาตรของ KL divergence หากเรามีระบบที่แตกต่างกันสองระบบคือสองเหรียญที่โหลดแตกต่างกันพวกเขาจะมีการเข้ารหัสที่ดีที่สุดที่แตกต่างกัน ฉันไม่รู้สึกอย่างสัญชาตญาณว่าการใช้การเข้ารหัสของระบบที่สองสำหรับครั้งแรกนั้น "แย่พอ ๆ กัน" กับการใช้การเข้ารหัสของระบบแรกเป็นครั้งที่สอง โดยไม่ต้องผ่านกระบวนการคิดว่าฉันเชื่อมั่นในตัวเองอย่างไรตอนนี้ฉันมีความสุขมากที่จะช่วยให้คุณนี้ "ข้อความยาวคาดว่าพิเศษ" เมื่อใช้ 's เข้ารหัสสำหรับพีΣαพีα( บันทึก2Qα- บันทึก2พีα)Σαพีα(เข้าสู่ระบบ2⁡Qα-เข้าสู่ระบบ2⁡พีα)\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})QQqพีพีp อย่างไรก็ตามคำจำกัดความส่วนใหญ่ของ KL divergence รวมถึงวิกิพีเดียก็ทำให้คำแถลง (ทำให้สิ่งนี้เป็นคำที่ไม่ต่อเนื่องเพื่อให้สามารถเปรียบเทียบกับการตีความทฤษฏีข้อมูลซึ่งทำงานได้ดีกว่าในแง่ที่ไม่ต่อเนื่องกันเป็นบิต) การแจกแจงจากนั้น KL จะให้การวัดบางส่วนของ "ความแตกต่าง" ฉันยังไม่เห็นคำอธิบายเดียวว่าแนวคิดทั้งสองนี้เกี่ยวข้องกันอย่างไร ฉันดูเหมือนจะจำได้ว่าในหนังสือของเขาเกี่ยวกับการอนุมานเดฟแมคเคย์ให้คะแนนเกี่ยวกับวิธีการบีบอัดข้อมูลและการอนุมานนั้นเป็นสิ่งเดียวกันและฉันสงสัยว่าคำถามของฉันเกี่ยวข้องกับเรื่องนี้จริงๆ …

3
การตีความทางสถิติของการกระจายเอนโทรปีสูงสุด
ฉันได้ใช้หลักการของเอนโทรปีสูงสุดเพื่อแสดงให้เห็นถึงการใช้การแจกแจงหลายอย่างในการตั้งค่าต่างๆ อย่างไรก็ตามฉันยังไม่สามารถกำหนดสถิติได้ซึ่งตรงกันข้ามกับข้อมูลทางทฤษฎีและการตีความเอนโทรปีสูงสุด กล่าวอีกนัยหนึ่งการเพิ่มค่าเอนโทรปีให้มากที่สุดหมายถึงคุณสมบัติทางสถิติของการแจกแจงอย่างไร มีใครวิ่งข้ามหรืออาจค้นพบตัวเองตีความทางสถิติของสูงสุด การกระจายของเอนโทรปีที่ไม่ได้ดึงดูดข้อมูล แต่เป็นเพียงแนวคิดที่น่าจะเป็น? เป็นตัวอย่างของการตีความดังกล่าว (ไม่จำเป็นต้องเป็นจริง): "สำหรับช่วงเวลาของความยาว L ตามอำเภอใจบนโดเมนของ RV (สมมติว่า 1-d ต่อเนื่องเพื่อความเรียบง่าย) ความน่าจะเป็นสูงสุดที่สามารถอยู่ในช่วงเวลานี้จะลดลง โดยการกระจายเอนโทรปีสูงสุด " ดังนั้นคุณจะเห็นว่าไม่มีการพูดคุยเกี่ยวกับ "ความเป็นสารสนเทศ" หรือแนวคิดทางปรัชญาอื่น ๆ

3
การเปรียบเทียบระหว่าง MaxEnt, ML, Bayes และวิธีอนุมานเชิงสถิติประเภทอื่น ๆ
ฉันไม่มีทางสถิติ (ฉันมีหลักสูตรในสถิติทางคณิตศาสตร์ แต่ไม่มีอะไรมากไปกว่านั้น) และเมื่อเร็ว ๆ นี้ในขณะที่ศึกษาทฤษฎีข้อมูลและกลไกทางสถิติฉันพบสิ่งนี้เรียกว่า "วัดความไม่แน่นอน" / "เอนโทรปี" ฉันอ่าน Khinchin ที่มาของมันเป็นตัวชี้วัดความไม่แน่นอนและมันก็สมเหตุสมผลสำหรับฉัน อีกสิ่งหนึ่งที่สมเหตุสมผลก็คือคำอธิบายของเจย์เนสของ MaxEnt เพื่อให้ได้สถิติเมื่อคุณทราบค่าเฉลี่ยเลขคณิตของหนึ่งหรือมากกว่าหนึ่งฟังก์ชัน / s ในตัวอย่าง (สมมติว่าคุณยอมรับเป็นตัวชี้วัดความไม่แน่นอน) - ∑ pผมLNพีผม−∑piln⁡pi-\sum p_i\ln p_i ดังนั้นฉันค้นหาบนอินเทอร์เน็ตเพื่อค้นหาความสัมพันธ์กับวิธีการอนุมานเชิงสถิติอื่น ๆ และพระเจ้าฉันสับสน ตัวอย่างเช่นบทความนี้แนะนำโดยสมมติว่าฉันเข้าใจถูกต้องว่าคุณเพิ่งได้ตัวประมาณ ML ภายใต้การปรับแก้ปัญหาที่เหมาะสม MacKey ในหนังสือของเขาบอกว่า MaxEnt สามารถให้สิ่งแปลก ๆ แก่คุณและคุณไม่ควรใช้มันแม้แต่การประเมินเบื้องต้นในการอนุมานแบบเบย์ ฯลฯ ฉันมีปัญหาในการหาการเปรียบเทียบที่ดี คำถามของฉันคือคุณสามารถให้คำอธิบายและ / หรือการอ้างอิงที่ดีเกี่ยวกับจุดอ่อนและจุดแข็งของ MaxEnt เป็นวิธีการอนุมานเชิงสถิติด้วยการเปรียบเทียบเชิงปริมาณกับวิธีอื่น ๆ (เมื่อนำไปใช้กับโมเดลของเล่นเป็นต้น)

4
เอนโทรปีของภาพ
ข้อมูล / ฟิสิกส์ - ทฤษฎีที่ถูกต้องที่สุดในการคำนวณเอนโทรปีของภาพคืออะไร? ตอนนี้ฉันไม่สนใจประสิทธิภาพการคำนวณฉันต้องการให้มันถูกต้องตามหลักเหตุผลเท่าที่จะทำได้ ให้เริ่มต้นด้วยภาพระดับสีเทา วิธีการหนึ่งที่ใช้งานง่ายคือการพิจารณาภาพเป็นถุงพิกเซลและคำนวณ ที่คือจำนวนของระดับสีเทาและเป็นความน่าจะเป็นที่เกี่ยวข้องกับระดับสีเทาkK p k kH= - ∑kพีkl o g2( หน้าk)H=−∑kpklog2(pk) H = - \sum_k p_k log_2(p_k) KKKพีkpkp_kkkk มีสองปัญหาเกี่ยวกับคำนิยามนี้: มันใช้งานได้กับวงดนตรีหนึ่งวง (เช่นระดับสีเทา) แต่จะขยายวงกว้างอย่างไรในวิธีที่ถูกต้องทางสถิติไปยังวงดนตรีหลายวง? ตัวอย่างเช่นสำหรับ 2 แบนด์ควรมีหนึ่งฐานตั้งอยู่บนและทำให้ PMF ใช้หรือไม่ หากมีวงดนตรีหลายวง( >> 2) ดังนั้นซึ่งดูเหมือนว่าผิดP ( X 1 = x 1 , X 2 = x 2 ) …

2
เอนโทรปีเชิงประจักษ์คืออะไร?
ในคำนิยามของชุดทั่วไปที่ใช้ร่วมกัน (ใน "องค์ประกอบของทฤษฎีข้อมูล", ch. 7.6, p. 195) เราใช้ เป็นเอนโทรปีเชิงประจักษ์ของn-sequence กับP(xn)=Π n ฉัน= 1 P(xฉัน) ฉันไม่เคยเจอคำศัพท์นี้มาก่อน ไม่ได้กำหนดไว้อย่างชัดเจนที่ใดก็ได้ตามดัชนีของหนังสือ−1nlogp(xn)−1nlog⁡p(xn)-\frac{1}{n} \log{p(x^n)}nnnp(xn)=∏ni=1p(xi)p(xn)=∏i=1np(xi)p(x^n) = \prod_{i=1}^{n}{p(x_i)} คำถามของฉันโดยทั่วไปคือ: ทำไมเอนโทรปีเชิงประจักษ์ไม่ได้ที่P ( x )−∑xp^(x)log(p^(x))−∑xp^(x)log⁡(p^(x))-\sum_{x}{\hat p (x) \log(\hat p(x))}p^(x)p^(x)\hat p(x)คือการกระจายเชิงประจักษ์? อะไรคือความแตกต่างและความคล้ายคลึงที่น่าสนใจที่สุดระหว่างสองสูตรนี้? (ในแง่ของคุณสมบัติที่พวกเขาแบ่งปัน / ไม่แชร์)

6
การแนะนำที่ดีในเอนโทรปีชนิดต่าง ๆ
ฉันกำลังมองหาหนังสือหรือแหล่งข้อมูลออนไลน์ที่อธิบายถึงเอนโทรปีชนิดต่าง ๆ เช่น Sample Entropy และแชนนอนเอนโทรปีและข้อดีและข้อเสีย ใครบางคนชี้ให้ฉันในทิศทางที่ถูกต้อง?

2
การผูกข้อมูลร่วมกันที่กำหนดขอบเขตบนข้อมูลร่วมกันตามจุด
สมมติว่าฉันมีสองชุดและและกระจายความน่าจะร่วมกันมากกว่าชุดนี้y) อนุญาตให้และแสดงถึงการกระจายตัวเล็กน้อยเหนือและตามลำดับXXXYYYp(x,y)p(x,y)p(x,y)p(x)p(x)p(x)p(y)p(y)p(y)XXXYYY ข้อมูลร่วมกันระหว่างและถูกกำหนดให้เป็น: XXXYYYI(X;Y)=∑x,yp(x,y)⋅log(p(x,y)p(x)p(y))I(X;Y)=∑x,yp(x,y)⋅log⁡(p(x,y)p(x)p(y))I(X; Y) = \sum_{x,y}p(x,y)\cdot\log\left(\frac{p(x,y)}{p(x)p(y)}\right) คือมันเป็นค่าเฉลี่ยของ PMI pointwise ข้อมูลร่วมกันขวา)(x,y)≡log(p(x,y)p(x)p(y))(x,y)≡log⁡(p(x,y)p(x)p(y))(x,y) \equiv \log\left(\frac{p(x,y)}{p(x)p(y)}\right) สมมติว่าฉันรู้ขอบเขตบนและล่างของ pmi : นั่นคือฉันรู้ว่าสำหรับมีดังต่อไปนี้: (x,y)(x,y)(x,y)x,yx,yx,y−k≤log(p(x,y)p(x)p(y))≤k−k≤log⁡(p(x,y)p(x)p(y))≤k-k \leq \log\left(\frac{p(x,y)}{p(x)p(y)}\right) \leq k สิ่งที่ถูกผูกไว้ด้านบนนี้จะบ่งบอกเกี่ยวกับI(X;Y)I(X;Y)I(X; Y)Y) แน่นอนว่ามันหมายถึงI(X;Y)≤kI(X;Y)≤kI(X; Y) \leq kแต่ฉันต้องการขอบเขตที่แน่นกว่าถ้าเป็นไปได้ นี้ดูเหมือนว่าเป็นไปได้กับผมเพราะพีกำหนดกระจายความน่าจะเป็นและ PMI (x,y)(x,y)(x,y)ไม่สามารถใช้ค่าสูงสุด (หรือแม้กระทั่งไม่เป็นลบ) สำหรับค่าของทุกxxxและy ที่yyy

1
ป่าสุ่มของ Breiman ใช้ข้อมูลที่ได้รับหรือดัชนี Gini หรือไม่
ฉันต้องการทราบว่าป่าสุ่มของ Breiman (ป่าสุ่มในแพคเกจ R สุ่มป่า) ใช้เป็นเกณฑ์แยก (เกณฑ์สำหรับการเลือกคุณลักษณะ) ได้รับข้อมูลหรือดัชนี Gini หรือไม่ ฉันพยายามค้นหามันในhttp://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htmและในเอกสารสำหรับแพ็คเกจ randomForest ใน R แต่สิ่งเดียวที่ฉันพบคือดัชนี Gini สามารถใช้สำหรับ การคำนวณความสำคัญของตัวแปร

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.