สถิติและข้อมูลขนาดใหญ่ maximum-entropy

6

ทำไมเอนโทรปีถึงใหญ่ที่สุดเมื่อการกระจายความน่าจะเป็นแบบเดียวกัน?

ฉันรู้ว่าเอนโทรปีคือการวัดแบบแผนของกระบวนการ / ตัวแปรและสามารถกำหนดได้ดังนี้ สำหรับตัวแปรสุ่มX ∈X∈X \inชุด: - H ( X ) = Σ x ฉัน ∈ - P ( x ฉัน ) เข้าสู่ระบบ( P ( x ฉัน ) ) ในหนังสือเกี่ยวกับเอนโทรปีและทฤษฎีข้อมูลโดยแมคเคย์เขาได้ให้ถ้อยแถลงนี้ใน Ch2AAH(X)=∑xi∈A−p(xi)log(p(xi))H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i)) เอนโทรปีจะถูกขยายให้มากที่สุดถ้า p เป็นชุด ฉันสามารถเข้าใจได้เช่นถ้าดาต้าพอยน์ทั้งหมดในชุดAAAถูกเลือกด้วยความน่าจะเป็น1 / m1/m1/m ( mmmเป็นความสำคัญของเซตAAA ) จากนั้นการสุ่มหรือเอนโทรปีจะเพิ่มขึ้น แต่ถ้าเรารู้ว่าบางจุดในเซตAAAจะเกิดขึ้นโดยมีความน่าจะเป็นมากกว่าคนอื่น ๆ (พูดในกรณีของการแจกแจงแบบปกติที่ความเข้มข้นสูงสุดของจุดข้อมูลอยู่รอบค่าเฉลี่ยและพื้นที่เบี่ยงเบนมาตรฐานขนาดเล็กรอบมัน …

32 uniform entropy maximum-entropy

3

การพิสูจน์จากเอนโทรปีของลูกศร Bayesian แบบย้อนหลังของ Shalizi ของเวลาที่ผิดธรรมดา?

ในบทความนี้นักวิจัยที่มีความสามารถคอสมาชาลิซีีระบุว่าจะยอมรับอย่างเต็มที่มุมมองคชกรรมอัตนัยหนึ่งยังต้องยอมรับผล unphysical ที่ลูกศรของเวลา (ที่ได้รับจากการไหลของเอนโทรปี) จริงควรไปข้างหลัง นี้เป็นส่วนใหญ่ความพยายามที่จะเถียงกับเอนโทรปีสูงสุด / อัตนัยอย่างเต็มที่มุมมองแบบเบย์นำไปข้างหน้าและความนิยมโดยET เจย์นส์ มากกว่าที่LessWrongผู้ให้หลายคนมีความสนใจมากในทฤษฎีความน่าจะเป็นแบบเบย์และยังอยู่ในวิธีการแบบเบย์อัตนัยเป็นพื้นฐานสำหรับทฤษฎีการตัดสินใจอย่างเป็นทางการและหินก้าวต่อที่แข็งแกร่ง AI เอลีเซอร์ยัดคาสกีเป็นผู้สนับสนุนร่วมกันมีและฉันเพิ่งอ่านโพสต์นี้เมื่อฉัน พบกับความคิดเห็นนี้ (ความคิดเห็นที่ดีอื่น ๆ อีกไม่นานหลังจากนั้นในหน้าโพสต์ต้นฉบับ) ทุกคนสามารถให้ความเห็นเกี่ยวกับความถูกต้องของการโต้แย้งของ Shalizi ของ Yudkowsky โดยสังเขปเหตุผลของ Yudkowsky คือกลไกทางกายภาพซึ่งตัวแทนการให้เหตุผลปรับปรุงความเชื่อของตนจำเป็นต้องมีการทำงานดังนั้นจึงมีค่าใช้จ่ายทางอุณหพลศาสตร์ที่ Shalizi กวาดใต้พรม ในความคิดเห็นอื่น Yudkowsky ปกป้องสิ่งนี้พูดว่า: "ถ้าคุณใช้มุมมองของผู้สังเกตการณ์ที่สมบูรณ์แบบที่มีเหตุผลรอบนอกระบบความคิดของ" เอนโทรปี "นั้นค่อนข้างไร้ความหมายเช่นเดียวกับ" ความน่าจะเป็น "- คุณไม่จำเป็นต้องใช้อุณหพลศาสตร์เชิงสถิติในการสร้างแบบจำลองอะไรเลย สมการคลื่น " probabilists หรือ statistcal ใด ๆ สามารถแสดงความคิดเห็นเกี่ยวกับเรื่องนี้ได้หรือไม่? ฉันไม่สนใจข้อโต้แย้งจากผู้มีอำนาจเกี่ยวกับสถานะของ Shalizi หรือ Yudkowsky แต่ฉันอยากจะเห็นบทสรุปของวิธีการที่ Yudkowsky ทั้งสามประเด็นเสนอวิจารณ์ของบทความของ Shalizi …

31 bayesian entropy maximum-entropy philosophical

3

การตีความทางสถิติของการกระจายเอนโทรปีสูงสุด

ฉันได้ใช้หลักการของเอนโทรปีสูงสุดเพื่อแสดงให้เห็นถึงการใช้การแจกแจงหลายอย่างในการตั้งค่าต่างๆ อย่างไรก็ตามฉันยังไม่สามารถกำหนดสถิติได้ซึ่งตรงกันข้ามกับข้อมูลทางทฤษฎีและการตีความเอนโทรปีสูงสุด กล่าวอีกนัยหนึ่งการเพิ่มค่าเอนโทรปีให้มากที่สุดหมายถึงคุณสมบัติทางสถิติของการแจกแจงอย่างไร มีใครวิ่งข้ามหรืออาจค้นพบตัวเองตีความทางสถิติของสูงสุด การกระจายของเอนโทรปีที่ไม่ได้ดึงดูดข้อมูล แต่เป็นเพียงแนวคิดที่น่าจะเป็น? เป็นตัวอย่างของการตีความดังกล่าว (ไม่จำเป็นต้องเป็นจริง): "สำหรับช่วงเวลาของความยาว L ตามอำเภอใจบนโดเมนของ RV (สมมติว่า 1-d ต่อเนื่องเพื่อความเรียบง่าย) ความน่าจะเป็นสูงสุดที่สามารถอยู่ในช่วงเวลานี้จะลดลง โดยการกระจายเอนโทรปีสูงสุด " ดังนั้นคุณจะเห็นว่าไม่มีการพูดคุยเกี่ยวกับ "ความเป็นสารสนเทศ" หรือแนวคิดทางปรัชญาอื่น ๆ

23 distributions entropy intuition information-theory maximum-entropy

4

การแจกแจงก่อนหน้าอย่างไม่ทราบข้อมูลสำหรับพารามิเตอร์มาตราส่วน

ฉันใช้การแจกแจงแบบปกติของล็อกเป็นการแจกแจงก่อนหน้าสำหรับพารามิเตอร์สเกล (สำหรับการแจกแจงแบบปกติ, การแจกแจงแบบอื่น ๆ ) เมื่อฉันมีความคิดคร่าวๆเกี่ยวกับสิ่งที่สเกลควรจะเป็น แต่ต้องการทำผิดด้าน มากเกี่ยวกับมัน ฉันใช้เพราะการใช้นั้นทำให้ฉันเข้าใจได้ง่าย แต่ฉันไม่ได้เห็นคนอื่นใช้ มีอันตรายซ่อนอยู่หรือไม่?

21 distributions bayesian modeling prior maximum-entropy

1

เอนโทรปีค่าต่างน้อยกว่าค่าอนันต์หรือไม่?

สำหรับตัวแปรสุ่มแบบต่อเนื่องตามอำเภอใจบอกว่า , ค่าเอนโทรปีของค่านั้นน้อยกว่าหรือไม่? (มันก็โอเคถ้ามัน .) ถ้าไม่มันเป็นเงื่อนไขที่จำเป็นและเพียงพอสำหรับมันที่จะน้อยกว่า ?∞ - ∞ ∞XXX∞∞\infty- ∞−∞-\infty∞∞\infty

14 entropy information-theory maximum-entropy

2

พิสูจน์ว่าการกระจายเอนโทรปีสูงสุดด้วยเมทริกซ์ความแปรปรวนคงที่คือเกาส์

ฉันพยายามที่จะทำให้หัวของฉันรอบต่อไปนี้เป็นข้อพิสูจน์ว่าเกาส์มีเอนโทรปีสูงสุด ขั้นตอนที่ติดดาวทำให้รู้สึกอย่างไร ความแปรปรวนร่วมที่เฉพาะเจาะจงจะแก้ไขช่วงเวลาที่สองเท่านั้น เกิดอะไรขึ้นกับช่วงเวลาที่สามสี่และห้า?

13 entropy information-theory maximum-entropy

2

ฟังก์ชันความหนาแน่นของความน่าจะเป็นเอนโทรปีสูงสุดคืออะไรสำหรับตัวแปรต่อเนื่องที่เป็นบวกของค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน

การกระจายเอนโทรปีสูงสุดสำหรับตัวแปรต่อเนื่องเชิงบวกคืออะไรในช่วงเวลาที่หนึ่งและสอง ตัวอย่างเช่นการแจกแจงแบบเกาส์คือการแจกแจงแบบเอนโทรปีสูงสุดสำหรับตัวแปรที่ไม่ได้ จำกัด เนื่องจากค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานและการแจกแจงแกมมาเป็นการแจกแจงแบบเอนโทรปีสูงสุดสำหรับตัวแปรบวกโดยให้ค่าเฉลี่ยและค่าเฉลี่ยของลอการิทึม

13 distributions standard-deviation mean maximum-entropy

1

มีการใช้ jackknifing ร่วมสมัยหรือไม่?

คำถาม: การ บูตสแตรปจะดีกว่าการใช้แม่แรง อย่างไรก็ตามฉันสงสัยว่ามีบางกรณีที่ jackknifing เป็นตัวเลือกเดียวหรืออย่างน้อยที่เป็นไปได้สำหรับการจำแนกลักษณะความไม่แน่นอนจากการประมาณค่าพารามิเตอร์ นอกจากนี้ในสถานการณ์จริงที่ว่าวิธีการลำเอียง / คลาดเคลื่อนนั้นมีความสัมพันธ์กับการบีบรัดและความสามารถในการให้ความรู้เบื้องต้นก่อนการพัฒนา bootstrap ที่ซับซ้อนมากขึ้น? บริบทบางอย่าง: เพื่อนกำลังใช้อัลกอริทึมการเรียนรู้เครื่องดำ ( MaxEnt ) เพื่อจำแนกข้อมูลทางภูมิศาสตร์ที่เป็น "การแสดงตนเท่านั้น" หรือ "การบวกเท่านั้น" การประเมินรูปแบบทั่วไปโดยทั่วไปจะใช้ cross-validation และ ROC curves อย่างไรก็ตามเธอใช้เอาต์พุตของโมเดลเพื่อรับรายละเอียดตัวเลขเดียวของเอาต์พุตโมเดลและต้องการช่วงความมั่นใจรอบหมายเลขนั้น Jackknifing ดูเหมือนจะเป็นวิธีที่เหมาะสมในการอธิบายลักษณะของความไม่แน่นอนเกี่ยวกับค่านี้ การเริ่มการบูตไม่เกี่ยวข้องเนื่องจากจุดข้อมูลแต่ละจุดเป็นตำแหน่งที่ไม่ซ้ำกันบนแผนที่ที่ไม่สามารถสุ่มตัวอย่างได้ด้วยการแทนที่ โปรแกรมการสร้างแบบจำลองของตัวเองอาจจะสามารถให้สิ่งที่เธอต้องการในที่สุด; อย่างไรก็ตามฉันสนใจโดยทั่วไปหาก / เมื่อ jackknifing มีประโยชน์

12 machine-learning cross-validation bootstrap maximum-entropy jackknife

3

ตัวประมาณความน่าจะเป็นสูงสุดของการแจกแจงร่วมที่ให้ไว้มีเพียงจำนวนเล็กน้อย

ให้จะกระจายร่วมกันของสองตัวแปรเด็ดขาดX , Yกับx , y ที่∈ { 1 , ... , K } พูดว่าตัวอย่างnถูกดึงมาจากการกระจายตัวนี้ แต่เราจะได้รับจำนวนเล็กน้อยเท่านั้นสำหรับj = 1 , … , K :px,ypx,yp_{x,y}X,YX,YX,Yx,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\}nnnj=1,…,Kj=1,…,Kj=1,\ldots,K Sj=∑i=1nδ( Xผม= l ) , TJ= ∑i = 1nδ( Yผม= J ) ,Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)}, ประมาณการความน่าจะเป็นสูงสุดคืออะไรได้รับS J , T J ? เป็นที่รู้จักกันไหม? คำนวณความเป็นไปได้? มีแนวทางอื่นที่สมเหตุสมผลสำหรับปัญหานี้นอกเหนือจาก …

12 categorical-data maximum-likelihood joint-distribution marginal maximum-entropy

2

วิธีตรวจสอบการคาดการณ์ของอนุกรมเวลา

หนึ่งในประเด็นสำคัญที่นักพยากรณ์ประสบคือถ้าซีรีส์ที่กำหนด สามารถคาดการณ์ได้หรือไม่? ฉันสะดุดกับบทความเรื่อง " เอนโทรปีในฐานะตัวบ่งชี้การพยากรณ์ของ Priori " โดย Peter Catt ที่ใช้Entropimate Entropy (ApEn) เป็นตัวชี้วัดที่สัมพันธ์กันเพื่อกำหนดชุดเวลาที่กำหนด บทความกล่าวว่า "ค่า ApEn ที่เล็กลงบ่งชี้ว่ามีโอกาสมากขึ้นที่ชุดข้อมูลจะตามด้วยข้อมูลที่คล้ายกัน (ความเป็นปกติ) ในทางกลับกันค่าที่ใหญ่กว่าของ ApEn บ่งชี้ว่าโอกาสที่ข้อมูลที่คล้ายกันซ้ำกันจะลดลง การสุ่มและความซับซ้อนของระบบ " และตามด้วยสูตรทางคณิตศาสตร์สำหรับการคำนวณ ApEn นี่เป็นวิธีการที่น่าสนใจเพราะให้ค่าตัวเลขที่สามารถใช้ในการประเมินความคาดการณ์ในแง่ที่เกี่ยวข้อง ฉันไม่รู้ว่า Entropy หมายถึงอะไรฉันกำลังอ่านเพิ่มเติมเกี่ยวกับเรื่องนี้ มีแพคเกจที่เรียกว่าเป็นpracmaในRที่ช่วยให้คุณคำนวณ Apen เพื่อวัตถุประสงค์ในการอธิบายฉันใช้อนุกรมเวลา 3 แบบและคำนวณตัวเลข ApEn อันดับ 1:ซีรี่ส์เวลาของ AirPassenger ที่มีชื่อเสียง - ถูกกำหนดไว้สูงและเราควรคาดการณ์ได้ง่าย Series 2: Sunspot Time Series - ถูกกำหนดไว้อย่างดี แต่ควรคาดการณ์ได้น้อยกว่า …

10 time-series forecasting entropy maximum-entropy forecastability

1

การกระจายแบบใดที่มีค่าเอนโทรปีสูงสุดสำหรับค่าเบี่ยงเบนสัมบูรณ์ที่ทราบค่าเฉลี่ย?

ฉันอ่านการสนทนาเรื่อง Hacker Newsเกี่ยวกับการใช้ส่วนเบี่ยงเบนมาตรฐานตรงข้ามกับตัวชี้วัดอื่น ๆ เช่นค่าเบี่ยงเบนสัมบูรณ์แบบเฉลี่ย ดังนั้นถ้าเราทำตามหลักการของเอนโทรปีสูงสุดเราจะใช้การกระจายแบบไหนถ้าเรารู้ค่าเฉลี่ยของการแจกแจงและค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยเท่านั้น หรือมีเหตุผลมากกว่าที่จะใช้ค่ามัธยฐานและค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยจากค่ามัธยฐาน? ฉันพบกระดาษเอนโทรปีหลักการสูงสุดที่มีมาตรการเบี่ยงเบนทั่วไปโดย Grechuk, Molyboha และ Zabarankin ซึ่งดูเหมือนว่าจะมีข้อมูลที่ฉันอยากรู้ แต่มันใช้เวลาสักครู่ในการถอดรหัส

10 distributions maximum-entropy mad

1

“ เนื่องจากใกล้เคียงกับเกาส์เซียนไฟล์ PDF จึงสามารถเขียนเป็น…”

คำถามสั้น ๆ :ทำไมถึงเป็นจริง คำถามยาว: ง่ายมากฉันพยายามหาว่าอะไรที่ทำให้สมการแรกนี้เป็นจริง ผู้เขียนหนังสือที่ฉันกำลังอ่าน (บริบทที่นี่หากคุณต้องการ แต่ไม่จำเป็น) อ้างสิทธิ์ดังต่อไปนี้: เนื่องจากข้อสันนิษฐานว่าใกล้ - เกาส์เซียเราสามารถเขียน: p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ))p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ)) p_0(\xi) = A \; \phi(\xi) \; exp( a_{n+1}\xi + (a_{n+2} + \frac{1}{2})\xi^2 + \sum_{i=1}^{n} a_i G_i(\xi)) โดยที่เป็น PDF ของข้อมูลที่คุณสังเกตเห็นซึ่งมีค่าเอนโทรปีสูงสุดเนื่องจากคุณสังเกตเห็นชุดของความคาดหวัง (ตัวเลขง่าย) , ที่และเป็น PDF ของตัวแปร gaussian ที่ได้มาตรฐานนั่นคือ 0 หมายถึงและความแปรปรวนของหน่วยp0(ξ)p0(ξ)p_0(\xi)ci,i=1...nci,i=1...nc_i, i = 1 ... nci=E{Gi(ξ)}ci=E{Gi(ξ)}c_i = \mathbb{E}\{G_i(\xi)\}ϕ(ξ)ϕ(ξ)\phi(\xi) สิ่งที่เกิดขึ้นคือเขาใช้สมการข้างต้นเป็นจุดเริ่มต้นในการสร้าง PDF,ง่ายขึ้นและฉันเข้าใจว่าเขาทำได้ …

9 probability normal-distribution entropy maximum-entropy

1

การสร้างโมเดลเอนโทรปีสูงสุดจากตัวแยกประเภทเอนโทรปีสูงสุดแบบหลายอินพุตที่มีอยู่

ฉันรู้สึกทึ่งกับแนวคิดของรูปแบบสูงสุดของเอนโทรปีมาร์คอฟ (MEMM) และฉันกำลังคิดที่จะใช้มันสำหรับแท็กเกอร์ Speech (POS) ส่วนหนึ่ง ในขณะนี้ฉันใช้ลักษณนาม Maximum Entropy (ME) ทั่วไปเพื่อติดแท็กแต่ละคำ สิ่งนี้ใช้คุณสมบัติหลายอย่างรวมถึงสองแท็กก่อนหน้านี้ MEMM ใช้อัลกอริทึม Viterbi เพื่อค้นหาเส้นทางที่เหมาะสมผ่านห่วงโซ่มาร์คอฟ (เช่นเพื่อค้นหาแท็กชุดที่สมบูรณ์แบบที่สุดสำหรับประโยคแทนที่จะเป็นคำแต่ละคำที่เหมาะสมที่สุด อ่านเกี่ยวกับเรื่องนี้ดูเหมือนจะมีความสง่างามและความเรียบง่ายที่ยอดเยี่ยม อย่างไรก็ตามแต่ละสเตจจะอาศัย "ผลลัพธ์" ของสเตจก่อนหน้าเท่านั้น (เช่นตามเครือมาร์คอฟ) อย่างไรก็ตามโมเดล ME ของฉันใช้สองขั้นตอนก่อนหน้า (เช่นแท็กสำหรับสองคำก่อนหน้านี้) ดูเหมือนว่าฉันมีวิธีที่เป็นไปได้สองวิธี: เช่นเดียวกับการใช้ Viterbi แบบเดิมให้ใช้ชุดของเส้นทางที่จัดเก็บตามขั้นตอนเดียว (ก่อนหน้านี้) ตัวแยกประเภท ME ของฉันจะใช้ขั้นตอนนี้และ 'แช่แข็ง' ก่อนหน้านี้ (ถูกแช่แข็งในเส้นทางภายใต้การพิจารณา) เพื่อสร้างฟังก์ชันถ่ายโอน หรือฉันเขียนอัลกอริทึมเพื่อติดตามสองขั้นตอน สิ่งนี้มีความซับซ้อนมากขึ้นและจะไม่เป็นโมเดลของมาร์คอฟที่แท้จริงอีกต่อไปเพราะฟังก์ชั่นถ่ายโอนแต่ละตัว (เช่นจาก ME Model) จะขึ้นอยู่กับสองขั้นตอนก่อนหน้านี้และไม่ใช่หนึ่งขั้นตอน มันทำให้ฉันรู้ว่าสิ่งที่สองจะแม่นยำยิ่งขึ้นแม้ว่ามันจะซับซ้อนกว่าก็ตาม ฉันยังไม่พบตัวอย่างใด ๆ ของสิ่งนี้ในระหว่างการค้นหาวรรณกรรม มันถูกลองแล้วหรือยัง? วิธีการสองขั้นตอนนี้ช่วยปรับปรุงความแม่นยำโดยรวมหรือไม่?

9 machine-learning mcmc maximum-entropy memm

คำถามติดแท็ก maximum-entropy