การเปรียบเทียบระหว่าง MaxEnt, ML, Bayes และวิธีอนุมานเชิงสถิติประเภทอื่น ๆ


21

ฉันไม่มีทางสถิติ (ฉันมีหลักสูตรในสถิติทางคณิตศาสตร์ แต่ไม่มีอะไรมากไปกว่านั้น) และเมื่อเร็ว ๆ นี้ในขณะที่ศึกษาทฤษฎีข้อมูลและกลไกทางสถิติฉันพบสิ่งนี้เรียกว่า "วัดความไม่แน่นอน" / "เอนโทรปี" ฉันอ่าน Khinchin ที่มาของมันเป็นตัวชี้วัดความไม่แน่นอนและมันก็สมเหตุสมผลสำหรับฉัน อีกสิ่งหนึ่งที่สมเหตุสมผลก็คือคำอธิบายของเจย์เนสของ MaxEnt เพื่อให้ได้สถิติเมื่อคุณทราบค่าเฉลี่ยเลขคณิตของหนึ่งหรือมากกว่าหนึ่งฟังก์ชัน / s ในตัวอย่าง (สมมติว่าคุณยอมรับเป็นตัวชี้วัดความไม่แน่นอน) pilnpi

ดังนั้นฉันค้นหาบนอินเทอร์เน็ตเพื่อค้นหาความสัมพันธ์กับวิธีการอนุมานเชิงสถิติอื่น ๆ และพระเจ้าฉันสับสน ตัวอย่างเช่นบทความนี้แนะนำโดยสมมติว่าฉันเข้าใจถูกต้องว่าคุณเพิ่งได้ตัวประมาณ ML ภายใต้การปรับแก้ปัญหาที่เหมาะสม MacKey ในหนังสือของเขาบอกว่า MaxEnt สามารถให้สิ่งแปลก ๆ แก่คุณและคุณไม่ควรใช้มันแม้แต่การประเมินเบื้องต้นในการอนุมานแบบเบย์ ฯลฯ ฉันมีปัญหาในการหาการเปรียบเทียบที่ดี

คำถามของฉันคือคุณสามารถให้คำอธิบายและ / หรือการอ้างอิงที่ดีเกี่ยวกับจุดอ่อนและจุดแข็งของ MaxEnt เป็นวิธีการอนุมานเชิงสถิติด้วยการเปรียบเทียบเชิงปริมาณกับวิธีอื่น ๆ (เมื่อนำไปใช้กับโมเดลของเล่นเป็นต้น)

คำตอบ:


19

วิธีการอนุมาน MaxEnt และ Bayesian สอดคล้องกับวิธีต่างๆในการรวมข้อมูลเข้ากับกระบวนการสร้างแบบจำลองของคุณ ทั้งสองสามารถวางบนพื้นดินซึ่งเป็นจริง ( "สัจพจน์ของสูงสุดเอนโทรปี"ของจอห์นสกิลลิ่งและ"พีชคณิตแห่งการอนุมานของความน่าจะเป็นของคอคส์" )

วิธีการแบบเบย์ตรงไปตรงมาเพื่อนำไปใช้หากความรู้ก่อนหน้าของคุณมาในรูปแบบของฟังก์ชั่นมูลค่าที่วัดได้จริงเหนือพื้นที่สมมุติฐานของคุณหรือที่เรียกว่า "ก่อนหน้า" MaxEnt ตรงไปตรงมาเมื่อข้อมูลมาเป็นชุดของข้อ จำกัด ที่ยากในพื้นที่สมมติฐานของคุณ ในชีวิตจริงความรู้ไม่ได้อยู่ในรูปแบบ "ก่อน" หรือใน "ข้อ จำกัด " ดังนั้นความสำเร็จของวิธีการของคุณขึ้นอยู่กับความสามารถในการแสดงความรู้ของคุณในรูปแบบที่สอดคล้องกัน

ในปัญหาของเล่นค่าเฉลี่ยแบบจำลองแบบเบย์จะให้ค่าเฉลี่ยการสูญเสียบันทึกต่ำสุด (เฉลี่ยมากกว่าแบบจำลองจำนวนมาก) เมื่อก่อนตรงกับการกระจายตัวของสมมติฐานที่แท้จริง วิธี MaxEnt จะให้การสูญเสียบันทึกต่ำสุดกรณีที่แย่ที่สุดเมื่อข้อ จำกัด ของมันพอใจ

ETJaynes ถือเป็นพ่อของวิธีการ "MaxEnt" ก็ขึ้นอยู่กับวิธีการแบบเบย์ ในหน้า 1412ของหนังสือของเขาเขาให้ตัวอย่างที่วิธีการแบบเบย์ส่งผลให้เกิดการแก้ปัญหาที่ดีตามด้วยตัวอย่างที่วิธีการของ MaxEnt นั้นเป็นธรรมชาติมากกว่า

ความเป็นไปได้สูงสุดโดยพื้นฐานแล้วตัวแบบจะอยู่ในพื้นที่ที่กำหนดไว้ล่วงหน้าและพยายามที่จะทำให้มันพอดี "ยากที่สุด" ในแง่ที่ว่ามันจะมีความไวสูงสุดต่อข้อมูลจากวิธีการเลือกแบบจำลองทั้งหมดที่ จำกัด เฉพาะรุ่นดังกล่าว ช่องว่าง ในขณะที่ MaxEnt และ Bayesian เป็นเฟรมเวิร์ก ML เป็นวิธีการสร้างแบบจำลองที่เป็นรูปธรรมและสำหรับตัวเลือกการออกแบบบางอย่าง ML สามารถสิ้นสุดวิธีที่ออกมาจากวิธี Bayesian หรือ MaxEnt ตัวอย่างเช่น MaxEnt ที่มีข้อ จำกัด ด้านความเท่าเทียมกันจะเท่ากับการปรับความเป็นไปได้สูงสุดของตระกูลชี้แจงบางอย่าง การประมาณการอนุมานแบบเบย์สามารถนำไปสู่วิธีแก้ปัญหาโอกาสสูงสุดปกติ หากคุณเลือกก่อนที่จะทำให้ข้อสรุปของคุณอ่อนไหวที่สุดกับข้อมูลผลลัพธ์ของการอนุมานแบบเบย์จะสอดคล้องกับการปรับความน่าจะเป็นสูงสุด ตัวอย่างเช่นpผ่านการทดลองของ Bernoulli ก่อนหน้านี้จะเป็นการจำกัด การกระจายเบต้า (0,0)

เครื่องจักรในชีวิตจริงความสำเร็จในการเรียนรู้มักจะเป็นการผสมผสานของปรัชญาที่หลากหลาย ตัวอย่างเช่น "Random Fields" มาจากหลักการของ MaxEnt การใช้ความคิดที่เป็นที่นิยมมากที่สุดคือ CRF ที่ทำให้เป็นมาตรฐานเกี่ยวข้องกับการเพิ่ม "ก่อนหน้า" ในพารามิเตอร์ ดังนั้นวิธีนี้จึงไม่ใช่ MaxEnt หรือ Bayesian จริงๆ แต่ได้รับอิทธิพลจากทั้งโรงเรียนแห่งความคิด

ผมได้รวบรวมการเชื่อมโยงบางบนรากฐานของปรัชญาคชกรรมและ Maxent แนวทางที่นี่และที่นี่

หมายเหตุเกี่ยวกับคำศัพท์: บางครั้งคนเรียกวิธีการของพวกเขาแบบเบส์ถ้าใช้กฎเบย์ในบางจุด ในทำนองเดียวกัน "MaxEnt" บางครั้งใช้สำหรับวิธีการบางอย่างที่ช่วยแก้ปัญหาเอนโทรปีสูง สิ่งนี้ไม่เหมือนกับ "การอนุมาน MaxEnt" หรือ "การอนุมานแบบเบย์" ตามที่อธิบายไว้ข้างต้น


1
ขอบคุณ ฉันไม่คิดว่า "ตรรกะของวิทยาศาสตร์" พูดถึงสิ่งนี้ด้วยฉันจะอ่านหนังสือเล่มนั้นอย่างแน่นอน
ฟรานเชสโก

19

สำหรับคำวิจารณ์ที่สนุกสนานเกี่ยวกับวิธีการเอนโทรปีสูงสุดผมขอแนะนำให้อ่านโพสต์กลุ่มข่าวสารเก่า ๆ บน sci.stat.math และ sci.stat.consult โดยเฉพาะอย่างยิ่ง Radford Neal:

ฉันไม่ได้ตระหนักถึงการเปรียบเทียบใด ๆ ระหว่าง maxent และวิธีการอื่น ๆ : ส่วนหนึ่งของปัญหาดูเหมือนว่า maxent ไม่ได้เป็นกรอบจริงๆ แต่เป็นคำสั่งที่คลุมเครือ ("เมื่อต้องเผชิญกับสิ่งที่ไม่รู้จักเพียงแค่เพิ่มเอนโทรปี") ตีความในรูปแบบที่แตกต่างกันโดยคนต่าง ๆ


4
(+1) เธรด 2002 นั้นเป็นนรกของการแลกเปลี่ยนความคิดเห็น
whuber

1
โปรดสังเกตว่า "วอลลิสมา" ของแม็กซ์ที่ได้รับจากเอ็ดวินเจย์เนสในทฤษฎีความน่าจะเป็น: ตรรกะของวิทยาศาสตร์ให้เหตุผล "ทดลอง" เพื่อเพิ่มเอนโทรปี ในการแจกแจงแบบไม่ต่อเนื่องถ้าเราเริ่มต้นจากหลักการของความเฉยเมย (PID) และจากนั้นทำการสุ่มตัวอย่างการปฏิเสธความน่าจะเป็นโดยใช้ข้อ จำกัด ในการยอมรับหรือปฏิเสธตัวอย่างเครื่องแบบแบบสุ่ม ความน่าจะเป็นที่ได้นั้นจะใกล้กับการแจกแจง maxent (ไม่ต่อเนื่อง) โดยพลการ
ความน่าจะเป็นทาง

3

มันเป็นความจริงที่ในอดีต MaxEnt และ Bayes ได้จัดการกับข้อมูลประเภทหรือรูปแบบที่แตกต่างกัน ฉันจะบอกว่า Bayes ใช้ข้อ จำกัด "ยาก" เช่นกันแม้ว่าโอกาส

ไม่ว่าในกรณีใดมันไม่ใช่ปัญหาอีกต่อไปเนื่องจาก Bayes Rule (ไม่ใช่กฎผลิตภัณฑ์) สามารถหาได้จาก Maximum Relative Entropy (MrE) และไม่ใช่ในลักษณะที่ไม่ชัดเจน:

มันเป็นโลกใหม่ ...

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.