เหตุใดจึงมีคำแนะนำไม่ให้ใช้ Jeffreys หรือนักบวชที่ใช้เอนโทรปีสำหรับแซมเพลอร์ของ MCMC


11

บนหน้า wikiผู้พัฒนาของรัฐสแตน:

หลักการบางอย่างที่เราไม่ชอบ: ค่าคงที่, เจฟฟรีย์, ค่าเอนโทรปี

แต่ฉันเห็นคำแนะนำการกระจายตามปกติมากมาย จนถึงตอนนี้ฉันใช้วิธีเบย์ซึ่งไม่ได้ใช้การสุ่มตัวอย่างและยินดีที่ได้เข้าใจว่าทำไมเป็นตัวเลือกที่ดีสำหรับโอกาสทวินามθBeta(α=12,β=12)


1
ความคิดเห็นทั่วไป: เอกสารประกอบซอฟต์แวร์ไม่ได้สรุปข้อโต้แย้งทางสถิติสำหรับซอฟต์แวร์ที่ทำและไม่ทำ นั่นเป็นความจริงของแพ็คเกจ R ส่วนใหญ่ที่ฉันได้ดูและฉันก็ไม่แปลกใจที่ได้ยินสแตนเดียวกัน แอนดรูเจลแมนเป็นนักเขียนที่อุดมสมบูรณ์
Nick Cox

1
ความคิดเห็นทั่วไปเพิ่มเติม: ฉันไม่พบคำถามแบบนี้น่าพอใจมากส่วนหนึ่งเป็นเพราะเกี่ยวกับบุคคลเฉพาะ หากผู้เขียนสดไม่ได้อธิบายที่ใดที่หนึ่งและไม่ชัดเจนที่นี่ให้ส่งอีเมลไปถาม เป็นที่น่าพอใจมากกว่าที่จะถามในสิ่งที่เป็นนามธรรมเกี่ยวกับข้อดีของวิธีการต่าง ๆ บางครั้งคุณควรใช้ซอฟต์แวร์ที่แตกต่างกันหากคุณพบสิ่งที่ขาดหายไปรวมถึงการเขียนของคุณเอง ไม่เปิดเผย: ไม่เคยใช้สแตน
Nick Cox

@ NickCox ฉันไม่คิดว่าคำถามนี้จะได้รับประโยชน์จากการไม่เปิดเผยชื่อเพราะ (1) บริบทของซอฟต์แวร์ samling มีความสำคัญ (2) ความประทับใจของฉันคือการปฏิเสธ Jeffreys Priors นั้นผิดปกติมากพอสมควรที่จะชี้ให้เห็น ว่าแหล่งที่มีชื่อเสียงทำให้การเรียกร้องที่ (3) ฉันไม่คิดว่าเป็นการเผชิญหน้าที่จะกล่าวถึงใครซักคนในคำถาม
wirrbel

1
Andy เขียน "หลักการบางอย่างที่เราไม่ชอบ: invariance, Jeffreys, entropy" แต่เพื่อดูว่าทำไมคุณควรดูในหนังสือ
Ben Goodrich

1
นอกจากนี้กระดาษที่มีความคิดล่าสุดบนไพรเออร์ในหมู่นักพัฒนาสามสแตน
Ben Goodrich

คำตอบ:


13

แน่นอนว่าเป็นกลุ่มคนที่มีความหลากหลายพร้อมความคิดเห็นที่หลากหลายเข้าด้วยกันและเขียนวิกิ ฉันสรุปฉันรู้ / เข้าใจด้วยความเห็น:

  • การเลือกก่อนของคุณขึ้นอยู่กับความสะดวกสบายในการคำนวณเป็นเหตุผลที่ไม่เพียงพอ เช่นการใช้เบต้า (1/2, 1/2) เพียงอย่างเดียวเพราะมันช่วยให้การปรับปรุงคอนจูเกตนั้นไม่ใช่ความคิดที่ดี แน่นอนเมื่อคุณสรุปได้ว่ามีคุณสมบัติที่ดีสำหรับประเภทของปัญหาที่คุณทำมันก็ใช้ได้และคุณอาจเลือกตัวเลือกที่ทำให้การใช้งานง่ายขึ้น มีตัวอย่างมากมายที่ตัวเลือกเริ่มต้นที่สะดวกกลายเป็นปัญหา (ดู Gamna (0.001, 0.001) ก่อนที่จะเปิดใช้งานการสุ่มตัวอย่าง Gibbs)

  • ด้วย Stan - ไม่เหมือนกับ WinBUGS หรือ JAGS - ไม่มีข้อได้เปรียบโดยเฉพาะสำหรับนักบวชที่มีเงื่อนไข ดังนั้นคุณอาจเพิกเฉยต่อแง่มุมการคำนวณบ้าง ไม่ใช่ทั้งหมดเนื่องจากมีนักบวชเทลด์ (หรือนักบวชที่ไม่เหมาะสม) และข้อมูลที่ไม่สามารถระบุพารามิเตอร์ได้ดีคุณจึงพบปัญหา (ไม่ใช่ปัญหาเฉพาะของสแตน แต่สแตนค่อนข้างดีในการระบุปัญหาเหล่านี้และเตือนผู้ใช้ แทนการสุ่มตัวอย่างอย่างมีความสุขออกไป)

  • บางครั้งนักบวช "ข้อมูลต่ำ" ของ Jeffreys และคนอื่น ๆ อาจไม่เหมาะสมหรือเข้าใจยากเกินไปในมิติที่สูง (ไม่ต้องสนใจพวกเขา) และข้อมูลที่กระจัดกระจาย อาจเป็นได้ว่าสิ่งเหล่านี้ก่อให้เกิดปัญหาบ่อยเกินไปที่ผู้เขียนจะไม่รู้สึกพอใจกับมัน เมื่อคุณทำงานในสิ่งที่คุณเรียนรู้มากขึ้นและรู้สึกสบายใจดังนั้นความคิดเห็นที่กลับเป็นครั้งคราว

  • ในการตั้งค่าข้อมูลที่กระจัดกระจายเรื่องก่อนจริง ๆ และถ้าคุณสามารถระบุได้ว่าค่าที่ไม่น่าเชื่อโดยสิ้นเชิงสำหรับพารามิเตอร์นั้นไม่น่าเชื่อสิ่งนี้จะช่วยได้มาก สิ่งนี้กระตุ้นความคิดของนักบวชที่มีข้อมูลน้อย - ไม่ได้เป็นนักบวชที่ให้ข้อมูลอย่างแท้จริง แต่เป็นผู้ที่สนับสนุนค่านิยมที่เป็นไปได้มากที่สุด

  • ในความเป็นจริงคุณอาจสงสัยว่าทำไมคนหนึ่งที่รบกวนจิตใจกับนักบวชที่ไม่รู้ตัวถ้าเรามีข้อมูลจำนวนมากที่ระบุพารามิเตอร์ได้ดีจริงๆ (ใครคนหนึ่งสามารถใช้โอกาสได้สูงสุด) แน่นอนมีเหตุผลมากมาย (หลีกเลี่ยงการเกิดโรคได้รับ "รูปร่างที่แท้จริง" ของผู้โพสต์ ฯลฯ ) แต่ในสถานการณ์ "ข้อมูลมากมาย" ดูเหมือนว่าจะไม่มีข้อโต้แย้งที่แท้จริงต่อนักบวชผู้มีข้อมูลน้อย

  • บางทีอาจจะแปลกเล็กน้อยที่ N (0, 1) เป็นค่าที่น่าประหลาดใจมาก่อนสำหรับค่าสัมประสิทธิ์โลจิสติก, ปัวซองหรือการถดถอย Cox สำหรับแอปพลิเคชั่นมากมาย เช่นนั้นเป็นการกระจายผลการรักษาที่สังเกตได้จากการทดลองทางคลินิกมากมาย

ขอบคุณสำหรับคำตอบโดยละเอียด ฉันเดาว่าความประหลาดใจของฉันไม่ได้เกี่ยวกับการร่วมกันมาก (เพราะถ้าฉันเข้าใจสิ่งนี้อย่างถูกต้องเจฟฟรีย์นักบวชไม่จำเป็นต้องเป็นนักบวชนักบวชพวกเขาเพียงแค่ต้องมีค่าคงที่ภายใต้ reparametrization) ดังนั้นฉันจะเข้าใจคำแนะนำโดยสิ้นเชิงกับนักบวชคอนจูเกต
wirrbel

ฉันคิดว่าความกังวลของ Jeffreys ก่อนนั้นส่วนใหญ่จะเป็นมิติที่สูงกว่าก่อนที่อาจไม่เหมาะสมก่อนและอาจมีอิทธิพลต่อการอนุมานของคุณที่คุณไม่เข้าใจ ฉันคิดว่าส่วนใหญ่กังวลกับข้อมูลที่กระจัดกระจายแม้ว่าบางคนอาจชี้ให้เห็นตัวอย่างที่มีข้อมูลที่ไม่กระจัดกระจายซึ่งมีปัญหาบางอย่างเกิดขึ้น (ฉันไม่ทราบเลย) บวกกับ Jeffreys ตัวเลือกก่อนหน้าและอื่น ๆ อีกมากมาย "uninformative" มีความไม่แน่นอนในการรับมา
Björn

8

พวกเขาไม่ได้ให้เหตุผลทางวิทยาศาสตร์ / คณิตศาสตร์ใด ๆ สำหรับการทำเช่นนั้น นักพัฒนาส่วนใหญ่ไม่ได้ทำงานกับนักบวชประเภทนี้และพวกเขาชอบที่จะใช้นักบวชที่จริงจัง / จริงจังมากขึ้นเช่นนักบวชทั่วไปที่มีความแปรปรวนจำนวนมาก (ซึ่งอาจเป็นข้อมูลในบางกรณี) อย่างไรก็ตามเป็นเรื่องแปลกที่พวกเขามีความสุขที่ได้ใช้พีซีนักบวชซึ่งขึ้นอยู่กับ Entropy (KL divergence) หลังจากพวกเขาเริ่มทำงานในหัวข้อนี้

ปรากฏการณ์ที่คล้ายกันเกิดขึ้นกับWinBUGSเมื่อนักพัฒนาแนะนำในรูปแบบที่ไม่ให้ข้อมูลมาก่อนสำหรับพารามิเตอร์ที่มีความแม่นยำเนื่องจากมันคล้ายกับรูปร่างของ Jeffreys ก่อน ก่อนหน้านี้กลายเป็นค่าเริ่มต้นก่อนสำหรับพารามิเตอร์ความแม่นยำ หลังจากนั้นก็มีการแสดง ( โดย Gelman! ) ว่าพวกเขาสามารถให้ข้อมูลอย่างมากGamma(0.001,0.001)


คุณสามารถให้ข้อมูลไฮเปอร์ลิงก์ / แหล่งข้อมูลที่อ้างถึง Gelman ได้ไหม
Jim

@Jim แน่นอนว่าเป็นรายงาน: projecteuclid.org/euclid.ba/1340371048
ก่อน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.