คำถามที่น่าสนใจมากนี่คือสิ่งที่ฉันทำ
มันคือทั้งหมดที่เกี่ยวกับการเข้ารหัสข้อมูลจากนั้นหมุนข้อเหวี่ยงแบบเบย์ มันดูดีเกินกว่าที่จะเป็นจริง - แต่ทั้งสองอย่างนั้นยากกว่าที่คิด
ฉันเริ่มต้นด้วยการถามคำถาม
มีการใช้ข้อมูลใดบ้างเมื่อเรากังวลเกี่ยวกับการเปรียบเทียบหลาย ๆ
ฉันสามารถนึกถึงบางอย่าง - อย่างแรกคือ "การขุดลอกข้อมูล" - ทดสอบ "ทุกอย่าง" จนกว่าคุณจะผ่าน / ล้มเหลวมากพอ นอกจากนี้คุณยังมีความน่ากลัวน้อยลง แต่ส่วนใหญ่เหมือนกันว่า "ฉันมีการทดสอบมากมายที่ต้องวิ่ง - แน่นอนว่าทุกอย่างไม่ถูกต้อง"
หลังจากคิดเกี่ยวกับเรื่องนี้สิ่งหนึ่งที่ฉันสังเกตเห็นคือคุณไม่ค่อยได้ยินเรื่องสมมุติฐานหรือการเปรียบเทียบที่เฉพาะเจาะจงมากนัก ทุกอย่างเกี่ยวกับ "คอลเลกชัน" - สิ่งนี้ทำให้ฉันคิดไปสู่ความสามารถในการแลกเปลี่ยน - สมมติฐานที่ถูกเปรียบเทียบนั้น "คล้ายกัน" ในบางด้าน และคุณเข้ารหัสการแลกเปลี่ยนในการวิเคราะห์แบบเบย์ได้อย่างไร - ไฮเปอร์พรีเซอร์โมเดลผสมเอฟเฟกต์แบบสุ่ม ฯลฯ !!!
แต่การแลกเปลี่ยนนั้นทำให้คุณได้รับส่วนหนึ่งจากที่นั่น ทุกอย่างสามารถแลกเปลี่ยนได้หรือไม่ หรือคุณมี "sparsity" - เช่นค่าสัมประสิทธิ์การถดถอยเพียงไม่กี่ศูนย์ที่มีผู้สมัครจำนวนมาก แบบผสมและเอฟเฟกต์แบบกระจายแบบกระจายตามปกติไม่ทำงานที่นี่ พวกเขาจะ "ติด" ในระหว่างการบีบเสียงและปล่อยสัญญาณที่ไม่ถูกแตะต้อง (เช่นในตัวอย่างของคุณให้พารามิเตอร์ locationB และ locationC "true" เท่ากันและตั้งค่าพารามิเตอร์ "จริง" ให้ตั้งใหญ่หรือเล็กและดูตำแหน่งมาตรฐานเชิงเส้นผสมล้มเหลว) . แต่มันสามารถแก้ไขได้ - เช่นนักบวชที่มี "spike and slab" หรือ "รองเท้าม้า"
ดังนั้นจริงๆแล้วมันเกี่ยวกับการอธิบายว่าคุณกำลังพูดถึงสมมติฐานประเภทใดและได้รับคุณลักษณะที่รู้จักมากมายซึ่งสะท้อนให้เห็นก่อนหน้านี้และโอกาสที่จะเกิดขึ้น วิธีการของ Andrew Gelman เป็นเพียงวิธีหนึ่งในการจัดการกับการเปรียบเทียบหลายระดับโดยปริยาย เช่นเดียวกับกำลังสองน้อยที่สุดและการแจกแจงแบบปกติมักทำงานได้ดีในกรณีส่วนใหญ่ (แต่ไม่ใช่ทั้งหมด)
ในแง่ของการทำเช่นนี้คุณสามารถคิดถึงบุคคลที่ให้เหตุผลดังนี้ - กลุ่ม A และกลุ่ม B อาจมีค่าเฉลี่ยเท่ากัน - ฉันดูที่ข้อมูลและค่าเฉลี่ยคือ "ปิด" - ดังนั้นเพื่อให้ได้ค่าประมาณที่ดีขึ้น สำหรับทั้งคู่ฉันควรรวบรวมข้อมูลเนื่องจากความคิดเริ่มต้นของฉันคือพวกเขามีค่าเฉลี่ยเท่ากัน - หากพวกเขาไม่เหมือนกันข้อมูลแสดงหลักฐานว่าพวกเขา "ปิด" ดังนั้นการรวม "นิด ๆ หน่อย ๆ " จะไม่ทำร้ายฉันมากเกินไปถ้าสมมติฐานของฉันผิด (แบบจำลองทั้งหมดผิดบางอันมีประโยชน์)
โปรดทราบว่าบานพับด้านบนทั้งหมดบนสมมติฐานเริ่มต้น "อาจเหมือนกัน" เอาออกไปและไม่มีเหตุผลสำหรับการรวมกำไร คุณอาจเห็นวิธีการ "แจกแจงแบบปกติ" เกี่ยวกับการทดสอบ "ศูนย์มีแนวโน้มมากที่สุด", "ถ้าไม่ใช่ศูนย์จากนั้นใกล้กับศูนย์คือถัดไปเป็นไปได้มากที่สุด", "ค่าสุดขีดไม่น่าจะเป็นไปได้" พิจารณาทางเลือกนี้:
- กลุ่ม A และกลุ่ม B หมายถึงอาจเท่ากัน แต่อาจแตกต่างกันอย่างมาก
จากนั้นข้อโต้แย้งเกี่ยวกับการรวม "นิด ๆ หน่อย ๆ " เป็นความคิดที่แย่มาก คุณดีกว่าที่จะเลือกรวมกำไรทั้งหมดหรือรวมกำไรเป็นศูนย์ อื่น ๆ อีกมากมายเช่น Cauchy, สไปค์ & สแลป, ประเภทของสถานการณ์ (จำนวนมากรอบ ๆ ศูนย์, และจำนวนมากสำหรับค่าสุดขีด)
เปรียบเทียบจำนวนเต็มไม่จำเป็นต้องได้รับการจัดการเพราะวิธีการแบบเบย์จะผสมผสานข้อมูลที่นำเราไปสู่ความกังวลลงไปก่อนและ / หรือความน่าจะเป็น ในอีกแง่หนึ่งจะเป็นการเตือนให้นึกถึงการมีข้อมูลที่พร้อมใช้งานและตรวจสอบให้แน่ใจว่าคุณได้รวมข้อมูลไว้ในการวิเคราะห์แล้ว