ทำไมความน่าจะเป็นสูงสุดที่ จำกัด จึงให้ผลต่างประมาณที่ดีขึ้น (ไม่เอนเอียง)?


11

ฉันกำลังอ่านบทความทฤษฎีของ Doug Bates บนแพ็คเกจ lme4 ของ R เพื่อทำความเข้าใจกับ nitty-gritty ของแบบจำลองที่ผสมกันและพบผลลัพธ์ที่น่าสนใจที่ฉันต้องการทำความเข้าใจให้ดีขึ้นเกี่ยวกับการใช้โอกาสสูงสุดแบบ จำกัด (REML) เพื่อประเมินความแปรปรวน .

ในมาตรา 3.3 ในเกณฑ์ REML เขากล่าวว่าการใช้ REML ในการประมาณค่าความแปรปรวนเกี่ยวข้องอย่างใกล้ชิดกับการใช้องศาความเป็นอิสระในการแก้ไขเมื่อประเมินความแปรปรวนจากส่วนเบี่ยงเบนที่เหลืออยู่ในตัวแบบเชิงเส้นพอดี โดยเฉพาะอย่างยิ่ง "แม้ว่าโดยปกติจะไม่ได้มาในลักษณะนี้" องศาของการแก้ไขอิสรภาพสามารถทำได้โดยการประเมินความแปรปรวนผ่านการปรับให้เหมาะสมของ "เกณฑ์ REML" (Eq. (28)) เกณฑ์ REML นั้นมีความเป็นไปได้เพียงอย่างเดียว แต่พารามิเตอร์เชิงเส้นพอดีได้ถูกกำจัดโดยการทำให้เป็นขอบ (แทนที่จะตั้งค่าให้เท่ากับการประมาณแบบพอดีซึ่งจะทำให้ความแปรปรวนตัวอย่างแบบเอนเอียง)

ฉันทำคณิตศาสตร์และตรวจสอบผลลัพธ์ที่อ้างสิทธิ์สำหรับโมเดลเชิงเส้นอย่างง่ายที่มีเอฟเฟกต์คงที่เท่านั้น สิ่งที่ฉันกำลังดิ้นรนคือการตีความ มีมุมมองบางอย่างที่เป็นธรรมชาติหรือไม่ที่จะได้รับการประมาณค่าความแปรปรวนโดยการปรับความน่าจะเป็นที่พารามิเตอร์ทางพอดีได้ถูกทำให้ลดลง? มันให้ความรู้สึกเหมือนกับ Bayesian ราวกับว่าฉันกำลังคิดถึงโอกาสที่จะเป็นหลังและปรับพารามิเตอร์ที่เหมาะสมเหมือนพวกมันเป็นตัวแปรสุ่ม

หรือเหตุผลหลักเกี่ยวกับคณิตศาสตร์เพียงอย่างเดียว - มันทำงานในกรณีเชิงเส้น แต่ยังเป็น generalizable?

คำตอบ:


4

ความเอนเอียงจากความแปรปรวนจากความจริงที่ว่าค่าเฉลี่ยได้ถูกประเมินจากข้อมูลและดังนั้น 'การแพร่กระจายของข้อมูลรอบค่าเฉลี่ยนี้' (เช่นความแปรปรวน tha) มีขนาดเล็กกว่าการแพร่กระจายของข้อมูลรอบค่าเฉลี่ย 'จริง' . ดูเพิ่มเติมที่: คำอธิบายที่ใช้งานง่ายสำหรับการหารด้วยเมื่อคำนวณส่วนเบี่ยงเบนมาตรฐานn-1

ค่าคงที่กำหนดรูปแบบ 'สำหรับค่าเฉลี่ย' ดังนั้นหากคุณสามารถหาค่าประมาณความแปรปรวนที่ได้มาโดยไม่ต้องประเมินค่าเฉลี่ยจากข้อมูล (โดย 'ลบค่าคงที่ของผลกระทบ (เช่นค่าเฉลี่ย)') การแพร่กระจาย (เช่นความแปรปรวน) จะลดลง

นี่คือการทำความเข้าใจ 'สัญชาตญาณ' ว่าทำไม REML ประมาณการกำจัดอคติ คุณจะพบค่าประมาณสำหรับความแปรปรวนโดยไม่ต้องใช้ 'ค่าเฉลี่ยโดยประมาณ'


1

ลองดูภาคผนวก: วิธีการประมาณการค่าชดเชยจากภายในทรัพยากรที่เกี่ยวข้องกับ SASนี้จาก David Dickey ผู้แต่ง

" เราสามารถหาตัวเลข (n-1) Z ที่มีค่าเฉลี่ยเป็นที่รู้จัก 0 และผลรวมของสี่เหลี่ยมจัตุรัสเดียวกันและความแปรปรวนเชิงทฤษฎีเช่นเดียวกับค่า n Y สิ่งนี้กระตุ้นการหารของผลรวมสี่เหลี่ยมของ Z ตามจำนวน Zs ซึ่งเป็น n -1. "

ตอนที่ฉันเรียนอยู่ระดับประถมศึกษา REML กลายเป็นสิ่งที่ดีที่สุดนับตั้งแต่ขนมปังหั่นบาง ๆ จากการศึกษาแพ็กเกจlme4ฉันได้เรียนรู้ว่ามันไม่ได้พูดถึงเรื่องทั่วไปได้ดีและบางทีมันก็ไม่สำคัญสำหรับแผนการที่ยิ่งใหญ่ของสิ่งต่าง ๆ


อาจไม่ใช่ ... คณิตศาสตร์และสถิติที่น่าสนใจ
พอล

ฉันเห็นด้วยพอล ฉันคิดว่า REML เป็นตัวอย่างที่ยอดเยี่ยมของการแก้ปัญหาอย่างงดงามและสร้างสรรค์ในสถิติ แน่นอนว่ามันถูกใช้ในทางปฏิบัติและบางทีนั่นอาจเป็นทั้งหมดที่คุณสามารถหวังในการวิจัยเชิงสถิติ
Ben Ogorek
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.