ในแง่ง่ายคุณจะอธิบายความแตกต่างระหว่างเอฟเฟกต์คงที่เอฟเฟกต์แบบสุ่มและเอฟเฟกต์ผสมได้อย่างไร
ในแง่ง่ายคุณจะอธิบายความแตกต่างระหว่างเอฟเฟกต์คงที่เอฟเฟกต์แบบสุ่มและเอฟเฟกต์ผสมได้อย่างไร
คำตอบ:
สถิติแอนดรูเจลแมนกล่าวว่าคำว่า 'ผลคงที่' และ 'เอฟเฟ็กต์แบบสุ่ม' มีความหมายแปรผันตามผู้ใช้ บางทีคุณสามารถเลือกว่าหนึ่งใน 5 คำจำกัดความที่ใช้กับกรณีของคุณ โดยทั่วไปแล้วมันอาจจะดีกว่าที่จะมองหาสมการที่อธิบายรูปแบบความน่าจะเป็นที่ผู้เขียนใช้ (เมื่ออ่าน) หรือเขียนรูปแบบความน่าจะเป็นแบบเต็มที่คุณต้องการใช้ (เมื่อเขียน)
ที่นี่เราร่างคำจำกัดความห้าประการที่เราได้เห็น:
เอฟเฟกต์คงที่นั้นคงที่ในแต่ละบุคคลและเอฟเฟกต์แบบสุ่มจะแตกต่างกันไป ยกตัวอย่างเช่นในการศึกษาการเจริญเติบโตรูปแบบที่มีดักสุ่มและคงความลาดชันสอดคล้องกับขนานเส้นสำหรับบุคคลที่แตกต่างกันหรือรุ่นBT Kreft และ De Leeuw (1998) จึงแยกความแตกต่างระหว่างค่าสัมประสิทธิ์คงที่และแบบสุ่ม b ฉันY ฉันT = ฉัน + ขที
ผลกระทบจะได้รับการแก้ไขหากพวกเขามีความสนใจในตัวเองหรือสุ่มถ้ามีความสนใจในประชากรพื้นฐาน Searle, Casella และ McCulloch (1992, Section 1.4) สำรวจความแตกต่างในเชิงลึกนี้
“ เมื่อตัวอย่างหมดจำนวนประชากรตัวแปรที่เกี่ยวข้องจะได้รับการแก้ไข เมื่อตัวอย่างมีขนาดเล็ก (กล่าวคือเล็กน้อย) ส่วนหนึ่งของประชากรตัวแปรที่เกี่ยวข้องจะถูกสุ่ม "(Green and Tukey, 1960)
“ หากถือว่าเอฟเฟกต์เป็นค่าที่รับรู้ของตัวแปรสุ่มมันจะเรียกว่าเอฟเฟกต์แบบสุ่ม” (LaMotte, 1983)
มีการประเมินผลกระทบคงที่โดยใช้กำลังสองน้อยที่สุด (หรือโดยทั่วไปความน่าจะเป็นสูงสุด) และการสุ่มเอฟเฟกต์จะประเมินด้วยการหดตัว คำจำกัดความนี้เป็นมาตรฐานในวรรณคดีการสร้างแบบจำลองหลายระดับ (ดูตัวอย่างเช่น Snijders และ Bosker, 1999, มาตรา 4.2) และในสาขาเศรษฐศาสตร์
[ Gelman, 2004, การวิเคราะห์ความแปรปรวน - ทำไมมันจึงมีความสำคัญมากกว่าที่เคย พงศาวดารของสถิติ ]
(4) “If an effect is assumed to be a realized value of a random variable, it is called a random effect.” (LaMotte, 1983)
มีหนังสือที่ดีเกี่ยวกับเรื่องนี้เช่นGelman และฮิลล์ สิ่งที่ตามมาคือสรุปมุมมองของพวกเขา
ก่อนอื่นคุณไม่ควรจมอยู่ในคำศัพท์ ในสถิติศัพท์แสงไม่ควรใช้แทนความเข้าใจทางคณิตศาสตร์ของแบบจำลองเอง นั่นเป็นเรื่องจริงโดยเฉพาะอย่างยิ่งสำหรับโมเดลเอฟเฟกต์แบบสุ่มและผสม "มิกซ์" หมายถึงโมเดลมีเอฟเฟกต์ทั้งแบบคงที่และแบบสุ่มดังนั้นให้เรามุ่งเน้นที่ความแตกต่างระหว่างแบบคงที่และแบบสุ่ม
สมมติว่าคุณมีโมเดลที่มีตัวพยากรณ์หมวดหมู่ซึ่งแบ่งการสังเกตของคุณออกเป็นกลุ่มตามค่าหมวดหมู่ * ค่าสัมประสิทธิ์โมเดลหรือ "เอฟเฟกต์" ที่เกี่ยวข้องกับตัวทำนายนั้นสามารถคงที่หรือสุ่มก็ได้ ความแตกต่างที่สำคัญที่สุดระหว่างทั้งสองคือ:
เอฟเฟกต์แบบสุ่มถูกประเมินด้วยการรวมกำไรบางส่วน
การรวมบางส่วนหมายความว่าหากคุณมีจุดข้อมูลน้อยในกลุ่มการประมาณผลกระทบของกลุ่มจะขึ้นอยู่กับข้อมูลที่มีมากมายจากกลุ่มอื่น ๆ นี่อาจเป็นการประนีประนอมที่ดีระหว่างการประเมินผลกระทบโดยการรวมกลุ่มทั้งหมดอย่างสมบูรณ์ซึ่งปิดบังการเปลี่ยนแปลงระดับกลุ่มและการประเมินผลกระทบสำหรับทุกกลุ่มแยกกันอย่างสมบูรณ์ซึ่งอาจให้การประเมินที่ไม่ดีสำหรับกลุ่มตัวอย่างต่ำ
เอฟเฟกต์แบบสุ่มเป็นเพียงส่วนเสริมของเทคนิคการรวมบางส่วนในฐานะโมเดลทางสถิติทั่วไป สิ่งนี้ช่วยให้การประยุกต์ใช้แนวคิดในหลากหลายสถานการณ์รวมถึงตัวทำนายหลายตัวตัวแปรแบบต่อเนื่องและหมวดหมู่ผสมและโครงสร้างความสัมพันธ์ที่ซับซ้อน (แต่ด้วยพลังอันยิ่งใหญ่มาพร้อมความรับผิดชอบที่ยิ่งใหญ่: ความซับซ้อนของการสร้างแบบจำลองและการอนุมานจะเพิ่มขึ้นอย่างมากและสามารถก่อให้เกิดอคติที่บอบบางที่ต้องอาศัยความซับซ้อนมากเพื่อหลีกเลี่ยง)
หากต้องการกระตุ้นโมเดลเอฟเฟกต์แบบสุ่มให้ถามตัวเองว่า: ทำไมคุณถึงรวมกลุ่มบางส่วน อาจเป็นเพราะคุณคิดว่ากลุ่มย่อยเล็ก ๆ เป็นส่วนหนึ่งของกลุ่มใหญ่ที่มีผลกระทบโดยทั่วไป กลุ่มย่อยหมายถึงเบี่ยงเบนไปเล็กน้อยจากค่าเฉลี่ยของกลุ่มใหญ่ แต่ไม่ใช่โดยจำนวนโดยพลการ เพื่อวางแนวความคิดนั้นเราวางตัวว่าความเบี่ยงเบนตามการแจกแจงโดยทั่วไปคือเกาส์เซียน นั่นคือสิ่งที่ "สุ่ม" ในเอฟเฟกต์แบบสุ่มเข้ามา: เราสมมติว่าความเบี่ยงเบนของกลุ่มย่อยจากผู้ปกครองติดตามการกระจายตัวของตัวแปรสุ่ม เมื่อคุณมีความคิดนี้แล้วสมการโมเดลผสมเอฟเฟกต์จะเป็นไปตามธรรมชาติ
แต่น่าเสียดายที่ผู้ใช้โมเดลผสมผลกระทบมักมีอคติที่ผิดพลาดเกี่ยวกับเอฟเฟกต์แบบสุ่มและแตกต่างจากเอฟเฟกต์คงที่อย่างไร ผู้คนได้ยินคำว่า "สุ่ม" และคิดว่ามันหมายถึงบางสิ่งที่พิเศษมากเกี่ยวกับระบบที่ถูกสร้างแบบจำลองเช่นเอฟเฟกต์คงที่จะต้องใช้เมื่อมีบางสิ่งที่ "คงที่" ในขณะที่เอฟเฟกต์แบบสุ่ม แต่ไม่มีอะไรสุ่มโดยเฉพาะเกี่ยวกับการสมมติว่าค่าสัมประสิทธิ์แบบนั้นมาจากการแจกแจง มันเป็นข้อ จำกัด ที่อ่อนนุ่มคล้ายกับการลงโทษนำไปใช้กับสัมประสิทธิ์แบบจำลองในการถดถอยสันเขา มีหลายสถานการณ์ที่คุณอาจต้องการหรือไม่ต้องการใช้เอฟเฟกต์แบบสุ่มและพวกเขาไม่จำเป็นต้องทำอะไรมากนักกับความแตกต่างระหว่าง "คงที่" และ "สุ่ม"
น่าเสียดายที่ความสับสนของแนวคิดที่เกิดจากคำเหล่านี้ทำให้เกิดคำจำกัดความที่ขัดแย้งกันมากมาย จากคำจำกัดความทั้งห้าที่ลิงก์นี้มีเพียง # 4 เท่านั้นที่ถูกต้องในกรณีทั่วไป แต่ก็ไม่เป็นไปตามปกติ คุณต้องอ่านบทความและหนังสือทั้งหมด (หรือการที่โพสต์นี้ล้มเหลว) เพื่อทำความเข้าใจว่าคำจำกัดความนั้นหมายถึงอะไรในการทำงานจริง
ลองดูกรณีที่การสร้างเอฟเฟกต์แบบสุ่มอาจมีประโยชน์ สมมติว่าคุณต้องการประเมินรายได้ครัวเรือนของสหรัฐอเมริกาโดยเฉลี่ยด้วยรหัสไปรษณีย์ คุณมีชุดข้อมูลขนาดใหญ่ที่มีการสังเกตรายได้ของครัวเรือนและรหัสไปรษณีย์ รหัสไปรษณีย์บางชุดมีการแสดงที่ดีในชุดข้อมูล แต่รหัสอื่น ๆ มีเพียงสองครัวเรือนเท่านั้น
สำหรับรุ่นเริ่มต้นของคุณคุณมักจะรับรายได้เฉลี่ยในแต่ละ ZIP วิธีนี้จะทำงานได้ดีเมื่อคุณมีข้อมูลจำนวนมากสำหรับ ZIP แต่ค่าประมาณของ ZIP ที่สุ่มตัวอย่างไม่ดีของคุณจะประสบกับความแปรปรวนสูง คุณสามารถลดสิ่งนี้ได้โดยใช้ตัวประมาณค่าการหดตัว (aka การรวมบางส่วน) ซึ่งจะผลักดันค่าที่รุนแรงไปสู่รายได้เฉลี่ยในทุกรหัสไปรษณีย์
แต่คุณควรลดขนาด / การรวมกำไรสำหรับ ZIP หนึ่ง ๆ มันควรขึ้นอยู่กับสิ่งต่อไปนี้:
หากคุณจำลองรหัสไปรษณีย์เป็นแบบสุ่มการคาดการณ์รายได้เฉลี่ยในรหัสไปรษณีย์ทั้งหมดจะถูกลดขนาดลงอย่างมากโดยคำนึงถึงปัจจัยทั้งหมดข้างต้น
ส่วนที่ดีที่สุดคือแบบจำลองเอฟเฟกต์แบบสุ่มและแบบผสมจัดการโดยอัตโนมัติ (4) การประมาณค่าความแปรปรวนสำหรับเอฟเฟกต์แบบสุ่มทั้งหมดในโมเดล นี่ยากกว่าที่จะเห็นได้อย่างรวดเร็วในครั้งแรก: คุณสามารถลองความแปรปรวนของค่าเฉลี่ยตัวอย่างสำหรับแต่ละ ZIP แต่จะมีความเอนเอียงสูงเนื่องจากความแปรปรวนระหว่างค่าประมาณสำหรับ ZIP ที่แตกต่างกันเป็นเพียงการสุ่มตัวอย่างความแปรปรวน ในโมเดลเอฟเฟ็กต์แบบสุ่มกระบวนการอนุมานจะอธิบายบัญชีสำหรับการสุ่มตัวอย่างความแปรปรวนและลดขนาดการประมาณผลต่าง
มีสัดส่วน (1) - (4) แบบจำลองเอฟเฟกต์แบบสุ่ม / ผสมสามารถตรวจสอบการหดตัวที่เหมาะสมสำหรับกลุ่มตัวอย่างต่ำ นอกจากนี้ยังสามารถจัดการกับแบบจำลองที่ซับซ้อนมากขึ้นด้วยตัวทำนายที่แตกต่างกัน
หากสิ่งนี้ฟังดูเหมือนการสร้างแบบจำลอง Bayesian แบบลำดับชั้นสำหรับคุณคุณพูดถูก - มันเป็นญาติสนิท แต่ไม่เหมือนกัน แบบจำลองเอฟเฟกต์แบบผสมนั้นเป็นแบบลำดับชั้นในการที่พวกเขาวางการแจกแจงสำหรับพารามิเตอร์แฝงและไม่ได้ตรวจสอบ แต่โดยทั่วไปแล้วพวกเขาจะไม่ได้เบย์อย่างเต็มที่เพราะพารามิเตอร์ระดับสูงระดับสูงสุด ตัวอย่างเช่นในตัวอย่างข้างต้นเราน่าจะรักษารายได้เฉลี่ยใน ZIP ที่กำหนดเป็นตัวอย่างจากการแจกแจงแบบปกติโดยไม่ทราบค่าเฉลี่ยและซิกมาที่จะถูกประเมินโดยกระบวนการการผสมแบบเอฟเฟกต์แบบผสม อย่างไรก็ตามแบบจำลองเอฟเฟกต์แบบผสม (ที่ไม่ใช่แบบเบย์) จะไม่เคยมีมาก่อนในค่าเฉลี่ยที่ไม่รู้จักและซิกม่าดังนั้นจึงไม่ใช่แบบเบย์ทั้งหมด ดังกล่าวด้วยชุดข้อมูลที่มีขนาดพอเหมาะตัวแบบเอฟเฟ็กต์มาตรฐานแบบผสมและตัวแปรแบบเบย์เต็มรูปแบบมักจะให้ผลลัพธ์ที่คล้ายกันมาก
* ในขณะที่การบำบัดหลายอย่างของหัวข้อนี้มุ่งเน้นไปที่คำจำกัดความที่แคบของ "กลุ่ม" แนวคิดนี้มีความยืดหยุ่นมากจริง ๆ : มันเป็นเพียงชุดของการสังเกตที่ใช้คุณสมบัติทั่วไป กลุ่มอาจประกอบด้วยการสังเกตหลายครั้งของคนคนเดียวหรือหลายคนในโรงเรียนหรือโรงเรียนหลายแห่งในเขตหรือผลไม้ชนิดเดียวหลายชนิดหรือผักหลายชนิดจากการเก็บเกี่ยวเดียวกันหรือเก็บเกี่ยวหลายชนิด ผักชนิดเดียวกัน ฯลฯ ตัวแปรเด็ดขาดใด ๆ สามารถใช้เป็นตัวแปรการจัดกลุ่มได้
ฉันได้เขียนเกี่ยวกับเรื่องนี้ในบทหนังสือเกี่ยวกับโมเดลผสม (บทที่ 13 ในFox, Negrete-Yankelevich และ Sosa 2014 ); หน้าเว็บที่เกี่ยวข้อง (PP. 311-315) ที่มีอยู่บน Google หนังสือ ฉันคิดว่าคำถามจะลดลงเป็น "คำจำกัดความของเอฟเฟกต์แบบคงที่และแบบสุ่มคืออะไร" ("โมเดลผสม" เป็นเพียงโมเดลที่มีทั้งสองอย่าง) การอภิปรายของฉันพูดถึงคำจำกัดความที่เป็นทางการของพวกเขาน้อยลง (ซึ่งฉันจะเลื่อนกระดาษเจลแมนที่เชื่อมโยงโดยคำตอบของ @ JohnSalvatier ด้านบน) และอื่น ๆ เกี่ยวกับคุณสมบัติเชิงปฏิบัติและอรรถประโยชน์ นี่คือข้อความที่ตัดตอนมาบางส่วน:
มุมมองแบบดั้งเดิมของเอฟเฟ็กต์แบบสุ่มเป็นวิธีหนึ่งที่จะทำการทดสอบทางสถิติที่ถูกต้องเมื่อการสังเกตบางอย่างมีความสัมพันธ์กัน
นอกจากนี้เรายังสามารถคิดว่าเอฟเฟกต์แบบสุ่มเป็นวิธีการรวมข้อมูลจากระดับต่าง ๆ ภายในตัวแปรการจัดกลุ่ม
เอฟเฟกต์แบบสุ่มมีประโยชน์อย่างยิ่งเมื่อเรามี (1) ระดับ (เช่นสปีชีส์หรือบล็อกจำนวนมาก), (2) ข้อมูลค่อนข้างน้อยในแต่ละระดับ (แม้ว่าเราต้องการตัวอย่างจำนวนมากจากระดับส่วนใหญ่) และ (3) ไม่สม่ำเสมอ การสุ่มตัวอย่างข้ามระดับ (กล่อง 13.1)
บ่อยครั้งและ Bayesians กำหนดผลกระทบแบบสุ่มค่อนข้างแตกต่างกันซึ่งมีผลต่อวิธีที่พวกเขาใช้พวกเขา บ่อยครั้งกำหนดเอฟเฟกต์แบบสุ่มเป็นตัวแปรเด็ดขาดซึ่งระดับจะถูกเลือกโดยการสุ่มจากประชากรขนาดใหญ่เช่นสายพันธุ์ที่เลือกโดยการสุ่มจากรายการของสายพันธุ์เฉพาะถิ่น Bayesians กำหนดลักษณะพิเศษแบบสุ่มเป็นชุดของตัวแปรที่มีพารามิเตอร์ [ทั้งหมด] มาจากการกระจาย [เดียวกัน] คำจำกัดความที่ใช้บ่อยนั้นสอดคล้องกันในเชิงปรัชญาและคุณจะได้พบกับนักวิจัย (รวมถึงผู้ตรวจสอบและหัวหน้างาน) ที่ยืนยันในเรื่องนี้ แต่อาจเป็นปัญหาในทางปฏิบัติ ตัวอย่างเช่นมันบอกเป็นนัยว่าคุณไม่สามารถใช้สปีชีส์เป็นเอฟเฟกต์แบบสุ่มเมื่อคุณสังเกตสปีชีส์ทั้งหมดที่ไซต์ของคุณเนื่องจากรายการสปีชีส์ไม่ใช่ตัวอย่างจากประชากรที่มีขนาดใหญ่กว่าหรือใช้ปีเป็นเอฟเฟ็กต์แบบสุ่ม เนื่องจากนักวิจัยไม่ค่อยทำการทดลองในปีสุ่มตัวอย่างสุ่ม - พวกเขามักจะใช้ชุดของปีติดต่อกันหรือชุดปีจับจดเมื่อพวกเขาสามารถเข้าไปในสนาม
เอฟเฟกต์แบบสุ่มยังสามารถอธิบายได้ว่าเป็นตัวแปรทำนายที่คุณสนใจในการหาข้อสรุปเกี่ยวกับการแจกแจงค่า (เช่นความแปรปรวนระหว่างค่าของการตอบสนองในระดับต่าง ๆ ) แทนที่จะทดสอบความแตกต่างของค่าระหว่างระดับที่เฉพาะเจาะจง
บางครั้งผู้คนพูดว่าเอฟเฟกต์แบบสุ่มเป็น "ปัจจัยที่คุณไม่สนใจ" สิ่งนี้ไม่จริงเสมอไป ในขณะที่มันมักจะเป็นกรณีในการทดลองทางนิเวศวิทยา (ที่การเปลี่ยนแปลงระหว่างไซต์มักจะเป็นเพียงความรำคาญ) บางครั้งก็เป็นที่สนใจอย่างมากเช่นในการศึกษาวิวัฒนาการที่การเปลี่ยนแปลงระหว่างจีโนไทป์เป็นวัตถุดิบสำหรับการคัดเลือกโดยธรรมชาติหรือในการศึกษาเชิงประชากรศาสตร์ ซึ่งความผันแปรระหว่างปีลดอัตราการเติบโตในระยะยาว ในบางกรณีอาจใช้เอฟเฟกต์แบบคงที่เพื่อควบคุมการแปรผันที่ไม่น่าสนใจเช่นการใช้มวลเป็นโควาเรียตเพื่อควบคุมผลกระทบของขนาดร่างกาย
คุณจะได้ยินด้วยว่า "คุณไม่สามารถพูดอะไรเกี่ยวกับค่า (ทำนาย) ของโหมดเงื่อนไข" นี่ไม่เป็นความจริง - คุณไม่สามารถทดสอบสมมติฐานว่าง ๆ อย่างเป็นทางการว่าค่าเท่ากับศูนย์หรือ ค่าของสองระดับที่แตกต่างกันมีค่าเท่ากัน แต่ก็ยังคงมีเหตุผลอย่างสมบูรณ์แบบที่จะดูค่าที่คาดการณ์และแม้แต่การคำนวณข้อผิดพลาดมาตรฐานของค่าที่ทำนาย (เช่นดูแถบข้อผิดพลาดรอบโหมดเงื่อนไขในรูปที่ 13.1)
กรอบเบย์มีนิยามที่ง่ายกว่าของเอฟเฟกต์แบบสุ่ม ภายใต้วิธีการแบบเบย์ผลคงที่คือสิ่งที่เราประเมินแต่ละพารามิเตอร์ (เช่นค่าเฉลี่ยสำหรับแต่ละสปีชีส์ภายในสกุล) อย่างอิสระ (พร้อมกับนักบวชที่ระบุอย่างอิสระ) ในขณะที่เอฟเฟกต์แบบสุ่มพารามิเตอร์สำหรับแต่ละระดับนั้น จากการแจกแจง (โดยปกติปกติ); ในสัญกรณ์สถิติมาตรฐานสายพันธุ์)
ฉันกล่าวไว้ข้างต้นว่าเอฟเฟกต์แบบสุ่มมีประโยชน์มากที่สุดเมื่อตัวแปรการจัดกลุ่มมีระดับที่วัดได้มากมาย ในทางกลับกันเอฟเฟกต์แบบสุ่มมักไม่ได้ผลเมื่อตัวแปรการจัดกลุ่มมีระดับน้อยเกินไป คุณมักจะไม่สามารถใช้เอฟเฟกต์แบบสุ่มได้เมื่อตัวแปรการจัดกลุ่มมีน้อยกว่าห้าระดับและการประมาณค่าความแปรปรวนของเอฟเฟกต์แบบสุ่มนั้นไม่เสถียรด้วยระดับที่น้อยกว่าแปดระดับเนื่องจากคุณพยายามประเมินความแปรปรวนจากกลุ่มตัวอย่างขนาดเล็กมาก
ผลกระทบคงที่: บางสิ่งที่ผู้ทดลองดำเนินการโดยตรงและมักจะทำซ้ำได้เช่นการบริหารยา - กลุ่มหนึ่งได้รับยากลุ่มหนึ่งได้รับยาหลอก
ผลกระทบแบบสุ่ม: แหล่งที่มาของการเปลี่ยนแปลงแบบสุ่ม / หน่วยการทดลองเช่นบุคคลที่วาด (ที่สุ่ม) จากประชากรสำหรับการทดลองทางคลินิก ผลแบบสุ่มประเมินความแปรปรวน
ผลกระทบแบบผสม: รวมทั้งผลกระทบคงที่ในกรณีเหล่านี้คือการประมาณค่าสัมประสิทธิ์ระดับประชากรในขณะที่ผลกระทบแบบสุ่มสามารถอธิบายความแตกต่างของแต่ละบุคคลในการตอบสนองต่อผลกระทบเช่นแต่ละคนได้รับยาและยาหลอกในโอกาสที่แตกต่างกัน ผลกระทบประมาณการผลกระทบของยาเสพติดข้อกำหนดผลกระทบแบบสุ่มจะช่วยให้แต่ละคนที่จะตอบสนองต่อยาแตกต่างกัน
หมวดหมู่ทั่วไปของเอฟเฟกต์ต่าง ๆ - มาตรการซ้ำ ๆ , ยาว, ลำดับชั้น, แยกส่วน
ฉันมาถึงคำถามนี้จากที่นี่เป็นไปได้ที่ซ้ำกัน
มีคำตอบที่ยอดเยี่ยมหลายคำอยู่แล้ว แต่ตามที่ระบุไว้ในคำตอบที่ยอมรับมีการใช้คำศัพท์ต่าง ๆ (แต่เกี่ยวข้อง) ดังนั้นมันจึงมีประโยชน์ที่จะให้มุมมองที่ใช้ในสาขาเศรษฐศาสตร์ซึ่งดูเหมือนจะยังไม่ได้พูดถึง .
ดังนั้นการรวมกัน OLS จะเป็นกลยุทธ์ที่ไม่ถูกต้องที่นี่เพราะมันจะส่งผลในเชิงบวกของเนื่องจากตัวประมาณนี้จะไม่สนใจสี RE ก็จะมีอคติด้วยเช่นกันซึ่งเป็นเวอร์ชันถ่วงน้ำหนักของ FE และตัวประมาณระหว่างตัวประมาณซึ่งถอยหลัง "เวลา" - ค่าเฉลี่ยเหนือเข้าหากัน หลัง แต่ยังต้องขาดความสัมพันธ์ของและ{}เสื้อα ฉันX ฉันที
ความเอนเอียงนี้จะหายไปเป็นจำนวนช่วงเวลาต่อหน่วย ( ในรหัสด้านล่าง) เพิ่มขึ้นเมื่อน้ำหนักของ FE มีแนวโน้มเป็นหนึ่ง (ดูเช่น Hsiao, การวิเคราะห์ข้อมูลแผง, วินาที 3.3.2)m
นี่คือรหัสที่สร้างข้อมูลและสร้างการประมาณการ RE ที่เป็นบวกและการประเมิน FE ที่ "ถูกต้อง" เชิงลบ (ที่กล่าวว่าการประเมิน RE มักจะเป็นผลลบต่อเมล็ดพันธุ์อื่นด้วยดูด้านบน)
library(Jmisc)
library(plm)
library(RColorBrewer)
# FE illustration
set.seed(324)
m = 8
n = 12
step = 5
alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))
beta = -1
y = X = matrix(NA,nrow=m,ncol=n)
for (i in 1:n) {
X[,i] = runif(m,i,i+1)
X[,i] = rnorm(m,i)
y[,i] = alpha[i] + X[,i]*beta + rnorm(m,sd=.75)
}
stackX = as.vector(X)
stackY = as.vector(y)
darkcols <- brewer.pal(12, "Paired")
plot(stackX,stackY,col=rep(darkcols,each=m),pch=19)
unit = rep(1:n,each=m)
# first two columns are for plm to understand the panel structure
paneldata = data.frame(unit,rep(1:m,n),stackY,stackX)
fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")
ผลลัพธ์:
> fe
Model Formula: stackY ~ stackX
Coefficients:
stackX
-1.0451
> re
Model Formula: stackY ~ stackX
Coefficients:
(Intercept) stackX
18.34586 0.77031
ความแตกต่างมีความหมายเฉพาะในบริบทของสถิติที่ไม่ใช่แบบเบย์ ในสถิติแบบเบย์พารามิเตอร์ของแบบจำลองทั้งหมดคือ "สุ่ม"
ในเศรษฐมิติคำมักจะใช้ในแบบจำลองเชิงเส้นทั่วไปที่แบบจำลองเป็นของแบบฟอร์ม
เอฟเฟกต์แบบสุ่ม:เมื่อ ,
ผลกระทบคงที่:เมื่อ{}
ในตัวแบบเชิงเส้นการมีเอฟเฟกต์แบบสุ่มไม่ส่งผลให้เกิดความไม่สอดคล้องกันของตัวประมาณค่า OLS อย่างไรก็ตามการใช้ตัวประมาณเอฟเฟกต์แบบสุ่ม (เช่นกำลังสองน้อยที่สุดที่เป็นไปได้ทั่วไป) จะส่งผลให้ตัวประมาณมีประสิทธิภาพมากขึ้น
ในโมเดลที่ไม่ใช่เชิงเส้นเช่น probit, tobit, ... การปรากฏตัวของเอฟเฟกต์แบบสุ่มโดยทั่วไปจะส่งผลให้ตัวประมาณที่ไม่สอดคล้องกัน การใช้ตัวประมาณเอฟเฟกต์แบบสุ่มจะคืนค่าความสอดคล้อง
สำหรับโมเดลเชิงเส้นและไม่ใช่เชิงเส้นเอฟเฟกต์คงที่ส่งผลให้เกิดอคติ อย่างไรก็ตามในโมเดลเชิงเส้นมีการแปลงที่สามารถใช้ได้ (เช่นความแตกต่างแรกหรือการลดความสำคัญ) โดยที่ OLS บนข้อมูลที่แปลงแล้วจะส่งผลให้มีการประมาณการที่สอดคล้องกัน สำหรับรูปแบบที่ไม่ใช่เชิงเส้นมีข้อยกเว้นบางประการที่มีการแปลงอยู่ผลกระทบคงที่ logitเป็นตัวอย่างหนึ่ง
ตัวอย่าง: สุ่มเอฟเฟกต์ สมมติ
และผลลัพธ์ที่สังเกตได้คือ
ตัวประมาณค่าความน่าจะเป็นแบบPooled สูงสุดจะลดค่าเฉลี่ยตัวอย่างของ
แน่นอนที่นี่บันทึกและผลิตภัณฑ์ลดความซับซ้อน แต่ด้วยเหตุผลทางการสอนสิ่งนี้ทำให้สมการมากขึ้นเมื่อเทียบกับตัวประมาณเอฟเฟกต์แบบสุ่มซึ่งมีรูปแบบ
ตัวอย่างเช่นเราสามารถประมาณค่าอินทิกรัลโดยการสุ่มโดยใช้เสมอเกณฑ์ปกติแบบสุ่มและประเมินโอกาสสำหรับแต่ละ
สัญชาตญาณมีดังต่อไปนี้: เราไม่รู้ว่าเป็นแบบใด,แต่ละการสังเกตคือ แต่เราประเมินผลิตภัณฑ์ของความน่าจะเป็นเมื่อเวลาผ่านไปเพื่อหาลำดับของการเสมอกัน ชนิดที่มีแนวโน้มมากที่สุดสำหรับการสังเกตจะมีความน่าจะเป็นที่สูงที่สุดในทุกช่วงเวลาและดังนั้นจึงจะครองผลงานความเป็นไปได้ที่ -sequence ของการสังเกต i T
ไม่ใช่คำจำกัดความที่เป็นทางการ แต่ฉันชอบสไลด์ต่อไปนี้: โมเดลผสมและทำไมนักภาษาศาสตร์สังคมจึงควรใช้ ( กระจก ) จาก Daniel Ezra Johnson สรุปย่อ 'มีให้ในสไลด์ 4 แม้ว่าส่วนใหญ่จะเน้นไปที่การศึกษาทางจิตวิทยา แต่ก็มีประโยชน์มากในขั้นตอนแรก
อีกมุมมองในทางปฏิบัติมากในรูปแบบผลกระทบแบบสุ่มและคงมาจากเศรษฐเมื่อทำการถดถอยเชิงเส้นในแผงข้อมูล หากคุณประเมินความสัมพันธ์ระหว่างตัวแปรอธิบายและตัวแปรผลลัพธ์ในชุดข้อมูลที่มีตัวอย่างหลายรายการต่อบุคคล / กลุ่มนี่คือกรอบงานที่คุณต้องการใช้
ตัวอย่างที่ดีของข้อมูลพาเนลคือการวัดรายปีจากชุดของแต่ละบุคคลของ:
หากเราพยายามเข้าใจความสัมพันธ์ระหว่างการออกกำลังกายและการเปลี่ยนแปลงน้ำหนักเราจะตั้งค่าการถดถอยต่อไปนี้:
ในการตั้งค่าเช่นนี้มีความเสี่ยงของ endogeneity สิ่งนี้สามารถเกิดขึ้นได้เมื่อตัวแปรที่ไม่วัดค่า (เช่นสถานะสมรส) เกี่ยวข้องกับการออกกำลังกายและการเปลี่ยนแปลงน้ำหนัก ตามที่อธิบายไว้ใน p.16 ในการบรรยายพรินซ์ตันนี้โมเดลเอฟเฟกต์แบบสุ่ม (AKA ผสมเอฟเฟกต์) มีประสิทธิภาพมากกว่าโมเดลเอฟเฟกต์คงที่ อย่างไรก็ตามมันจะแสดงผลของตัวแปรที่ไม่ถูกวัดบางอย่างอย่างไม่ถูกต้องต่อการเปลี่ยนแปลงน้ำหนักของการออกกำลังกายทำให้เกิดไม่ถูกต้องและอาจมีนัยสำคัญทางสถิติที่สูงกว่าที่ถูกต้อง ในกรณีนี้แบบจำลองผลกระทบแบบสุ่มไม่ได้เป็นประมาณการที่สอดคล้องกันของ\β 0
แบบจำลองเอฟเฟกต์คงที่ (ในรูปแบบพื้นฐานที่สุด) ควบคุมตัวแปรที่ไม่ได้วัดใด ๆ ซึ่งเป็นค่าคงที่เมื่อเวลาผ่านไป แต่จะแตกต่างกันระหว่างบุคคลโดยชัดเจนรวมถึงคำดักจับแยกต่างหากสำหรับแต่ละบุคคล ( ) ในสมการถดถอย ในตัวอย่างของเรามันจะควบคุมโดยอัตโนมัติสำหรับผลกระทบที่สับสนจากเพศเช่นเดียวกับคนที่ไม่ได้วัดใด ๆ (สถานภาพสมรสสถานะทางเศรษฐกิจและสังคมเศรษฐกิจสำเร็จการศึกษา ฯลฯ ) ในความเป็นจริงทางเพศไม่สามารถจะรวมอยู่ในการถดถอยและไม่สามารถประมาณการโดยแบบจำลองผลกระทบคงที่ตั้งแต่เป็น collinear กับ 'sβ 1 g e n d e r i α i
ดังนั้นคำถามสำคัญคือการกำหนดรูปแบบที่เหมาะสม คำตอบคือการทดสอบ Hausman หากต้องการใช้เราจะทำการทดสอบเอฟเฟกต์ทั้งแบบคงที่และแบบสุ่มจากนั้นใช้การทดสอบ Hausman เพื่อดูว่าการประมาณค่าสัมประสิทธิ์ของพวกมันแตกต่างกันหรือไม่ หากพวกมันแตกต่าง endogeneity อยู่ที่การเล่นและโมเดลเอฟเฟกต์คงที่เป็นตัวเลือกที่ดีที่สุด มิฉะนั้นเราจะไปด้วยเอฟเฟกต์แบบสุ่ม