267

ในแง่ง่ายคุณจะอธิบายความแตกต่างระหว่างเอฟเฟกต์คงที่เอฟเฟกต์แบบสุ่มและเอฟเฟกต์ผสมได้อย่างไร

3

ฉันยังพบว่าบางครั้งก็ยากที่จะตัดสินว่าเมื่อใดที่ผลกระทบนั้นจะต้องได้รับการพิจารณาว่าเป็นแบบคงที่หรือเป็นแบบสุ่ม แม้ว่าจะมีคำแนะนำบางประการเกี่ยวกับข้อเท็จจริงนี้ แต่ก็ไม่ใช่เรื่องง่ายที่จะทำการตัดสินใจที่ถูกต้อง

— Manuel Ramón

3

ผมคิดว่าการเชื่อมโยงนี้อาจจะเป็นประโยชน์ในการทำความเข้าใจในหลักการพื้นฐานของรุ่นผสม: คงสุ่มและรุ่นผสม (เอกสาร SAS)

— pietrop

6

คำตอบที่เป็นประโยชน์อย่างยิ่งสามารถพบได้ที่นี่: อะไรคือความแตกต่างระหว่างเอฟเฟ็กต์แบบสุ่ม - เอ็ฟเฟ็กต์แบบผสม - และแบบขอบเล็กน้อย?

— gung

145

สถิติแอนดรูเจลแมนกล่าวว่าคำว่า 'ผลคงที่' และ 'เอฟเฟ็กต์แบบสุ่ม' มีความหมายแปรผันตามผู้ใช้ บางทีคุณสามารถเลือกว่าหนึ่งใน 5 คำจำกัดความที่ใช้กับกรณีของคุณ โดยทั่วไปแล้วมันอาจจะดีกว่าที่จะมองหาสมการที่อธิบายรูปแบบความน่าจะเป็นที่ผู้เขียนใช้ (เมื่ออ่าน) หรือเขียนรูปแบบความน่าจะเป็นแบบเต็มที่คุณต้องการใช้ (เมื่อเขียน)

ที่นี่เราร่างคำจำกัดความห้าประการที่เราได้เห็น:

เอฟเฟกต์คงที่นั้นคงที่ในแต่ละบุคคลและเอฟเฟกต์แบบสุ่มจะแตกต่างกันไป ยกตัวอย่างเช่นในการศึกษาการเจริญเติบโตรูปแบบที่มีดักสุ่มและคงความลาดชันสอดคล้องกับขนานเส้นสำหรับบุคคลที่แตกต่างกันหรือรุ่นBT Kreft และ De Leeuw (1998) จึงแยกความแตกต่างระหว่างค่าสัมประสิทธิ์คงที่และแบบสุ่ม $a_i$ $b$ $i$ $y_{it} = a_i + b t$

ผลกระทบจะได้รับการแก้ไขหากพวกเขามีความสนใจในตัวเองหรือสุ่มถ้ามีความสนใจในประชากรพื้นฐาน Searle, Casella และ McCulloch (1992, Section 1.4) สำรวจความแตกต่างในเชิงลึกนี้

“ เมื่อตัวอย่างหมดจำนวนประชากรตัวแปรที่เกี่ยวข้องจะได้รับการแก้ไข เมื่อตัวอย่างมีขนาดเล็ก (กล่าวคือเล็กน้อย) ส่วนหนึ่งของประชากรตัวแปรที่เกี่ยวข้องจะถูกสุ่ม "(Green and Tukey, 1960)

“ หากถือว่าเอฟเฟกต์เป็นค่าที่รับรู้ของตัวแปรสุ่มมันจะเรียกว่าเอฟเฟกต์แบบสุ่ม” (LaMotte, 1983)

มีการประเมินผลกระทบคงที่โดยใช้กำลังสองน้อยที่สุด (หรือโดยทั่วไปความน่าจะเป็นสูงสุด) และการสุ่มเอฟเฟกต์จะประเมินด้วยการหดตัว คำจำกัดความนี้เป็นมาตรฐานในวรรณคดีการสร้างแบบจำลองหลายระดับ (ดูตัวอย่างเช่น Snijders และ Bosker, 1999, มาตรา 4.2) และในสาขาเศรษฐศาสตร์

[ Gelman, 2004, การวิเคราะห์ความแปรปรวน - ทำไมมันจึงมีความสำคัญมากกว่าที่เคย พงศาวดารของสถิติ ]

— John Salvatier
แหล่งที่มา

4

+1: ลิงค์ดีมาก! ฉันเดาว่าความหมายยังแตกต่างกันไปขึ้นอยู่กับสนาม (เช่น # 4 เป็นคณิตศาสตร์ / สถิติมาก แต่ # 1 และ # 2 นั้น "เข้าใจ" ได้มากกว่าจากมุมมองด้านวิทยาศาสตร์เพื่อชีวิต)

— nico

12

นอกจากนี้ยังเป็นข้อมูลในการอ่านการสนทนาและการชื่นชมในเอกสารนี้ ในการอภิปรายปีเตอร์ McCullagh เขียนว่าเขาไม่เห็นด้วยกับส่วนสำคัญของสิ่งที่ Gelman เขียน ประเด็นของฉันคือไม่ชอบสิ่งใดสิ่งหนึ่ง แต่ให้สังเกตว่ามีความขัดแย้งอย่างมากในหมู่ผู้เชี่ยวชาญและไม่ให้น้ำหนักมากเกินไปในกระดาษหนึ่งแผ่น

— Julieth

6

การอภิปรายทั้งหมดที่เชื่อมโยง

— Julieth

36

เป็นเรื่องตลกที่แอนดรูเจลแมนถูกอธิบายว่าเป็น "บล็อกเกอร์" แทนที่จะเป็นหนึ่งในนักสถิติชั้นแนวหน้าในโลกทุกวันนี้ ถึงแม้ว่าเขาจะเป็นบล็อกเกอร์ แต่เขาก็อาจถูกเรียกว่า "นักสถิติแอนดรูเจลแมน" ถ้ามีการใช้คุณสมบัติใด ๆ

— Brash Equilibrium

4

แต่ในฐานะนักสถิติและไม่ได้เป็นแค่นักเขียนบล็อกเกอร์ระดับแนวหน้าเขาควรใส่ความถี่สัมพัทธ์อย่างน้อยในการใช้ห้ากรณี เมื่อผู้คนพูดถึงเอฟเฟกต์คงที่และเอฟเฟกต์แบบสุ่มพวกเขามักหมายถึง:

(4) “If an effect is assumed to be a realized value of a random variable, it is called a random effect.” (LaMotte, 1983)

— Ufos

251

มีหนังสือที่ดีเกี่ยวกับเรื่องนี้เช่นGelman และฮิลล์ สิ่งที่ตามมาคือสรุปมุมมองของพวกเขา

ก่อนอื่นคุณไม่ควรจมอยู่ในคำศัพท์ ในสถิติศัพท์แสงไม่ควรใช้แทนความเข้าใจทางคณิตศาสตร์ของแบบจำลองเอง นั่นเป็นเรื่องจริงโดยเฉพาะอย่างยิ่งสำหรับโมเดลเอฟเฟกต์แบบสุ่มและผสม "มิกซ์" หมายถึงโมเดลมีเอฟเฟกต์ทั้งแบบคงที่และแบบสุ่มดังนั้นให้เรามุ่งเน้นที่ความแตกต่างระหว่างแบบคงที่และแบบสุ่ม

สุ่มและเอฟเฟกต์คงที่

สมมติว่าคุณมีโมเดลที่มีตัวพยากรณ์หมวดหมู่ซึ่งแบ่งการสังเกตของคุณออกเป็นกลุ่มตามค่าหมวดหมู่ * ค่าสัมประสิทธิ์โมเดลหรือ "เอฟเฟกต์" ที่เกี่ยวข้องกับตัวทำนายนั้นสามารถคงที่หรือสุ่มก็ได้ ความแตกต่างที่สำคัญที่สุดระหว่างทั้งสองคือ:

เอฟเฟกต์แบบสุ่มถูกประเมินด้วยการรวมกำไรบางส่วน

การรวมบางส่วนหมายความว่าหากคุณมีจุดข้อมูลน้อยในกลุ่มการประมาณผลกระทบของกลุ่มจะขึ้นอยู่กับข้อมูลที่มีมากมายจากกลุ่มอื่น ๆ นี่อาจเป็นการประนีประนอมที่ดีระหว่างการประเมินผลกระทบโดยการรวมกลุ่มทั้งหมดอย่างสมบูรณ์ซึ่งปิดบังการเปลี่ยนแปลงระดับกลุ่มและการประเมินผลกระทบสำหรับทุกกลุ่มแยกกันอย่างสมบูรณ์ซึ่งอาจให้การประเมินที่ไม่ดีสำหรับกลุ่มตัวอย่างต่ำ

เอฟเฟกต์แบบสุ่มเป็นเพียงส่วนเสริมของเทคนิคการรวมบางส่วนในฐานะโมเดลทางสถิติทั่วไป สิ่งนี้ช่วยให้การประยุกต์ใช้แนวคิดในหลากหลายสถานการณ์รวมถึงตัวทำนายหลายตัวตัวแปรแบบต่อเนื่องและหมวดหมู่ผสมและโครงสร้างความสัมพันธ์ที่ซับซ้อน (แต่ด้วยพลังอันยิ่งใหญ่มาพร้อมความรับผิดชอบที่ยิ่งใหญ่: ความซับซ้อนของการสร้างแบบจำลองและการอนุมานจะเพิ่มขึ้นอย่างมากและสามารถก่อให้เกิดอคติที่บอบบางที่ต้องอาศัยความซับซ้อนมากเพื่อหลีกเลี่ยง)

หากต้องการกระตุ้นโมเดลเอฟเฟกต์แบบสุ่มให้ถามตัวเองว่า: ทำไมคุณถึงรวมกลุ่มบางส่วน อาจเป็นเพราะคุณคิดว่ากลุ่มย่อยเล็ก ๆ เป็นส่วนหนึ่งของกลุ่มใหญ่ที่มีผลกระทบโดยทั่วไป กลุ่มย่อยหมายถึงเบี่ยงเบนไปเล็กน้อยจากค่าเฉลี่ยของกลุ่มใหญ่ แต่ไม่ใช่โดยจำนวนโดยพลการ เพื่อวางแนวความคิดนั้นเราวางตัวว่าความเบี่ยงเบนตามการแจกแจงโดยทั่วไปคือเกาส์เซียน นั่นคือสิ่งที่ "สุ่ม" ในเอฟเฟกต์แบบสุ่มเข้ามา: เราสมมติว่าความเบี่ยงเบนของกลุ่มย่อยจากผู้ปกครองติดตามการกระจายตัวของตัวแปรสุ่ม เมื่อคุณมีความคิดนี้แล้วสมการโมเดลผสมเอฟเฟกต์จะเป็นไปตามธรรมชาติ

แต่น่าเสียดายที่ผู้ใช้โมเดลผสมผลกระทบมักมีอคติที่ผิดพลาดเกี่ยวกับเอฟเฟกต์แบบสุ่มและแตกต่างจากเอฟเฟกต์คงที่อย่างไร ผู้คนได้ยินคำว่า "สุ่ม" และคิดว่ามันหมายถึงบางสิ่งที่พิเศษมากเกี่ยวกับระบบที่ถูกสร้างแบบจำลองเช่นเอฟเฟกต์คงที่จะต้องใช้เมื่อมีบางสิ่งที่ "คงที่" ในขณะที่เอฟเฟกต์แบบสุ่ม แต่ไม่มีอะไรสุ่มโดยเฉพาะเกี่ยวกับการสมมติว่าค่าสัมประสิทธิ์แบบนั้นมาจากการแจกแจง มันเป็นข้อ จำกัด ที่อ่อนนุ่มคล้ายกับการลงโทษนำไปใช้กับสัมประสิทธิ์แบบจำลองในการถดถอยสันเขา มีหลายสถานการณ์ที่คุณอาจต้องการหรือไม่ต้องการใช้เอฟเฟกต์แบบสุ่มและพวกเขาไม่จำเป็นต้องทำอะไรมากนักกับความแตกต่างระหว่าง "คงที่" และ "สุ่ม" $\ell_2$

น่าเสียดายที่ความสับสนของแนวคิดที่เกิดจากคำเหล่านี้ทำให้เกิดคำจำกัดความที่ขัดแย้งกันมากมาย จากคำจำกัดความทั้งห้าที่ลิงก์นี้มีเพียง # 4 เท่านั้นที่ถูกต้องในกรณีทั่วไป แต่ก็ไม่เป็นไปตามปกติ คุณต้องอ่านบทความและหนังสือทั้งหมด (หรือการที่โพสต์นี้ล้มเหลว) เพื่อทำความเข้าใจว่าคำจำกัดความนั้นหมายถึงอะไรในการทำงานจริง

ตัวอย่าง

ลองดูกรณีที่การสร้างเอฟเฟกต์แบบสุ่มอาจมีประโยชน์ สมมติว่าคุณต้องการประเมินรายได้ครัวเรือนของสหรัฐอเมริกาโดยเฉลี่ยด้วยรหัสไปรษณีย์ คุณมีชุดข้อมูลขนาดใหญ่ที่มีการสังเกตรายได้ของครัวเรือนและรหัสไปรษณีย์ รหัสไปรษณีย์บางชุดมีการแสดงที่ดีในชุดข้อมูล แต่รหัสอื่น ๆ มีเพียงสองครัวเรือนเท่านั้น

สำหรับรุ่นเริ่มต้นของคุณคุณมักจะรับรายได้เฉลี่ยในแต่ละ ZIP วิธีนี้จะทำงานได้ดีเมื่อคุณมีข้อมูลจำนวนมากสำหรับ ZIP แต่ค่าประมาณของ ZIP ที่สุ่มตัวอย่างไม่ดีของคุณจะประสบกับความแปรปรวนสูง คุณสามารถลดสิ่งนี้ได้โดยใช้ตัวประมาณค่าการหดตัว (aka การรวมบางส่วน) ซึ่งจะผลักดันค่าที่รุนแรงไปสู่รายได้เฉลี่ยในทุกรหัสไปรษณีย์

แต่คุณควรลดขนาด / การรวมกำไรสำหรับ ZIP หนึ่ง ๆ มันควรขึ้นอยู่กับสิ่งต่อไปนี้:

คุณมีข้อสังเกตมากมายใน ZIP นั้น
คุณมีข้อสังเกตโดยรวมเท่าใด
แต่ละระดับค่าเฉลี่ยและความแปรปรวนของรายได้ของครัวเรือนทั่วรหัสไปรษณีย์ทั้งหมด
ระดับกลุ่มแปรปรวนในรายได้ของครัวเรือนเฉลี่ยทั่วรหัสไปรษณีย์ทั้งหมด

หากคุณจำลองรหัสไปรษณีย์เป็นแบบสุ่มการคาดการณ์รายได้เฉลี่ยในรหัสไปรษณีย์ทั้งหมดจะถูกลดขนาดลงอย่างมากโดยคำนึงถึงปัจจัยทั้งหมดข้างต้น

ส่วนที่ดีที่สุดคือแบบจำลองเอฟเฟกต์แบบสุ่มและแบบผสมจัดการโดยอัตโนมัติ (4) การประมาณค่าความแปรปรวนสำหรับเอฟเฟกต์แบบสุ่มทั้งหมดในโมเดล นี่ยากกว่าที่จะเห็นได้อย่างรวดเร็วในครั้งแรก: คุณสามารถลองความแปรปรวนของค่าเฉลี่ยตัวอย่างสำหรับแต่ละ ZIP แต่จะมีความเอนเอียงสูงเนื่องจากความแปรปรวนระหว่างค่าประมาณสำหรับ ZIP ที่แตกต่างกันเป็นเพียงการสุ่มตัวอย่างความแปรปรวน ในโมเดลเอฟเฟ็กต์แบบสุ่มกระบวนการอนุมานจะอธิบายบัญชีสำหรับการสุ่มตัวอย่างความแปรปรวนและลดขนาดการประมาณผลต่าง

มีสัดส่วน (1) - (4) แบบจำลองเอฟเฟกต์แบบสุ่ม / ผสมสามารถตรวจสอบการหดตัวที่เหมาะสมสำหรับกลุ่มตัวอย่างต่ำ นอกจากนี้ยังสามารถจัดการกับแบบจำลองที่ซับซ้อนมากขึ้นด้วยตัวทำนายที่แตกต่างกัน

ความสัมพันธ์กับแบบจำลองลำดับชั้นแบบเบย์

หากสิ่งนี้ฟังดูเหมือนการสร้างแบบจำลอง Bayesian แบบลำดับชั้นสำหรับคุณคุณพูดถูก - มันเป็นญาติสนิท แต่ไม่เหมือนกัน แบบจำลองเอฟเฟกต์แบบผสมนั้นเป็นแบบลำดับชั้นในการที่พวกเขาวางการแจกแจงสำหรับพารามิเตอร์แฝงและไม่ได้ตรวจสอบ แต่โดยทั่วไปแล้วพวกเขาจะไม่ได้เบย์อย่างเต็มที่เพราะพารามิเตอร์ระดับสูงระดับสูงสุด ตัวอย่างเช่นในตัวอย่างข้างต้นเราน่าจะรักษารายได้เฉลี่ยใน ZIP ที่กำหนดเป็นตัวอย่างจากการแจกแจงแบบปกติโดยไม่ทราบค่าเฉลี่ยและซิกมาที่จะถูกประเมินโดยกระบวนการการผสมแบบเอฟเฟกต์แบบผสม อย่างไรก็ตามแบบจำลองเอฟเฟกต์แบบผสม (ที่ไม่ใช่แบบเบย์) จะไม่เคยมีมาก่อนในค่าเฉลี่ยที่ไม่รู้จักและซิกม่าดังนั้นจึงไม่ใช่แบบเบย์ทั้งหมด ดังกล่าวด้วยชุดข้อมูลที่มีขนาดพอเหมาะตัวแบบเอฟเฟ็กต์มาตรฐานแบบผสมและตัวแปรแบบเบย์เต็มรูปแบบมักจะให้ผลลัพธ์ที่คล้ายกันมาก

* ในขณะที่การบำบัดหลายอย่างของหัวข้อนี้มุ่งเน้นไปที่คำจำกัดความที่แคบของ "กลุ่ม" แนวคิดนี้มีความยืดหยุ่นมากจริง ๆ : มันเป็นเพียงชุดของการสังเกตที่ใช้คุณสมบัติทั่วไป กลุ่มอาจประกอบด้วยการสังเกตหลายครั้งของคนคนเดียวหรือหลายคนในโรงเรียนหรือโรงเรียนหลายแห่งในเขตหรือผลไม้ชนิดเดียวหลายชนิดหรือผักหลายชนิดจากการเก็บเกี่ยวเดียวกันหรือเก็บเกี่ยวหลายชนิด ผักชนิดเดียวกัน ฯลฯ ตัวแปรเด็ดขาดใด ๆ สามารถใช้เป็นตัวแปรการจัดกลุ่มได้

— พอล
แหล่งที่มา

19

6 ฉันคิดว่านี่เป็นคำตอบที่ดีที่สุดในหัวข้อนี้และหวังว่าเมื่อถึงเวลาที่จะกลายเป็นหนึ่งในกระทู้ที่น่าสนใจที่สุด คำแนะนำอย่างหนึ่งที่ฉันจะทำคือการรวมสูตรบางอย่าง: บางทีในส่วนตัวอย่างของคุณคุณสามารถจัดทำสูตรที่ระบุรูปแบบคงที่และแบบสุ่มเอฟเฟกต์ (และอาจเป็นรูปแบบ "สัมประสิทธิ์เดี่ยว" เช่นหนึ่งด้วย ") ฉันคิดว่าสูตรจะทำให้คำตอบของคุณชัดเจนและน่าดึงดูดยิ่งขึ้น / น่าดึงดูด (ปัจจุบันนี้ดูเหมือนกับกำแพงข้อความเล็กน้อย)

— อะมีบา

3

@ amoeba ขอบคุณ! คุณถูกต้องเกี่ยวกับค่าสัมประสิทธิ์การเป็นคำที่ผิดมันเหมือนกับ "คำว่าแบบจำลอง" มากกว่าสัมประสิทธิ์ สูตรจะช่วยล้างคำถามนี้และคำถามอื่น ๆ ฉันได้ค่อยๆปรับคำตอบนี้เมื่อเวลาและแรงบันดาลใจถูกกระทบและจะดำเนินการต่อไปจนกว่าจะถึงที่ที่มันจะต้องไป! ฉันอาจจะผสมสูตรสำหรับ "การถดถอยกับตัวแปรเด็ดขาดเดียว" Complete pooling = สัมประสิทธิ์กลุ่มเหมือนกัน (delta ก่อนหน้า, ซิกม่าศูนย์), การรวมบางส่วน = พวกเขาสามารถแตกต่างกันเล็กน้อย (finite sigma), ไม่รวมกำไร = ไม่มีข้อ จำกัด (ซิกม่าอนันต์)

— พอล

ขอบคุณสำหรับคำตอบที่ยอดเยี่ยม! อย่างไรก็ตามฉันได้สูญเสียคุณไปที่ "คุณสามารถลดสิ่งนี้ได้โดยใช้ตัวประมาณการหดตัว (aka การรวมบางส่วน) ซึ่งจะผลักดันค่าที่สูงที่สุดไปสู่รายได้เฉลี่ยในรหัสไปรษณีย์ทั้งหมด" การรวมบางส่วนคืออะไร คุณยกตัวอย่างง่ายๆ นอกจากนี้หน้า Wikipediaเกี่ยวกับลักษณะพิเศษแบบสุ่มเห็นด้วยกับสิ่งที่คุณพูด ตัวอย่างของพวกเขาของ "ผลกระทบแบบสุ่ม" ไม่ได้พิจารณาขนาดตัวอย่างใด ๆ

— AlphaOmega

2

ขอแสดงความยินดีที่ผ่าน 100 upvote สำหรับคำตอบนี้ :-)

— amoeba

1

@ พอลฉันกำลังดิ้นรนกับการเข้าใจวิธีการรวมคำตอบนี้ (เช่น "คน ... คิดว่า ... ต้องใช้เอฟเฟกต์คงที่เมื่อบางสิ่ง" คงที่ "ในขณะที่เอฟเฟกต์แบบสุ่มต้องใช้เมื่อมีบางสิ่ง" สุ่มตัวอย่าง ") กับสิ่งที่ฉันเห็นในวิธีที่ข้อผิดพลาดมาตรฐานปรากฎในแบบผสมซึ่ง SEs ที่มีเอฟเฟ็กต์แบบสุ่มดูเหมือนกับฉันเท่านั้นที่สอดคล้องกับการสันนิษฐานว่าพวกเขาสุ่มตัวอย่างแบบสุ่มและ SEs ที่มีเอฟเฟกต์ถาวรเฉพาะ ดูเช่นนี้ที่นี่ฉันคิดถึงอะไรบ้างความคิดใด ๆ ที่ชื่นชมเกินคำ

— บรรยาย

47

ฉันได้เขียนเกี่ยวกับเรื่องนี้ในบทหนังสือเกี่ยวกับโมเดลผสม (บทที่ 13 ในFox, Negrete-Yankelevich และ Sosa 2014 ); หน้าเว็บที่เกี่ยวข้อง (PP. 311-315) ที่มีอยู่บน Google หนังสือ ฉันคิดว่าคำถามจะลดลงเป็น "คำจำกัดความของเอฟเฟกต์แบบคงที่และแบบสุ่มคืออะไร" ("โมเดลผสม" เป็นเพียงโมเดลที่มีทั้งสองอย่าง) การอภิปรายของฉันพูดถึงคำจำกัดความที่เป็นทางการของพวกเขาน้อยลง (ซึ่งฉันจะเลื่อนกระดาษเจลแมนที่เชื่อมโยงโดยคำตอบของ @ JohnSalvatier ด้านบน) และอื่น ๆ เกี่ยวกับคุณสมบัติเชิงปฏิบัติและอรรถประโยชน์ นี่คือข้อความที่ตัดตอนมาบางส่วน:

มุมมองแบบดั้งเดิมของเอฟเฟ็กต์แบบสุ่มเป็นวิธีหนึ่งที่จะทำการทดสอบทางสถิติที่ถูกต้องเมื่อการสังเกตบางอย่างมีความสัมพันธ์กัน

นอกจากนี้เรายังสามารถคิดว่าเอฟเฟกต์แบบสุ่มเป็นวิธีการรวมข้อมูลจากระดับต่าง ๆ ภายในตัวแปรการจัดกลุ่ม

เอฟเฟกต์แบบสุ่มมีประโยชน์อย่างยิ่งเมื่อเรามี (1) ระดับ (เช่นสปีชีส์หรือบล็อกจำนวนมาก), (2) ข้อมูลค่อนข้างน้อยในแต่ละระดับ (แม้ว่าเราต้องการตัวอย่างจำนวนมากจากระดับส่วนใหญ่) และ (3) ไม่สม่ำเสมอ การสุ่มตัวอย่างข้ามระดับ (กล่อง 13.1)

บ่อยครั้งและ Bayesians กำหนดผลกระทบแบบสุ่มค่อนข้างแตกต่างกันซึ่งมีผลต่อวิธีที่พวกเขาใช้พวกเขา บ่อยครั้งกำหนดเอฟเฟกต์แบบสุ่มเป็นตัวแปรเด็ดขาดซึ่งระดับจะถูกเลือกโดยการสุ่มจากประชากรขนาดใหญ่เช่นสายพันธุ์ที่เลือกโดยการสุ่มจากรายการของสายพันธุ์เฉพาะถิ่น Bayesians กำหนดลักษณะพิเศษแบบสุ่มเป็นชุดของตัวแปรที่มีพารามิเตอร์ [ทั้งหมด] มาจากการกระจาย [เดียวกัน] คำจำกัดความที่ใช้บ่อยนั้นสอดคล้องกันในเชิงปรัชญาและคุณจะได้พบกับนักวิจัย (รวมถึงผู้ตรวจสอบและหัวหน้างาน) ที่ยืนยันในเรื่องนี้ แต่อาจเป็นปัญหาในทางปฏิบัติ ตัวอย่างเช่นมันบอกเป็นนัยว่าคุณไม่สามารถใช้สปีชีส์เป็นเอฟเฟกต์แบบสุ่มเมื่อคุณสังเกตสปีชีส์ทั้งหมดที่ไซต์ของคุณเนื่องจากรายการสปีชีส์ไม่ใช่ตัวอย่างจากประชากรที่มีขนาดใหญ่กว่าหรือใช้ปีเป็นเอฟเฟ็กต์แบบสุ่ม เนื่องจากนักวิจัยไม่ค่อยทำการทดลองในปีสุ่มตัวอย่างสุ่ม - พวกเขามักจะใช้ชุดของปีติดต่อกันหรือชุดปีจับจดเมื่อพวกเขาสามารถเข้าไปในสนาม

เอฟเฟกต์แบบสุ่มยังสามารถอธิบายได้ว่าเป็นตัวแปรทำนายที่คุณสนใจในการหาข้อสรุปเกี่ยวกับการแจกแจงค่า (เช่นความแปรปรวนระหว่างค่าของการตอบสนองในระดับต่าง ๆ ) แทนที่จะทดสอบความแตกต่างของค่าระหว่างระดับที่เฉพาะเจาะจง

บางครั้งผู้คนพูดว่าเอฟเฟกต์แบบสุ่มเป็น "ปัจจัยที่คุณไม่สนใจ" สิ่งนี้ไม่จริงเสมอไป ในขณะที่มันมักจะเป็นกรณีในการทดลองทางนิเวศวิทยา (ที่การเปลี่ยนแปลงระหว่างไซต์มักจะเป็นเพียงความรำคาญ) บางครั้งก็เป็นที่สนใจอย่างมากเช่นในการศึกษาวิวัฒนาการที่การเปลี่ยนแปลงระหว่างจีโนไทป์เป็นวัตถุดิบสำหรับการคัดเลือกโดยธรรมชาติหรือในการศึกษาเชิงประชากรศาสตร์ ซึ่งความผันแปรระหว่างปีลดอัตราการเติบโตในระยะยาว ในบางกรณีอาจใช้เอฟเฟกต์แบบคงที่เพื่อควบคุมการแปรผันที่ไม่น่าสนใจเช่นการใช้มวลเป็นโควาเรียตเพื่อควบคุมผลกระทบของขนาดร่างกาย

คุณจะได้ยินด้วยว่า "คุณไม่สามารถพูดอะไรเกี่ยวกับค่า (ทำนาย) ของโหมดเงื่อนไข" นี่ไม่เป็นความจริง - คุณไม่สามารถทดสอบสมมติฐานว่าง ๆ อย่างเป็นทางการว่าค่าเท่ากับศูนย์หรือ ค่าของสองระดับที่แตกต่างกันมีค่าเท่ากัน แต่ก็ยังคงมีเหตุผลอย่างสมบูรณ์แบบที่จะดูค่าที่คาดการณ์และแม้แต่การคำนวณข้อผิดพลาดมาตรฐานของค่าที่ทำนาย (เช่นดูแถบข้อผิดพลาดรอบโหมดเงื่อนไขในรูปที่ 13.1)

กรอบเบย์มีนิยามที่ง่ายกว่าของเอฟเฟกต์แบบสุ่ม ภายใต้วิธีการแบบเบย์ผลคงที่คือสิ่งที่เราประเมินแต่ละพารามิเตอร์ (เช่นค่าเฉลี่ยสำหรับแต่ละสปีชีส์ภายในสกุล) อย่างอิสระ (พร้อมกับนักบวชที่ระบุอย่างอิสระ) ในขณะที่เอฟเฟกต์แบบสุ่มพารามิเตอร์สำหรับแต่ละระดับนั้น จากการแจกแจง (โดยปกติปกติ); ในสัญกรณ์สถิติมาตรฐานสายพันธุ์) $\textrm{species_mean} \sim {\cal N}(\textrm{genus_mean}, \sigma^2_{\textrm{species}})$

ฉันกล่าวไว้ข้างต้นว่าเอฟเฟกต์แบบสุ่มมีประโยชน์มากที่สุดเมื่อตัวแปรการจัดกลุ่มมีระดับที่วัดได้มากมาย ในทางกลับกันเอฟเฟกต์แบบสุ่มมักไม่ได้ผลเมื่อตัวแปรการจัดกลุ่มมีระดับน้อยเกินไป คุณมักจะไม่สามารถใช้เอฟเฟกต์แบบสุ่มได้เมื่อตัวแปรการจัดกลุ่มมีน้อยกว่าห้าระดับและการประมาณค่าความแปรปรวนของเอฟเฟกต์แบบสุ่มนั้นไม่เสถียรด้วยระดับที่น้อยกว่าแปดระดับเนื่องจากคุณพยายามประเมินความแปรปรวนจากกลุ่มตัวอย่างขนาดเล็กมาก

— เบลเกอร์
แหล่งที่มา

ตัวอย่างปัจจุบันไม่แสดงหน้าหลังจาก 311 และคิดถึงหน้า 310 ซึ่งดูเหมือนว่ามันจะมีประโยชน์มากที่นี่ ...

— flies

อาจเป็นปัญหาระดับภูมิภาคหรือไม่ ขอบคุณสำหรับคำตอบที่ชัดเจนข้างต้น แต่อย่างใด!

— บิน

1

ฉันยังไม่สามารถเข้าถึงผลลัพธ์ของ Google หนังสือ ขอบคุณที่รวมข้อความไว้ที่นี่

— MichaelChirico

ฉันชอบข้อความที่ตัดตอนมานี้จริงๆ นี่อาจเป็นคำอธิบายที่ชัดเจนและมีประโยชน์ที่สุดเกี่ยวกับเวลาและสาเหตุที่ใช้เอฟเฟกต์แบบสุ่มที่ฉันเคยเห็น หวังว่าฉันจะได้มันเมื่อฉันสอนสองสามปีหลัง

— Gregor

39

ผลกระทบคงที่: บางสิ่งที่ผู้ทดลองดำเนินการโดยตรงและมักจะทำซ้ำได้เช่นการบริหารยา - กลุ่มหนึ่งได้รับยากลุ่มหนึ่งได้รับยาหลอก

ผลกระทบแบบสุ่ม: แหล่งที่มาของการเปลี่ยนแปลงแบบสุ่ม / หน่วยการทดลองเช่นบุคคลที่วาด (ที่สุ่ม) จากประชากรสำหรับการทดลองทางคลินิก ผลแบบสุ่มประเมินความแปรปรวน

ผลกระทบแบบผสม: รวมทั้งผลกระทบคงที่ในกรณีเหล่านี้คือการประมาณค่าสัมประสิทธิ์ระดับประชากรในขณะที่ผลกระทบแบบสุ่มสามารถอธิบายความแตกต่างของแต่ละบุคคลในการตอบสนองต่อผลกระทบเช่นแต่ละคนได้รับยาและยาหลอกในโอกาสที่แตกต่างกัน ผลกระทบประมาณการผลกระทบของยาเสพติดข้อกำหนดผลกระทบแบบสุ่มจะช่วยให้แต่ละคนที่จะตอบสนองต่อยาแตกต่างกัน

หมวดหมู่ทั่วไปของเอฟเฟกต์ต่าง ๆ - มาตรการซ้ำ ๆ , ยาว, ลำดับชั้น, แยกส่วน

— แมตต์อัลเบรชต์
แหล่งที่มา

3

คุณไม่ผิด แต่คำจำกัดความของคุณในสิ่งที่มีผลคงที่ไม่ใช่สิ่งที่ฉันคิดเมื่อมีคนพูดว่าผลคงที่ นี่คือสิ่งที่ผมคิดว่าเมื่อมีคนกล่าวว่าผลกระทบคงen.wikipedia.org/wiki/Difference_in_differencesหรือนี้stata.com/support/faqs/stat/xtreg2.html (โดยเฉพาะสมการที่ 3 ในหน้า Stata)

— แอนดี้ W

@AndyW: ฉันเข้าใจอย่างถูกต้องหรือไม่ว่าความเข้าใจของคุณในสิ่งที่ "ผลกระทบคงที่" สอดคล้องกับคำนิยาม # 1 ตามที่ระบุโดย Gelman และอ้างอิงในคำตอบของ JohnSalvatier (ยอมรับ) ในหัวข้อนี้หรือไม่?

— อะมีบา

1

a_{i}

$a_i$

1

a_{i}

$a_i$

1

@ amoeba ฉันเห็นด้วยกับคำตอบนี้ควรเป็น -1 ไม่ได้ให้คำอธิบายทั่วไปที่ถูกต้องและไม่ได้ระบุเงื่อนไขที่คำอธิบายเฉพาะนี้จะถูกต้อง ดังนั้นใครบ้างที่อาจเจอคำตอบนี้และได้รับความรู้ที่เชื่อถือได้และมีประโยชน์

— พอล

23

ฉันมาถึงคำถามนี้จากที่นี่เป็นไปได้ที่ซ้ำกัน

มีคำตอบที่ยอดเยี่ยมหลายคำอยู่แล้ว แต่ตามที่ระบุไว้ในคำตอบที่ยอมรับมีการใช้คำศัพท์ต่าง ๆ (แต่เกี่ยวข้อง) ดังนั้นมันจึงมีประโยชน์ที่จะให้มุมมองที่ใช้ในสาขาเศรษฐศาสตร์ซึ่งดูเหมือนจะยังไม่ได้พูดถึง .

y_{i t} = X_{i t} δ + α_{i} + η_{i t},

$y_{it}=X_{it}\delta+\alpha_i+\eta_{it},$

α_{i}

$\alpha_i$

η_{i t}

$\eta_{it}$

$\alpha_i$

$\alpha_i$ $X_{it}$ $Cov(\alpha_i,X_{it})=0$

$y$ $X$ $y_{it}$ $X_{it}$

$\alpha_i$ $X_{it}$ $i$ $X_{it}=0$ $X_{it}$

ดังนั้นการรวมกัน OLS จะเป็นกลยุทธ์ที่ไม่ถูกต้องที่นี่เพราะมันจะส่งผลในเชิงบวกของเนื่องจากตัวประมาณนี้จะไม่สนใจสี RE ก็จะมีอคติด้วยเช่นกันซึ่งเป็นเวอร์ชันถ่วงน้ำหนักของ FE และตัวประมาณระหว่างตัวประมาณซึ่งถอยหลัง "เวลา" - ค่าเฉลี่ยเหนือเข้าหากัน หลัง แต่ยังต้องขาดความสัมพันธ์ของและ{} $\delta$ $t$ $\alpha_i$ $X_{it}$

ความเอนเอียงนี้จะหายไปเป็นจำนวนช่วงเวลาต่อหน่วย ( ในรหัสด้านล่าง) เพิ่มขึ้นเมื่อน้ำหนักของ FE มีแนวโน้มเป็นหนึ่ง (ดูเช่น Hsiao, การวิเคราะห์ข้อมูลแผง, วินาที 3.3.2) $T$ m

นี่คือรหัสที่สร้างข้อมูลและสร้างการประมาณการ RE ที่เป็นบวกและการประเมิน FE ที่ "ถูกต้อง" เชิงลบ (ที่กล่าวว่าการประเมิน RE มักจะเป็นผลลบต่อเมล็ดพันธุ์อื่นด้วยดูด้านบน)

library(Jmisc)
library(plm)
library(RColorBrewer)
# FE illustration
set.seed(324)
m = 8
n = 12

step = 5
alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))
beta = -1
y = X = matrix(NA,nrow=m,ncol=n)
for (i in 1:n) {
  X[,i] = runif(m,i,i+1)
  X[,i] = rnorm(m,i)
  y[,i] = alpha[i] + X[,i]*beta + rnorm(m,sd=.75)  
}
stackX = as.vector(X)
stackY = as.vector(y)

darkcols <- brewer.pal(12, "Paired")
plot(stackX,stackY,col=rep(darkcols,each=m),pch=19)

unit = rep(1:n,each=m)
# first two columns are for plm to understand the panel structure
paneldata = data.frame(unit,rep(1:m,n),stackY,stackX) 
fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")

ผลลัพธ์:

> fe

Model Formula: stackY ~ stackX

Coefficients:
 stackX 
-1.0451 


> re

Model Formula: stackY ~ stackX

Coefficients:
(Intercept)      stackX 
   18.34586     0.77031

— คริสโตฟฮันค์
แหล่งที่มา

1

สิ่งที่

δ

$\delta$

— อดัม

1

นอกจากนี้ยังปรากฎว่าสามารถจัดการกับตัวอย่างนี้ด้วยเอฟเฟกต์แบบผสม นี่คือกระดาษที่แสดงให้เห็นว่า: academiccommons.columbia.edu/download/fedora_content/download/...

— พอล

1

ไม่ต้องสงสัยเลยว่าประเด็นสุดท้ายให้ดูความคิดเห็นก่อนหน้าของฉัน สำหรับ 2 ถึงความคิดเห็นล่าสุดใช่ RE ให้น้ำหนักของหนึ่งใน FE และศูนย์ในระหว่างประมาณการเป็นแต่ asymptotics จะถูกนำมักจะเกี่ยวกับการไม่มีดูคำตอบที่แก้ไขของฉันสำหรับการอ้างอิง คุณมีประเด็นที่เรื่องราวของฉันเกี่ยวกับการขาดการควบคุมสำหรับการดักจับนั้นดูเหมือนว่ามีประโยชน์มากขึ้นสำหรับการรวม OLS และฉันก็แก้ไขตามแนวเหล่านี้

T \to \infty

$T\to\infty$

N

$N$

— Christoph Hanck

7

ในการสนทนาที่กล่าวมาข้างต้นมันจะแม่นยำมากขึ้นในการแทนที่ "เอฟเฟ็กต์แบบสุ่ม" ด้วย "เอฟเฟ็กต์แบบสุ่มที่ถูก จำกัด การใช้งานในแพ็คเกจของ plm R" มีโมเดลเอฟเฟกต์แบบสุ่มอื่น ๆ ที่จะจัดการปัญหาตัวทำนาย / กลุ่มที่สัมพันธ์กันได้ดีเช่นเดียวกับในเอกสารที่อ้างถึงในความคิดเห็นก่อนหน้าของฉัน พวกเขายังไม่ได้เป็นส่วนหนึ่งของแพ็คเกจ / วรรณกรรมทางเศรษฐศาสตร์ ดูเหมือนว่าคำจำกัดความทางเศรษฐศาสตร์ของเอฟเฟกต์แบบคงที่และแบบสุ่มนั้นมีความเฉพาะเจาะจงในระดับโดเมนและไม่ได้เป็นตัวแทนของความหมายทั่วไปขั้นพื้นฐานอื่น ๆ ของพวกเขาจากวรรณกรรมทางสถิติ

— พอล

4

พอใช้ฉันแก้ไขนิดหน่อย แต่ imo นี่คือสิ่งที่ทำให้เธรดนี้มีค่ามาก: ฟิลด์ที่แตกต่างหมายถึงสิ่งต่าง ๆ โดยใช้คำศัพท์เดียวกันมากขึ้นหรือน้อยลงและการโพสต์ต่างๆช่วยสะกดความแตกต่างเหล่านี้

— Christoph Hanck

12

ความแตกต่างมีความหมายเฉพาะในบริบทของสถิติที่ไม่ใช่แบบเบย์ ในสถิติแบบเบย์พารามิเตอร์ของแบบจำลองทั้งหมดคือ "สุ่ม"

— Shige
แหล่งที่มา

1

น่าสนใจ แต่เนื่องจากการพิจารณาแบบคงที่หรือแบบสุ่มอาจพิจารณาเงื่อนไขของตัวแปรที่กำหนด (คอลัมน์ของข้อมูลที่กำหนด) แทนที่จะเป็นพารามิเตอร์ที่เกี่ยวข้องกับตัวแปรนั้น ... คำตอบของคุณใช้อย่างเต็มที่หรือไม่?

— rolando2

1

@ rolando2 ไม่ว่าในกรณีใด ๆ นี่เป็นเพียงความเท็จ โดยเฉพาะสำหรับ Bayesians พารามิเตอร์เป็นสิ่งที่ทฤษฎี / ความเป็นไปได้บอกว่าพวกเขาเป็น ความไม่แน่นอนเพียงอย่างเดียวของคน ๆ หนึ่งเกี่ยวกับค่านิยมที่พวกเขาใช้คือการใช้การแจกแจงความน่าจะเป็น ดังนั้นบางครั้งพารามิเตอร์จะถูกจำลองเป็นค่าคงที่และไม่รู้จัก ('คงที่') และบางครั้งมาจากการแจกแจง ('สุ่ม') แม้ว่าอุปกรณ์หลังมักจะถูกกระตุ้นโดยการตัดสินการแลกเปลี่ยนได้มากกว่าความเชื่อเกี่ยวกับกระบวนการสุ่มตัวอย่าง

— conjugateprior

ตรงข้ามกับคำตอบ @ben ฉันเชื่อว่าคำตอบนั้นผิด

— SmallChess

9

ในเศรษฐมิติคำมักจะใช้ในแบบจำลองเชิงเส้นทั่วไปที่แบบจำลองเป็นของแบบฟอร์ม

y_{i t} = g (x_{i t} β + α_{i} + u_{i t}) .

$y_{it} = g(x_{it} \beta + \alpha_i + u_{it}).$

เอฟเฟกต์แบบสุ่ม:เมื่อ , $\alpha_i \perp u_{it}$

ผลกระทบคงที่:เมื่อ{} $\alpha_i \not \perp u_{it}$

ในตัวแบบเชิงเส้นการมีเอฟเฟกต์แบบสุ่มไม่ส่งผลให้เกิดความไม่สอดคล้องกันของตัวประมาณค่า OLS อย่างไรก็ตามการใช้ตัวประมาณเอฟเฟกต์แบบสุ่ม (เช่นกำลังสองน้อยที่สุดที่เป็นไปได้ทั่วไป) จะส่งผลให้ตัวประมาณมีประสิทธิภาพมากขึ้น

ในโมเดลที่ไม่ใช่เชิงเส้นเช่น probit, tobit, ... การปรากฏตัวของเอฟเฟกต์แบบสุ่มโดยทั่วไปจะส่งผลให้ตัวประมาณที่ไม่สอดคล้องกัน การใช้ตัวประมาณเอฟเฟกต์แบบสุ่มจะคืนค่าความสอดคล้อง

สำหรับโมเดลเชิงเส้นและไม่ใช่เชิงเส้นเอฟเฟกต์คงที่ส่งผลให้เกิดอคติ อย่างไรก็ตามในโมเดลเชิงเส้นมีการแปลงที่สามารถใช้ได้ (เช่นความแตกต่างแรกหรือการลดความสำคัญ) โดยที่ OLS บนข้อมูลที่แปลงแล้วจะส่งผลให้มีการประมาณการที่สอดคล้องกัน สำหรับรูปแบบที่ไม่ใช่เชิงเส้นมีข้อยกเว้นบางประการที่มีการแปลงอยู่ผลกระทบคงที่ logitเป็นตัวอย่างหนึ่ง

ตัวอย่าง: สุ่มเอฟเฟกต์ สมมติ

y_{i t}^{*} = x_{i t} β + α_{i} + u_{i t}, α_{i} \sim N (0, σ_{α}^{2}), u_{i t} \sim N (0, 1) .

$y^*_{it} = x_{it} \beta + \alpha_i + u_{it}, \quad \alpha_i \sim \mathcal{N}(0,\sigma_\alpha^2), u_{it} \sim \mathcal{N}(0,1).$

และผลลัพธ์ที่สังเกตได้คือ

y_{i t} = 1 (y_{i t}^{*} > 0) .

$y_{it} = \mathbb{1}(y^*_{it} > 0).$

ตัวประมาณค่าความน่าจะเป็นแบบPooled สูงสุดจะลดค่าเฉลี่ยตัวอย่างของ

\hat{β} = \arg min_{β} N^{- 1} \sum_{i = 1}^{N} \log \prod_{t = 1}^{T} [G (x_{i t} β)]^{y_{i t}} [1 - G (x_{i t} β)]^{1 - y_{i t}} .

$\hat{\beta} = \arg \min_\beta N^{-1} \sum_{i=1}^N \log \prod_{t=1}^T [G(x_{it}\beta)]^{y_{it}} [1 - G(x_{it}\beta)] ^{1-y_{it}}.$

แน่นอนที่นี่บันทึกและผลิตภัณฑ์ลดความซับซ้อน แต่ด้วยเหตุผลทางการสอนสิ่งนี้ทำให้สมการมากขึ้นเมื่อเทียบกับตัวประมาณเอฟเฟกต์แบบสุ่มซึ่งมีรูปแบบ

\hat{β} = \arg min_{β} N^{- 1} \sum_{i = 1}^{N} \log \int \prod_{t = 1}^{T} [G (x_{i t} β + σ_{α} a)]^{y_{i t}} [1 - G (x_{i t} β + σ_{α} a)]^{1 - y_{i t}} ϕ (a) d a .

$\hat{\beta} = \arg \min_\beta N^{-1} \sum_{i=1}^N \log \int \prod_{t=1}^T [G(x_{it}\beta + \sigma_\alpha a)]^{y_{it}} [1 - G(x_{it}\beta + \sigma_\alpha a )] ^{1-y_{it}} \phi(a) \mathrm{d}a.$

ตัวอย่างเช่นเราสามารถประมาณค่าอินทิกรัลโดยการสุ่มโดยใช้เสมอเกณฑ์ปกติแบบสุ่มและประเมินโอกาสสำหรับแต่ละ $R$

\hat{β} = \arg min_{β} N^{- 1} \sum_{i = 1}^{N} \log R^{- 1} \sum_{r = 1}^{R} \prod_{t = 1}^{T} [G (x_{i t} β + σ_{α} a_{r})]^{y_{i t}} [1 - G (x_{i t} β + σ_{α} a)]^{1 - y_{i t}}, a_{r} \sim N (0, 1) .

$\hat{\beta} = \arg \min_\beta N^{-1} \sum_{i=1}^N \log R^{-1} \sum_{r=1}^R \prod_{t=1}^T [G(x_{it}\beta + \sigma_\alpha a_r)]^{y_{it}} [1 - G(x_{it}\beta + \sigma_\alpha a )] ^{1-y_{it}},\quad a_r \sim \mathcal{N}(0,1).$

สัญชาตญาณมีดังต่อไปนี้: เราไม่รู้ว่าเป็นแบบใด,แต่ละการสังเกตคือ แต่เราประเมินผลิตภัณฑ์ของความน่าจะเป็นเมื่อเวลาผ่านไปเพื่อหาลำดับของการเสมอกัน ชนิดที่มีแนวโน้มมากที่สุดสำหรับการสังเกตจะมีความน่าจะเป็นที่สูงที่สุดในทุกช่วงเวลาและดังนั้นจึงจะครองผลงานความเป็นไปได้ที่ -sequence ของการสังเกต $\alpha_i$ $i$ $T$

— Superpronker
แหล่งที่มา

7

ไม่ใช่คำจำกัดความที่เป็นทางการ แต่ฉันชอบสไลด์ต่อไปนี้: โมเดลผสมและทำไมนักภาษาศาสตร์สังคมจึงควรใช้ ( กระจก ) จาก Daniel Ezra Johnson สรุปย่อ 'มีให้ในสไลด์ 4 แม้ว่าส่วนใหญ่จะเน้นไปที่การศึกษาทางจิตวิทยา แต่ก็มีประโยชน์มากในขั้นตอนแรก

— CHL
แหล่งที่มา

ฉันคิดว่าฉันจะต้องดูการนำเสนอด้วยตนเองเพื่อให้ได้ผลกระทบเต็มที่

— Andy W

สไลด์เหล่านี้ไม่มีประโยชน์

— บิน

7

แม้ว่าลิงก์นี้อาจตอบคำถามได้ดีกว่าหากรวมส่วนสำคัญของคำตอบไว้ที่นี่และให้ลิงก์สำหรับการอ้างอิง คำตอบสำหรับลิงค์เท่านั้นอาจไม่ถูกต้องหากหน้าเว็บที่เชื่อมโยงมีการเปลี่ยนแปลง

— Ben Bolker

1

ลิงก์นั้นตาย

— baxx

3

อีกมุมมองในทางปฏิบัติมากในรูปแบบผลกระทบแบบสุ่มและคงมาจากเศรษฐเมื่อทำการถดถอยเชิงเส้นในแผงข้อมูล หากคุณประเมินความสัมพันธ์ระหว่างตัวแปรอธิบายและตัวแปรผลลัพธ์ในชุดข้อมูลที่มีตัวอย่างหลายรายการต่อบุคคล / กลุ่มนี่คือกรอบงานที่คุณต้องการใช้

ตัวอย่างที่ดีของข้อมูลพาเนลคือการวัดรายปีจากชุดของแต่ละบุคคลของ:

$gender_i$ (เพศของบุคคลที่ ) $i$
${\Delta}weight_{it}$ (การเปลี่ยนแปลงน้ำหนักระหว่างปีสำหรับคนที่ ) $t$ $i$
$exercise_{it}$ (การออกกำลังกายเฉลี่ยต่อวันในช่วงปีสำหรับคนที่ ) $t$ $i$

หากเราพยายามเข้าใจความสัมพันธ์ระหว่างการออกกำลังกายและการเปลี่ยนแปลงน้ำหนักเราจะตั้งค่าการถดถอยต่อไปนี้:

${\Delta}weight_{it} = \beta_0$ $exercise_{it} + \beta_1gender_i + \alpha_i + \epsilon_{it}$

$\beta_0$ คือปริมาณความสนใจ
$\beta_1$ ไม่น่าสนใจเราแค่ควบคุมเพศด้วย
$\alpha_i$ เป็นจุดตัดต่อบุคคล
$\epsilon_{it}$ เป็นคำที่ผิดพลาด

ในการตั้งค่าเช่นนี้มีความเสี่ยงของ endogeneity สิ่งนี้สามารถเกิดขึ้นได้เมื่อตัวแปรที่ไม่วัดค่า (เช่นสถานะสมรส) เกี่ยวข้องกับการออกกำลังกายและการเปลี่ยนแปลงน้ำหนัก ตามที่อธิบายไว้ใน p.16 ในการบรรยายพรินซ์ตันนี้โมเดลเอฟเฟกต์แบบสุ่ม (AKA ผสมเอฟเฟกต์) มีประสิทธิภาพมากกว่าโมเดลเอฟเฟกต์คงที่ อย่างไรก็ตามมันจะแสดงผลของตัวแปรที่ไม่ถูกวัดบางอย่างอย่างไม่ถูกต้องต่อการเปลี่ยนแปลงน้ำหนักของการออกกำลังกายทำให้เกิดไม่ถูกต้องและอาจมีนัยสำคัญทางสถิติที่สูงกว่าที่ถูกต้อง ในกรณีนี้แบบจำลองผลกระทบแบบสุ่มไม่ได้เป็นประมาณการที่สอดคล้องกันของ\ $\beta_0$ $\beta_0$

แบบจำลองเอฟเฟกต์คงที่ (ในรูปแบบพื้นฐานที่สุด) ควบคุมตัวแปรที่ไม่ได้วัดใด ๆ ซึ่งเป็นค่าคงที่เมื่อเวลาผ่านไป แต่จะแตกต่างกันระหว่างบุคคลโดยชัดเจนรวมถึงคำดักจับแยกต่างหากสำหรับแต่ละบุคคล ( ) ในสมการถดถอย ในตัวอย่างของเรามันจะควบคุมโดยอัตโนมัติสำหรับผลกระทบที่สับสนจากเพศเช่นเดียวกับคนที่ไม่ได้วัดใด ๆ (สถานภาพสมรสสถานะทางเศรษฐกิจและสังคมเศรษฐกิจสำเร็จการศึกษา ฯลฯ ) ในความเป็นจริงทางเพศไม่สามารถจะรวมอยู่ในการถดถอยและไม่สามารถประมาณการโดยแบบจำลองผลกระทบคงที่ตั้งแต่เป็น collinear กับ 's $\alpha_i$ $\beta_1$ $gender_i$ $\alpha_i$

ดังนั้นคำถามสำคัญคือการกำหนดรูปแบบที่เหมาะสม คำตอบคือการทดสอบ Hausman หากต้องการใช้เราจะทำการทดสอบเอฟเฟกต์ทั้งแบบคงที่และแบบสุ่มจากนั้นใช้การทดสอบ Hausman เพื่อดูว่าการประมาณค่าสัมประสิทธิ์ของพวกมันแตกต่างกันหรือไม่ หากพวกมันแตกต่าง endogeneity อยู่ที่การเล่นและโมเดลเอฟเฟกต์คงที่เป็นตัวเลือกที่ดีที่สุด มิฉะนั้นเราจะไปด้วยเอฟเฟกต์แบบสุ่ม

— ทอม Q.
แหล่งที่มา

อะไรคือความแตกต่างระหว่างเอฟเฟกต์คงที่เอฟเฟกต์สุ่มและโมเดลเอฟเฟกต์ผสม?

สุ่มและเอฟเฟกต์คงที่

ตัวอย่าง

ความสัมพันธ์กับแบบจำลองลำดับชั้นแบบเบย์