โมเดลเชิงเส้นทั่วไปเทียบกับโมเดลเชิงเส้นทั่วไป (พร้อมฟังก์ชันลิงก์เอกลักษณ์)


25

นี่เป็นโพสต์แรกของฉันดังนั้นโปรดช่วยฉันถ้าฉันไม่ปฏิบัติตามมาตรฐาน! ฉันค้นหาคำถามและไม่มีอะไรเกิดขึ้น

คำถามของฉันเกี่ยวข้องกับความแตกต่างในทางปฏิบัติระหว่างการสร้างแบบจำลองเชิงเส้นทั่วไป (GLM) และการสร้างแบบจำลองเชิงเส้นทั่วไป (GZLM) ในกรณีของฉันมันจะเป็นตัวแปรต่อเนื่องไม่กี่อย่างในรูปของโควาเรียตและอีกสองสามปัจจัยใน ANCOVA เทียบกับ GZLM ฉันต้องการตรวจสอบผลกระทบหลักของตัวแปรแต่ละตัวรวมถึงการโต้ตอบสามทางเดียวที่ฉันจะร่างในแบบจำลอง ฉันสามารถเห็นสมมติฐานนี้กำลังทดสอบใน ANCOVA หรือใช้ GZLM ในระดับหนึ่งฉันเข้าใจกระบวนการทางคณิตศาสตร์และการให้เหตุผลเบื้องหลังการใช้โมเดลเชิงเส้นทั่วไปเช่น ANCOVA และฉันค่อนข้างเข้าใจว่า GZLMs อนุญาตให้ฟังก์ชันลิงก์เชื่อมต่อโมเดลเชิงเส้นและตัวแปรตาม (ตกลงฉันโกหกบางทีฉันอาจไม่ เข้าใจคณิตศาสตร์จริงๆ) สิ่งที่ฉันไม่ชอบจริงๆ ไม่เข้าใจว่ามีความแตกต่างในทางปฏิบัติหรือเหตุผลในการดำเนินการวิเคราะห์หนึ่งและไม่ใช่อีกอย่างเมื่อการแจกแจงความน่าจะเป็นที่ใช้ใน GZLM เป็นปกติ (เช่นฟังก์ชั่นลิงค์ตัวตน?) ฉันได้ผลลัพธ์ที่แตกต่างกันมากเมื่อฉันวิ่งไปอีกอันหนึ่ง ฉันจะวิ่งได้ไหม ข้อมูลของฉันค่อนข้างไม่ปกติ แต่ทำงานได้ในระดับหนึ่งทั้งใน ANCOVA และ GZLM ในทั้งสองกรณีสมมติฐานของฉันได้รับการสนับสนุน แต่ใน GZLM ค่า p คือ "ดีกว่า"

ความคิดของฉันคือ ANCOVA เป็นโมเดลเชิงเส้นที่มีตัวแปรตามการกระจายตามปกติโดยใช้ฟังก์ชั่นลิงค์ตัวตนซึ่งเป็นสิ่งที่ฉันสามารถป้อนใน GZLM ได้ แต่สิ่งเหล่านี้ยังคงแตกต่างกัน

โปรดอธิบายคำถามเหล่านี้ให้ฉันฟังหน่อยถ้าคุณทำได้!


จากคำตอบแรกฉันมีคำถามเพิ่มเติม:

หากพวกเขาเหมือนกันยกเว้นการทดสอบนัยสำคัญที่ใช้ (เช่นการทดสอบ F กับ Wald Chi Square) ซึ่งจะเหมาะสมที่สุดที่จะใช้? ANCOVA เป็น "วิธีไปสู่" แต่ฉันไม่แน่ใจว่าทำไมการทดสอบ F น่าจะดีกว่า มีใครบางคนให้ความกระจ่างในคำถามนี้ให้ฉันได้ไหม ขอบคุณ!


คำตอบของ @ onestop นั้นดี ฉันลงคะแนนนานแล้ว เพื่อให้ได้ความรู้สึกที่ชัดเจนของการเชื่อมต่อระหว่างโมเดลเชิงเส้นทั่วไปและโมเดลเชิงเส้นทั่วไปมันอาจช่วยให้คุณอ่านคำตอบของฉันที่นี่: ความแตกต่างระหว่าง logit และ probit รุ่น (แม้ว่ามันจะถูกเขียนในบริบทที่แตกต่างกัน) . สมมติว่าข้อผิดพลาดของคุณมีการกระจายตามปกติ แต่ความแปรปรวนของข้อผิดพลาดไม่เป็นที่ทราบล่วงหน้าการทดสอบ &ที่ซอฟต์แวร์จะส่งคืนโดยที่ ANCOVA จะถูกต้อง ค่า p จากการทดสอบ Wald จะต่ำเกินไปเว้นแต่ว่า N ของคุณมีขนาดใหญ่มาก เสื้อF
gung - Reinstate Monica

คำตอบ:


23

โมเดลเชิงเส้นทั่วไปที่ระบุฟังก์ชันลิงก์ประจำตัวและการแจกแจงตระกูลปกติเทียบเท่ากับโมเดลเชิงเส้น (ทั่วไป) หากคุณได้รับผลลัพธ์ที่แตกต่างกันอย่างเห็นได้ชัดคุณจะทำอะไรผิดพลาด

โปรดทราบว่าการระบุลิงก์ตัวตนนั้นไม่เหมือนกับการระบุการแจกแจงแบบปกติ ฟังก์ชั่นการกระจายและการเชื่อมโยงเป็นสององค์ประกอบที่แตกต่างกันของโมเดลเชิงเส้นทั่วไปและแต่ละสามารถเลือกได้อย่างอิสระจากที่อื่น ๆ (แม้ว่าการเชื่อมโยงบางอย่างทำงานได้ดีขึ้นกับการกระจายบางอย่างดังนั้นแพคเกจซอฟต์แวร์ส่วนใหญ่

แพคเกจซอฟต์แวร์บางตัวอาจรายงานค่าแตกต่างกันอย่างเห็นได้ชัดเมื่อองศาอิสระที่เหลือมีขนาดเล็กหากคำนวณเหล่านี้โดยใช้ asymptotic Normal และการแจกแจงไคสแควร์สำหรับโมเดลเชิงเส้นทั่วไปทั้งหมด ซอฟแวร์ทั้งหมดจะรายงาน -values อยู่บนพื้นฐานของนักเรียน - ฟิชเชอร์และ -distributions สำหรับรุ่นทั่วไปตรงตามที่เหล่านี้มีความถูกต้องมากขึ้นสำหรับองศาเหลือขนาดเล็กของเสรีภาพที่พวกเขาไม่ต้องพึ่งพา asymptotics นักศึกษา - ฟิชเชอร์และ -distributions เป็นอย่างเคร่งครัดถูกต้องสำหรับทุกคนในครอบครัวเพียง แต่ปกติแม้ว่าบางคนอื่น ๆp t F t Fพีพีเสื้อFเสื้อF ซอฟต์แวร์สำหรับตัวแบบเชิงเส้นทั่วไปอาจใช้สิ่งเหล่านี้เป็นการประมาณค่าเมื่อทำการติดตั้งตระกูลอื่น ๆ ด้วยพารามิเตอร์สเกลที่ประเมินจากข้อมูล


ขอบคุณสำหรับการตอบกลับของคุณ! ฉันดีใจที่ได้ยินคำตอบของคุณเนื่องจากเป็นข้อสันนิษฐานเดิมของฉัน อาจารย์ในสถาบันของฉันบอกฉันเป็นอย่างอื่นดังนั้นฉันต้องขุดจริงๆ ฉันใช้ SPSS และตอนนี้ฉันเห็นว่าการประมาณการพารามิเตอร์เหมือนกันแน่นอน (เช่นค่า B) ฉันเห็นแล้วว่าสิ่งที่ทำให้ฉันสับสนในตอนแรกคือค่า p ที่แตกต่างกัน สถิติ ANCOVA นั้นยึดตามการทดสอบ F มาตรฐานในขณะที่ GZLM ขึ้นอยู่กับ Wald Chi-Square ถูกต้องไหม? ฉันได้อ่านแล้วว่า Wald Chi-Square นั้นถูกใช้เมื่อคุณใช้พารามิเตอร์ของตัวอย่าง (เช่นใน GZLM)
Behacad

จากคำตอบนี้ฉันได้เพิ่มคำถามไปยังโพสต์ดั้งเดิม!
Behacad

ตกลงฉันได้เพิ่ม Para ที่สอดคล้องกับคำตอบของฉันในการตอบกลับ
onestop

5

ฉันต้องการรวมประสบการณ์ของฉันในการสนทนานี้ ฉันได้เห็นว่าโมเดลเชิงเส้นทั่วไป (การระบุฟังก์ชันลิงก์เอกลักษณ์และการแจกแจงแบบครอบครัวทั่วไป) จะเหมือนกับโมเดลเชิงเส้นทั่วไปเฉพาะเมื่อคุณใช้การประมาณโอกาสสูงสุดเป็นวิธีการวัดพารามิเตอร์ มิฉะนั้นหากเลือก "fixed value = 1" เป็นวิธีการวัดพารามิเตอร์คุณจะได้รับค่า p ที่แตกต่างกันมาก ประสบการณ์ของฉันแนะนำว่าควรหลีกเลี่ยง "ค่าคงที่ = 1" ฉันอยากรู้ว่าใครบางคนรู้เมื่อมันเหมาะสมที่จะเลือกค่าคงที่ = 1 เป็นวิธีการวัดพารามิเตอร์ ขอบคุณล่วงหน้า. เครื่องหมาย


3
โดยทั่วไปแล้วจะใช้มาตราส่วนคงที่เฉพาะกับรุ่นเช่นการถดถอยโลจิสติกหรือการถดถอยปัวซองซึ่งการตอบสนองเป็นตัวแปรนับหรือตัวบ่งชี้ / ความถี่ ในกรณีนี้ไม่มีอนาล็อกไปยังพารามิเตอร์มาตราส่วนในการถดถอยปกติ
Hong Ooi
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.