ตัวแบบเชิงเส้นพร้อมการตอบสนองแบบแปลงรูปเทียบกับแบบจำลองเชิงเส้นแบบทั่วไปพร้อมลิงค์บันทึก


46

ในบทความนี้มีชื่อว่า "การเลือกรุ่นเชิงเส้นในแบบฉบับที่นำไปใช้กับข้อมูลทางการแพทย์" ผู้เขียนเขียน:

ในโมเดลเชิงเส้นทั่วไปค่าเฉลี่ยถูกเปลี่ยนโดยฟังก์ชันลิงก์แทนที่จะเปลี่ยนการตอบสนองเอง การเปลี่ยนแปลงสองวิธีสามารถนำไปสู่ผลลัพธ์ที่แตกต่างกันมาก ตัวอย่างเช่น ค่าเฉลี่ยของการตอบสนองการเข้าสู่ระบบเปลี่ยนไม่ได้เช่นเดียวกับลอการิทึมของการตอบสนองเฉลี่ย โดยทั่วไปแล้วอดีตไม่สามารถแปลงเป็นคำตอบที่หมายถึงได้ง่าย ดังนั้นการแปลงค่าเฉลี่ยจึงทำให้สามารถตีความผลลัพธ์ได้ง่ายขึ้นโดยเฉพาะในพารามิเตอร์ค่าเฉลี่ยนั้นยังคงอยู่ในระดับเดียวกับการตอบสนองที่วัดได้

ดูเหมือนว่าพวกเขาแนะนำการปรับให้เหมาะสมของโมเดลเชิงเส้นทั่วไป (GLM) พร้อมกับลิงค์บันทึกแทนที่จะเป็นโมเดลเชิงเส้น (LM) พร้อมการตอบกลับที่เปลี่ยนรูปแบบ ฉันไม่เข้าใจถึงข้อดีของวิธีการนี้และดูเหมือนว่าผิดปกติสำหรับฉัน

ตัวแปรตอบสนองของฉันดูเหมือนกระจายตามปกติ ฉันได้รับผลลัพธ์ที่คล้ายกันในแง่ของค่าสัมประสิทธิ์และข้อผิดพลาดมาตรฐานด้วยวิธีใดวิธีหนึ่ง

ฉันยังคงสงสัยว่า: ถ้าตัวแปรมีการแจกแจงแบบล็อกปกติไม่ใช่ค่าเฉลี่ยของตัวแปรที่แปลงล็อกซึ่งดีกว่าล็อกของตัวแปรที่ไม่ถูกแปลงค่าเฉลี่ยเนื่องจากค่าเฉลี่ยคือการสรุปปกติของการแจกแจงแบบปกติและล็อก - ตัวแปรแปรผันมีการกระจายตามปกติในขณะที่ตัวแปรตัวเองไม่ได้?


3
ฉันเห็นด้วยกับเบาะแสของคุณหากเรามีตัวแปรกระจายเข้าสู่ระบบปกติ อย่างไรก็ตามค่าเฉลี่ยจะต้องเป็น "การแปลงกลับ" เพื่อให้ได้สถิติที่เข้าใจได้ง่ายโดยใช้ข้อมูลดั้งเดิม นี่อาจอธิบายข้อสรุปของบทความ นอกจากนี้หลังจากการแปลงล็อกเราอาจไม่ได้รับตัวแปรแบบกระจายตามปกติและในกรณีนี้ฉันไม่ทราบว่าวิธีการใดจะดีกว่า
soufanom

คำตอบ:


46

แม้ว่ามันอาจปรากฏว่าค่าเฉลี่ยของตัวแปรการแปลงล็อกนั้นดีกว่า (เนื่องจากนี่คือวิธีการกำหนดค่าปกติของล็อก) จากมุมมองที่ใช้งานได้จริงบันทึกของค่าเฉลี่ยนั้นมีประโยชน์มากกว่า

นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งเมื่อแบบจำลองของคุณไม่ถูกต้องและเพื่อพูดว่า George Box: "แบบจำลองทั้งหมดผิดบางอันมีประโยชน์"

สมมติว่ามีการแจกแจงปริมาณปกติล็อกความดันโลหิตบอกว่า (ฉันไม่ใช่แพทย์!) และเรามีประชากรสองคนคือชายและหญิง อาจสันนิษฐานได้ว่าความดันโลหิตเฉลี่ยในผู้หญิงสูงกว่าในผู้ชาย ตรงนี้สอดคล้องกับการถามว่าบันทึกของความดันโลหิตเฉลี่ยสูงกว่าในผู้หญิงหรือไม่ มันไม่เหมือนกันกับการถามว่าค่าเฉลี่ยของความดันโลหิตสูงกว่าในผู้หญิงคนนั้นหรือไม่

อย่าสับสนกับการแจกแจงพารามิเตอร์ของหนังสือเรียน - มันไม่มีความหมาย "ของจริง" การแจกแจงแบบล็อกปกตินั้นแปรตามค่าเฉลี่ยของบันทึก ( ) เนื่องจากความสะดวกสบายทางคณิตศาสตร์ แต่เราสามารถเลือกพารามิเตอร์ด้วยค่าเฉลี่ยและความแปรปรวนที่แท้จริงได้μln

μ=eμln+σln2/2

σ2=(eσln21)e2μln+σln2

เห็นได้ชัดว่าการทำเช่นนั้นทำให้พีชคณิตซับซ้อนอย่างน่ากลัว แต่ก็ยังใช้งานได้และมีความหมายเหมือนกัน

จากสูตรข้างต้นเราสามารถเห็นความแตกต่างที่สำคัญระหว่างการเปลี่ยนตัวแปรและการเปลี่ยนค่าเฉลี่ย บันทึกของค่าเฉลี่ยเพิ่มขึ้นเป็นเพิ่มขึ้นในขณะที่ค่าเฉลี่ยของล็อกไม่ln(μ)σln2μln

ซึ่งหมายความว่าผู้หญิงทำได้โดยเฉลี่ยมีความดันโลหิตสูงกว่าผู้ชายถึงแม้ว่าค่าเฉลี่ยพารามิเตอร์ของการแจกแจงแบบล็อกปกติ ( ) เหมือนกันเพียงเพราะพารามิเตอร์ความแปรปรวนมีขนาดใหญ่กว่า ความจริงเรื่องนี้จะพลาดการทดสอบที่ใช้บันทึก (ความดันโลหิต)μln

จนถึงตอนนี้เราได้สันนิษฐานว่าความดันโลหิตเป็นเรื่องปกติ หากการแจกแจงที่แท้จริงนั้นไม่ได้เข้าสู่ระบบปกติแล้วการเปลี่ยนแปลงข้อมูล (โดยทั่วไป) จะทำให้สิ่งเลวร้ายยิ่งกว่าด้านบน - เนื่องจากเราไม่ทราบว่าพารามิเตอร์ "หมายถึง" ของเราจริงๆแล้วหมายถึงอะไร นั่นคือเราจะไม่ทราบว่าสมการทั้งสองนั้นสำหรับค่าเฉลี่ยและความแปรปรวนที่ฉันให้ไว้ข้างต้นถูกต้อง การใช้สิ่งเหล่านั้นเพื่อแปลงไปมาจะทำให้เกิดข้อผิดพลาดเพิ่มเติม


ฉันพบสิ่งนี้มีประโยชน์มาก: christoph-scherber.de/content/PDF%20Files/…
Aditya

2
Corone ฉันเน้นสองประโยคที่สำคัญในคำตอบของคุณ ฉันหวังว่าคุณจะไม่รังเกียจ โปรดย้อนกลับถ้าคุณไม่เห็นด้วย
Stefan

17

นี่คือสองเซ็นต์ของฉันจากหลักสูตรการวิเคราะห์ข้อมูลขั้นสูงที่ฉันทำในขณะที่เรียนชีวสถิติ (แม้ว่าฉันจะไม่มีการอ้างอิงใด ๆ นอกเหนือจากบันทึกอาจารย์)

มันจะลดลงหรือไม่ว่าคุณจะต้องระบุความเป็นเชิงเส้นและ heteroscedasticity (ความแปรปรวนไม่เท่ากัน) ในข้อมูลของคุณหรือเป็นเชิงเส้น

เธอตั้งข้อสังเกตว่าการเปลี่ยนข้อมูลมีผลต่อทั้งความเป็นเชิงเส้นและสมมติฐานความแปรปรวนของแบบจำลอง ตัวอย่างเช่นหากส่วนที่เหลือของคุณมีปัญหากับทั้งสองคุณสามารถพิจารณาเปลี่ยนข้อมูลซึ่งอาจแก้ไขทั้งสองอย่างได้ การแปลงจะแปลงข้อผิดพลาดและทำให้ความแปรปรวน

ในทางตรงกันข้ามการใช้ฟังก์ชั่นลิงค์จะมีผลเฉพาะกับสมมติฐานเชิงเส้นตรงเท่านั้นไม่ใช่ความแปรปรวน มีการบันทึกการใช้งานของค่าเฉลี่ย (ค่าที่คาดหวัง) และทำให้ความแปรปรวนของส่วนที่เหลือไม่ได้รับผลกระทบ

โดยสรุปหากคุณไม่มีปัญหากับความแปรปรวนที่ไม่คงที่เธอแนะนำให้ใช้ฟังก์ชันลิงก์เหนือการแปลงเนื่องจากคุณไม่ต้องการเปลี่ยนความแปรปรวนของคุณในกรณีนั้น (คุณได้พบกับสมมติฐานแล้ว)


6
ในขณะที่ฟังก์ชันลิงค์ส่งผลกระทบต่อค่าเฉลี่ยเท่านั้น แต่ฟังก์ชันลิงค์เป็นเพียงส่วนหนึ่งของ GLM ความคิดเห็นของคุณใช้งานได้กับ Gaussian glm ด้วยลิงค์บันทึก แกมมา GLM มีการเชื่อมโยงเข้าสู่ระบบจะมีสมมติฐานเดียวกันแปรปรวนฟังก์ชั่น (แปรปรวนสัดส่วนหมายถึงการยกกำลังสอง) กับการบันทึกและการปรับความแปรปรวนคงโยบันทึกที่ ตระกูลอื่น ๆ ภายในกรอบการทำงาน GLM จะมีฟังก์ชันความแปรปรวนอื่น ๆ น่าเสียดายที่ตารางในหน้าวิกิพีเดียสำหรับ GLMs ละเว้นฟังก์ชันความแปรปรวนสำหรับตระกูลการแจกจ่ายที่ให้
Glen_b

2
พวกเขาพูดถึงตัวอย่างที่นี่แม้ว่า นี่คือแกมม่า
Glen_b

-1

ถ้าการตอบสนองที่เป็นจริงนั้นไม่สมมาตร (ไม่ใช่การกระจายตามปกติ) แต่การตอบสนองการแปลงล็อกเป็นเรื่องปกติแล้วการถดถอยเชิงเส้นในการตอบสนองที่ถูกแปลงจะถูกนำมาใช้และค่าสัมประสิทธิ์เลขชี้กำลังให้เราปันส่วนของค่าเฉลี่ยเรขาคณิต

ถ้าการตอบสนองที่แท้จริงเป็นแบบสมมาตร (กระจายตามปกติ) แต่ความสัมพันธ์ระหว่างคำอธิบาย (X) และการตอบสนองไม่ใช่เชิงเส้น แต่ค่าบันทึกที่คาดไว้คือฟังก์ชันเชิงเส้นของ X จากนั้น GLM พร้อมลิงค์บันทึกที่ใช้และสัมประสิทธิ์เลขชี้กำลัง


คำตอบนี้ไม่ชัดเจน คุณหมายถึง "variable" แทนที่จะเป็น "veritable" หรือไม่
Michael Chernick

นี่คือส่วนของคำตอบ คุณต้องทำให้ชัดเจนว่าเรื่องนี้เกี่ยวข้องกับคำถามอย่างไรและคำตอบของคำถามนั้นขึ้นอยู่กับความเข้าใจส่วนนี้
ReneBt
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.