จุดประสงค์ของฟังก์ชั่นลิงค์ในฐานะที่เป็นองค์ประกอบของโมเดลเชิงเส้นตรงทั่วไปคืออะไร? ทำไมเราต้องการมัน?
รัฐ Wikipedia:
สะดวกในการจับคู่โดเมนของฟังก์ชันลิงก์กับช่วงของค่าเฉลี่ยของฟังก์ชันการแจกแจง
อะไรคือข้อดีของการทำเช่นนี้?
จุดประสงค์ของฟังก์ชั่นลิงค์ในฐานะที่เป็นองค์ประกอบของโมเดลเชิงเส้นตรงทั่วไปคืออะไร? ทำไมเราต้องการมัน?
รัฐ Wikipedia:
สะดวกในการจับคู่โดเมนของฟังก์ชันลิงก์กับช่วงของค่าเฉลี่ยของฟังก์ชันการแจกแจง
อะไรคือข้อดีของการทำเช่นนี้?
คำตอบ:
AJ Dobson ชี้ให้เห็นสิ่งต่าง ๆ ต่อไปนี้ในหนังสือของเธอ :
การถดถอยเชิงเส้นถือว่าตัวแปรการตอบสนองถูกกระจายตามปกติ ตัวแบบเชิงเส้นทั่วไปสามารถมีตัวแปรตอบสนองด้วยการแจกแจงแบบอื่นนอกเหนือจากการแจกแจงแบบปกติ - พวกมันอาจแบ่งได้อย่างต่อเนื่องมากกว่าแบบต่อเนื่อง ดังนั้นพวกเขาอาจจะไม่ได้อยู่ในช่วงตั้งแต่ไป+
ความสัมพันธ์ระหว่างการตอบสนองและตัวแปรอธิบายไม่จำเป็นต้องอยู่ในรูปแบบเชิงเส้นอย่างง่าย
นี่คือเหตุผลที่เราต้องการฟังก์ชันลิงก์เป็นส่วนประกอบของโมเดลเชิงเส้นทั่วไป มันเชื่อมโยงค่าเฉลี่ยของตัวแปรตามซึ่งก็คือกับคำเชิงเส้นในลักษณะที่ช่วงของค่าเฉลี่ยที่ไม่ใช่เชิงเส้นเปลี่ยนช่วงจากไป+ดังนั้นคุณสามารถสร้างสมการเชิงเส้น = และใช้วิธีกำลังสองน้อยที่สุดซ้ำอย่างซ้ำ ๆ สำหรับการประมาณค่าความน่าจะเป็นสูงสุดของพารามิเตอร์แบบจำลอง
มันอาจช่วยให้คุณอ่านคำตอบของฉันที่นี่: ความแตกต่างระหว่างรุ่น logit และ probitซึ่งกล่าวถึงลิงก์ GLiM ค่อนข้างครอบคลุม
วิธีการพื้นฐานในการอธิบายปัญหานี้ถูกวางไว้อย่างชัดเจนโดย @BlainWaan และ Wikipedia: พารามิเตอร์จริง (เช่นสำหรับการตอบสนองทวินาม - เช่นการถดถอยโลจิสติก) ไม่สามารถอยู่ในช่วงตั้งแต่อนันต์เชิงลบไปจนถึงอินฟินิตี้ในเชิงบวก . เหตุผลใหญ่ที่สองคือไม่มีการระบุลิงก์ที่เหมาะสมความแปรปรวนของค่าคงที่ของคุณจะไม่คงที่ (สมมติฐานที่จำเป็นสำหรับการอนุมานด้วยการประมาณกำลังสองน้อยที่สุดธรรมดา) หรือจัดการอย่างถูกต้อง
อีกวิธีหนึ่งในการแก้ไขปัญหานี้คือการใช้ลิงก์ตัวตน (นี่เป็นอีกวิธีหนึ่งในการพูด / คิดเกี่ยวกับ 'ไม่ใช้' ฟังก์ชั่นลิงก์) หมายความว่าคุณกำลังคิดถึงสถานการณ์ของคุณอย่างไม่ถูกต้อง สถานการณ์ของคุณที่คุณได้รับจากการวิเคราะห์ของคุณ ตัวอย่างเช่นหากความน่าจะเป็นที่แท้จริงที่คุณพยายามทำแบบจำลอง (อีกครั้งสำหรับสถานการณ์การถดถอยโลจิสติก) มีอยู่เฉพาะในช่วงกลางของช่วง (ซึ่งเป็นเส้นตรงพอสมควร) และช่วงของคุณกำลังตรวจสอบอยู่กึ่งกลาง , betas ของคุณจะลำเอียงและของคุณจะอยู่ไกลจากค่าที่แท้จริง นอกจากนี้การอนุมานของคุณจะถูกบิดเบือนเช่นกัน (เช่นอัตราความผิดพลาดประเภทที่ 1 จะไม่เท่ากัน )