ความดีของความพอดีและแบบจำลองที่เลือกการถดถอยเชิงเส้นหรือปัวซอง


19

ฉันต้องการคำแนะนำเกี่ยวกับประเด็นขัดแย้งหลักสองประการในการวิจัยของฉันซึ่งเป็นกรณีศึกษาของ 3 ยาและนวัตกรรมขนาดใหญ่ จำนวนสิทธิบัตรต่อปีเป็นตัวแปรตาม

คำถามของฉันคือ

  • เกณฑ์ที่สำคัญที่สุดสำหรับแบบจำลองที่ดีคืออะไร มีความสำคัญอะไรมาก / น้อย? มันคือตัวแปรส่วนใหญ่หรือทั้งหมดจะมีความหมาย? มันเป็นปัญหาของ "สถิติ F" หรือไม่? มันคือค่าของ "Adjusted R squared" หรือไม่?

  • ประการที่สองฉันจะตัดสินใจรูปแบบที่เหมาะสมที่สุดสำหรับการวิจัยได้อย่างไร นอกจากสิทธิบัตรซึ่งเป็นตัวแปรนับ (ดังนั้นอาจเป็นจำนวนปัวซง) ฉันมีตัวแปรอธิบายเช่นผลตอบแทนจากสินทรัพย์งบประมาณการวิจัยและพัฒนาพันธมิตรซ้ำ (% ไม่ใช่ตัวแปรไบนารี) ขนาด บริษัท (พนักงาน) และอีกสองคน ฉันควรทำการถดถอยเชิงเส้นหรือปัวซอง


5
Kjetil ให้คำตอบอย่างละเอียด ความคิดเห็นที่เร็วขึ้นและเงียบสงบสอดคล้องกับข้อโต้แย้งของเขาคือสิ่งที่คุณระบุว่า "วินาที" เป็นคำถามที่สำคัญมาก สิ่งที่คุณพูดถึงครั้งแรกนั้นไม่สำคัญ
Nick Cox

คำตอบ:


31

ที่สำคัญที่สุดคือตรรกะที่อยู่เบื้องหลังแบบจำลอง ตัวแปร "จำนวนสิทธิบัตรต่อปี" ของคุณคือตัวแปรที่นับได้ดังนั้นการถดถอยของปัวซองจะถูกระบุ นั่นคือ GLM (โมเดลเชิงเส้นทั่วไป) ที่มี (โดยปกติ) ฟังก์ชั่นลิงค์ลิงค์ในขณะที่การถดถอยเชิงเส้นปกติคือ Gaussian GLM พร้อมลิงค์ตัวตน ที่นี่มันเป็นฟังก์ชั่นบันทึกการเชื่อมโยงที่สำคัญที่สุดสำคัญกว่าการกระจายข้อผิดพลาด (Poisson หรือ Gaussian)

ตัวแปร "สิทธิบัตร" เป็นที่กว้างขวางตัวแปร: ดูคุณสมบัติที่เข้มข้นและกว้างขวาง สำหรับตัวแปรแบบเข้มข้นเช่นอุณหภูมิตัวแบบเชิงเส้น (พร้อมลิงค์ตัวตน) มักจะเหมาะสม แต่ด้วยตัวแปรที่กว้างขวางมันแตกต่างกัน คิดว่าหนึ่งใน บริษัท ยาของคุณแบ่งเป็นสอง บริษัท ที่แตกต่างกัน จากนั้นจะต้องแยกสิทธิบัตรออกเป็นสอง บริษัท ใหม่ เกิดอะไรขึ้นกับความแปรปรวนร่วมในการถดถอยของคุณ? ตัวแปรเช่นจำนวนพนักงานและงบประมาณ RD จะต้องถูกแบ่งเช่นกันx

โดยทั่วไปในบริบทนี้ตัวแปรแบบเข้มข้นเป็นตัวแปรที่ไม่ขึ้นอยู่กับขนาดของ บริษัท ในขณะที่ตัวแปรที่ครอบคลุมจะขึ้นอยู่กับขนาดของ บริษัท ดังนั้นในความรู้สึกถ้าเรามีตัวแปรมากมายที่แตกต่างกันในสมการถดถอยที่เรามีการวัดขนาดของผลกระทบซ้ำแล้วซ้ำอีก ดูเหมือนว่าซ้ำซ้อนดังนั้นเราควรพยายามแสดงตัวแปรในรูปแบบเข้มข้นเช่นงบประมาณ RD ต่อพนักงาน (หรือเป็นเปอร์เซ็นต์ของงบประมาณทั้งหมด) รายรับเช่นเดียวกันเป็นต้นหากตัวแปรเป็นจำนวนพนักงานจะต้องถูกทิ้งให้เป็น กว้างขวาง. โปรดดูคำตอบของ @ onestop เกี่ยวกับการจัดการกับ regressors ที่มีความสัมพันธ์ สำหรับการสนทนาเกี่ยวกับปัญหาตัวแปรที่กว้างขวาง / เข้มข้นนี้อีกครั้ง

ลองดูพีชคณิตนี้: คือสิทธิบัตร, งบประมาณ (ต่อพนักงาน), พนักงานใน บริษัท ดั้งเดิมในขณะที่ P 1 , B 1 , E 1และP 2 , B 2 , E 2เป็นตัวแปรที่สอดคล้องกันหลังจาก แยก สมมติว่าดังกล่าวข้างต้นว่าEเป็น covariable ที่กว้างขวางเพียงอย่างเดียว (กับP , ของหลักสูตรยังกว้างขวาง)P,B,EP1,B1,E1P2,B2,E2EP

จากนั้นก่อนการแยกเรามีรูปแบบการเชื่อมโยงตัวตนโดยสุ่มส่วนที่เหลือออก: ให้เศษส่วนที่แยกเป็นα , 1 - αดังนั้นสำหรับ บริษัท 1 หลังจากการแยกเราได้รับ α P

P=μ+β1E+β2B
α,1α ตั้งแต่P1=αP,E1=αEแต่B1=B เช่นเดียวกันสำหรับ บริษัท สองแห่ง ดังนั้นตัวแบบขึ้นอยู่กับขนาดของ บริษัท ที่ค่อนข้างซับซ้อนค่าสัมประสิทธิ์การถดถอยของE เท่านั้น
αP=αμ+αβ1E+αβ2BP1=αμ+β1E1+αβ2B1
P1=αP,E1=αEB1=BEความเป็นอิสระจากขนาด บริษัท ขนาดที่มีอิทธิพลต่อพารามิเตอร์อื่น ๆ ทั้งหมด ทำให้การตีความผลลัพธ์ทำได้ยากโดยเฉพาะอย่างยิ่งถ้าในข้อมูลของคุณคุณมี บริษัท ที่มีขนาดแตกต่างกันคุณจะตีความค่าสัมประสิทธิ์เหล่านี้ได้อย่างไร การเปรียบเทียบกับการศึกษาอื่น ๆ จากข้อมูลอื่น ๆ มีความซับซ้อนอย่างมาก

ตอนนี้ให้เราดูว่าการใช้ฟังก์ชั่นลิงค์บันทึกสามารถช่วยได้หรือไม่ อีกครั้งเราเขียนแบบจำลองที่เงียบสงบโดยไม่มีเงื่อนไขการรบกวน ตัวแปรดังกล่าวข้างต้น

อันดับแรกแบบจำลองก่อนการแยก: หลังจากการแยกสำหรับ บริษัท หนึ่งเราจะได้รับ: P 1

P=exp(μ+β1E+β2B)
สิ่งนี้ดูเกือบหมดยกเว้นปัญหาหนึ่งปัญหาส่วนหนึ่งของการพึ่งพาEไม่ได้ผล ดังนั้นเราจึงเห็นว่าจำนวนพนักงานซึ่งเป็นผู้ร่วมงานในรูปแบบที่กว้างขวางนั้นจะต้องถูกนำมาใช้ในระดับบันทึก จากนั้นลองอีกครั้งเราจะได้รับ:
P1=exp(logα)exp(μ+β1E+β2B)P1=exp(logα+μ+β1E+β2B1)
E

P=exp(μ+β1logE+β2B)
P1=exp(logα)exp(μ+β1logE+β2B)P1=exp(logα+μ+β1logE+β2B1)P1=exp((1β)logα+μ+β1logE1+β2B1)P1=exp(μ+β1logE1+β2B1)
μ

ทำให้การตีความผลลัพธ์ง่ายขึ้นมากและเปรียบเทียบกับการศึกษาโดยใช้ข้อมูลอื่น ๆ แนวโน้มตามเวลาและอื่น ๆ คุณไม่สามารถบรรลุแบบฟอร์มนี้พร้อมพารามิเตอร์ที่มีการตีความที่ไม่ขึ้นกับขนาดด้วยลิงก์ตัวตน

สรุป: ใช้ GLM พร้อมฟังก์ชั่นบันทึกการเชื่อมโยงบางทีการถดถอยของปัวซองหรือลบ - ทวินามหรือ ... ฟังก์ชั่นการเชื่อมโยงเป็นลำดับความสำคัญมากขึ้น!

เพื่อสรุปผลเมื่อสร้างแบบจำลองการถดถอยสำหรับตัวแปรตอบกลับซึ่งมีความกว้างขวางเช่นเดียวกับตัวแปรนับ

  1. พยายามแสดงความแปรปรวนร่วมในรูปแบบเข้มข้น

  2. Covariables ที่ต้องทิ้งไว้ให้กว้างขวาง: บันทึกพวกมัน (พีชคณิตข้างต้นขึ้นอยู่กับว่ามีอยู่อย่างน้อยหนึ่ง covariable)

  3. ใช้ฟังก์ชั่นลิงค์บันทึก

จากนั้นเกณฑ์อื่น ๆ เช่นที่มีพื้นฐานมาจากความพอดีสามารถนำมาใช้สำหรับการตัดสินใจครั้งที่สองเช่นการกระจายของคำที่รบกวน


3
ฉันคิดว่าการถดถอยของปัวซองคือการถดถอยแบบ GLS พร้อมฟังก์ชั่นบันทึกลิงค์?
แทรกบ๊อบ

1
โดยปกติแล้วใช่ แต่คุณสามารถพิจารณาการเชื่อมโยงปัวซงด้วยตัวตน (หรืออื่น ๆ เช่นสแควร์รูท) แต่อาร์กิวเมนต์ของฉันที่นี่แสดงให้เห็นว่าโดยปกติแล้วคุณต้องการลิงค์บันทึก
kjetil b halvorsen

@ kjetil b halvorsen คืออะไร (1-β) ในการแก้ไขของ μระยะ?
garej
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.