ความดีของความพอดีและแบบจำลองที่เลือกการถดถอยเชิงเส้นหรือปัวซอง

ฉันต้องการคำแนะนำเกี่ยวกับประเด็นขัดแย้งหลักสองประการในการวิจัยของฉันซึ่งเป็นกรณีศึกษาของ 3 ยาและนวัตกรรมขนาดใหญ่ จำนวนสิทธิบัตรต่อปีเป็นตัวแปรตาม

คำถามของฉันคือ

เกณฑ์ที่สำคัญที่สุดสำหรับแบบจำลองที่ดีคืออะไร มีความสำคัญอะไรมาก / น้อย? มันคือตัวแปรส่วนใหญ่หรือทั้งหมดจะมีความหมาย? มันเป็นปัญหาของ "สถิติ F" หรือไม่? มันคือค่าของ "Adjusted R squared" หรือไม่?
ประการที่สองฉันจะตัดสินใจรูปแบบที่เหมาะสมที่สุดสำหรับการวิจัยได้อย่างไร นอกจากสิทธิบัตรซึ่งเป็นตัวแปรนับ (ดังนั้นอาจเป็นจำนวนปัวซง) ฉันมีตัวแปรอธิบายเช่นผลตอบแทนจากสินทรัพย์งบประมาณการวิจัยและพัฒนาพันธมิตรซ้ำ (% ไม่ใช่ตัวแปรไบนารี) ขนาด บริษัท (พนักงาน) และอีกสองคน ฉันควรทำการถดถอยเชิงเส้นหรือปัวซอง

— Nitzan
แหล่งที่มา

Kjetil ให้คำตอบอย่างละเอียด ความคิดเห็นที่เร็วขึ้นและเงียบสงบสอดคล้องกับข้อโต้แย้งของเขาคือสิ่งที่คุณระบุว่า "วินาที" เป็นคำถามที่สำคัญมาก สิ่งที่คุณพูดถึงครั้งแรกนั้นไม่สำคัญ

— Nick Cox

ที่สำคัญที่สุดคือตรรกะที่อยู่เบื้องหลังแบบจำลอง ตัวแปร "จำนวนสิทธิบัตรต่อปี" ของคุณคือตัวแปรที่นับได้ดังนั้นการถดถอยของปัวซองจะถูกระบุ นั่นคือ GLM (โมเดลเชิงเส้นทั่วไป) ที่มี (โดยปกติ) ฟังก์ชั่นลิงค์ลิงค์ในขณะที่การถดถอยเชิงเส้นปกติคือ Gaussian GLM พร้อมลิงค์ตัวตน ที่นี่มันเป็นฟังก์ชั่นบันทึกการเชื่อมโยงที่สำคัญที่สุดสำคัญกว่าการกระจายข้อผิดพลาด (Poisson หรือ Gaussian)

ตัวแปร "สิทธิบัตร" เป็นที่กว้างขวางตัวแปร: ดูคุณสมบัติที่เข้มข้นและกว้างขวาง สำหรับตัวแปรแบบเข้มข้นเช่นอุณหภูมิตัวแบบเชิงเส้น (พร้อมลิงค์ตัวตน) มักจะเหมาะสม แต่ด้วยตัวแปรที่กว้างขวางมันแตกต่างกัน คิดว่าหนึ่งใน บริษัท ยาของคุณแบ่งเป็นสอง บริษัท ที่แตกต่างกัน จากนั้นจะต้องแยกสิทธิบัตรออกเป็นสอง บริษัท ใหม่ เกิดอะไรขึ้นกับความแปรปรวนร่วมในการถดถอยของคุณ? ตัวแปรเช่นจำนวนพนักงานและงบประมาณ RD จะต้องถูกแบ่งเช่นกัน $x$

โดยทั่วไปในบริบทนี้ตัวแปรแบบเข้มข้นเป็นตัวแปรที่ไม่ขึ้นอยู่กับขนาดของ บริษัท ในขณะที่ตัวแปรที่ครอบคลุมจะขึ้นอยู่กับขนาดของ บริษัท ดังนั้นในความรู้สึกถ้าเรามีตัวแปรมากมายที่แตกต่างกันในสมการถดถอยที่เรามีการวัดขนาดของผลกระทบซ้ำแล้วซ้ำอีก ดูเหมือนว่าซ้ำซ้อนดังนั้นเราควรพยายามแสดงตัวแปรในรูปแบบเข้มข้นเช่นงบประมาณ RD ต่อพนักงาน (หรือเป็นเปอร์เซ็นต์ของงบประมาณทั้งหมด) รายรับเช่นเดียวกันเป็นต้นหากตัวแปรเป็นจำนวนพนักงานจะต้องถูกทิ้งให้เป็น กว้างขวาง. โปรดดูคำตอบของ @ onestop เกี่ยวกับการจัดการกับ regressors ที่มีความสัมพันธ์ สำหรับการสนทนาเกี่ยวกับปัญหาตัวแปรที่กว้างขวาง / เข้มข้นนี้อีกครั้ง

ลองดูพีชคณิตนี้: คือสิทธิบัตร, งบประมาณ (ต่อพนักงาน), พนักงานใน บริษัท ดั้งเดิมในขณะที่ และเป็นตัวแปรที่สอดคล้องกันหลังจาก แยก สมมติว่าดังกล่าวข้างต้นว่าเป็น covariable ที่กว้างขวางเพียงอย่างเดียว (กับ , ของหลักสูตรยังกว้างขวาง) $P, B, E$ $P_1, B_1, E_1$ $P_2, B_2, E_2$ $E$ $P$

จากนั้นก่อนการแยกเรามีรูปแบบการเชื่อมโยงตัวตนโดยสุ่มส่วนที่เหลือออก: ให้เศษส่วนที่แยกเป็นดังนั้นสำหรับ บริษัท 1 หลังจากการแยกเราได้รับ

P = μ + β_{1} E + β_{2} B

$P= \mu+\beta_1 E + \beta_2 B$

α, 1 - α

$\alpha, 1-\alpha$

ตั้งแต่

แต่

เช่นเดียวกันสำหรับ บริษัท สองแห่ง ดังนั้นตัวแบบขึ้นอยู่กับขนาดของ บริษัท ที่ค่อนข้างซับซ้อนค่าสัมประสิทธิ์การถดถอยของ

\begin{aligned} α P & = α μ + α β_{1} E + α β_{2} B \\ P_{1} & = α μ + β_{1} E_{1} + α β_{2} B_{1} \end{aligned}

$\begin{align} \alpha P &= \alpha \mu +\alpha\beta_1 E +\alpha\beta_2 B \\[5pt] P_1 &= \alpha\mu + \beta_1 E_1 + \alpha\beta_2 B_1 \end{align}$

P_{1} = α P, E_{1} = α E

$P_1=\alpha P, E_1=\alpha E$

B_{1} = B

$B_1=B$

E

$E$ ความเป็นอิสระจากขนาด บริษัท ขนาดที่มีอิทธิพลต่อพารามิเตอร์อื่น ๆ ทั้งหมด ทำให้การตีความผลลัพธ์ทำได้ยากโดยเฉพาะอย่างยิ่งถ้าในข้อมูลของคุณคุณมี บริษัท ที่มีขนาดแตกต่างกันคุณจะตีความค่าสัมประสิทธิ์เหล่านี้ได้อย่างไร การเปรียบเทียบกับการศึกษาอื่น ๆ จากข้อมูลอื่น ๆ มีความซับซ้อนอย่างมาก

ตอนนี้ให้เราดูว่าการใช้ฟังก์ชั่นลิงค์บันทึกสามารถช่วยได้หรือไม่ อีกครั้งเราเขียนแบบจำลองที่เงียบสงบโดยไม่มีเงื่อนไขการรบกวน ตัวแปรดังกล่าวข้างต้น

อันดับแรกแบบจำลองก่อนการแยก: หลังจากการแยกสำหรับ บริษัท หนึ่งเราจะได้รับ:

P = \exp (μ + β_{1} E + β_{2} B)

$P = \exp\left(\mu+\beta_1 E + \beta_2 B\right)$

สิ่งนี้ดูเกือบหมดยกเว้นปัญหาหนึ่งปัญหาส่วนหนึ่งของการพึ่งพา

ไม่ได้ผล ดังนั้นเราจึงเห็นว่าจำนวนพนักงานซึ่งเป็นผู้ร่วมงานในรูปแบบที่กว้างขวางนั้นจะต้องถูกนำมาใช้ในระดับบันทึก จากนั้นลองอีกครั้งเราจะได้รับ:

\begin{aligned} P_{1} & = \exp (\log α) \exp (μ + β_{1} E + β_{2} B) \\ P_{1} & = \exp (\log α + μ + β_{1} E + β_{2} B_{1}) \end{aligned}

$\begin{align} P_1 &= \exp(\log\alpha) \exp\left(\mu+\beta_1 E + \beta_2 B\right) \\[5pt] P_1 &= \exp\left(\log\alpha+\mu+\beta_1 E +\beta_2 B_1 \right) \end{align}$

E

$E$

P = \exp (μ + β_{1} \log E + β_{2} B)

$P = \exp\left(\mu+\beta_1 \log E + \beta_2 B\right)$

\begin{aligned} P_{1} & = \exp (\log α) \exp (μ + β_{1} \log E + β_{2} B) \\ P_{1} & = \exp (\log α + μ + β_{1} \log E + β_{2} B_{1}) \\ P_{1} & = \exp ((1 - β) \log α + μ + β_{1} \log E_{1} + β_{2} B_{1}) \\ P_{1} & = \exp (μ^{'} + β_{1} \log E_{1} + β_{2} B_{1}) \end{aligned}

$\begin{align} P_1 &= \exp(\log\alpha) \exp\left(\hspace{9.5mm}\mu+\beta_1 \log E + \beta_2 B\right) \\[5pt] P_1 &= \exp\left(\log\alpha+\hspace{6mm}\hspace{9.5mm}\mu+\beta_1 \log E +\beta_2 B_1 \right) \\[5pt] P_1 &= \exp\left((1-\beta)\log\alpha+\mu+\beta_1 \log E_1 +\beta_2 B_1\right) \\[5pt] P_1 &= \exp\left(\hspace{31mm}\mu'+\beta_1 \log E_1 +\beta_2 B_1\right) \end{align}$

μ^{'}

$\mu'$

ทำให้การตีความผลลัพธ์ง่ายขึ้นมากและเปรียบเทียบกับการศึกษาโดยใช้ข้อมูลอื่น ๆ แนวโน้มตามเวลาและอื่น ๆ คุณไม่สามารถบรรลุแบบฟอร์มนี้พร้อมพารามิเตอร์ที่มีการตีความที่ไม่ขึ้นกับขนาดด้วยลิงก์ตัวตน

สรุป: ใช้ GLM พร้อมฟังก์ชั่นบันทึกการเชื่อมโยงบางทีการถดถอยของปัวซองหรือลบ - ทวินามหรือ ... ฟังก์ชั่นการเชื่อมโยงเป็นลำดับความสำคัญมากขึ้น!

เพื่อสรุปผลเมื่อสร้างแบบจำลองการถดถอยสำหรับตัวแปรตอบกลับซึ่งมีความกว้างขวางเช่นเดียวกับตัวแปรนับ

พยายามแสดงความแปรปรวนร่วมในรูปแบบเข้มข้น
Covariables ที่ต้องทิ้งไว้ให้กว้างขวาง: บันทึกพวกมัน (พีชคณิตข้างต้นขึ้นอยู่กับว่ามีอยู่อย่างน้อยหนึ่ง covariable)
ใช้ฟังก์ชั่นลิงค์บันทึก

จากนั้นเกณฑ์อื่น ๆ เช่นที่มีพื้นฐานมาจากความพอดีสามารถนำมาใช้สำหรับการตัดสินใจครั้งที่สองเช่นการกระจายของคำที่รบกวน

— kjetil b halvorsen
แหล่งที่มา

ฉันคิดว่าการถดถอยของปัวซองคือการถดถอยแบบ GLS พร้อมฟังก์ชั่นบันทึกลิงค์?

— แทรกบ๊อบ

โดยปกติแล้วใช่ แต่คุณสามารถพิจารณาการเชื่อมโยงปัวซงด้วยตัวตน (หรืออื่น ๆ เช่นสแควร์รูท) แต่อาร์กิวเมนต์ของฉันที่นี่แสดงให้เห็นว่าโดยปกติแล้วคุณต้องการลิงค์บันทึก

— kjetil b halvorsen

@ kjetil b halvorsen คืออะไร

(1 - β)

$(1-\beta)$ ในการแก้ไขของ

μ

$\mu$ ระยะ?

— garej