ที่สำคัญที่สุดคือตรรกะที่อยู่เบื้องหลังแบบจำลอง ตัวแปร "จำนวนสิทธิบัตรต่อปี" ของคุณคือตัวแปรที่นับได้ดังนั้นการถดถอยของปัวซองจะถูกระบุ นั่นคือ GLM (โมเดลเชิงเส้นทั่วไป) ที่มี (โดยปกติ) ฟังก์ชั่นลิงค์ลิงค์ในขณะที่การถดถอยเชิงเส้นปกติคือ Gaussian GLM พร้อมลิงค์ตัวตน ที่นี่มันเป็นฟังก์ชั่นบันทึกการเชื่อมโยงที่สำคัญที่สุดสำคัญกว่าการกระจายข้อผิดพลาด (Poisson หรือ Gaussian)
ตัวแปร "สิทธิบัตร" เป็นที่กว้างขวางตัวแปร: ดูคุณสมบัติที่เข้มข้นและกว้างขวาง สำหรับตัวแปรแบบเข้มข้นเช่นอุณหภูมิตัวแบบเชิงเส้น (พร้อมลิงค์ตัวตน) มักจะเหมาะสม แต่ด้วยตัวแปรที่กว้างขวางมันแตกต่างกัน คิดว่าหนึ่งใน บริษัท ยาของคุณแบ่งเป็นสอง บริษัท ที่แตกต่างกัน จากนั้นจะต้องแยกสิทธิบัตรออกเป็นสอง บริษัท ใหม่ เกิดอะไรขึ้นกับความแปรปรวนร่วมในการถดถอยของคุณ? ตัวแปรเช่นจำนวนพนักงานและงบประมาณ RD จะต้องถูกแบ่งเช่นกันx
โดยทั่วไปในบริบทนี้ตัวแปรแบบเข้มข้นเป็นตัวแปรที่ไม่ขึ้นอยู่กับขนาดของ บริษัท ในขณะที่ตัวแปรที่ครอบคลุมจะขึ้นอยู่กับขนาดของ บริษัท ดังนั้นในความรู้สึกถ้าเรามีตัวแปรมากมายที่แตกต่างกันในสมการถดถอยที่เรามีการวัดขนาดของผลกระทบซ้ำแล้วซ้ำอีก ดูเหมือนว่าซ้ำซ้อนดังนั้นเราควรพยายามแสดงตัวแปรในรูปแบบเข้มข้นเช่นงบประมาณ RD ต่อพนักงาน (หรือเป็นเปอร์เซ็นต์ของงบประมาณทั้งหมด) รายรับเช่นเดียวกันเป็นต้นหากตัวแปรเป็นจำนวนพนักงานจะต้องถูกทิ้งให้เป็น กว้างขวาง. โปรดดูคำตอบของ @ onestop เกี่ยวกับการจัดการกับ regressors ที่มีความสัมพันธ์ สำหรับการสนทนาเกี่ยวกับปัญหาตัวแปรที่กว้างขวาง / เข้มข้นนี้อีกครั้ง
ลองดูพีชคณิตนี้:
คือสิทธิบัตร, งบประมาณ (ต่อพนักงาน), พนักงานใน บริษัท ดั้งเดิมในขณะที่
P 1 , B 1 , E 1และP 2 , B 2 , E 2เป็นตัวแปรที่สอดคล้องกันหลังจาก แยก สมมติว่าดังกล่าวข้างต้นว่าEเป็น covariable ที่กว้างขวางเพียงอย่างเดียว (กับP , ของหลักสูตรยังกว้างขวาง)P,B,EP1,B1,E1P2,B2,E2EP
จากนั้นก่อนการแยกเรามีรูปแบบการเชื่อมโยงตัวตนโดยสุ่มส่วนที่เหลือออก:
ให้เศษส่วนที่แยกเป็นα , 1 - αดังนั้นสำหรับ บริษัท 1 หลังจากการแยกเราได้รับ
α P
P=μ+β1E+β2B
α,1−α
ตั้งแต่
P1=αP,E1=αEแต่
B1=B
เช่นเดียวกันสำหรับ บริษัท สองแห่ง ดังนั้นตัวแบบขึ้นอยู่กับขนาดของ บริษัท ที่ค่อนข้างซับซ้อนค่าสัมประสิทธิ์การถดถอยของ
E เท่านั้นαPP1=αμ+αβ1E+αβ2B=αμ+β1E1+αβ2B1
P1=αP,E1=αEB1=BEความเป็นอิสระจากขนาด บริษัท ขนาดที่มีอิทธิพลต่อพารามิเตอร์อื่น ๆ ทั้งหมด ทำให้การตีความผลลัพธ์ทำได้ยากโดยเฉพาะอย่างยิ่งถ้าในข้อมูลของคุณคุณมี บริษัท ที่มีขนาดแตกต่างกันคุณจะตีความค่าสัมประสิทธิ์เหล่านี้ได้อย่างไร การเปรียบเทียบกับการศึกษาอื่น ๆ จากข้อมูลอื่น ๆ มีความซับซ้อนอย่างมาก
ตอนนี้ให้เราดูว่าการใช้ฟังก์ชั่นลิงค์บันทึกสามารถช่วยได้หรือไม่ อีกครั้งเราเขียนแบบจำลองที่เงียบสงบโดยไม่มีเงื่อนไขการรบกวน ตัวแปรดังกล่าวข้างต้น
อันดับแรกแบบจำลองก่อนการแยก:
หลังจากการแยกสำหรับ บริษัท หนึ่งเราจะได้รับ:
P 1
P=exp(μ+β1E+β2B)
สิ่งนี้ดูเกือบหมดยกเว้นปัญหาหนึ่งปัญหาส่วนหนึ่งของการพึ่งพา
Eไม่ได้ผล ดังนั้นเราจึงเห็นว่าจำนวนพนักงานซึ่งเป็นผู้ร่วมงานในรูปแบบที่กว้างขวางนั้นจะต้องถูกนำมาใช้ในระดับบันทึก จากนั้นลองอีกครั้งเราจะได้รับ:
P1P1=exp(logα)exp(μ+β1E+β2B)=exp(logα+μ+β1E+β2B1)
E
P=exp(μ+β1logE+β2B)
P1P1P1P1=exp(logα)exp(μ+β1logE+β2B)=exp(logα+μ+β1logE+β2B1)=exp((1−β)logα+μ+β1logE1+β2B1)=exp(μ′+β1logE1+β2B1)
μ′
ทำให้การตีความผลลัพธ์ง่ายขึ้นมากและเปรียบเทียบกับการศึกษาโดยใช้ข้อมูลอื่น ๆ แนวโน้มตามเวลาและอื่น ๆ คุณไม่สามารถบรรลุแบบฟอร์มนี้พร้อมพารามิเตอร์ที่มีการตีความที่ไม่ขึ้นกับขนาดด้วยลิงก์ตัวตน
สรุป: ใช้ GLM พร้อมฟังก์ชั่นบันทึกการเชื่อมโยงบางทีการถดถอยของปัวซองหรือลบ - ทวินามหรือ ... ฟังก์ชั่นการเชื่อมโยงเป็นลำดับความสำคัญมากขึ้น!
เพื่อสรุปผลเมื่อสร้างแบบจำลองการถดถอยสำหรับตัวแปรตอบกลับซึ่งมีความกว้างขวางเช่นเดียวกับตัวแปรนับ
พยายามแสดงความแปรปรวนร่วมในรูปแบบเข้มข้น
Covariables ที่ต้องทิ้งไว้ให้กว้างขวาง: บันทึกพวกมัน (พีชคณิตข้างต้นขึ้นอยู่กับว่ามีอยู่อย่างน้อยหนึ่ง covariable)
ใช้ฟังก์ชั่นลิงค์บันทึก
จากนั้นเกณฑ์อื่น ๆ เช่นที่มีพื้นฐานมาจากความพอดีสามารถนำมาใช้สำหรับการตัดสินใจครั้งที่สองเช่นการกระจายของคำที่รบกวน