ฉันต้องการใช้ข้อมูลนับเป็น covariates ในขณะที่เหมาะสมกับรูปแบบการถดถอยโลจิสติก คำถามของฉันคือ:
- ฉันจะละเมิดสมมติฐานใด ๆ ของโมเดลโลจิสติกส์ (และโดยทั่วไปของโมเดลเชิงเส้นทั่วไป) โดยใช้การนับตัวแปรที่ไม่เป็นลบจำนวนเต็มเป็นตัวแปรอิสระหรือไม่?
ฉันพบการอ้างอิงจำนวนมากในวรรณคดีที่เกี่ยวกับการใช้ข้อมูลนับร้อนเป็นผลลัพธ์ แต่ไม่เป็น covariates ดูตัวอย่างกระดาษที่ชัดเจนมาก: "NE Breslow (1996) โมเดลเชิงเส้นทั่วไป: การตรวจสอบข้อสรุปและการเสริมสร้างข้อสรุป, Congresso Nazionale Societa Italianeta di Biometria, Cortona มิถุนายน 1995", มีอยู่ที่ http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf
พูดอย่างหลวม ๆ ดูเหมือนว่าสมมติฐาน GLM อาจแสดงได้ดังนี้:
- iid ส่วนที่เหลือ;
- ฟังก์ชั่นลิงค์จะต้องแสดงความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรอิสระอย่างถูกต้อง
- กรณีที่ไม่มีค่าผิดปกติ
ทุกคนทราบหรือไม่ว่ามีข้อสันนิษฐานอื่น ๆ / ปัญหาทางเทคนิคที่อาจแนะนำให้ใช้รูปแบบอื่น ๆ เพื่อจัดการกับ covariates นับหรือไม่?
ท้ายที่สุดโปรดสังเกตว่าข้อมูลของฉันมีตัวอย่างค่อนข้างน้อย (<100) และช่วงการนับตัวแปรอาจแตกต่างกันภายใน 3-4 ลำดับความสำคัญ (เช่นบางตัวแปรมีค่าอยู่ในช่วง 0-10 ในขณะที่ตัวแปรอื่นอาจมีค่าภายใน 0-10000)
ตัวอย่างรหัส R ง่าย ๆ ดังนี้
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################