การใช้ข้อมูลนับเป็นตัวแปรอิสระละเมิดสมมติฐาน GLM ใด ๆ หรือไม่


14

ฉันต้องการใช้ข้อมูลนับเป็น covariates ในขณะที่เหมาะสมกับรูปแบบการถดถอยโลจิสติก คำถามของฉันคือ:

  • ฉันจะละเมิดสมมติฐานใด ๆ ของโมเดลโลจิสติกส์ (และโดยทั่วไปของโมเดลเชิงเส้นทั่วไป) โดยใช้การนับตัวแปรที่ไม่เป็นลบจำนวนเต็มเป็นตัวแปรอิสระหรือไม่?

ฉันพบการอ้างอิงจำนวนมากในวรรณคดีที่เกี่ยวกับการใช้ข้อมูลนับร้อนเป็นผลลัพธ์ แต่ไม่เป็น covariates ดูตัวอย่างกระดาษที่ชัดเจนมาก: "NE Breslow (1996) โมเดลเชิงเส้นทั่วไป: การตรวจสอบข้อสรุปและการเสริมสร้างข้อสรุป, Congresso Nazionale Societa Italianeta di Biometria, Cortona มิถุนายน 1995", มีอยู่ที่ http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf

พูดอย่างหลวม ๆ ดูเหมือนว่าสมมติฐาน GLM อาจแสดงได้ดังนี้:

  • iid ส่วนที่เหลือ;
  • ฟังก์ชั่นลิงค์จะต้องแสดงความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรอิสระอย่างถูกต้อง
  • กรณีที่ไม่มีค่าผิดปกติ

ทุกคนทราบหรือไม่ว่ามีข้อสันนิษฐานอื่น ๆ / ปัญหาทางเทคนิคที่อาจแนะนำให้ใช้รูปแบบอื่น ๆ เพื่อจัดการกับ covariates นับหรือไม่?

ท้ายที่สุดโปรดสังเกตว่าข้อมูลของฉันมีตัวอย่างค่อนข้างน้อย (<100) และช่วงการนับตัวแปรอาจแตกต่างกันภายใน 3-4 ลำดับความสำคัญ (เช่นบางตัวแปรมีค่าอยู่ในช่วง 0-10 ในขณะที่ตัวแปรอื่นอาจมีค่าภายใน 0-10000)

ตัวอย่างรหัส R ง่าย ๆ ดังนี้

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################

ยินดีต้อนรับสู่เว็บไซต์! หนึ่งคำพูด: ถ้าคุณต้องการที่จะลงนามโพสต์ของคุณใช้โปรไฟล์ของคุณ

11
โดยปกติในโมเดล GLM ตัวแปรของตัวทำนาย ("อิสระ") นั้นควรจะเป็นค่าคงที่ที่รู้จักบางตัวไม่มีสมมติฐานเกี่ยวกับการกระจายตัว ดังนั้นจึงไม่มีอะไรผิดปกติในการใช้ข้อมูลนับเป็นตัวทำนาย
kjetil b halvorsen

1
kjetil ถูกต้อง - และเป็นคำตอบที่ดีสำหรับคำถาม ทว่าด้วยช่วงที่มากของ IV ที่อธิบายไว้ที่นี่เราควรจะประเมินอิทธิพลของข้อมูลตรวจสอบความเหมาะสมและโดยเฉพาะอย่างยิ่งประเมินศักยภาพสำหรับความสัมพันธ์แบบไม่เชิงเส้น นี้จะต้องทำด้วยความหวังว่าความสัมพันธ์จริงคือไม่เชิงเส้นและอีกครั้งการแสดงออกของเกลือเช่นรากหรือเข้าสู่ระบบจะ linearize มันจึงพร้อมกันบรรเทาบางส่วนของปัญหาอิทธิพล นี่อาจเป็นสิ่งที่ @ user14583 พยายามระบุในคำตอบของพวกเขา
whuber

@kjetilbhalvorsen - ฉันเห็นด้วยกับ "ไม่มีสมมติฐานการกระจาย" แต่ฉันไม่คิดว่าคุณหมายถึงการพูดว่า "รู้จัก" หรือ "ค่าคงที่" เนื่องจากคำเหล่านั้นไม่เหมาะ
rolando2

4
พวกมันคือ "ค่าคงที่" ในแง่ที่ว่ามันไม่ได้สุ่ม: ไม่มีการแจกแจง พวกเขาเป็น "รู้จัก" ในแง่ที่ว่าพวกเขาถูกสันนิษฐานว่าวัดได้โดยไม่มีข้อผิดพลาดดังนั้นค่าที่วัดได้นั้นเป็นค่าที่ทำงานในกลไกการสร้างข้อมูล โมเดล GLM สมมติว่าการสุ่มทั้งหมดอยู่ในกลไกการตอบสนองซึ่งมักจะเป็นที่น่าสงสัย!
kjetil b halvorsen

คำตอบ:


5

มีความแตกต่างในการเล่นที่นี่และพวกเขาอาจสร้างความสับสน

คุณระบุว่าคุณเข้าใจสมมติฐานของการถดถอยโลจิสติกรวมถึง " สารตกค้างiid ... " ฉันจะยืนยันว่านี่ไม่ถูกต้องนัก โดยทั่วไปเราจะพูดว่าเกี่ยวกับโมเดลเชิงเส้นทั่วไป (เช่นการถดถอย) แต่ในกรณีนี้ก็หมายความว่าส่วนที่เหลือเป็นอิสระจากกันด้วยการแจกแจงแบบเดียวกัน เช่นความแปรปรวนคงที่: ความสม่ำเสมอของความแปรปรวน / ความเป็นเนื้อเดียวกัน) อย่างไรก็ตามโปรดทราบว่าสำหรับการกระจาย Bernoulliและการแจกแจงแบบทวินามความแปรปรวนเป็นฟังก์ชันของค่าเฉลี่ย ดังนั้นความแปรปรวนจึงไม่คงที่ถ้าค่าความแปรปรวนร่วมไม่เกี่ยวข้องกับการตอบสนองอย่างสมบูรณ์ นั่นจะเป็นข้อสันนิษฐานที่ จำกัด อย่างมากที่จะทำให้การถดถอยโลจิสติกไม่มีค่า ฉันทราบว่าในนามธรรมของ pdf ที่คุณอ้างถึงมันจะแสดงรายการสมมติฐานที่เริ่มต้นด้วย "ความเป็นอิสระทางสถิติของการสังเกต" ซึ่งเราอาจเรียกi-but-not-idว่า

ถัดไปเนื่องจาก @kjetilbhalvorsen บันทึกไว้ในความคิดเห็นด้านบนค่า covariate (เช่นตัวแปรอิสระของคุณ) จะถือว่าอยู่ในรูปแบบเชิงเส้นทั่วไป นั่นคือไม่มีการตั้งสมมติฐานเกี่ยวกับการกระจายสินค้าโดยเฉพาะ ดังนั้นจึงไม่สำคัญว่าจะนับหรือไม่หรือถ้ามีตั้งแต่ 0 ถึง 10 ตั้งแต่ 1 ถึง 10,000 หรือจาก -3.1415927 ถึง -2.718281828

อย่างไรก็ตามสิ่งหนึ่งที่ต้องพิจารณาอย่างเช่น@whuber ให้ความเห็นว่าหากคุณมีข้อมูลจำนวนน้อยที่มีความรุนแรงมากในมิติ covariate จุดเหล่านั้นอาจมีอิทธิพลอย่างมากต่อผลการวิเคราะห์ของคุณ นั่นคือคุณอาจได้รับผลลัพธ์ที่แน่นอนเพราะคะแนนเหล่านั้นเท่านั้น วิธีหนึ่งที่จะคิดเกี่ยวกับสิ่งนี้คือทำการวิเคราะห์ความไวโดยการปรับโมเดลของคุณทั้งที่มีและไม่มีข้อมูลเหล่านั้น คุณอาจเชื่อว่ามีความปลอดภัยหรือเหมาะสมกว่าที่จะทิ้งข้อสังเกตเหล่านั้นใช้รูปแบบของการวิเคราะห์ทางสถิติที่มีประสิทธิภาพหรือเปลี่ยนโควาเรียตเหล่านั้นเพื่อลดการใช้ประโยชน์จากประเด็นเหล่านั้นให้มากที่สุด ฉันจะไม่อธิบายลักษณะการพิจารณาเหล่านี้ว่าเป็น "สมมติฐาน" แต่เป็นข้อควรพิจารณาที่สำคัญในการพัฒนาแบบจำลองที่เหมาะสม


1

สิ่งหนึ่งที่ฉันจะตรวจสอบอย่างแน่นอนคือคุณสมบัติการกระจายตัวของตัวแปรอิสระของคุณ บ่อยครั้งที่มีข้อมูลนับคุณจะเห็นความเอียงเล็กน้อยปานกลางถึงรุนแรง ในกรณีนี้คุณอาจต้องการแปลงข้อมูลของคุณเนื่องจากคุณจะสูญเสียความสัมพันธ์เชิงเส้นของล็อก แต่ไม่การใช้โมเดลโลจิสติก (หรือ GLM อื่น) นั้นใช้ได้


3
การเอียงที่ถูกต้องสูญเสีย 'ความสัมพันธ์บันทึกเชิงเส้น' อย่างไร
Glen_b -Reinstate Monica

3
ความคิดเห็นนี้ดูเหมือนไม่ถูกต้องสำหรับฉัน เช่นเดียวกับ @Glen_b ฉันไม่เห็นว่าสิ่งนี้จะทำให้ความสัมพันธ์บันทึกเชิงเส้นลดลงได้อย่างไร ไม่ว่าในกรณีใดจะเป็นการดีกว่าที่จะตรวจสอบความสัมพันธ์โดยตรง (เช่นการวางแผนเป็นต้น)
Peter Flom - Reinstate Monica

2
การแปลงแบบไม่เชิงเส้นของ IV จะเปลี่ยนความสัมพันธ์ log-linear เป็นอย่างอื่น @Peter คำตอบนี้ดูเหมือนจะถูกต้องสำหรับฉัน
whuber

1
@whuber ฉันยอมรับว่าการแปลงแบบไม่เชิงเส้นของตัวแปรหนึ่งจะเปลี่ยนความสัมพันธ์ระหว่างมันกับตัวแปรอื่น ดูเหมือนว่าจะค่อนข้างชัดเจน แต่จากความสัมพันธ์แบบไหนกับแบบไหน? ทำไมไม่ลองตรวจสอบความสัมพันธ์โดยตรงแทนที่จะสมมติว่ามันจะเปลี่ยนไปอย่างไร นอกจากนี้คำตอบดูเหมือนจะบอกว่าคนต้องการสูญเสียความสัมพันธ์เชิงเส้นของล็อก
Peter Flom - Reinstate Monica

2
นั่นเป็นจุดที่ดี @Peter แต่บางคนไม่ต้องการที่จะเปลี่ยนความสัมพันธ์; นั่นไม่ใช่ความคิดที่ผิด ฉันยอมรับว่าการตรวจสอบโดยตรงเป็นขั้นตอนที่ถูกต้อง: มันจะแนะนำวิธีการแสดง IV ที่เกี่ยวข้องเพื่อสร้างความสัมพันธ์เชิงเส้น
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.