คำถามการถดถอยแบบทวินามเชิงลบ - เป็นแบบจำลองที่ไม่ดีหรือไม่?


31

ฉันกำลังอ่านบทความที่น่าสนใจโดยผู้ขายและ Shmueliเกี่ยวกับแบบจำลองการถดถอยสำหรับข้อมูลนับ ใกล้ถึงจุดเริ่มต้น (หน้า 944) พวกเขาอ้างถึงMcCullaugh และ Nelder (1989) ว่าการถดถอยเชิงลบแบบทวินามนั้นไม่เป็นที่นิยมและมีปัญหาการเชื่อมโยงที่เป็นที่ยอมรับ ฉันพบข้อความอ้างอิงแล้วและมันก็บอกว่า (หน้า 374 ของ M และ N)

"ดูเหมือนว่าการใช้งานเล็กน้อยจะทำจากการแจกแจงลบทวินามในแอปพลิเคชันโดยเฉพาะการใช้ลิงก์แบบบัญญัติเป็นปัญหาเพราะมันทำให้ตัวทำนายเชิงเส้นเป็นฟังก์ชันของพารามิเตอร์ของฟังก์ชันความแปรปรวน"

ในหน้าก่อนหน้าพวกเขาให้ฟังก์ชั่นการเชื่อมโยงเป็น

η=log(α1+α)=log(μμ+k)

และฟังก์ชันความแปรปรวน

V=μ+μ2k.

การกระจายจะได้รับเป็น

Pr(Y=y;α,k)=(y+k1)!y!(k1)!αy(1+α)y=k

ฉันพบว่าการถดถอยของ NB มีการใช้กันอย่างแพร่หลาย (และแนะนำในหนังสือหลายเล่ม) การใช้และคำแนะนำทั้งหมดนี้มีข้อผิดพลาดหรือไม่?

อะไรคือผลที่เกิดขึ้นจากลิงค์ที่เป็นปัญหานี้?


3
อาจจะต้องทำอย่างน้อยส่วนหนึ่งของคำพูดที่อ้างถึงปี 1989 ฉันยินดีที่จะเดิมพันว่าการใช้ NB ปัจจุบันเป็นส่วนใหญ่ล่าสุด แบบจำลอง NB มีประโยชน์มากโดยทั่วไปเมื่อคุณจัดการกับปัญหาการกระจายตัวมากเกินไปในกรณีที่มีความเป็นไปได้สองทาง (เช่นการถดถอยโลจิสติก)

5
Vαμ2V=μ+αμ2

3
ฉันจะเอาความคิดเห็นเหล่านั้นไปด้วยเม็ดเกลือ Re MN: พวกเขามีคำจำกัดความที่เข้มงวดมากว่า GLM คืออะไร (ด้วยเหตุผลที่ดีที่ฉันคิด) รุ่น Negbin ที่มีพารามิเตอร์รูปร่างที่ไม่รู้จักไม่เป็นไปตามคำจำกัดความที่เข้มงวดมากของ GLM โดย McCullagh, Nelder, Pregibon และอื่น ๆ ดังนั้นในทางเทคนิคแล้วมันไม่ใช่ GLM ในเกือบทุกกรณีที่ใช้งาน ตีความว่าเป็นโมเดลคลาสที่แตกต่างกันเล็กน้อยและประเมินโดยความเป็นไปได้สูงสุดไม่มีปัญหาอีกต่อไป S&S จำเป็นต้องมีเคสเพื่อกระตุ้นให้ COM Poisson ดังนั้นคำพูดของ M&N จึงมีประโยชน์
Momo

4
ฉันไม่เห็นว่าเพราะเหตุใดคุณสมบัติที่ไม่ดีที่ถูกกล่าวหาของลิงก์มาตรฐานทำให้รูปแบบ negbin โดยรวมไม่สามารถเรียกดูได้ คุณเลือกฟังก์ชั่นลิงค์ตามข้อมูลและปัญหาที่คุณพยายามแก้ไขไม่ใช่โดยอ้างอิงจากทฤษฎีทางคณิตศาสตร์ ในความเป็นจริงฉันสงสัยว่าใครก็ตามที่ใช้ลิงก์ที่เป็นที่ยอมรับ มันเป็นเรื่องราวที่คล้ายคลึงกับแกมมา GLMs; ลิงค์บัญญัติเป็นสิ่งที่ตรงกันข้าม แต่ฉันพนันได้เลยว่าผู้คนจำนวนมากใช้ลิงค์บันทึกเพราะความสะดวกในการตีความและแอพพลิเคชั่นตามธรรมชาติสำหรับสถานการณ์มากมาย
Hong Ooi

4
E{Y|X}=exp(Xβ)β

คำตอบ:


10

ฉันโต้แย้งการยืนยันจากหลายมุมมอง:

i) แม้ว่าการเชื่อมโยงแบบบัญญัติอาจจะเป็น 'ปัญหา' แต่ก็ไม่เห็นได้ชัดว่าใครบางคนจะสนใจการเชื่อมโยงนั้น - ในขณะที่ตัวอย่างการเชื่อมโยงการบันทึกในปัวซองมักจะสะดวกและเป็นธรรมชาติและผู้คนมักจะ สนใจในสิ่งนั้น ถึงอย่างนั้นในกรณีของปัวซองคนดูหน้าที่ลิงก์อื่น ๆ

ดังนั้นเราจึงไม่จำเป็นต้อง จำกัด การพิจารณาของเราในลิงก์ของบัญญัติ

'ลิงค์ที่มีปัญหา' ไม่ได้เป็นของตัวเองโดยเฉพาะอย่างยิ่งการโต้แย้งโต้แย้งต่อต้านการถดถอยทวินามลบ

ยกตัวอย่างเช่นบันทึกการเชื่อมโยงดูเหมือนจะเป็นตัวเลือกที่สมเหตุสมผลในแอปพลิเคชันทวินามลบบางตัวเช่นในกรณีที่ข้อมูลอาจมีเงื่อนไขปัวซอง แต่มีความหลากหลายในอัตราปัวซอง - ลิงก์บันทึกสามารถตีความได้เกือบเท่า อย่างที่มันเป็นในกรณีปัวซอง

จากการเปรียบเทียบฉันใช้ Gamma GLM บ่อยครั้งพอสมควร แต่ฉันจำไม่ได้ (ตัวอย่างตำราเรียน) เคยใช้ลิงก์ canonical ของมัน - ฉันใช้ log-link เกือบทุกครั้งเนื่องจากเป็นลิงก์ที่เป็นธรรมชาติมากกว่าที่จะใช้สำหรับปัญหาประเภทต่างๆ ฉันมักจะทำงานกับ

ii) "ดูเหมือนว่าจะมีการสร้างขึ้นเล็กน้อย ... ในแอปพลิเคชัน" อาจเป็นเรื่องจริงในปี 1989 แต่ฉันไม่คิดว่ามันจะเกิดขึ้นในขณะนี้ [แม้ว่าตอนนี้จะยืนได้ แต่ก็ไม่ใช่ข้อโต้แย้งว่ามันเป็นแบบอย่างที่ไม่ดี แต่มันก็ไม่ได้มีการใช้กันอย่างแพร่หลาย - ซึ่งอาจเกิดขึ้นได้ด้วยเหตุผลทุกประการ]

การถดถอยแบบทวินามเชิงลบนั้นมีการใช้กันอย่างแพร่หลายมากขึ้นเนื่องจากมันมีให้ใช้อย่างกว้างขวางมากขึ้นและฉันเห็นว่ามันใช้ในแอปพลิเคชันกันอย่างแพร่หลายมากขึ้นในตอนนี้ ตัวอย่างเช่นใน R ฉันใช้ประโยชน์จากฟังก์ชั่นMASSที่รองรับ (และหนังสือที่สอดคล้องกัน, Venables และ Ripley's, สถิติประยุกต์สมัยใหม่กับ S , ใช้การถดถอยแบบทวินามเชิงลบในแอปพลิเคชันที่น่าสนใจบางอย่าง) - และฉันใช้ฟังก์ชันบางอย่าง ในแพ็กเกจอื่น ๆ ก่อนที่จะใช้ใน R

ฉันจะใช้การถดถอยแบบทวินามเชิงลบมากขึ้นแม้ก่อนหน้านี้หากฉันพร้อมใช้งาน ฉันคาดหวังว่าสิ่งนี้จะเป็นจริงสำหรับหลาย ๆ คนดังนั้นการโต้แย้งว่ามันใช้น้อยดูเหมือนว่าจะเป็นโอกาสมากกว่า

ในขณะที่มันเป็นไปได้ที่จะหลีกเลี่ยงการถดถอยทวินามลบ (พูดโดยใช้ overdispersed รุ่น Poisson) หรือจำนวนของสถานการณ์ที่จริงๆมันไม่ได้เรื่องมากสิ่งที่คุณทำมีเหตุผลหลายเหตุผลที่ไม่น่าพอใจอย่างสิ้นเชิง

ตัวอย่างเช่นเมื่อความสนใจของฉันมีต่อช่วงการทำนายมากกว่าการประมาณค่าสัมประสิทธิ์ความจริงที่ว่าสัมประสิทธิ์ไม่เปลี่ยนแปลงอาจไม่ใช่เหตุผลเพียงพอที่จะหลีกเลี่ยงการลบทวินาม

แน่นอนว่ายังมีตัวเลือกอื่น ๆ ที่จำลองการกระจายตัว (เช่น Conway-Maxwell-Poisson ที่เป็นหัวเรื่องของบทความที่คุณกล่าวถึง) ในขณะที่สิ่งเหล่านั้นเป็นตัวเลือกอย่างแน่นอนบางครั้งมีสถานการณ์ที่ฉันค่อนข้างมีความสุขที่ทวินามเชิงลบเป็น 'พอดี' ที่ดีพอสมควรเป็นแบบจำลองสำหรับปัญหาของฉัน

การใช้และคำแนะนำทั้งหมดนี้มีข้อผิดพลาดหรือไม่?

ฉันไม่คิดอย่างนั้นจริงๆ! ถ้าเป็นเช่นนั้นก็ควรจะชัดเจนในตอนนี้ แน่นอนถ้า McCullagh และ Nelder ยังคงรู้สึกเช่นเดียวกันพวกเขาไม่มีโอกาสไม่มีหรือไม่มีฟอรัมใด ๆ เพื่อชี้แจงประเด็นที่เหลืออยู่ Nelder ได้ล่วงลับไปแล้ว (2010) แต่ McCullagh เห็นได้ชัดว่ายังคงเป็นรอบ

หากข้อความสั้น ๆ ใน McCullagh และ Nelder เป็นสิ่งที่พวกเขามีอยู่ฉันก็บอกว่านั่นเป็นข้อโต้แย้งที่ค่อนข้างอ่อนแอ

อะไรคือผลที่เกิดขึ้นจากลิงค์ที่เป็นปัญหานี้?

ฉันคิดว่าปัญหาส่วนใหญ่เป็นหนึ่งในฟังก์ชั่นความแปรปรวนและฟังก์ชั่นการเชื่อมโยงมีความเกี่ยวข้องมากกว่าที่ไม่เกี่ยวข้อง ตรงไปตรงมาน้อยลง (นั่นไม่ได้บอกว่ามันเป็นปัญหาเดียว; ฉันคิดว่ามันเป็นปัญหาหลักสำหรับผู้ประกอบการ) มันไม่มากนัก


p

ไม่มีการนี้คือการเอาอะไรไปจากรูปแบบคอนเวย์-ปัวซอง (เรื่องของผู้ขายและกระดาษ Shmueli) ซึ่งจะยังกลายเป็นที่ใช้กันอย่างแพร่หลายมากขึ้น - แน่นอนฉันไม่ต้องการที่จะมีส่วนร่วมในทวินามเชิงลบ VS COM -Poisson การแข่งขันยิง

ฉันไม่เห็นว่ามันเป็นแบบตัวต่อตัวใด ๆ มากกว่า (ตอนนี้พูดอย่างกว้างขวางมากขึ้น) ฉันใช้ Bayesian หมดจดหรือท่าทางบ่อยๆอย่างหมดจดเกี่ยวกับปัญหาทางสถิติ ฉันจะใช้สิ่งที่นัดฉันเป็นตัวเลือกที่ดีที่สุดในสถานการณ์เฉพาะที่ฉันอยู่และแต่ละตัวเลือกมีแนวโน้มที่จะมีข้อดีและข้อเสีย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.