การถดถอยด้วยข้อมูลที่เบ้


12

กำลังพยายามคำนวณจำนวนการเข้าชมจากข้อมูลประชากรและบริการ ข้อมูลเบ้มาก

histograms:

histograms

แปลง qq (ซ้ายคือบันทึก):

แปลง qq - ขวาคือบันทึก

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

cityและserviceเป็นตัวแปรปัจจัย

ฉันได้ค่า p ต่ำ *** สำหรับตัวแปรทั้งหมด แต่ฉันยังได้ค่า r-squared ต่ำที่ 0.05 ด้วย ฉันควรทำอย่างไรดี? รุ่นอื่นจะทำงานเช่นเลขชี้กำลังหรืออะไรบางอย่าง


เนื่องจากสิ่งที่ฉันคิดว่าเป็นความถี่สูงเป็นศูนย์จริง ๆ แล้วเป็นความถี่สูงของ twos คุณช่วยบอกเราอีกเล็กน้อยเกี่ยวกับกระบวนการสร้างข้อมูลได้หรือไม่ การบริการแบบใดที่ผู้คนกำลังทำอยู่และอะไรคือ "เป้าหมายสูงสุด" ของการวิเคราะห์? คุณกำลังพยายามคาดการณ์จำนวนครั้งของการเข้าชมที่ได้รับจากชุดของคุณสมบัติ (เช่นเป็นการวัดคุณภาพการบริการ) หรือไม่? คุณจำเป็นต้องเก็บผลลัพธ์ไว้อย่างครบถ้วนเพื่อจุดประสงค์ในการตอบคำถามการวิจัยของคุณหรือคุณอาจยุบตัวแปรผลลัพธ์เป็นหมวดหมู่ที่น้อยลง
Marquis de Carabas

2
คุณมีข้อมูลนับ ค้นหาเว็บไซต์นี้เพื่อการถดถอยปัวซอง
kjetil b halvorsen

คำตอบ:


11

การถดถอยเชิงเส้นไม่ใช่ทางเลือกที่เหมาะสมสำหรับผลลัพธ์ของคุณเนื่องจาก:

  1. ตัวแปรผลลัพธ์จะไม่กระจายตามปกติ
  2. ตัวแปรผลลัพธ์ถูก จำกัด ในค่าที่สามารถรับได้ (ข้อมูลนับหมายความว่าค่าที่คาดการณ์ไม่สามารถเป็นค่าลบ)
  3. สิ่งที่ดูเหมือนจะมีความถี่สูงของกรณีที่มีการเข้าชม 0 ครั้ง

แบบจำลองตัวแปรตามที่ จำกัด สำหรับข้อมูลนับ

กลยุทธ์การประเมินที่คุณสามารถเลือกได้นั้นถูกกำหนดโดย "โครงสร้าง" ของตัวแปรผลลัพธ์ของคุณ นั่นคือถ้าตัวแปรผลลัพธ์ของคุณถูก จำกัด ในค่าที่สามารถดำเนินการได้ (เช่นถ้าเป็นตัวแปรที่ จำกัด ขึ้นอยู่กับ ) คุณต้องเลือกแบบจำลองที่ค่าที่ทำนายไว้จะอยู่ในช่วงที่เป็นไปได้สำหรับผลลัพธ์ของคุณ ในขณะที่บางครั้งการถดถอยเชิงเส้นเป็นการประมาณที่ดีสำหรับตัวแปรที่ จำกัด (เช่นในกรณีของไบนารี logit / probit) ซึ่งมักจะไม่ ใส่รุ่นเชิงเส้นทั่วไป ในกรณีของคุณเนื่องจากตัวแปรผลลัพธ์เป็นข้อมูลนับคุณมีหลายทางเลือก:

  1. โมเดลปัวซอง
  2. แบบจำลองทวินามลบ
  3. แบบจำลอง Zero Inflated Poisson (ZIP)
  4. แบบจำลอง Binomial ลบ (ZINB) Zero Inflated

ตัวเลือกมักจะถูกกำหนดโดยสังเกตุ ฉันจะพูดคุยสั้น ๆ เกี่ยวกับการเลือกระหว่างตัวเลือกเหล่านี้ด้านล่าง


ปัวซองกับลบชื่อทวินาม

โดยทั่วไป Poisson เป็นโมเดล "workhorse ทั่วไป" แบบ go-to ของโมเดลข้อมูลจำนวน 4 รายการที่ฉันได้กล่าวถึงข้างต้น ข้อ จำกัด ของตัวแบบคือการสันนิษฐานว่าความแปรปรวนแบบมีเงื่อนไข = ค่าเฉลี่ยแบบมีเงื่อนไขซึ่งอาจไม่เป็นจริงเสมอไป หากแบบจำลองของคุณมีการกระจายตัวมากเกินไป (ความแปรปรวนแบบมีเงื่อนไข> หมายถึงแบบมีเงื่อนไข) คุณจะต้องใช้แบบจำลองเชิงลบแบบทวินามแทน โชคดีที่เมื่อคุณเรียกใช้ Negative Binomial เอาต์พุตมักจะมีการทดสอบทางสถิติสำหรับพารามิเตอร์การกระจาย (R เรียกพารามิเตอร์การกระจายตัวนี้ว่า "theta ( )" ซึ่งเรียกว่า "alpha" ในแพ็คเกจอื่น ๆ สมมติฐานในการเลือกระหว่าง Poisson กับเชิงลบทวินามคือในขณะที่สมมติฐานทางเลือกคือ 0θH0:θ=0H1:θ0θมีความสำคัญมีหลักฐานว่ามีการกระจายตัวเกินขนาดในแบบจำลองและคุณจะเลือกลบแบบทวินามมากกว่าปัวซอง หากค่าสัมประสิทธิ์ไม่มีนัยสำคัญทางสถิติให้ผลลัพธ์ปัวซอง

ZIP เทียบกับ ZINB

สิ่งหนึ่งที่อาจเป็นไปได้คือภาวะเงินเฟ้อเป็นศูนย์ซึ่งอาจเป็นปัญหาที่นี่ นี่คือที่มาของ ZIP และ ZINB ที่มีรูปแบบเป็นศูนย์โดยใช้แบบจำลองเหล่านี้คุณคิดว่ากระบวนการสร้างค่าศูนย์จะแยกจากกระบวนการที่สร้างค่าอื่นที่ไม่ใช่ศูนย์ เช่นเดียวกับก่อนหน้า ZINB มีความเหมาะสมเมื่อผลลัพธ์มีเลขศูนย์มากเกินไปและเกินขนาดในขณะที่ ZIP มีความเหมาะสมเมื่อผลลัพธ์มีเลขศูนย์มากเกินไป แต่มีเงื่อนไขหมายถึง = ความแปรปรวนตามเงื่อนไข สำหรับโมเดลที่ไม่มีการเติมลมนอกเหนือจากโมเดล covariates ที่คุณได้ระบุไว้ข้างต้นคุณจะต้องคิดถึงตัวแปรที่อาจสร้างศูนย์ส่วนเกินที่คุณเห็นในผลลัพธ์ อีกครั้งมีการทดสอบทางสถิติที่มาพร้อมกับผลลัพธ์ของรุ่นเหล่านี้ (บางครั้งคุณอาจต้องระบุเมื่อคุณรันคำสั่ง) ที่จะช่วยให้คุณสังเกตุรูปแบบที่ดีที่สุดสำหรับข้อมูลของคุณ มีการทดสอบที่น่าสนใจสองแบบ: แบบแรกคือการทดสอบสัมประสิทธิ์ของพารามิเตอร์การกระจายตัวและสิ่งที่สองคือสิ่งที่เรียกว่าการทดสอบ Vuong ซึ่งจะบอกคุณว่าเลขศูนย์ส่วนเกินนั้นถูกสร้างขึ้นโดยกระบวนการแยกต่างหากหรือไม่ คือผลลัพธ์ที่แท้จริงคือเงินเฟ้อศูนย์)θ

ในการเปรียบเทียบตัวเลือกระหว่าง ZIP และ ZINB คุณจะดูการทดสอบพารามิเตอร์การกระจายอีกครั้ง อีกครั้ง (ZIP นั้นเหมาะกว่า) และ (ZINB เหมาะกว่า) การทดสอบ Vuong ช่วยให้คุณสามารถตัดสินใจระหว่าง Poisson กับ ZIP หรือ NB กับ ZINB สำหรับการทดสอบ Vuong, (Poisson / NB เป็นแบบที่ดีกว่า) และ (ZIP / ZINB เป็นแบบที่ดีกว่า)θH0:θ=0H1:θ0H0:Excess zeroes is not a result of a separate processซีอีR o E s ฉันs R E s U ลิตรT o s อีพีR ทีอีพีR o C E s sH1:Excess zeroes is a result of a separate process


ผู้ใช้รายอื่นสามารถแสดงความคิดเห็นในเวิร์กโฟลว์ "ปกติ" แต่วิธีการของฉันคือการแสดงข้อมูลและไปจากที่นั่น ในกรณีของคุณฉันอาจเริ่มต้นด้วย ZINB และรันทั้งการทดสอบค่าสัมประสิทธิ์บนและการทดสอบ Vuong เนื่องจากเป็นการทดสอบค่าสัมประสิทธิ์บนจะบอกคุณว่าอันไหนดีกว่าระหว่าง ZIP และ ZINB และ การทดสอบ Vuong จะบอกคุณว่าคุณควรใช้แบบจำลองที่มีค่าเป็นศูนย์หรือไม่ θθθ

สุดท้ายฉันไม่ได้ใช้ R แต่หน้าตัวอย่างการวิเคราะห์ข้อมูล IDRE ที่ UCLAสามารถแนะนำคุณในการปรับรุ่นเหล่านี้ให้เหมาะสม

[แก้ไขโดยผู้ใช้คนอื่นที่ไม่มีชื่อเสียงพอที่จะแสดงความคิดเห็น: บทความนี้อธิบายถึงสาเหตุที่คุณไม่ควรใช้การทดสอบ Vuong เพื่อเปรียบเทียบแบบจำลองอัตราเงินเฟ้อเป็นศูนย์และให้ทางเลือกอื่น

P. Wilson“ การทดสอบ Vuong ในทางที่ผิดสำหรับแบบจำลองที่ไม่ซ้อนเพื่อทดสอบ Zero-Inflation” จดหมายเศรษฐศาสตร์, ปี 2015, ฉบับที่ 127, ปัญหา C, 51-53 ]


ส่วนใหญ่คือ 2 ~ การเข้าชม บันทึกทั้งหมดมีการเยี่ยมชมมากกว่า 1 ครั้ง
pxxd

ฉันได้รับแปลงคิวที่ใกล้เคียงกันสำหรับทั้งปัวซองและแกมม่าแล้วไม่เป็นไร?
pxxd

3
1. ตัวแปรผลไม่ได้กระจายตามปกติไม่ได้ต่อ seอาร์กิวเมนต์ที่ถูกต้องกับการถดถอยเชิงเส้น ชุดของสมมติฐานการถดถอยที่รับประกันคุณสมบัติที่ดีของตัวประมาณค่า (เช่นความสม่ำเสมอและความเป็นเชิงเส้นกำกับ) ไม่รวมถึงความปกติของตัวแปรผลลัพธ์
Richard Hardy

2

ลองโมเดลเชิงเส้นทั่วไปพร้อมการกระจายแกมม่า มันอาจประมาณตัวแปรตามได้เช่นกันเพราะมันเป็นค่าบวกและเท่ากับศูนย์ที่ x = 0 ฉันใช้ R และ GLM กับความสำเร็จในกรณีที่คล้ายกัน


Visits d

1
ไม่ฉันเชื่อว่าคุณไม่ควรใช้ลิงค์บันทึก แต่เป็นลิงค์ข้อมูลเฉพาะตัว แต่ก่อนอื่นให้ตรวจสอบว่าฟังก์ชันแกมมาเหมาะสมกับการกระจายของคุณอย่างไร
Diego

0

สมมติฐานทางสถิติทั้งหมดเกี่ยวกับข้อผิดพลาดจากแบบจำลอง หากคุณสร้างแบบจำลองอย่างง่ายโดยใช้ชุดตัวบ่งชี้ที่ 6 ซึ่งสะท้อนถึงวันต่อสัปดาห์ ... คุณจะเริ่มเห็นการกระจายข้อผิดพลาดที่ดีกว่ามาก ดำเนินการต่อเพื่อรวมเอฟเฟกต์รายเดือนและเอฟเฟกต์วันหยุด (ก่อนและหลัง) และการกระจายข้อผิดพลาดจะยิ่งดีขึ้น การเพิ่มตัวชี้วัดรายวันรายสัปดาห์รายสัปดาห์วันหยุดยาวและสิ่งต่าง ๆ จะยิ่งดีขึ้น

ดูวิธีการง่าย ๆ ในการคาดการณ์จำนวนผู้เข้าพักที่ได้รับข้อมูลปัจจุบันและข้อมูลในอดีตและ https://stats.stackexchange.com/search?q=user%3A3382+daily+dataเพื่อความสนุกสนานในการอ่าน


1
คำตอบนี้ดูเหมือนจะไม่เกี่ยวข้องกับคำถามที่ถามจริง คุณทำให้การเชื่อมต่อชัดเจนหรือไม่?
whuber

ฉันใช้ DVISITS ของเขาเพื่อแนะนำข้อมูลรายวัน ... ถ้าไม่เช่นนั้นฉันจะยกเลิกคำตอบของฉัน ถ้ามันเป็นภาคตัดขวางอย่างแท้จริง .. บางทีเขาควรพิจารณาแบ่งชั้นข้อมูลโดยการจำแนกประเภทที่สำคัญ
IrishStat
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.