สำหรับฉันที่จะเลือกเครื่องมือทางสถิติที่เหมาะสมฉันต้องระบุก่อนว่าชุดข้อมูลของฉันไม่ต่อเนื่องหรือต่อเนื่อง
คุณพอจะสอนฉันได้ไหมว่าฉันจะทดสอบได้อย่างไรว่าข้อมูลนั้นไม่ต่อเนื่องหรือต่อเนื่องกับ R
สำหรับฉันที่จะเลือกเครื่องมือทางสถิติที่เหมาะสมฉันต้องระบุก่อนว่าชุดข้อมูลของฉันไม่ต่อเนื่องหรือต่อเนื่อง
คุณพอจะสอนฉันได้ไหมว่าฉันจะทดสอบได้อย่างไรว่าข้อมูลนั้นไม่ต่อเนื่องหรือต่อเนื่องกับ R
คำตอบ:
เหตุผลเดียวที่ฉันสามารถคิดได้ทันทีว่าจะต้องมีการตัดสินใจนี้คือการตัดสินใจเกี่ยวกับการรวมตัวแปรว่าเป็นแบบต่อเนื่องหรือหมวดหมู่ในการถดถอย
ก่อนอื่นบางครั้งคุณไม่มีทางเลือก: ตัวแปรอักขระหรือปัจจัย (ที่มีคนให้ข้อมูล data.frame ได้ตัดสินใจให้คุณ) เห็นได้ชัดว่ามีหมวดหมู่
นั่นทำให้เรามีตัวแปรตัวเลข คุณอาจถูกล่อลวงเพียงแค่ตรวจสอบว่าตัวแปรเป็นจำนวนเต็ม แต่นี่ไม่ใช่เกณฑ์ที่ดี: ดูที่บรรทัดแรกของรหัสด้านล่าง ( x1
): นี่คือการสังเกต 1,000 ครั้งของค่าสองค่าและ : แม้ว่าสิ่งเหล่านี้จะเป็น ไม่ใช่จำนวนเต็มดูเหมือนว่าเป็นตัวแปรเด็ดขาดที่ชัดเจน สิ่งที่คุณสามารถทำได้สำหรับบางคนคือตรวจสอบว่ามีค่าที่แตกต่างกันมากมายในข้อมูลของคุณแม้ว่าเกณฑ์ที่คุณอาจใช้สำหรับเรื่องนี้จะเป็นเรื่องส่วนตัวฉันเดาว่า:2.5x
x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative
ฉันมักจะบอกว่าตัวแปรที่มีค่าไม่ซ้ำกันเพียง 5% อาจเรียกได้ว่าปลอดภัย (ไม่ต่อเนื่อง อย่างไรก็ตามสิ่งนี้ไม่ได้ทำให้เป็นตัวเลือกที่ดีสำหรับการรวมไว้เป็นตัวแปรเด็ดขาดในแบบจำลองของคุณ: หากคุณมีการสังเกต 1000000 ครั้งและค่าที่ไม่ซ้ำกัน 5% ที่ยังคงมีค่า 50,000 หมวดหมู่: หากคุณรวมสิ่งนี้ไว้ในหมวดหมู่ กำลังจะใช้เวลากับอิสรภาพมากมาย
ฉันเดาว่าการโทรนี้เป็นแบบส่วนตัวมากขึ้นและขึ้นอยู่กับขนาดตัวอย่างและวิธีการเลือกเป็นอย่างมาก หากไม่มีบริบทเพิ่มเติมมันเป็นการยากที่จะให้แนวทางที่นี่
ดังนั้นตอนนี้คุณอาจมีตัวแปรบางอย่างที่คุณสามารถเพิ่มเป็นหมวดหมู่ในแบบจำลองของคุณ แต่คุณควร คำถามนี้สามารถตอบได้ (แม้ว่ามันจะขึ้นอยู่กับเป้าหมายของคุณอีกครั้ง) ด้วยการทดสอบอัตราส่วนความน่าจะเป็น: โมเดลที่ตัวแปรคือหมวดหมู่เป็นโมเดลซูเปอร์โมเดลที่มีตัวแปรเป็นตัวแปรต่อเนื่อง ดูนี่จินตนาการถดถอยเชิงเส้นในตัวแปรx
ที่เก็บค่าที่สาม0
, และ1
2
การปรับโมเดลให้เหมาะสม:
โดยที่เป็นตัวบ่งชี้ตัวแปรจำลอง (มันเท่ากับ 1 ถ้า ) มีความยืดหยุ่นมากกว่า วิธีการปรับโมเดล
x ฉัน x = = ฉันE [ y ] = β 0 + β 1 x E [ y ] = β 0 + β 1 x 1 + 2 β 1 x 2
ด้วยโครงสร้าง super / submodel คุณสามารถค้นหาว่ามีหลักฐานในข้อมูลที่จำเป็นต้องใช้โครงสร้างที่ซับซ้อนมากขึ้นหรือไม่โดยทำการทดสอบอัตราส่วนความน่าจะเป็น: 2 เท่าของโอกาสสูงสุดในการเข้าสู่ระบบที่แตกต่างกัน (โดยทั่วไประบุว่า deviance ใน R) ติดตามการด้วย df = ความแตกต่างของจำนวนพารามิเตอร์ (ในตัวอย่างด้านบน: 4 พารามิเตอร์ - 3 พารามิเตอร์)