จะทดสอบได้อย่างไรว่าข้อมูลของฉันไม่ต่อเนื่องหรือต่อเนื่อง


11

สำหรับฉันที่จะเลือกเครื่องมือทางสถิติที่เหมาะสมฉันต้องระบุก่อนว่าชุดข้อมูลของฉันไม่ต่อเนื่องหรือต่อเนื่อง

คุณพอจะสอนฉันได้ไหมว่าฉันจะทดสอบได้อย่างไรว่าข้อมูลนั้นไม่ต่อเนื่องหรือต่อเนื่องกับ R


คุณหมายถึงว่าจำเป็นต้องเพิ่มตัวแปรบางตัวเป็นตัวทำนายต่อเนื่องหรือเป็นหมวดหมู่ (ไม่ต่อเนื่อง) ในรูปแบบชนิดการถดถอยหรือไม่?
Nick Sabbe

การรวบรวมข้อมูลและวิธีการบันทึกตัวแปรมีแนวโน้มที่จะให้ข้อมูลบางอย่างแก่คุณ นอกจากนี้ยังมีแนวโน้มที่จะขึ้นอยู่กับว่าคุณต้องการสร้างแบบจำลองข้อมูลของคุณเป็นแบบต่อเนื่องหรือไม่ต่อเนื่อง (ดูเช่นคำถามที่เกี่ยวข้องกับรายการ Likert และการวิเคราะห์ตาชั่งแบบไม่ต่อเนื่อง) ประเด็นที่ไม่เกี่ยวข้อง: จะเป็นการดีถ้าคุณสามารถลงทะเบียนบัญชีของคุณได้ทุกครั้งและอาจพิจารณารับคำตอบหรือแก้ไขคำถามก่อนหน้านี้
chl

ทำ qqnorm และถ้าคะแนนอยู่ในแนวทแยงข้อมูลจะต่อเนื่อง (ถ้าอยู่ในเส้น horiontal โดยสิ้นเชิง)
user222362

คำตอบ:


14

เหตุผลเดียวที่ฉันสามารถคิดได้ทันทีว่าจะต้องมีการตัดสินใจนี้คือการตัดสินใจเกี่ยวกับการรวมตัวแปรว่าเป็นแบบต่อเนื่องหรือหมวดหมู่ในการถดถอย

ก่อนอื่นบางครั้งคุณไม่มีทางเลือก: ตัวแปรอักขระหรือปัจจัย (ที่มีคนให้ข้อมูล data.frame ได้ตัดสินใจให้คุณ) เห็นได้ชัดว่ามีหมวดหมู่

นั่นทำให้เรามีตัวแปรตัวเลข คุณอาจถูกล่อลวงเพียงแค่ตรวจสอบว่าตัวแปรเป็นจำนวนเต็ม แต่นี่ไม่ใช่เกณฑ์ที่ดี: ดูที่บรรทัดแรกของรหัสด้านล่าง ( x1): นี่คือการสังเกต 1,000 ครั้งของค่าสองค่าและ : แม้ว่าสิ่งเหล่านี้จะเป็น ไม่ใช่จำนวนเต็มดูเหมือนว่าเป็นตัวแปรเด็ดขาดที่ชัดเจน สิ่งที่คุณสามารถทำได้สำหรับบางคนคือตรวจสอบว่ามีค่าที่แตกต่างกันมากมายในข้อมูลของคุณแม้ว่าเกณฑ์ที่คุณอาจใช้สำหรับเรื่องนี้จะเป็นเรื่องส่วนตัวฉันเดาว่า:2.51.52.5x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

ฉันมักจะบอกว่าตัวแปรที่มีค่าไม่ซ้ำกันเพียง 5% อาจเรียกได้ว่าปลอดภัย (ไม่ต่อเนื่อง อย่างไรก็ตามสิ่งนี้ไม่ได้ทำให้เป็นตัวเลือกที่ดีสำหรับการรวมไว้เป็นตัวแปรเด็ดขาดในแบบจำลองของคุณ: หากคุณมีการสังเกต 1000000 ครั้งและค่าที่ไม่ซ้ำกัน 5% ที่ยังคงมีค่า 50,000 หมวดหมู่: หากคุณรวมสิ่งนี้ไว้ในหมวดหมู่ กำลังจะใช้เวลากับอิสรภาพมากมาย

ฉันเดาว่าการโทรนี้เป็นแบบส่วนตัวมากขึ้นและขึ้นอยู่กับขนาดตัวอย่างและวิธีการเลือกเป็นอย่างมาก หากไม่มีบริบทเพิ่มเติมมันเป็นการยากที่จะให้แนวทางที่นี่

ดังนั้นตอนนี้คุณอาจมีตัวแปรบางอย่างที่คุณสามารถเพิ่มเป็นหมวดหมู่ในแบบจำลองของคุณ แต่คุณควร คำถามนี้สามารถตอบได้ (แม้ว่ามันจะขึ้นอยู่กับเป้าหมายของคุณอีกครั้ง) ด้วยการทดสอบอัตราส่วนความน่าจะเป็น: โมเดลที่ตัวแปรคือหมวดหมู่เป็นโมเดลซูเปอร์โมเดลที่มีตัวแปรเป็นตัวแปรต่อเนื่อง ดูนี่จินตนาการถดถอยเชิงเส้นในตัวแปรxที่เก็บค่าที่สาม0, และ1 2การปรับโมเดลให้เหมาะสม: โดยที่เป็นตัวบ่งชี้ตัวแปรจำลอง (มันเท่ากับ 1 ถ้า ) มีความยืดหยุ่นมากกว่า วิธีการปรับโมเดล x ฉัน x = = ฉันE [ y ] = β 0 + β 1 x E [ y ] = β 0 + β 1 x 1 + 2 β 1 x 2

E[y]=β0+β11x1+β12x2
xix==i
E[y]=β0+β1x
เพราะอันสุดท้ายเทียบเท่า
E[y]=β0+β1x1+2β1x2

ด้วยโครงสร้าง super / submodel คุณสามารถค้นหาว่ามีหลักฐานในข้อมูลที่จำเป็นต้องใช้โครงสร้างที่ซับซ้อนมากขึ้นหรือไม่โดยทำการทดสอบอัตราส่วนความน่าจะเป็น: 2 เท่าของโอกาสสูงสุดในการเข้าสู่ระบบที่แตกต่างกัน (โดยทั่วไประบุว่า deviance ใน R) ติดตามการด้วย df = ความแตกต่างของจำนวนพารามิเตอร์ (ในตัวอย่างด้านบน: 4 พารามิเตอร์ - 3 พารามิเตอร์)χ2


3
+1 ตัวอย่างที่ดีของการปรับปรุงคำถามแปลก ๆ พร้อมคำตอบที่ดี

1
ในความเป็นจริงแล้วสามารถแยกออกได้อย่างต่อเนื่องทำให้ฮิสโทแกรมแสดงให้เห็นว่ามันทำในทางปฏิบัติอย่างไร อาจเป็นไปได้ว่าฉันรวมข้อมูลนับ (ข้อมูลค่าจำนวนเต็ม) กับเด็ดขาด ... แม้ว่าการคาดเดาครั้งแรกของฉันเกี่ยวกับการแจกแจงแบบแยกและต่อเนื่องไม่ใช่แค่จุดข้อมูล (และนักวิจัยบ้าที่กำหนดค่าจริงให้กับหมวดหมู่) ดังนั้น ... เนื่องจากไม่คิดว่าจะแก้ปัญหา (+1)
Dmitrij Celov

1
ดูเหมือนว่า @Dmitrij ลบคำตอบของเขาคุณช่วยกรุณาแก้ไขคำตอบของคุณอีกครั้งเพื่อสะท้อนสิ่งนั้นได้ไหม มันเป็นคำตอบที่ยอดเยี่ยม (+1) ดังนั้นการอ้างอิงถึงเนื้อหาที่ไม่มีอยู่นั้นจะหลุดออกไปเล็กน้อย
mpiktas
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.