ควรจำแนกประเภทของข้อมูล (ชื่อ / ลำดับ / ช่วงเวลา / อัตราส่วน) จริงหรือไม่?


10

ตัวอย่างเช่นนี่คือคำจำกัดความที่ฉันได้รับจากหนังสือเรียนมาตรฐาน

Variable - ลักษณะของประชากรหรือกลุ่มตัวอย่าง อดีต ราคาหุ้นหรือเกรดจากการทดสอบ

ข้อมูล - ค่าที่สังเกตได้จริง

ดังนั้นสำหรับรายงานสองคอลัมน์ [ชื่อ | รายได้] ชื่อคอลัมน์จะเป็นตัวแปรและค่าที่สังเกตได้จริง {dave | 100K}, {jim | 200K} จะเป็นข้อมูล

ดังนั้นถ้าฉันบอกว่าคอลัมน์ [ชื่อ] เป็นข้อมูลที่ระบุและ [รายได้] เป็นข้อมูลอัตราส่วนฉันจะไม่ถูกต้องมากกว่าที่จะอธิบายว่ามันเป็นตัวแปรชนิดหนึ่งแทนที่จะเป็นประเภทข้อมูลที่ตำราเรียนส่วนใหญ่ทำหรือไม่ ฉันเข้าใจว่านี่อาจเป็นความหมายและก็ไม่เป็นไรนั่นคือทั้งหมดที่มีเช่นกัน แต่ฉันกลัวว่าฉันอาจจะพลาดบางสิ่งบางอย่างที่นี่


ไม่ตีฉันเป็นความแตกต่างที่มีความหมาย; ฉันจะพิจารณาทั้งประโยคที่ยอมรับได้เป็นการส่วนตัว คำนิยามของ "ตัวแปร" ดูเหมือนเล็กน้อย
Nick Stauner

2
@Nick ฉันเชื่อว่าถ้าเราแปล "คุณสมบัติ" ภาษาพูดเป็นคณิตศาสตร์ "ฟังก์ชั่นมูลค่าที่แท้จริง" เราจะได้รับส่วนหนึ่งของคำนิยามของตัวแปรสุ่ม (แน่นอนว่าส่วนที่ขาดหายไปนั้นสามารถวัดได้ด้วยความเคารพในสนามซิกมาของประชากร) โดยปกติเราจะแปล "ลักษณะของตัวอย่าง" เป็นสถิติทางเทคนิค: บางทีนั่นอาจเป็นสิ่งที่คุณอ้างถึงว่าเป็น "น้อยไปหน่อย" ด้วยการแปลเหล่านี้ตัวแปรไม่มี "ประเภท" ในความหมายของ Stevens (เราสามารถแยกความแตกต่างจากการกระจายอย่างต่อเนื่องเท่านั้น) - แต่ข้อมูลบางอย่างสามารถ
whuber

คำตอบ:


16

สตีเว่นการจำแนกประเภทขนาดไม่จำเป็นต้องเป็นบางลักษณะโดยธรรมชาติของตัวแปรหรือข้อมูลได้เอง แต่วิธีที่เราจัดการข้อมูล - ของสิ่งที่เรากำลังใช้มันจะหมายถึง

ในบางสถานการณ์ค่าเดียวกันอาจถูกพิจารณาว่าเป็นอัตราส่วนช่วงเวลาเลขลำดับหรือค่าเล็กน้อยขึ้นอยู่กับสิ่งที่เราทำกับมัน - มันเป็นเรื่องของความหมายที่เราให้ค่าซึ่งสามารถเปลี่ยนจากการวิเคราะห์ครั้งต่อไปเป็นการวิเคราะห์ถัดไป การจำแนกประเภทของสตีเวนส์มีคุณค่าบางอย่าง แต่มันก็ไม่ได้เป็นการกำหนดที่มากเกินไปเกี่ยวกับมัน

ปัญหาของความสำคัญของการปรับมาตราส่วนตามความหมายนี้ย้อนกลับไปอย่างน้อยก็ถึงท่านลอร์ด (1953) ผู้เสนอตัวอย่างที่มีทั้งการตีความเล็กน้อยและช่วงเวลาของตัวเลขชุดเดียวกัน

ประเด็นนี้ชัดเจนยิ่งขึ้นโดย Velleman และ Wilkinson (1993) ผู้เสนอตัวอย่างของคนที่ได้รับตั๋วหมายเลขต่อเนื่องเมื่อเข้าสู่แผนกต้อนรับด้วยรางวัลที่ได้รับรางวัลหนึ่งในตั๋ว ขึ้นอยู่กับการใช้งานของตัวเลขบนตั๋วพวกเขามีการตีความในเกล็ดทั้งสี่

ตัวอย่างเช่น 'ฉันชนะได้หรือไม่' เป็นคำถามที่ปฏิบัติตามหมายเลขเล็กน้อยขณะที่ 'ฉันมาถึงเร็วเกินไปที่จะรับตั๋วที่ชนะหรือไม่' เป็นคำถามที่ถือว่าเป็นลำดับ ในอีกทางหนึ่ง (และฉันไม่คิดว่าอันนี้อยู่ในกระดาษ) โดยใช้หมายเลขตั๋วสุ่ม 5 ใบเพื่อประเมินจำนวนคนในห้องจะถือว่าพวกเขาเป็นอัตราส่วน (เช่นถ้ามีตัวเลขสุ่ม 4 ตัวที่ได้รับ รางวัลชมเชยคุณจะมี 5 หมายเลขสุ่มพร้อมกันเพื่อประเมินการเข้าร่วมทั้งหมด)

พวกเขายืนยันว่า "การวิเคราะห์ข้อมูลที่ดีไม่ถือว่าประเภทข้อมูล", "หมวดหมู่ของสตีเวนส์ไม่ได้อธิบายคุณลักษณะถาวรของข้อมูล", "หมวดหมู่ของสตีเวนส์ไม่เพียงพอที่จะอธิบายสเกลข้อมูล" และ "ขั้นตอนสถิติไม่สามารถจำแนกได้ตามเกณฑ์ของสตีเว่น" แต่ละคำสั่งยังเป็นชื่อส่วน)

มีการวิพากษ์วิจารณ์ในหลายสถานที่โดย Tukey (เช่นในบทที่ 5 ของ Mosteller และ Tukey ในปี 1977 การวิเคราะห์ข้อมูลและการถดถอยของหนังสือ) Mosteller และ Tukey เสนอ typology - ชื่อ , เกรด (ป้ายสั่งซื้อ) อันดับ (ตั้งแต่วันที่ 1 ซึ่งอาจเป็นตัวแทนของทั้งสองที่ใหญ่ที่สุดหรือมีขนาดเล็กที่สุด) เศษส่วนนับ (กระโดดจากศูนย์และหนึ่งเหล่านี้รวมถึงร้อยละ) นับ (ที่ไม่ใช่เชิงลบ จำนวนเต็ม) จำนวน ( จำนวนจริงที่ไม่เป็นลบ) ยอดคงเหลือ (ค่าไม่ จำกัด จำนวนค่าบวกหรือค่าลบ)

ในงานของฉันเองฉันได้เห็นสถานการณ์ที่มีปัญหารุนแรงกับการวิเคราะห์เกิดจากคนที่ไม่เห็นคุณค่าของความแตกต่างระหว่างตัวแปรที่เกี่ยวข้องกับระดับ (บางครั้งเรียกว่าตัวแปร 'หุ้น') และกระแส - ตัวอย่างง่ายๆของประเภทนี้คือความแตกต่าง ในรูปแบบของการวิเคราะห์ที่เหมาะสมกับปริมาณน้ำจริงในถังเก็บในแต่ละช่วงเวลาและปริมาณน้ำที่ไหลเข้ามา สิ่งเหล่านี้จะ (ในบางกรณี) ทั้งสองประเภทย่อยของ Mosteller และประเภท Tukey ' จำนวน ' (และในกรณีเดียวกันทั้งสองตัวแปรอัตราส่วนในรูปแบบของ Stevens) แสดงว่าประเด็นของ typology อาจค่อนข้างบอบบาง แต่ ยังสามารถส่งผลกระทบต่อการวิเคราะห์ที่เหมาะสมอย่างยิ่ง

PFVelleman และ L.Wilkinson (1993),
"Nominal, Ordinal, Interval, และ Typologies Typologies จะทำให้เข้าใจผิด"
สถิติชาวอเมริกัน , vol. 47 no.1 pp.65-72

(ดูเหมือนว่าจะเป็นเวอร์ชั่นที่ใช้งานได้ที่หน้าผู้เขียนคนที่ 2 ที่นี่ )

ลอร์ดเอฟ (1953)
"ในการรักษาสถิติของตัวเลขฟุตบอล"
อเมริกันนักจิตวิทยา , 8 , pp.750-751

(ปีของบทความนี้ได้รับอย่างไม่ถูกต้องในการอ้างอิงของรุ่นของกระดาษ Velleman และ Wilkinson ฉันเชื่อมโยงกับ แต่ถูกอ้างถึงอย่างถูกต้องในร่างกายของกระดาษ)


ขอบคุณ คำตอบอย่างละเอียดมาก ฉันกำลังคิดตามบรรทัดเหล่านั้น แต่เมื่อทำการวิจัยสิ่งนี้หลายครั้งพวกเขาทำให้ดูเหมือนว่ามันเป็นรูปธรรมและได้รับฉันทามติ นั่นเป็นเหตุผลที่ฉันลงเอยที่นี่
ผู้ใช้ 42

แบบแผนของ Stevens ได้รับการถกเถียงและโต้แย้งตั้งแต่เผยแพร่ครั้งแรก มันเป็นกรอบการทำงานที่มีประโยชน์บางครั้งไม่ใช่ทฤษฎีบท
Glen_b -Reinstate Monica

มี "รายการโปรดใหม่" นอกเหนือจาก Stevens และ Mosteller หรือไม่? ในตัวอย่างระดับ / กระแสถ้าฉันเข้าใจคุณถูกต้องทั้งคู่มีประเภทเดียวกัน แต่ต้องได้รับการปฏิบัติแตกต่างกันอย่างไร คุณอธิบายความแตกต่างนี้ได้ไหม และวิธีการเช่นการแปลงบันทึกของค่าที่เหมาะสมกับการจำแนกประเภทนี้? ขอบคุณ
Erich Schubert

1. ฉันไม่รู้ถึงความพยายามครั้งล่าสุดที่จะทำ - และฉันคิดว่าพวกเขาไม่จำเป็นต้องมีประโยชน์เพราะพวกเขามักจะทำให้คนหันมาวิเคราะห์ที่เหมาะสมน้อยกว่า (ดูบทความของลอร์ดสำหรับตัวอย่างของเล่น แต่ผลที่ตามมาสำหรับการวิเคราะห์คือ จริงมาก - รายการการวิเคราะห์เหล่านั้นแยกตามประเภททำให้ไม่มีการวิเคราะห์ทางสถิติที่น่ากลัวในขณะที่ตัดสถิติจำนวนมหาศาลออกจากการพิจารณาในสถานการณ์ที่เหมาะสม) .. ctd
Glen_b -Reinstate Monica

ctd ... 2. ตัวอย่างหนึ่งของการที่ระดับและการไหลแตกต่างกันมาก: โปรดทราบว่าหากคุณดูที่ระดับในแต่ละวันระดับของวันนี้จะเป็นระดับก่อนหน้านี้บวกกับการเข้า - ออกหรือไหล (หรือผลรวมของทั้งคู่ ถ้าเป็นไปได้ทั้งคู่) ดังนั้นการวัดระดับจึงจำเป็นต้องพึ่งพา มันไม่สมเหตุสมผลที่จะปฏิบัติต่อพวกเขาราวกับว่าพวกเขาเป็นอิสระ แต่ฉันเห็นคนทำตลอดเวลา 3. ฉันไม่แน่ใจว่าสิ่งที่คุณถามเกี่ยวกับสิ่งที่บันทึก คุณชัดเจนเกี่ยวกับอันนั้นมากกว่านี้ไหม? ประเภทไหน (โปรดทราบว่าฉันพูดถึงมากกว่าหนึ่ง)?
Glen_b -Reinstate Monica

1

ชนิดของข้อมูลเกี่ยวข้อง แต่ไม่เหมือนกับชนิดของตัวแปร กรณีส่วนใหญ่พวกเขาเหมือนกัน แต่พวกเขาไม่จำเป็นต้องเป็น

ตัวอย่างเช่นถ้าคุณรวบรวมตัวอย่าง N จากการแจกแจงแบบปกติ คุณคิดว่ามันเป็นข้อมูลตัวเลข (อัตราส่วนหรือสเกล) แต่ฉันสามารถพูดได้ว่ามันเป็นตัวแปรเด็ดขาดที่มีหมวดหมู่ N ที่แตกต่างกันด้วยความถี่ 1 สำหรับแต่ละหมวดหมู่ มันดูโง่ แต่ก็เป็นตัวแปรที่ถูกต้อง


ดูเหมือนว่าจะขัดแย้งกับสตีเวนส์เพียงเล็กน้อย (ซึ่งได้รับเครดิตจากการกำหนดประเภทนี้) ผู้เขียนว่า "ปัญหาที่แท้จริงคือความหมายของการวัด" แม้ว่าคุณอาจเลือกที่จะปฏิบัติต่อข้อมูลดังกล่าวเป็นเพียงเล็กน้อย แต่ก็ไม่ได้ทำให้พวกเขาระบุในการประมาณค่าของ Stevens กระดาษของเขาที่มีอยู่ในgaius.fpce.uc.pt/niips/novoplano/mip1/mip1_201314/scales/...
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.