ปรับสเกลตัวแปรเป็นข้อมูลนับ - ถูกต้องหรือไม่?


10

ในบทความนี้ (ใช้ได้อย่างอิสระผ่าน PubMed กลาง) ผู้เขียนใช้การถดถอยแบบทวินามเชิงลบเพื่อทำแบบจำลองคะแนนในเครื่องมือคัดกรอง 10 ข้อที่มีคะแนน 0-40 ขั้นตอนนี้จะถือว่าข้อมูลมีการนับซึ่งเห็นได้ชัดว่าไม่ใช่ในกรณีนี้ ฉันต้องการความคิดเห็นของคุณว่าวิธีนี้เป็นที่ยอมรับหรือไม่เพราะบางครั้งฉันใช้เครื่องมือเดียวกันหรือวิธีที่คล้ายกันในการทำงานของฉัน ถ้าไม่ฉันต้องการทราบว่ามีทางเลือกที่ยอมรับได้หรือไม่ รายละเอียดเพิ่มเติมด้านล่าง:

มาตราส่วนที่ใช้คือแบบทดสอบความผิดปกติในการใช้แอลกอฮอล์ (AUDIT) ซึ่งเป็นแบบสอบถาม 10 ข้อที่ออกแบบมาเป็นเครื่องมือคัดกรองสำหรับความผิดปกติในการใช้แอลกอฮอล์และการดื่มสุรา / เป็นอันตราย เครื่องมือนี้ทำคะแนนจาก 0 ถึง 40 และโดยทั่วไปแล้วผลลัพธ์จะเอียงไปทางซ้ายอย่างมาก

เพื่อความเข้าใจของฉันการใช้ข้อมูลนับถือว่าค่าทั้งหมดที่ "นับ" เป็นอิสระจากกัน - ผู้ป่วยที่มาถึงแผนกฉุกเฉินในแต่ละวันจำนวนผู้เสียชีวิตในบางกลุ่มและอื่น ๆ ทั้งหมดเป็นอิสระจากกัน แม้ว่าจะขึ้นอยู่กับตัวแปรพื้นฐาน นอกจากนี้ฉันคิดว่าไม่สามารถนับจำนวนสูงสุดที่อนุญาตเมื่อใช้ข้อมูลนับได้ แต่ฉันคิดว่าสมมติฐานนี้สามารถผ่อนคลายได้เมื่อค่าสูงสุดทางทฤษฎีสูงมากเมื่อเปรียบเทียบกับค่าสูงสุดที่สังเกตได้ในข้อมูล?

เมื่อใช้ระดับ AUDIT เราไม่ได้นับจริง เรามี 10 รายการที่มีคะแนนรวมสูงสุด 40 ถึงแม้ว่าคะแนนสูงสุดนั้นจะไม่ค่อยเห็นในทางปฏิบัติ คะแนนในรายการมีความสัมพันธ์กันตามธรรมชาติ

สมมติฐานที่จำเป็นต้องใช้ข้อมูลนับจึงถูกละเมิด แต่นี่ยังเป็นวิธีที่ยอมรับได้หรือไม่? การละเมิดสมมติฐานมีความร้ายแรงเพียงใด? มีสถานการณ์บางอย่างที่วิธีนี้สามารถยอมรับได้มากกว่าหรือไม่? มีทางเลือกอื่นสำหรับวิธีการนี้ที่ไม่ได้เกี่ยวข้องกับการลดขนาดตัวแปรเป็นหมวดหมู่หรือไม่?

คำตอบ:


4

เครื่องมือ AUDIT นั้นเป็นระดับ Likert ชุดคำถาม (รายการ Likert) ซึ่งมีคำตอบอยู่บ่อย ๆ ในระดับห้าจุดถูกออกแบบมาเพื่อรับปรากฏการณ์ที่ซ่อนอยู่ ผลรวมของการตอบสนองต่อชุดคำถามมาตราส่วน Likert นั้นจะถูกใช้เป็นตัวชี้วัดของปรากฏการณ์พื้นฐาน แม้ว่ารายการ Likert มักจะโย "เห็นด้วยอย่างยิ่ง" กับ "เห็นด้วยอย่างยิ่ง" การประยุกต์ใช้ในการวัดแนวโน้มไปสู่การเป็น " lcohol U SE D isorders" ในเรื่องนี้ " ผมกําหนดTคือ" ตรงไปตรงมา

ดังที่ระบุไว้ในหน้าLikert scale Wikipedia "ว่ารายการ Likert แต่ละรายการสามารถพิจารณาเป็นข้อมูลระดับช่วงเวลาหรือว่าควรถือว่าเป็นข้อมูลที่มีการจัดหมวดหมู่หรือไม่ก็ตามเป็นเรื่องของความขัดแย้งที่มีนัยสำคัญในวรรณคดี วิธีการที่เหมาะสมที่สุด " ข้อโต้แย้งนี้อาจย้อนหลังไปกว่า 80 ปีนับตั้งแต่ Likert เสนอมาตราส่วนแรก: แต่ละขั้นตอนมีขนาดเท่ากันทั้งภายในและระหว่างรายการที่ประกอบขึ้นเป็นเครื่องชั่ง? ปัญหาได้รับการแก้ไขแล้วในการตรวจสอบข้ามเช่นเดียวกับคำตอบสำหรับคำถามนี้หนึ่งในคำถามที่เก่าที่สุดที่ถามในเว็บไซต์นี้

หากคุณยอมรับความคิดที่ว่าเครื่องชั่งมีขั้นตอนที่เหมือนกัน (หรือใกล้พอที่จะใส่ให้กับแอปพลิเคชันในมืออาจเฉลี่ยโดยเพิ่ม 10 รายการที่แตกต่างกันเช่นเดียวกับใน AUDIT) จากนั้นจึงเป็นไปได้หลายวิธีในการวิเคราะห์ หนึ่งคือการพิจารณาการตอบสนองต่อสเกลเป็นชุดของขั้นตอนที่เลือกหรือไม่เลือกที่จะเลื่อนระดับขึ้นโดยมีความน่าจะเป็นเหมือนกันในการเลื่อนขึ้นแต่ละขั้นตอน

สิ่งนี้ช่วยให้เราคิดว่า " ข้อมูลมาตราส่วน n-point Likert เป็นการทดลอง n จากกระบวนการทวินาม " ในคำถามปี 2010 จาก @MikeLawrence แม้ว่าการตอบคำถามจะไม่สนับสนุนความคิดนั้นอย่างมาก แต่ก็ไม่ยากนักที่จะหาการศึกษาในปี 2014ที่ใช้และขยายแนวทางนี้อย่างประสบความสำเร็จเพื่อแยกแยะประชากรย่อยด้วยความน่าจะเป็นของทวินามที่แตกต่างกัน แม้ว่ากระบวนการทวินามมักใช้ในการสร้างแบบจำลองข้อมูลการนับมันจึงสามารถใช้ในการทำแบบจำลองจำนวนการนับขั้นตอนที่บุคคลใช้ในระดับของ "ความผิดปกติในการใช้แอลกอฮอล์"

ตามที่ @ Scortchi ระบุไว้ในคำตอบของคำถามที่เชื่อมโยงในย่อหน้าที่สองข้อ จำกัด ของตัวแบบทวินามก็คือมันกำหนดความสัมพันธ์เฉพาะระหว่างค่าเฉลี่ยและความแปรปรวนของการตอบสนอง เชิงลบทวินามลบข้อ จำกัด ที่มีการสูญเสียของการตีความง่ายให้โดยรูปแบบทวินามที่เรียบง่าย ในการวิเคราะห์พารามิเตอร์พิเศษที่จำเป็นต้องมีความพอดีนั้นใช้เสรีภาพเพียงระดับเดียวเท่านั้น ในทางตรงกันข้ามการพยายามระบุความน่าจะเป็นที่แตกต่างกันสำหรับแต่ละขั้นตอนของ Likert 40 รายการและผลรวมของพวกเขาในระดับ Likert นั้นน่ากลัว

@MatthewGraves ที่บันทึกไว้ในคำตอบของเขาสำหรับคำถามนี้ว่าแบบจำลองทวินามลบนั้นเหมาะสมหรือไม่นั้นตอบได้ดีที่สุดโดยการตรวจสอบสิ่งตกค้าง ในการศึกษาดั้งเดิมที่พัฒนา AUDIT ค่า 8 หรือมากกว่านั้นในระดับ 40 จุดมีความจำเพาะและความไวที่สมเหตุสมผลสำหรับการแยกแยะผู้ที่วินิจฉัยว่าเป็น "การใช้แอลกอฮอล์ที่เป็นอันตรายหรือเป็นอันตราย" ใน 6 ประเทศที่แตกต่างกัน ดังนั้นบางทีรูปแบบทวินามสองประชากรจากประชากรที่มีความเสี่ยงสูงและมีความเสี่ยงต่ำซึ่งคล้ายกับการศึกษาปี 2014 ที่เชื่อมโยงข้างต้นน่าจะดีกว่า

ผู้ที่มีความสนใจในการสอบบัญชีโดยเฉพาะควรตรวจสอบการศึกษาเดิมที่ ตัวอย่างเช่นแม้ว่าความต้องการเครื่องดื่มตอนเช้าอาจดูเหมือนจะวัดสิ่งที่แตกต่างอย่างสิ้นเชิงจากความถี่ของการดื่มเนื่องจาก @SeanEaster คาดการณ์ว่าการดื่มตอนเช้ามีความสัมพันธ์แบบถ่วงน้ำหนักเท่ากับ 0.73 กับมาตรวัดปริมาณแอลกอฮอล์ (ผลลัพธ์นั้นไม่น่าแปลกใจสำหรับคนที่มีเพื่อนที่มีความผิดปกติในการใช้แอลกอฮอล์) AUDIT ดูเหมือนจะเป็นตัวอย่างที่ดีของการแลกเปลี่ยนที่จำเป็นในการพัฒนาเครื่องมือที่สามารถใช้อย่างน่าเชื่อถือในหลายวัฒนธรรม


ขอบคุณสำหรับคำตอบที่ดี เมื่อดูข้อมูล AUDIT ของฉันที่มีมากกว่า 20,000 คนรูปร่างจะดูใกล้เคียงกับการแจกแจงแบบทวินามลบดังนั้นจึงอาจมีเหตุผลที่จะใช้สมมติฐานการกระจายแบบนั้นหรืออาจใช้แบบจำลองกึ่งปัวซอง ถ้าเราใช้การแจกแจงทวินามโดยพิจารณาจากคะแนนที่ k สำเร็จจากการทดลองเบร์โนลลี 40 ครั้งเราจะไม่ประสบปัญหาร้ายแรงกับการกระจายเกินจริงหรือไม่? มันดูเป็นแบบนั้นในข้อมูลของฉัน อาจเป็นเสมือนทวินามเป็นทางเลือกได้หรือไม่?
JonB

ขึ้นอยู่กับว่าทำไมคุณถึงสร้างแบบจำลองคะแนน 0-40 AUDIT และการตีความแบบฮิวริสติกแบบใดที่คุณต้องการวางบนผลลัพธ์ หากสิ่งที่คุณต้องการคือความสัมพันธ์ของคะแนน AUDIT กับตัวแปรอื่น ๆ โดยมีเพียงการตีความที่ จำกัด ของค่าพารามิเตอร์การกระจายตัวเองให้ใช้การแจกแจงที่ให้ค่าคงที่ที่มีพฤติกรรมดี คำแนะนำของคุณเหมาะสม การติดตั้งทวินามแบบเดี่ยวกับข้อมูลนั้นเป็นปัญหา แต่การผสมผสานของ 2 ทวินาม (กลุ่มที่มีความเสี่ยงสูงและกลุ่มที่มีความเสี่ยงต่ำ) ที่มีค่าpต่างกันอาจเป็นข้อมูล ใช้วิจารณญาณของคุณตามความรู้ในเรื่องของคุณ
EdM

2

การกระจายแบบทวินามเชิงลบเป็นที่ต้องการสำหรับเหตุการณ์ไม่ต่อเนื่อง "ติดต่อกัน" การแจกแจงปัวซงจะใช้เมื่อเหตุการณ์ไม่ต่อเนื่องเป็นอิสระ การแจกแจงเหล่านี้ยังง่ายต่อการตัดโดยแทนที่จุดด้วยจุดโดยทั่วไปx 40x=40x40

ตามความคิดเห็นทั่วไปรสชาติที่แตกต่างของการถดถอยมีค่าพารามิเตอร์ที่ต่างกัน (เช่นการทำให้เป็นมาตรฐาน) และตัวแบบสัญญาณรบกวนที่แตกต่างกัน มาตรฐานการถดถอยกำลังสองน้อยสุดมีแบบจำลองเสียงเกาส์เซียน, การถดถอยเชิงลบแบบทวินามมีรูปแบบเสียงแบบทวินามเชิงลบ, และอื่น ๆ การทดสอบที่แท้จริงของแบบจำลองการถดถอยที่เหมาะสมหรือไม่นั้นเสียงที่ตกค้างจะมีการแจกแจงที่คาดหวังหรือไม่

ดังนั้นคุณสามารถนำการถดถอยแบบทวินามลบไปใช้กับข้อมูลของคุณคำนวณค่าตกค้างจากนั้นจึงทำการพล็อตพวกมันบนพล็อตความน่าจะเป็นแบบทวินามเชิงลบและดูว่าแบบจำลองนั้นเหมาะสมหรือไม่ หากเสียงนั้นมีโครงสร้างอย่างอื่นเราต้องมองหาโมเดลเสียงที่เหมาะกับโครงสร้างนั้นอย่างใกล้ชิดยิ่งขึ้น

การใช้เหตุผลจากตัวแบบกำเนิดไปยังโครงสร้างเสียงนั้นมีประโยชน์ - ถ้าเรารู้ว่าข้อมูลนั้นทวีคูณแทนที่จะเป็นสารเติมแต่งยกตัวอย่างเช่นเราไปหา lognormal แทนที่จะเป็นแบบปกติ - แต่ถ้าแบบจำลองกำเนิดที่คาดหวังและโครงสร้างเสียงไม่เห็นด้วย ไปกับข้อมูลไม่ใช่ความคาดหวัง


น่าสนใจฉันไม่รู้ว่าเหตุการณ์นั้นอาจ "ติดต่อกัน" คุณหมายถึงอะไรโดยการแทนที่ x = 40 ด้วย x> = 40 ในทางปฏิบัติ ฉันจะแปลงความน่าจะเป็นแบบทวินามลบใน R ได้อย่างไร ฉันคิดว่าคุณไม่ได้หมายถึงพล็อตที่เหลือกับค่าติดตั้ง? คุณหมายถึงเหมือนพล็อต QQ หรือไม่?
JonB

@JonB สมมติว่าคุณมีทวินามลบด้วย r = 1 และความน่าจะเป็นสำเร็จ p = 0.9 ความน่าจะเป็นที่จะมีชีวิตรอดจากการทดลอง 40 ครั้งเท่ากับ 0.148% ความน่าจะเป็นที่จะมีชีวิตรอดจากการทดลอง 40 ครั้งขึ้นไปคือ 1.48% ดังนั้นหนึ่งสามารถกำหนดความน่าจะเป็นที่เกิดขึ้นอย่างดีในโดเมน [0,40] โดยใช้ทวินามลบสำหรับ [0,39] และจากนั้นตั้งค่า [40] เพื่อให้ผลรวมเป็นหนึ่งซึ่งเนื่องจากการแจกแจงทวินามลบนั้นดี - ที่เกิดขึ้นคือความน่าจะเป็นที่ 40 หรือมากกว่านั้น
Matthew Graves

@ จอนอย่างแน่นอนฉันหมายถึงเหมือนพล็อต QQ ฉันไม่ได้ทำมาก่อนใน R แต่ฉันหวังว่าลิงก์นี้จะช่วยได้
Matthew Graves

1
ฉันทำการทดสอบข้อมูลบางอย่างด้วยคะแนน AUDIT เมื่อสร้างพล็อต qq ฉันต้องสร้างเวกเตอร์แบบสุ่มของผลลัพธ์จากการแจกแจงแบบทวินามลบ mu / theta ถูกกำหนดโดยโมเดลการถดถอยของฉัน แต่ฉันจะรู้ได้อย่างไรว่า "ขนาด" ที่ใช้? ฉันขอโทษถ้านี่เป็นคำถามเฉพาะเกี่ยวกับ R อย่างไรก็ตามคุณมีการอ้างอิงที่ดีที่ฉันสามารถอ่านเพิ่มเติมเกี่ยวกับการใช้ทวินามลบ (และการแจกแจงอื่น ๆ ) กับเครื่องชั่งประเภทนี้ที่สร้างขึ้นโดยการรวมหลายรายการที่วัดชนิด ของกระบวนการเดียวกัน
JonB

ฉันทำการทดลองเพิ่มเติมในตอนนี้ ฉันจำลองชุดข้อมูลที่มีสองตัวแปร: x และ y 50% คือ x = 0, 50% คือ x = 1 ผู้ที่เป็น x = 0 มีความน่าจะเป็น 0.2 สำหรับ y = 1 และผู้ที่เป็น x = 1 มีความน่าจะเป็น 0.4 สำหรับ y = 1 จากนั้นฉันก็ทำการถดถอยโลจิสติกส์และดูที่เหลือ อย่ามองการกระจายแบบทวินามเลย ในความเป็นจริงพวกเขา (แน่นอน) ใช้ค่าเฉพาะ 4 คุณแน่ใจหรือไม่ว่ารูปแบบที่เหลือควรตรงกับสมมติฐานการกระจาย เพราะในกรณีนี้มันผิดอย่างชัดเจน
JonB
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.