ความแตกต่างของกลุ่มในรายการ Likert ห้าจุด


22

ทำตามจากคำถามนี้ : ลองจินตนาการว่าคุณต้องการทดสอบความแตกต่างของแนวโน้มกลางระหว่างสองกลุ่ม (เช่นผู้ชายและผู้หญิง) ในรายการ Likert 5 จุด (เช่นความพึงพอใจกับชีวิต: ไม่พอใจต่อความพึงพอใจ) ฉันคิดว่าการทดสอบแบบ t จะมีความแม่นยำเพียงพอสำหรับวัตถุประสงค์ส่วนใหญ่ แต่การทดสอบ bootstrap ของความแตกต่างระหว่างกลุ่มหมายความว่ามักจะให้การประมาณช่วงความมั่นใจที่แม่นยำยิ่งขึ้น คุณจะใช้การทดสอบทางสถิติแบบใด


2
คำถามที่เกี่ยวข้อง: ผู้คนมักใช้การทดสอบ Mann-Whitney แบบไม่มีพารามิเตอร์สำหรับข้อมูลประเภทนี้ เนื่องจากมีค่าที่เป็นไปได้เพียงห้าค่าเท่านั้นจึงจะมีอันดับที่ผูกกันมาก การทดสอบ Mann-Whitney เป็นการปรับสำหรับอันดับที่ผูก แต่การปรับนี้จะทำงานเมื่อมีความสัมพันธ์จำนวนมากหรือไม่?
Harvey Motulsky

5
คุณอาจจะสนใจในบทความล่าสุดนี้ตีพิมพ์ใน PARE, ห้าจุด Likert รายการ: การทดสอบเมื่อเทียบกับเสื้อ Mann-Whitney-Wilcoxon , j.mp/biLWrA
chl

ฉันไม่แน่ใจว่าการทดสอบไคสแควร์นั้นเหมาะสมหรือไม่นั้นจะทดสอบว่ามีการพึ่งพาระหว่างกลุ่มและรายการหรือไม่ (การกระจายระหว่างกลุ่มที่แตกต่างกัน)
pe-pe-rry

คำตอบ:


12

Clason & Dormody กล่าวถึงปัญหาของการทดสอบทางสถิติสำหรับรายการ Likert (การวิเคราะห์ข้อมูลที่วัดโดยรายการประเภท Likert แต่ละรายการ ) ฉันคิดว่าการทดสอบ bootstrapped นั้นใช้ได้เมื่อการแจกแจงสองแบบนั้นดูคล้ายกัน (รูประฆังและความแปรปรวนเท่ากัน) อย่างไรก็ตามการทดสอบสำหรับข้อมูลเด็ดขาด (เช่นแนวโน้มหรือการทดสอบฟิชเชอร์หรือถดถอยโลจิสติลำดับ) จะน่าสนใจมากเกินไปเพราะมันจะช่วยให้การตรวจสอบสำหรับการกระจายการตอบสนองในแต่ละประเภทรายการให้ดูหนังสืออาเกรสติในหมวดหมู่การวิเคราะห์ข้อมูล (บทที่ 7 ในรุ่น Logit สำหรับ คำตอบพหุนาม )

นอกเหนือจากนี้คุณสามารถจินตนาการถึงสถานการณ์ที่การทดสอบ t-test หรือการทดสอบที่ไม่ใช่พารามิเตอร์อื่น ๆ จะล้มเหลวหากการกระจายการตอบสนองไม่สมดุลกันอย่างมากระหว่างสองกลุ่ม ตัวอย่างเช่นถ้าทุกคนจากกลุ่ม A คำตอบ 1 หรือ 5 (ในสัดส่วนเท่ากัน) ในขณะที่ทุกคนในกลุ่ม B ตอบ 3 คุณจะได้ค่าเฉลี่ยภายในกลุ่มเหมือนกันและการทดสอบนั้นไม่มีความหมาย แต่ในกรณีนี้ ข้อสันนิษฐานเรื่องรักร่วมเพศถูกละเมิดส่วนใหญ่


บทความ Clason and Dormody ดูดี ความเห็นเกี่ยวกับการกระจายคำตอบของคุณน่าสนใจ ฉันยอมรับว่าความแตกต่างในการแจกแจงอาจเป็นที่สนใจ แต่ถ้าคุณสนใจว่ากลุ่มประชากรมีความแตกต่างกันหรือไม่มันไม่สำคัญว่าการกระจายตัวจะทำให้เกิดความเท่าเทียมกัน
Jeromy Anglim

ในกรณีนี้คุณกำลังสมมติว่าขนาด Likert ของคุณ (ในคำอื่น ๆ ความแตกต่างระหว่างการรับรู้เช่นความพึงพอใจมากและ "เพียงแค่" ความพึงพอใจ) จะทำงานอย่างสมบูรณ์และรับรู้ว่ามีความหมายเดียวกันในประชากรทั้งสอง ดังนั้นคุณจึงตั้งสมมติฐานโดยปริยายว่านี่เป็นมาตราส่วนตัวเลข แต่ฉันยอมรับว่านี่มักถูกพิจารณาว่าเป็นเช่นนี้ในการวิจัยประยุกต์โดยเฉพาะอย่างยิ่งหากผู้เข้าร่วมมาจากประเทศเดียวกัน ประเด็นของฉันคือเพื่อเน้นมุมมองการวิเคราะห์ข้อมูลที่เป็นหมวดหมู่ซึ่งมักพบในประเพณีการวิเคราะห์ปัจจัยเช่นในการตอบคำถาม # 10
chl

ฉันคิดว่าค่าเฉลี่ยของกลุ่มตัวอย่างที่ตอบสนองต่อรายการ Likert นั้นเป็นบทสรุปที่มีความหมายของตำแหน่งของกลุ่มในมิติข้อมูลอ้างอิง เป็นเรื่องที่น่าสนใจที่จะพิจารณาว่าความหมายของรายการ Likert จะแตกต่างกันอย่างเป็นระบบระหว่างกลุ่มเมื่อใด แน่นอนว่าปัญหานี้ขยายเกินกว่ารายการ Likert ซึ่งอาจเป็นไปตามขั้นตอนการวัดอัตนัยใด ๆ
Jeromy Anglim

8

ขึ้นอยู่กับขนาดของชุดข้อมูลที่เป็นปัญหาการทดสอบการเปลี่ยนรูปอาจจะดีกว่า bootstrap โดยที่มันอาจให้การทดสอบสมมติฐานที่แน่นอน (และ CI ที่แน่นอน)


4

IMHO คุณไม่สามารถใช้การทดสอบ t สำหรับเครื่องชั่ง Likert มาตราส่วน Likert นั้นเป็นอันดับและ "รู้" เท่านั้นเกี่ยวกับความสัมพันธ์ของค่าของตัวแปร: เช่น "ไม่พอใจทั้งหมด" เลวร้ายยิ่งกว่า "ไม่พอใจอย่างใด" การทดสอบ t ในทางกลับกันจำเป็นต้องคำนวณหาวิธีการและอื่น ๆ และต้องการข้อมูลช่วงเวลา คุณสามารถแมปคะแนน Likert กับข้อมูลช่วงเวลา ("ไม่พอใจทั้งหมด" คือ 1 และต่อ ๆ ไป) แต่ไม่มีใครรับประกันว่า "ไม่พอใจทั้งหมด" เป็นระยะทางเดียวกันกับ "ไม่พอใจอย่างใด" ในขณะที่ "ไม่พอใจอย่างใด โดยวิธีการ: อะไรคือความแตกต่างระหว่าง "ไม่พอใจทั้งหมด" และ "ไม่พอใจอย่างใด" ดังนั้นในที่สุดคุณจะต้องทำการทดสอบ t บนค่ารหัสของข้อมูลอันดับของคุณ แต่นั่นก็ไม่สมเหตุสมผลเลย


9
... และยังทำกันทั่วไป มีสิ่งหนึ่งที่ชี้ให้เห็นและใช่นี่เป็นเรื่องหยิ่งยโสเล็กน้อยหากคุณกำลังใช้รายการประเภท Likert เดียวที่ไม่ใช่มาตราส่วน Likert ความแตกต่างมีความหมาย (แม้ว่าผู้ถามคำถามกำลังพูดถึงรายการ Likert และกฎเป็นปัญหา) มาตราส่วน Likert เป็นผลมาจากการรวมหรือเฉลี่ยหลายรายการ Likert วิธีการนี้ได้รับการพัฒนาขึ้นโดยเฉพาะเพื่อชดเชยขอบเขตที่ข้อมูลเชิงอันดับเป็นจริงลำดับและทำให้มีเหตุผลมากขึ้นที่จะได้รับการปฏิบัติเหมือนอยู่ในช่วงเวลา
russellpierce

3

หากแต่ละรายการในแบบสอบถามเป็นลำดับและฉันไม่คิดว่าประเด็นนี้สามารถโต้แย้งได้ว่าไม่มีวิธีใดที่จะทราบว่าความแตกต่างเชิงปริมาณระหว่าง "เห็นด้วยอย่างยิ่ง" และ "เห็นด้วย" นั้นเหมือนกับในระหว่าง " ไม่เห็นด้วยอย่างยิ่ง "และ" ไม่เห็นด้วย "แล้วเหตุใดการรวมกันของมาตราส่วนระดับลำดับเหล่านี้ทั้งหมดจึงสร้างค่าที่แบ่งปันคุณสมบัติของข้อมูลระดับช่วงเวลาจริง

ตัวอย่างเช่นหากเราตีความผลลัพธ์จากคลังความหดหู่ใจมันก็ไม่สมเหตุสมผล (สำหรับฉันอย่างน้อย) ที่จะบอกว่าคนที่มีคะแนน "20" นั้นหดหู่เป็นสองเท่าของคนที่มีคะแนน " 10" นี่เป็นเพราะแต่ละรายการในแบบสอบถามไม่ได้วัดความแตกต่างที่แท้จริงในระดับของภาวะซึมเศร้า (สมมติว่าภาวะซึมเศร้านั้นเป็นความผิดปกติที่มีความมั่นคง intenal และอินทรีย์) แต่เป็นการประเมินอัตนัยของบุคคลที่เห็นด้วยกับข้อความเฉพาะ เมื่อถูกถามว่า "คุณรู้สึกหดหู่เพียงใดว่าอารมณ์ของคุณอยู่ในระดับ 1-4, 1 รู้สึกหดหู่มากและ 4 ไม่รู้สึกแย่" ฉันจะรู้ได้อย่างไรว่าผู้ให้คะแนนอัตนัย 1 คนของผู้ตอบนั้นเหมือนกับผู้ตอบอีกคนหนึ่ง ? หรือฉันจะทราบได้อย่างไรว่าความแตกต่างระหว่าง 4 และ 3 นั้นเหมือนกับของ 3 และ 4 ในแง่ของบุคคล ' ระดับของภาวะซึมเศร้าในปัจจุบันหากเราไม่สามารถรู้สิ่งใดสิ่งนี้ได้มันก็ไม่มีเหตุผลใดที่จะจัดการกับผลรวมของรายการลำดับทั้งหมดเหล่านี้เป็นข้อมูลระดับช่วงเวลา แม้ว่าข้อมูลจะสร้างการแจกแจงแบบปกติฉันไม่คิดว่ามันเหมาะสมที่จะปฏิบัติต่อความแตกต่างระหว่างคะแนนเป็นข้อมูลระดับช่วงเวลาหากคำนวณโดยเพิ่มการตอบกลับทั้งหมดลงในรายการที่ชอบ การกระจายข้อมูลแบบปกติหมายถึงการตอบสนองอาจเป็นตัวแทนของประชากรที่ยิ่งใหญ่กว่า มันไม่ได้หมายความว่าค่าที่ได้รับจากสินค้าคงคลังแบ่งปันคุณสมบัติที่สำคัญของข้อมูลระดับช่วงเวลา ไม่คิดว่ามันเหมาะสมที่จะรักษาความแตกต่างระหว่างคะแนนเป็นข้อมูลระดับช่วงเวลาถ้าพวกเขาถูกคำนวณโดยการเพิ่มการตอบสนองทั้งหมดไปยังรายการ likert การกระจายข้อมูลแบบปกติหมายถึงการตอบสนองอาจเป็นตัวแทนของประชากรที่ยิ่งใหญ่กว่า มันไม่ได้หมายความว่าค่าที่ได้รับจากสินค้าคงคลังแบ่งปันคุณสมบัติที่สำคัญของข้อมูลระดับช่วงเวลา ไม่คิดว่ามันเหมาะสมที่จะรักษาความแตกต่างระหว่างคะแนนเป็นข้อมูลระดับช่วงเวลาถ้าพวกเขาถูกคำนวณโดยการเพิ่มการตอบสนองทั้งหมดไปยังรายการ likert การกระจายข้อมูลแบบปกติหมายถึงการตอบสนองอาจเป็นตัวแทนของประชากรที่ยิ่งใหญ่กว่า มันไม่ได้หมายความว่าค่าที่ได้รับจากสินค้าคงคลังแบ่งปันคุณสมบัติที่สำคัญของข้อมูลระดับช่วงเวลา

เราจำเป็นต้องระวังในพฤติกรรมศาสตร์เกี่ยวกับวิธีการที่เราใช้สถิติเพื่อพูดคุยกับตัวแปรแฝงที่เรากำลังศึกษาเพราะไม่มีวิธีการโดยตรงของการวัดการสร้างสมมุติเหล่านี้จะมีปัญหาที่สำคัญเมื่อเราพยายามที่จะหาจำนวนเรื่องพวกเขา การทดสอบแบบพารามิเตอร์ อีกครั้งเพียงเพราะเราได้กำหนดค่าให้กับชุดการตอบกลับไม่ได้หมายความว่าความแตกต่างระหว่างค่าเหล่านี้มีความหมาย


1
หากคุณมีความสุขในการรวมคะแนนรายการคุณได้สมมติระดับการวัดตามลำดับอย่างเคร่งครัดแล้ว มาตรการพูดที่เคร่งครัดไม่สามารถเพิ่มหรือหาค่าเฉลี่ยได้อย่างมีความหมาย (โดยบังเอิญสตีเวนส์มีความชัดเจนเกี่ยวกับเรื่องนั้น) เมื่อคุณทำเช่นนั้นแล้วการรักษาคะแนนที่ได้เนื่องจากข้อมูลระดับช่วงนั้นเหมาะสมอย่างสมบูรณ์
งานเลี้ยง

0

แบบจำลองอัตราส่วนอัตราต่อรองจะดีกว่าแล้วทดสอบ t สำหรับสเกลของรายการ Likert


1
คุณต้องการอธิบายเหตุผลของคุณหรือไม่ ฉันสามารถดูว่าแบบจำลองดังกล่าวอาจให้แบบจำลองที่มีความแม่นยำมากขึ้นของการตอบสนองที่สังเกตได้อย่างไร อย่างไรก็ตามในสถานการณ์การวิจัยเชิงปฏิบัติทั่วไปที่ฉันได้เห็นนักวิจัยมีความสนใจว่าทั้งสองกลุ่มแตกต่างกันในแง่ของค่าเฉลี่ยหรือไม่ (เช่นกลุ่มการฝึกอบรมรายงานผลการดำเนินงานที่ดีกว่าการควบคุม) ความพึงพอใจของนักเรียนสูงกว่าหนึ่งปี ) แบบจำลองสัดส่วนอัตราต่อรองไม่ได้ทดสอบคำถามนี้เท่าที่ฉันรู้
Jeromy Anglim

0

ฉันจะพยายามอธิบายตัวแบบอัตราส่วนอัตราต่อรองในบริบทนี้เนื่องจากมีการแนะนำและระบุไว้อย่างน้อย 2 คำตอบสำหรับคำถามนี้

การทดสอบคะแนนของโมเดลอัตราต่อรองเทียบเท่ากับการทดสอบผลรวมลำดับของ Wilcoxon

แม่นยำยิ่งขึ้นสถิติการทดสอบคะแนนสำหรับไม่มีผลกระทบของ cichariate dichotomous เดียวในรูปแบบการถดถอยการสะสมโลจิสติกแบบสัดส่วนสัดส่วน (McCullagh 1980) สำหรับผลลำดับแสดงให้เท่ากับสถิติการทดสอบผลรวมอันดับ Wilcoxon (พิสูจน์ในส่วนขยายของการทดสอบ Wilcoxon Rank-Sum สำหรับข้อมูลการสำรวจตัวอย่างที่ซับซ้อน )

เช่นเดียวกับการทดสอบผลรวมลำดับของ Wilcoxon การทดสอบนี้ตรวจสอบว่ามีสองตัวอย่างถูกดึงมาจากการแจกแจงที่แตกต่างกันโดยไม่คำนึงถึงค่าที่คาดหวัง

การทดสอบนี้ไม่ถูกต้องหากคุณต้องการตรวจสอบว่ามีการสุ่มตัวอย่างสองตัวอย่างจากการแจกแจงที่มีค่าที่แตกต่างกันหรือไม่เช่นเดียวกับการทดสอบผลรวมลำดับของ Wilcoxon

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.