สูตรพยากรณ์ของสเปียร์แมน - บราวน์ได้รับผลกระทบจากคำถามที่มีปัญหาต่างกันอย่างไร


10

ผลลัพธ์ของสูตรพยากรณ์ Spearman-Brown ได้รับผลกระทบอย่างไรจากการมีคำถามทดสอบที่แตกต่างกันของความยากลำบากหรือผู้ให้คะแนนที่ง่ายหรือยาก มีข้อความหนึ่งที่กล่าวว่า SB ได้รับผลกระทบ แต่ไม่ได้ให้รายละเอียด (ดูใบเสนอราคาด้านล่าง)

Guion, R. M (2011) การประเมินการวัดและการทำนายสำหรับการตัดสินใจของบุคลากรรุ่นที่ 2 หน้า 477

"ความน่าเชื่อถือสามารถเพิ่มขึ้นได้โดยการรวมผู้ประเมินโดยใช้สมการ Spearman-Brown ... หากความน่าเชื่อถือของการจัดอันดับครั้งเดียวคือ 0.50 ความน่าเชื่อถือของการจัดอันดับแบบขนานสองสี่หรือหกจะอยู่ที่ประมาณ. 67, .80 และ. 86 ตามลำดับ "(Houston, Raymond, & Svec, 1991, p. 409) ฉันชอบใบเสนอราคานี้เนื่องจากคำโดยประมาณยอมรับว่าการประมาณการทางสถิติเป็นคำสั่ง "ตามค่าเฉลี่ย" ของสิ่งที่คาดว่าจะเกิดขึ้นหากทุกอย่างเป็นไปตามที่คาดการณ์ไว้ นอกเหนือจากนั้นคำผ่าตัดก็ขนาน คะแนนเฉลี่ย (หรือใช้ Spearman-Brown) หากผู้ประเมินหนึ่งรายตัวอย่างเช่นผ่อนปรนอย่างเป็นระบบเพียงไม่เหมาะสมกับสมมติฐาน ถ้าเรียงความแต่ละคนให้คะแนนโดยผู้ประเมินสองคนอีกคนหนึ่งจะผ่อนปรนมากกว่าอีกคนหนึ่งปัญหาดังกล่าวคือการใช้การทดสอบแบบปรนัยสองทางเลือกของความยากลำบากไม่เท่ากัน คะแนนที่ได้จากแบบทดสอบที่แตกต่างกัน ดังนั้นจึงเป็นการผสมกันระหว่างผู้อ่อนโยนและผู้ประเมินยาก ความน่าเชื่อถือของการจัดอันดับพูลถูกประเมินอย่างไม่ถูกต้องโดยสมการ Spearman-Brown ของทฤษฎีการทดสอบแบบดั้งเดิม เรื่องนั้นเลวร้ายยิ่งถ้าผู้พิพากษาแต่ละคนกำหนดโครงสร้างต่างกันเล็กน้อย "


1
ฉันคิดว่าปัญหาในการค้นหาแหล่งข้อมูลที่น่าเชื่อถือคือคำตอบนั้นมาจากทฤษฎีการทดสอบและมันชัดเจนมากถ้าคุณเข้าใจทฤษฎีพื้นฐานและโดยเฉพาะอย่างยิ่งข้อ จำกัด ของความสามารถของเราในการประเมินความน่าเชื่อถือ นั่นเป็นเหตุผลที่ Guion ไม่สนใจที่จะอธิบาย แต่โชคดีในการค้นหาของคุณอยู่ดี - บางทีใครบางคนรู้คำอธิบายที่ดี
Jeremy Miles

คำตอบ:


10

แม้ว่าฉันจะรู้สึกว่ามีความขัดแย้งเล็กน้อยทั้ง "ข้อความที่น่านับถือ" และผู้ใช้ CV คนอื่น แต่สำหรับฉันแล้วดูเหมือนว่าสูตรสเปียร์แมน - บราวน์จะไม่ได้รับผลกระทบจากการมีปัญหาที่แตกต่างกัน เพื่อให้แน่ใจว่าสูตรสเปียร์แมน - บราวน์มักจะได้รับภายใต้สมมติฐานที่ว่าเรามีรายการคู่ขนานซึ่งมีความหมาย (เหนือสิ่งอื่นใด) ที่รายการนั้นมีความยากลำบากเท่ากัน แต่ปรากฎว่าข้อสมมติฐานนี้ไม่จำเป็น มันสามารถผ่อนคลายเพื่อให้เกิดปัญหาไม่เท่ากันและสูตรสเปียร์แมน - บราวน์จะยังคงอยู่ ฉันสาธิตสิ่งนี้ด้านล่าง


จำได้ว่าในทฤษฎีการทดสอบแบบดั้งเดิมการวัดจะถือว่าเป็นผลรวมของ "คะแนนจริง" องค์ประกอบและองค์ประกอบข้อผิดพลาดนั่นคือ กับและ uncorrelated ข้อสันนิษฐานของรายการแบบขนานคือรายการทั้งหมดมีคะแนนจริงเท่ากันแตกต่างกันในองค์ประกอบข้อผิดพลาดเท่านั้นแม้ว่าสิ่งเหล่านี้จะถือว่ามีความแปรปรวนเท่ากัน ในสัญลักษณ์สำหรับคู่ของรายการใดและT E X = T + E , T E X X T = T XTE

X=T+E,
TEXXT = T + c
T=Tvar(E)=var(E).
เรามาดูกันว่าเกิดอะไรขึ้นเมื่อเราผ่อนคลายสมมติฐานแรกเช่นรายการอาจแตกต่างกันในความยากลำบากของพวกเขาแล้วได้รับความน่าเชื่อถือของคะแนนการทดสอบทั้งหมดภายใต้สมมติฐานใหม่เหล่านี้ สมมติว่าคะแนนจริงอาจแตกต่างกันไปจากค่าคงที่เพิ่มเติม แต่ข้อผิดพลาดยังคงมีความแปรปรวนเดียวกัน ในสัญลักษณ์ ความแตกต่างในความยากลำบากใด ๆ จะถูกจับโดยค่าคงที่สารเติมแต่ง ตัวอย่างเช่นถ้าแล้วคะแนนในมีแนวโน้มที่จะสูงกว่าคะแนนในเพื่อให้คือ "ง่ายขึ้น" กว่าX'เราอาจเรียกขนานเหล่านี้ว่าc > 0 X X X X
T=T+cvar(E)=var(E).
c>0XXXXรายการคล้ายคลึงกับข้อสันนิษฐานของ "ความสำคัญเอกภาพ - เอกภาพ" ซึ่งผ่อนคลายแบบเอกภาพ - เอกภาพในลักษณะเดียวกัน

ทีนี้มาถึงความน่าเชื่อถือของแบบทดสอบของรายการนั้น ๆ พิจารณาการทดสอบที่ประกอบไปด้วยสิ่งของอย่างขนานกันโดยคือผลรวมที่ให้คะแนนการทดสอบ ความน่าเชื่อถือตามนิยามคืออัตราส่วนของความแปรปรวนของคะแนนจริงต่อความแปรปรวนของคะแนนที่สังเกตได้ เพื่อความน่าเชื่อถือของแต่ละรายการมันตามคำจำกัดความของความเท่าเทียมที่จำเป็นพวกเขามีความน่าเชื่อถือซึ่งเราแสดงด้วยด้วยเป็นความแปรปรวนของคะแนนจริงและความแปรปรวนของข้อผิดพลาด เพื่อความน่าเชื่อถือของคะแนนการทดสอบทั้งหมดก่อนอื่นเราจะตรวจสอบความแปรปรวนของคะแนนการทดสอบทั้งหมดซึ่งก็คือ ρ = σ 2 T / ( σ 2 T + σ 2 E ) σ 2kρ=σT2/(σT2+σE2)σT2σE2 Tσ 2 T σ 2 E k 2 σ 2 T

var(i=1kTi+Ei)=var(i=1kT+ci+Ei)=k2σT2+kσE2,
โดยที่ (ไม่มีตัวห้อย) เป็นคะแนนจริงใด ๆ ที่คะแนนที่แท้จริงของไอเท็มสามารถเปลี่ยนไปเป็นผ่านทางคำศัพท์คงที่คือ คะแนนความแปรปรวนจริงและคือความแปรปรวนข้อผิดพลาด ขอให้สังเกตว่าเงื่อนไขคงที่เลื่อนออก! นี่คือกุญแจสำคัญ ดังนั้นความน่าเชื่อถือของคะแนนการทดสอบทั้งหมดคือ TσT2σE2
k2σT2k2σT2+kσE2=kσT2kσT2+σX2σT2=kρ1+(k1)ρ,
ซึ่งเป็นเพียงสูตร Spearman-Brown คลาสสิกไม่มีการเปลี่ยนแปลง สิ่งนี้แสดงให้เห็นว่าแม้เมื่อเปลี่ยน "ความยากลำบาก" ของรายการซึ่งกำหนดเป็นคะแนนเฉลี่ยของพวกเขาสูตรสเปียร์แมน - บราวน์ยังคงมีอยู่

@JeremyMiles ยกประเด็นที่น่าสนใจและสำคัญเกี่ยวกับสิ่งที่สามารถเกิดขึ้นได้เมื่อเราเพิ่มระยะเวลาในการทดสอบ "ในโลกแห่งความเป็นจริง" แต่อย่างน้อยตามสมมติฐานในอุดมคติของทฤษฎีการทดสอบแบบคลาสสิก แบบทดสอบ (ตรงกันข้ามกับสมมติฐานของทฤษฎีการตอบสนองข้อสอบรายการที่ทันสมัย!) เหตุผลพื้นฐานเดียวกันนี้คือเหตุผลที่เรามักพูดถึงความเป็นเอกภาพที่สำคัญมากกว่าความเป็นเอกภาพเนื่องจากผลลัพธ์ที่สำคัญส่วนใหญ่มีไว้สำหรับกรณีที่ผ่อนปรนมากขึ้นซึ่งความยากลำบากของรายการ (เช่นหมายถึง) อาจแตกต่างกัน


2
ใช่จุดดี สิ่งที่ฉันเขียนไม่จำเป็นต้องเก็บไว้
Jeremy Miles

5

มันไม่ง่ายที่จะพูด

ก่อนอื่นสไปร์แมนบราวน์สันนิษฐานว่ารายการทดสอบ (หรือผู้ให้คะแนน) สุ่มตัวอย่างจากประชากรของรายการทดสอบ (หรือผู้ประเมิน) สิ่งนี้ไม่เป็นความจริงโดยเฉพาะอย่างยิ่งการทดสอบเพราะการสร้างรายการเพิ่มเติมนั้นยากและเป็นไปได้ว่าคุณจะใช้รายการที่ดีกว่าในการเริ่มต้น - จากนั้นคุณจะพบว่าการทดสอบนั้นต้องใช้เวลานานกว่า 'ขูดถัง' สำหรับรายการ

ประการที่สองรายการแตกต่างกันไปในความน่าเชื่อถือของพวกเขาและความน่าเชื่อถือไม่จำเป็นต้องเกี่ยวข้องกับความยากลำบาก (ถ้ามันช่วยให้คิดของความลาดชันและสกัดกั้นของเส้นโค้งลักษณะรายการในทฤษฎีการตอบสนองรายการ) อย่างไรก็ตามการคำนวณความน่าเชื่อถือ (พูดว่าอัลฟ่าของครอนบาคซึ่งเป็นรูปแบบของความสัมพันธ์ภายในระดับเดียวกัน) ถือว่าความน่าเชื่อถือมีความเท่าเทียมกันทั้งหมด เท่ากัน). มันเกือบผิดอย่างแน่นอน การเพิ่มรายการอาจสูงขึ้นและต่ำลง มันขึ้นอยู่กับรายการ

นี่คือวิธีคิดอีกวิธีหนึ่ง ฉันสุ่มเลือกตัวอย่างจากประชากรและคำนวณค่าเฉลี่ยและข้อผิดพลาดมาตรฐานของค่าเฉลี่ย ค่าเฉลี่ยนั้นจะเป็นตัวประมาณค่าเฉลี่ยของค่าเฉลี่ยประชากร จากนั้นฉันเพิ่มขนาดตัวอย่าง - ค่าคาดหวังของค่าเฉลี่ยเท่ากัน แต่ไม่น่าเป็นไปได้ที่มันจะเหมือนกันจริง ๆ - มันเกือบจะขึ้นหรือลงแน่นอน เช่นเดียวกับที่ฉันคาดว่าข้อผิดพลาดมาตรฐานจะเล็กลง แต่จำนวนที่ลดลงจะไม่สอดคล้องกัน (และเป็นไปไม่ได้ที่ข้อผิดพลาดมาตรฐานจะใหญ่ขึ้น)


สูตร SB ให้ค่าต่ำสุดสูงสุดหรือค่ากลางสำหรับความน่าเชื่อถือที่คาดหวังหรือไม่ นอกจากนี้เนื่องจากมีการคำนวณความน่าเชื่อถือในแง่ของความสัมพันธ์เหตุใดไอเท็มที่ยาก / ยากหรือผู้ประเมินจึงมีผลกระทบใด ๆ
Joel W.

สูตร SB ให้ความน่าเชื่อถือที่คาดหวัง มันอาจจะสูงกว่าหรือต่ำกว่านั้น ปัญหาหนึ่งคือมีวิธีการคำนวณความน่าเชื่อถือมากกว่าหนึ่งวิธีและสมมติฐานที่พวกเขาทำไม่ค่อยพอใจ สิ่งทั้งหมดนั้นมีรากฐานมาจากทฤษฎีการทดสอบแบบดั้งเดิม - ทฤษฎีการตอบสนองข้อสอบเป็นวิธีที่ทันสมัยกว่าที่จะคิดเกี่ยวกับการวัดและมันก็สมเหตุสมผลกว่าเวลามากเช่นความน่าเชื่อถือของการทดสอบนั้นไม่เหมือนกันสำหรับแต่ละคน บุคคลใน IRT
Jeremy Miles

หากคำถามยากหรือง่ายมากอาจมีผลกระทบต่อสหสัมพันธ์ เช่น "7 * 11" อาจเป็นคำถามที่เชื่อถือได้สำหรับชั้นประถมศึกษาปีที่ 3 แต่สำหรับนักศึกษาระดับปริญญาตรีคณิตศาสตร์ไม่ใช่
Jeremy Miles

1
<การทดสอบจะต้องใช้เวลานานกว่าดังนั้นคุณจะ 'ขูดถัง' เพื่อหาสิ่งของ เห็นได้ชัดว่าคุณมีประสบการณ์ในโลกแห่งความเป็นจริงที่รวบรวมการทดสอบ
Joel W.
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.