เริ่มต้นอย่างไรกับการประยุกต์ใช้ทฤษฎีการตอบกลับข้อสอบและซอฟต์แวร์ที่จะใช้?


21

บริบท

ฉันได้อ่านเกี่ยวกับทฤษฎีการตอบสนองของรายการและฉันคิดว่ามันน่าหลงใหล ฉันเชื่อว่าฉันเข้าใจพื้นฐาน แต่ฉันก็ยังสงสัยว่าจะใช้เทคนิคทางสถิติที่เกี่ยวข้องกับพื้นที่นั้นได้อย่างไร ด้านล่างเป็นสองบทความที่คล้ายกับพื้นที่ที่ฉันต้องการใช้ ITR ใน:

อย่างที่สองคือสิ่งที่ฉันอยากจะขยายออกไป ณ เวลานี้

ฉันดาวน์โหลดโปรแกรมฟรีชื่อ jMetrik และดูเหมือนว่าจะใช้งานได้ดี ฉันคิดว่ามันอาจจะพื้นฐานเกินไปที่ IRT จะไป แต่ฉันไม่แน่ใจ

ฉันรู้ว่าวิธีที่ "ดีที่สุด" น่าจะเกี่ยวข้องกับการเรียนรู้ R อย่างไรก็ตามฉันไม่รู้ว่าฉันสามารถใช้เวลาในการจัดการกับช่วงโค้งการเรียนรู้นั้นได้หรือไม่ โปรดทราบว่าเรามีเงินทุนสำหรับการซื้อซอฟต์แวร์ แต่จากสิ่งที่ฉันเห็นดูเหมือนจะไม่มีโปรแกรม IRT ที่ยอดเยี่ยม

คำถาม

  • คุณคิดอย่างไรกับประสิทธิภาพของ jMetrik
  • คุณจะแนะนำให้ฉันใช้ IRT ต่อไปได้อย่างไร
  • โปรแกรมที่ดีที่สุดสำหรับการสมัคร IRT คืออะไร?
  • คุณใช้ IRT เป็นประจำหรือไม่? ถ้าเป็นเช่นนั้นได้อย่างไร

1
คุณใช้ซอฟต์แวร์ใดในปัจจุบัน
StasK

ฉันใช้ jMetrik มันค่อนข้างใหม่ดูเหมือนและได้ทำสิ่งต่างๆมากมายที่ฉันสนใจ!
Behacad

2
มันใช้งานได้ในโหมดสคริปต์หรือไม่? หากคุณมี GUI เพียงอย่างเดียวผลลัพธ์ของคุณจะทำซ้ำได้ยากมาก โหมดสคริปต์เป็นสิ่งจำเป็นสำหรับซอฟต์แวร์ที่ร้ายแรงใด ๆ
StasK

คำตอบ:


22

เป็นเริ่มต้นที่ดีที่จะ IRT ผมมักจะแนะนำให้อ่านคู่มือภาพเพื่อทฤษฎีการตอบสนองข้อสอบ

จากการสำรวจของซอฟต์แวร์ที่มีอยู่สามารถพบได้บนwww.rasch.org

จากประสบการณ์ของฉันฉันพบว่าคำสั่ง Stata ของRaschtest (และที่เกี่ยวข้อง) มีประโยชน์อย่างมากในกรณีส่วนใหญ่ที่มีความสนใจในการปรับโมเดลพารามิเตอร์แบบพารามิเตอร์ตัวเดียวให้เหมาะสม สำหรับการออกแบบที่ซับซ้อนมากขึ้นเราสามารถใช้GLLAMM ; มีตัวอย่างการทำงานที่ดีตามหนังสือของ De Boeck และ Wilson, Explanatory Item และ Response Models (Springer, 2004)

เกี่ยวกับ R โดยเฉพาะมีความอุดมสมบูรณ์ของแพคเกจที่ได้กลายเป็นที่มีอยู่ในที่ผ่านมาห้าปีที่ผ่านมาดูตัวอย่างที่เกี่ยวข้อง CRAN งานดู ที่สุดของพวกเขาที่จะกล่าวถึงในฉบับพิเศษของวารสารทางสถิติซอฟแวร์ (ฉบับ. 20, 2007) ตามที่กล่าวไว้ในการตอบสนองอื่นltmและeRmอนุญาตให้เหมาะสมกับโมเดล IRT ที่หลากหลาย เนื่องจากพวกเขาใช้วิธีการประเมินที่แตกต่างกัน - ltmใช้วิธีส่วนต่างในขณะที่eRmใช้วิธีแบบมีเงื่อนไข --- การเลือกอย่างใดอย่างหนึ่งเป็นเรื่องของรูปแบบที่คุณต้องการให้พอดี (eRm จะไม่พอดีกับโมเดลพารามิเตอร์ 2 หรือ 3 ตัว) และวัตถุประสงค์การวัดที่คุณทำตาม: การประมาณค่าพารามิเตอร์ของบุคคลมีคุณสมบัติทางด้านจิตวิทยาที่ดีในขณะที่วิธีส่วนเพิ่มให้คุณเปลี่ยนเป็นรูปแบบเอฟเฟ็กต์แบบผสมได้ง่าย :

นอกจากนี้ยังมีความเป็นไปได้ที่จะปรับรุ่น Rasch โดยใช้วิธีการ MCMC ดูเช่นแพ็คเกจMCMCpack (หรือWinBUGS / JAGSแต่ดูรหัส BUGS สำหรับทฤษฎีการตอบสนองรายการ JSS (2010) 36)

ฉันไม่มีประสบการณ์กับการทำโมเดล SAS สำหรับ IRT ดังนั้นฉันจะปล่อยให้คนที่มีประสบการณ์ในการเขียนโปรแกรม SAS มากขึ้น

ซอฟต์แวร์เฉพาะอื่น ๆ (ส่วนใหญ่ใช้ในการประเมินผลการศึกษา) รวมถึง: RUMM, พิชิต, Winsteps, BILOG / MULTILOG, Mplus (ไม่อ้างถึงรายการที่มีอยู่แล้วในวิกิพีเดีย ) ไม่มีการใช้งานฟรี แต่มีการเสนอเวอร์ชั่นสาธิตแบบ จำกัด เวลาสำหรับบางคน ฉันพบว่าjMetrikมีข้อ จำกัด มากเมื่อฉันลองใช้ (หนึ่งปีที่แล้ว) และฟังก์ชันทั้งหมดนั้นมีอยู่แล้วใน R. เช่นเดียวกันConstructMapสามารถแทนที่ได้อย่างปลอดภัยด้วยlme4ดังแสดงในเอกสารประกอบการเชื่อมโยงข้างต้น ฉันควรจะพูดถึงmdltm(โมเดลหลายมิติแบบไม่ต่อเนื่องแบบไม่ต่อเนื่อง) สำหรับแบบผสม Rasch โดย von Davier และ coll. ซึ่งควรจะมาพร้อมกับหนังสือเล่มนี้โมเดล Rasch การกระจายหลายตัวแปรและผสม (Springer, 2007)


Fantastic! ขอบคุณสำหรับคำตอบที่ครอบคลุมมาก! คำตอบทั้งสองนี้จะช่วยฉันได้เป็นอย่างดีรวมถึงใครก็ตามที่อยากรู้อยากเห็นในการติดตามเรื่องนี้ฉันแน่ใจ ฉันขอแนะนำให้คุณดู jMetrik อีกครั้งและอาจให้ความคิดของคุณกับฉัน ขณะนี้มีการสร้างแบบจำลอง Rasch ในขณะนี้, ICC curves, IRT curves, IRT equating (1PT, 2PT, 3PT model) และอื่น ๆ
Behacad

ฉันจะดูรุ่นที่อัปเดตแล้ว แต่จริงๆแล้วสิ่งที่ @Stask พูดนั้นมีค่าที่ต้องจำหากคุณวางแผนที่จะทำอะไรที่ร้ายแรงเกินกว่าการประมาณค่าพารามิเตอร์และการรายงานด้วยภาพ ได้รับความคิดของสิ่งที่ผมหมายถึงดูที่ความรู้เบื้องต้นเกี่ยวกับทฤษฎีทางจิตวิทยากับการประยุกต์ใช้ในการวิจัย (ครอบคลุมมากกว่าสิ่งที่บางคนเรียกว่า psychometrics "ทันสมัย")
CHL

@chi - ฉันได้ผลลัพธ์ที่แตกต่างกันมากเมื่อฉันรันการวิเคราะห์ IRT ใน R โดยใช้ ltm เปรียบเทียบกับเมื่อฉันรันการวิเคราะห์เดียวกันใน Mplus แล้วใน Multilog (ในขณะที่การวิเคราะห์ใน Mplus และ Multilog เหมือนกัน) ฉันพยายามหาสาเหตุว่าทำไมกับผู้เขียน ltm แต่ไม่ได้รับคำตอบใด ๆ คุณเคยมีประสบการณ์คล้าย ๆ กันกับผลลัพธ์ที่แตกต่างจากชุดซอฟต์แวร์อื่นหรือไม่?
Tormod

ex5.5θพี-βผมผม=1,...,kพี=1,...,nβผม-θพี
chl

@chi - ขอโทษสำหรับความล่าช้าในการตอบสนองฉันไม่ได้สังเกตเห็นความคิดเห็นของคุณ ไม่ทราบว่าสิ่งนี้ยังมีความเกี่ยวข้องอยู่หรือไม่ แต่ฉันมีความแตกต่างจาก 0.184 - 1.429 สำหรับพารามิเตอร์การเลือกปฏิบัติ (a) ตัวอย่างเช่น Mplus ให้ a = 5.084 ในขณะที่ ltm ให้รายการเดียวกัน a = 3.655 โดยรวมแล้ว ltm ให้ a's เล็กกว่า mplus (การรันการวิเคราะห์เดียวกันใน multilog ให้ a สอดคล้องกับ a จาก Mplus) b's มีความคุ้นเคยมากกว่า
Tormod

8

สำหรับคำถามแรกฉันไม่มีข้อมูลเกี่ยวกับ jMetrick

ในการใช้ IRT (เช่นเดียวกับกระบวนการทางสถิติอื่น ๆ ) ขั้นตอนแรกคือการใช้กับข้อมูลประเภทต่าง ๆ ให้ได้มากที่สุด มีเส้นโค้งการเรียนรู้ แต่ฉันเชื่อว่ามันคุ้มค่า

คุณสมบัติที่สำคัญอย่างหนึ่งของ IRT คือความแตกต่างระหว่างรุ่น Rasch และรุ่น IRT พวกเขาได้รับการพัฒนาโดยคนต่าง ๆ เพื่อจุดประสงค์ที่แตกต่างกัน ที่ถูกกล่าวว่ารุ่น IRT เป็นแบบจำลองของรุ่น Rasch

แบบจำลอง Rasch เป็นแบบจำลองพารามิเตอร์เดียว - พวกเขาคิดว่ารายการทั้งหมดในแบบสอบถามนั้นสามารถทำนายลักษณะที่แฝงได้อย่างเท่าเทียมกัน

แบบจำลอง IRT แต่เป็นพารามิเตอร์สองแบบซึ่งอนุญาตให้คำถามแตกต่างกันในความสามารถในการให้ข้อมูลเกี่ยวกับความสามารถของผู้เข้าร่วม

นอกจากนี้ยังมีโมเดลพารามิเตอร์สามแบบซึ่งเหมือนกับโมเดล IRT ยกเว้นว่าพวกเขาอนุญาตให้พารามิเตอร์การเดาเพื่อให้ผู้เข้าร่วมสามารถรับคำตอบที่ถูกต้องโดยบังเอิญ (นี่เป็นข้อกังวลในความสามารถมากกว่าการทดสอบบุคลิกภาพ)

นอกจากนี้ยังมี IRT หลายมิติซึ่งประเมินความสามารถแฝงหลายอย่างพร้อมกัน ฉันไม่รู้เรื่องนี้มากนัก แต่เป็นส่วนที่ฉันตั้งใจจะเรียนรู้เพิ่มเติม

นอกจากนี้ยังมีความแตกต่างระหว่างวิธี IRT แบบแบ่งขั้วและแบบโพลิโทมิส แบบจำลอง IRT แบบสองขั้วเป็นแบบทดสอบความสามารถซึ่งมีคำตอบที่ถูกและผิด แบบจำลอง Polytomous IRT ใช้ในการทดสอบบุคลิกภาพซึ่งมีหลายคำตอบซึ่งถูกต้องเท่ากัน (ในแง่ที่ว่าไม่มีคำตอบที่ถูกต้อง)

ฉันเองใช้ R สำหรับทฤษฎีการตอบสนองรายการ มีแพ็คเกจหลักสองแบบที่ฉันใช้eRmซึ่งเหมาะกับโมเดล Rasch เท่านั้นและltmเหมาะกับโมเดลทฤษฎีการตอบกลับรายการ (โมเดลพารามิเตอร์สองและสาม) ทั้งสองมีฟังก์ชั่นที่คล้ายกันและทั้งสองมีรูทีนเพิ่มเติมสำหรับโมเดล IRT แบบแบ่งขั้ว ฉันไม่รู้ว่า R เป็น "ดีที่สุด" สำหรับ IRT หรือไม่มันไม่มีโมเดล IRT จำนวนมากทั้งหมด แต่แน่นอนว่ามันสามารถขยายได้มากที่สุดซึ่งแน่นอนว่าสามารถตั้งโปรแกรมได้อย่างง่ายดาย

ฉันใช้ IRT เกือบเฉพาะสำหรับโมเดลแบบโพลีโทมัสในอาร์ฉันมักจะเริ่มต้นด้วยวิธี IRT แบบไม่อิงพารามิเตอร์ (มีให้ในแพ็คเกจmokken) เพื่อทดสอบสมมติฐานแล้วดำเนินการกับโมเดล rasch เพิ่มความซับซ้อนมากขึ้นตามที่ต้องการ

สำหรับ IRT หลายมิติมีแพ็คเกจ `mirt 'ซึ่งมีฟังก์ชันนี้ ฉันไม่ได้ใช้มันดังนั้นฉันไม่สามารถแสดงความคิดเห็นได้จริงๆ

หากคุณติดตั้งแพ็กเกจเหล่านี้ใน R และเรียกใช้ฟังก์ชัน 'vignette ("packagename")' คุณควรได้รับ vignettes ที่มีประโยชน์ (แน่นอนสำหรับ eRmและmokkenสำหรับคนอื่น ๆ ) ซึ่งอาจเป็นประโยชน์สำหรับคุณ (ขึ้นอยู่กับระดับของคุณ ความซับซ้อนทางคณิตศาสตร์)

ในที่สุดก็มีหนังสือดี ๆ หลายเล่มสำหรับรุ่น rasch และ irt ทฤษฎีการตอบสนองข้อสอบสำหรับนักจิตวิทยามักใช้ (แม้ว่าฉันจะไม่ชอบสไตล์) และยิ่งไปกว่านั้นความซับซ้อนด้านเทคนิคมีตำราเรียนที่ครอบคลุมและมีประโยชน์สองเล่ม - คู่มือของทฤษฎีการตอบสนองรายการที่ทันสมัยและโมเดล Rasch: พื้นฐานล่าสุด การพัฒนาและการประยุกต์ใช้

ฉันหวังว่านี่จะช่วยได้.


ขอขอบคุณ! ที่ชื่นชมมาก ฉันอยากจะฟังเพิ่มเติมเกี่ยวกับตัวเลือกซอฟต์แวร์ถ้ามีคนมีความรู้บางอย่างในพื้นที่
Behacad

3

jMetrik มีพลังมากกว่าที่คุณคิด มันถูกออกแบบมาสำหรับการปฏิบัติงานที่นักวิจัยต้องการหลายขั้นตอนในกรอบการทำงานแบบครบวงจรเดียว ขณะนี้คุณสามารถประมาณพารามิเตอร์ IRT สำหรับโมเดล Rasch สินเชื่อบางส่วนและมาตราส่วนการจัดอันดับ นอกจากนี้ยังอนุญาตให้มีการเชื่อมโยงในระดับ IRT ผ่าน Stocking-Lord, Haebara และวิธีอื่น ๆ เนื่องจากมีฐานข้อมูลแบบรวมเอาท์พุทจากการประมาณค่า IRT จึงสามารถใช้ในการลิงก์แบบสเกลได้โดยไม่จำเป็นต้องปรับแต่งไฟล์ข้อมูลอีกต่อไป นอกจากนี้เอาต์พุตทั้งหมดสามารถเก็บไว้ในฐานข้อมูลเพื่อใช้กับวิธีอื่นใน jMetrik หรือโปรแกรมภายนอกเช่น R

นอกจากนี้คุณยังสามารถเรียกใช้ได้ด้วยสคริปต์แทน GUI ตัวอย่างเช่นรหัส follwing จะ (a) นำเข้าข้อมูลไปยังฐานข้อมูล (b) รายการคะแนนด้วยคีย์คำตอบ (c) ประมาณพารามิเตอร์โมเดล Rasch และ (d) ข้อมูลการส่งออกเป็นไฟล์ CSV คุณสามารถใช้ไฟล์เอาต์พุตสุดท้ายเป็นอินพุตใน R เพื่อการวิเคราะห์เพิ่มเติมหรือคุณสามารถใช้ R เพื่อเชื่อมต่อโดยตรงกับฐานข้อมูล jMetrik และทำงานกับผลลัพธ์

#import data into database
import{
     delimiter(comma);
     header(included);
     options(display);
     description();
     file(C:/exam1-raw-data.txt);
     data(db = testdb1, table = EXAM1);
}

#conduct item scoring with the answer key
scoring{
     data(db = mydb, table = exam1);
     keys(4);
     key1(options=(A,B,C,D), scores=(1,0,0,0), variables=  (item1,item9,item12,item15,item19,item21,item22,item28,item29,item30,item34,item38,item42,item52,item55));
     key2(options=(A,B,C,D), scores=(0,1,0,0), variables=(item4,item6,item16,item18,item24,item26,item32,item33,item35,item43,item44,item47,item50,item54));
     key3(options=(A,B,C,D), scores=(0,0,1,0), variables=(item3,item5,item7,item11,item14,item20,item23,item25,item31,item40,item45,item48,item49,item53));
     key4(options=(A,B,C,D), scores=(0,0,0,1), variables=(item2,item8,item10,item13,item17,item27,item36,item37,item39,item41,item46,item51,item56));
}

#Run a Rasch models analysis.
#Item parameters saved as database table named exam1_rasch_output
#Residuals saved as a databse table named exam1_rasch_resid
#Person estimates saved to original data table. Person estimate in variable called "theta"
rasch{
     center(items);
     missing(ignore);
     person(rsave, pfit, psave);
     item(isave);
     adjust(0.3);
     itemout(EXAM1_RASCH_OUTPUT);
     residout(EXAM1_RASCH_RESID);
     variables(item1, item2, item3, item4, item5, item6, item7, item8, item9, item10, item11, item12, item13, item14, item15, item16, item17, item18, item19, item20, item21, item22, item23, item24, item25, item26, item27, item28, item29, item30, item31, item32, item33, item34, item35, item36, item37, item38, item39, item40, item41, item42, item43, item44, item45, item46, item47, item48, item49, item50, item51, item52, item53, item54, item55, item56);
     transform(scale = 1.0, precision = 4, intercept = 0.0);
     gupdate(maxiter = 150, converge = 0.005);
     data(db = testdb1, table = EXAM1);
}

#Export output table for use in another program like R
export{
     delimiter(comma);
     header(included);
     options();
     file(C:/EXAM1_RASCH_OUTPUT.txt);
     data(db = testdb1, table = EXAM1_RASCH_OUTPUT);
}

ซอฟต์แวร์ยังอยู่ในช่วงเริ่มต้นของการพัฒนา ขณะนี้ฉันกำลังเพิ่มการวิเคราะห์ปัจจัยเชิงสำรวจและโมเดลการตอบกลับรายการขั้นสูงเพิ่มเติม แตกต่างจากโปรแกรม IRT อื่น ๆ อีกมากมาย jMetrik เป็นโอเพ่นซอร์ส ทุกขั้นตอนการวัดใช้ห้องสมุด psychometrics ซึ่งมีอยู่ในปัจจุบันบน GitHub, https://github.com/meyerjp3/psychometrics ยินดีต้อนรับทุกคนที่สนใจมีส่วนร่วม


0

คุณมีคำถามมากมายที่นี่ แต่มีความเกี่ยวข้องกับนักวิจัยหลายคน!

ฉันขอแนะนำให้คุณไปข้างหน้าใน IRT แต่เฉพาะในกรณีที่สถานการณ์ของคุณตรงตามข้อกำหนด ตัวอย่างเช่นมันเหมาะกับประเภทของการทดสอบที่คุณใช้และที่สำคัญที่สุดคือคุณมีขนาดตัวอย่างที่จำเป็น สำหรับข้อมูลแบบปรนัยแบบหลายทางฉันขอแนะนำแบบจำลอง 3PL (อาร์กิวเมนต์ Rasch ของ "การวัดแบบวัตถุประสงค์" ไม่โดดเด่น) และ 500-1000 โดยทั่วไปคือขนาดตัวอย่างขั้นต่ำ ข้อมูลสองขั้วโดยไม่ต้องคาดเดาเช่นการสำรวจทางจิตวิทยาที่มีคำตอบ Y / N ต่อแถลงการณ์ทำงานได้ดีกับ 2PL หากคุณมีระดับการให้คะแนนหรือข้อมูลเครดิตบางส่วนจะมีโมเดลโมเดลเชิงเส้นที่ออกแบบมาโดยเฉพาะสำหรับสถานการณ์เหล่านั้น

IMHO โปรแกรมที่ดีที่สุดสำหรับการใช้ IRT คือ Xcalibre มันค่อนข้างเป็นมิตรกับผู้ใช้ (GUI แบบง่ายและชุดบรรทัดคำสั่งบางประเภทถ้าคุณต้องการด้วยเหตุผลบางอย่าง) และสร้างเอาต์พุตที่สามารถอ่านได้สูง (รายงาน MS Word พร้อมตารางและตัวเลขอย่างกว้างขวาง) ฉันไม่แนะนำให้ใช้ R ด้วยเหตุผลตรงข้าม แน่นอนว่าข้อเสียเปรียบคือมันไม่ฟรี แต่คุณมักจะได้รับสิ่งที่คุณจ่ายตามที่พวกเขาพูด รายละเอียดการส่งออกเช่นและทดลองใช้ฟรีมีให้บริการที่www.assess.com


คุณต้องการที่จะอธิบายอย่างละเอียดว่าเหตุใดการโต้แย้งใน "การวัดตามวัตถุประสงค์" sensu Rasch (หรือมากกว่าความเป็นไปได้ของการเปรียบเทียบวัตถุประสงค์เฉพาะ) อย่างถูกต้องคือ "ไม่แยแสอย่างยอดเยี่ยม"
Momo

0

ในขณะเดียวกันก็ได้มีการตีพิมพ์หนังสือเล่มใหม่โดย Frank Baker, Baker Frank B. , Seock-Ho Kim พื้นฐานของทฤษฎีการตอบสนองรายการโดยใช้ R. Springer International Publishing (2017)(2017) มันไม่ได้ใช้ประโยชน์จากแพ็คเกจ R แต่นำเสนอตัวอย่าง

A (แออัด) รายการแพคเกจ R สำหรับ IRT มีคำอธิบายสั้นที่มีอยู่ในCRAN

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.