ฉันจะจัดการกับผลกระทบของเครื่องหมายที่มีระดับความเอื้ออาทรแตกต่างกันได้ดีที่สุดในการให้คะแนนนักเรียนอย่างไร


13

นักเรียนประมาณ 600 คนมีคะแนนการประเมินอย่างกว้างขวางซึ่งสามารถสันนิษฐานได้ว่ามีความน่าเชื่อถือ / ความถูกต้องที่ดี การประเมินคะแนนจาก 100 และเป็นการทดสอบแบบปรนัยทำเครื่องหมายโดยคอมพิวเตอร์

นักเรียน 600 คนเหล่านั้นยังมีคะแนนในส่วนที่สองรองลงมาจากการประเมิน ในการประเมินชิ้นที่สองนี้พวกเขาถูกแบ่งออกเป็น 11 หมู่ด้วยนักเรียนระดับ 11 ที่แตกต่างกันและมีระดับความแปรปรวนระหว่างนักเรียนระดับใหญ่ในแง่ของ 'ความเอื้ออาทร' ของพวกเขาในการทำเครื่องหมายหรือขาด การประเมินครั้งที่สองนี้ได้คะแนนจาก 100

นักเรียนไม่ได้รับการมอบหมายให้มีการสุ่มและมีเหตุผลที่ดีที่จะคาดหวังความแตกต่างของระดับทักษะระหว่างกลุ่ม

ฉันได้นำเสนอด้วยภารกิจของการทำให้มั่นใจว่าความแตกต่างระหว่างตัวทำเครื่องหมายหมู่ตามการมอบหมายครั้งที่สองไม่เป็นประโยชน์ต่อนักเรียนแต่ละคนอย่างมีนัยสำคัญ / เสียเปรียบ

ความคิดของฉันคือการได้รับคะแนนหมู่ในการประเมินครั้งที่สองเพื่อให้สอดคล้องกับคะแนนหมู่ในครั้งแรกในขณะที่รักษาความแตกต่างระหว่างบุคคลภายในกลุ่ม เราควรสมมติว่าฉันมีเหตุผลที่ดีที่จะเชื่อว่าการทำงานของทั้งสองงานนั้นจะมีความสัมพันธ์กันสูง แต่เครื่องหมายนั้นแตกต่างกันอย่างมากในความเอื้ออาทรของพวกเขา

นี่เป็นวิธีที่ดีที่สุดหรือไม่? ถ้าไม่เป็นอะไร

มันจะได้รับการชื่นชมอย่างมากหากผู้ตอบสามารถให้คำแนะนำที่เป็นประโยชน์เกี่ยวกับวิธีการใช้โซลูชันที่ดีพูดใน R หรือ SPSS หรือ Excel


3
เป็นคำถามที่ดีมาก! คะแนนสุดท้ายสำหรับตัวเลือกที่หลากหลายและส่วนเรียงความที่ควรจะเปรียบเทียบ (เช่นช่วงตัวเลขเดียวกัน) หรือไม่
gung - Reinstate Monica

2
ขณะที่ฉันกำลังเขียนคำถามนี้ฉันคิดว่ามันอาจจะเป็นซอยของคุณ! คะแนนสุดท้ายมีความคล้ายคลึงกันอย่างกว้างขวาง แต่แตกต่างกันเล็กน้อย ค่าเฉลี่ยของส่วนตัวเลือกแบบหลายค่าคือ ~ 70 พร้อม SD ประมาณ 15 ค่าเฉลี่ยในส่วนอื่น ๆ คือ ~ 85 พร้อม SD ประมาณ 6
user1205901 - Reinstate Monica

7
ฉันจะสงสัยในความพยายามใด ๆ ในการแก้ปัญหานี้โดยอาศัยข้อมูลที่คุณได้อธิบายไว้เท่านั้นเนื่องจากมันจะต้องอยู่บนสมมติฐานที่แข็งแกร่ง (และไม่สามารถทดสอบได้) ว่าจะไม่มีการโต้ตอบระหว่างหมู่และประสิทธิภาพของเครื่องมือทดสอบสองแบบแยกกัน หากคุณสามารถทำได้ให้พิจารณาตัวเลือกในการดำเนินการทดสอบขนาดเล็กแยกต่างหากเพื่อปรับเทียบคารม
whuber

9
หากต้องการดูที่ดีกว่าว่าปัญหาอยู่ที่ใดสมมติว่า (สมมุติ) ว่า (1) การประเมินทั้งสองรูปแบบมีหลายแบบและเรียงความและ (2) นักเรียนเก่าของคุณมักจะทำคำถามเรียงความได้ค่อนข้างดี เมื่อคุณใช้ข้อมูลของคุณเพื่อให้คะแนน "สอดคล้องกัน" คุณจะสับสนกับผลกระทบของระดับที่มีผลกระทบอายุและโดยการปรับเปลี่ยนดังนั้นจึงเป็นระบบเสียเปรียบนักเรียนที่มีอายุมากกว่าเมื่อเทียบกับน้อง ไม่ว่าอัลกอริทึมที่คุณเลือกจะซับซ้อนเพียงใดมันสามารถสรุปปัญหาพื้นฐานนี้ได้เท่านั้น คุณจำเป็นต้องมีบางข้อมูลเพิ่มเติมเพื่อแก้ปัญหานี้รบกวน
whuber

3
สิ่งหนึ่งที่จะต้องพิจารณาเป็นวิธีการที่สะดวกสบายคุณต้องการจะอธิบายขั้นตอนการปรับตัวให้กับนักเรียนหรือผู้มีส่วนได้เสียอื่น ๆ หลายคนอาจจะรู้สึกว่าได้รับปัญหาที่อาจเกิดขึ้นกับการทำเครื่องหมายวางบางความพยายามในการสอบเทียบที่เหมาะสมของตัวบ่งชี้จะไม่มากเกินไปที่จะคาดหวังว่าหาก การสอบเป็นเรื่องสำคัญ
Scortchi - Reinstate Monica

คำตอบ:


8

รู้วิธีการปรับพื้นถนนที่แตกต่างกันเป็นสิ่งที่ดี แต่ก็ยังไม่ได้บอกคุณว่าจะชดเชยการเรียนการ เพื่อความเรียบง่ายลองนึกภาพนักเรียนสองคน แม้ว่าเราจะสรุปเกรด 1 ได้อย่างต่อเนื่อง 5 คะแนนจะดีกว่าเกรด 2 แต่ก็ไม่ได้บอกคุณว่าจะทำอย่างไรกับนักเรียนสองคนที่ได้คะแนน 70 แต่ละคนโดยให้คะแนน 1 และ 1 โดยเกรด 2 เราบอกว่าเกรด 2 เป็นเครื่องหมายที่รุนแรงและเพิ่มขึ้นเป็น 70 ถึง 75 ในขณะที่รักษาเครื่องหมาย 70 ด้วยเกรด 1 ไม่เปลี่ยนแปลง? หรือว่าเราคิดว่าเกรด 1 เป็นแบบผ่อนปรนมากเกินไปให้นักเรียนของเขาลดเหลือ 65 คะแนนและไม่เปลี่ยนแปลง 70 ของเกรด 2? เราประนีประนอมครึ่งทางระหว่าง - ขยายไปถึงกรณีของคุณขึ้นอยู่กับค่าเฉลี่ยของนักเรียนระดับประถม 11 คน? มันเป็นคะแนนสัมบูรณ์ที่สำคัญดังนั้นการรู้ความเอื้ออาทรญาติจึงไม่เพียงพอ

ข้อสรุปของคุณอาจขึ้นอยู่กับว่า "วัตถุประสงค์" คุณรู้สึกว่าเครื่องหมายสุดท้ายแน่นอนควรเป็นอย่างไร แบบจำลองทางจิตหนึ่งจะเสนอนักเรียนแต่ละคนมีคะแนน "ถูกต้อง" - หนึ่งที่จะได้รับรางวัลโดยหัวหน้าผู้ประเมินถ้าพวกเขามีเวลาในการทำเครื่องหมายแต่ละกระดาษ - ซึ่งคะแนนที่สังเกตได้มีการประมาณ ในรุ่นนี้เกรดที่สังเกตต้องได้รับการชดเชยสำหรับเกรดของพวกเขาเพื่อที่จะนำพวกเขาเข้ามาใกล้ที่สุดเท่าที่จะเป็นไปได้ต่อเกรด "ของจริง" แบบจำลองอื่นอาจเป็นได้ว่าการให้คะแนนทั้งหมดเป็นแบบอัตนัยและเราพยายามที่จะเปลี่ยนระดับการสังเกตแต่ละจุดให้เป็นเครื่องหมายที่เราคาดการณ์ว่าจะได้รับรางวัลหากนักเรียนระดับประถมศึกษาทุกคนพิจารณากระดาษเดียวกันและถึงระดับการประนีประนอมหรือระดับเฉลี่ย ฉันพบว่ารุ่นที่สองน่าเชื่อถือน้อยกว่าเป็นวิธีแก้ปัญหาแม้ว่าการรับสมัครของผู้กระทำจะเหมือนจริงมากขึ้น ในการตั้งค่าการศึกษามักจะมีคนที่รับผิดชอบสูงสุดสำหรับการประเมินเพื่อให้แน่ใจว่านักเรียนได้รับ "เกรดที่พวกเขาสมควรได้รับ" แต่บทบาทนำนี้มีความรับผิดชอบให้อภัยกับนักเรียนระดับประถมที่เรารู้ว่าไม่เห็นด้วยอย่างชัดเจน จากนี้ไปฉันคิดว่าตรงนั้นเป็นเกรด "ถูกต้อง" ที่เรามุ่งหวังที่จะประเมิน แต่นี่เป็นข้อเสนอที่สามารถแข่งขันได้และอาจไม่เหมาะกับสถานการณ์ของคุณ

สมมติว่านักเรียน A, B, C และ D ทั้งหมดอยู่ในกลุ่มเดียวกัน "ควร" ให้คะแนนเป็น 75, 80, 85 และ 90 ตามลำดับ แต่นักเรียนระดับประถมของพวกเขามีคะแนน 5 คะแนนสูงเกินไป เราสังเกต 80, 85, 90 และ 95 และควรลบ 5 แต่การหาตัวเลขเพื่อลบนั้นเป็นปัญหา ไม่สามารถทำได้โดยการเปรียบเทียบผลลัพธ์ระหว่างกลุ่มเนื่องจากเราคาดว่ากลุ่มจะมีความสามารถเฉลี่ยแตกต่างกันไป ความเป็นไปได้อย่างหนึ่งคือการใช้ผลการทดสอบแบบปรนัยเพื่อทำนายคะแนนที่ถูกต้องในการมอบหมายครั้งที่สองจากนั้นใช้สิ่งนี้เพื่อประเมินความแปรปรวนระหว่างแต่ละเกรดและเกรดที่ถูกต้อง แต่การคาดการณ์นี้เป็นเรื่องไม่สำคัญหากคุณคาดหวังว่าค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานที่แตกต่างกันระหว่างการประเมินทั้งสองคุณไม่สามารถคาดเดาได้ว่าคะแนนการประเมินที่สองควรตรงกับอันดับแรก

นอกจากนี้นักเรียนยังมีความถนัดทางสัมพัทธ์แตกต่างกันในการประเมินแบบเลือกตอบและเขียน คุณสามารถปฏิบัติต่อสิ่งนั้นได้เช่นเดียวกับการสุ่มเอฟเฟกต์โดยการสร้างส่วนประกอบของคะแนน "ที่สังเกต" และ "จริง" ของนักเรียน แต่ไม่ได้คะแนนจากการคาดการณ์ หากกลุ่มมีความแตกต่างอย่างเป็นระบบและนักเรียนในกลุ่มมีแนวโน้มที่คล้ายกันดังนั้นเราไม่ควรคาดหวังว่าผลกระทบนี้จะเฉลี่ยเป็นศูนย์ภายในแต่ละกลุ่ม หากคะแนนเฉลี่ยที่ได้จากการสำรวจของกลุ่ม +5 เทียบกับที่คาดการณ์ไว้จะเป็นไปไม่ได้เพื่อตรวจสอบว่าสิ่งนี้เป็นผลมาจากนักเรียนระดับประถมศึกษาหรือไม่หมู่คนโดยเฉพาะอย่างยิ่งเหมาะที่ดีกว่าการประเมินเป็นลายลักษณ์อักษรกว่าแบบปรนัยหรือการรวมกันของทั้งสอง ในกรณีที่รุนแรงกลุ่มคนอาจมีความถนัดต่ำกว่าในการประเมินครั้งที่สอง แต่ก็มีมากกว่าที่จะได้รับการชดเชยจากผู้ที่ใจดีมาก - หรือในทางกลับกัน คุณไม่สามารถแยกสิ่งนี้ออกจากกัน มันอับอาย

ฉันยังสงสัยในความเพียงพอของรูปแบบการเติมง่าย ๆ สำหรับข้อมูลของคุณ นักเรียนระดับประถมอาจแตกต่างจากหัวหน้าผู้ประเมินไม่ใช่เพียงแค่เปลี่ยนสถานที่ แต่แพร่กระจายด้วย - แม้ว่าเพื่อน ๆ อาจมีความหลากหลายที่เหมือนกันคุณจึงไม่สามารถตรวจสอบการแพร่กระจายของคะแนนที่สังเกตได้ในแต่ละกลุ่มเพื่อตรวจสอบสิ่งนี้ ยิ่งกว่านั้นจำนวนมากของการแจกแจงมีคะแนนสูงใกล้กับค่าสูงสุดทางทฤษฎีที่ 100 ฉันคาดหวังว่าการแนะนำแบบไม่เป็นเชิงเส้นเนื่องจากการบีบอัดใกล้ระดับสูงสุด - เกรดที่กว้างขวางมากอาจให้เครื่องหมาย A, B, C และ D 85, 90, 94, 97 นี่เป็นการย้อนกลับที่ยากกว่าการลบค่าคงที่ ที่แย่กว่านั้นคุณอาจเห็น "การตัด" - นักเรียนที่เก่งมากอาจให้คะแนนพวกเขาเป็น 90, 95, 100, 100 สิ่งนี้เป็นไปไม่ได้เพื่อย้อนกลับและข้อมูลเกี่ยวกับประสิทธิภาพสัมพัทธ์ของ C และ D จะหายไปอย่างไม่สามารถกู้คืนได้

นักเรียนระดับประถมของคุณประพฤติแตกต่างกันมาก คุณแน่ใจหรือว่าพวกเขาแตกต่างกันในความเอื้ออาทรโดยรวมของพวกเขามากกว่าในความเอื้ออาทรของพวกเขาในองค์ประกอบต่างๆของการประเมิน? นี่อาจเป็นสิ่งที่ควรค่าแก่การตรวจสอบเนื่องจากสามารถนำเสนอภาวะแทรกซ้อนต่าง ๆ ได้เช่นเกรดที่สังเกตได้สำหรับ B อาจแย่กว่าของ A ถึงแม้ว่า B จะเป็น 5 จุดที่ "ดีกว่า" ถึงแม้ว่าเครื่องหมายที่จัดสรรไว้สำหรับนักเรียนแต่ละคน ของหัวหน้าผู้ประเมิน! สมมติว่าการประเมินถูกแบ่งระหว่าง Q1 (A ควรทำคะแนน 30/50, B 45/50) และ Q2 (A ควรทำคะแนน 45/50, B 35/50) ลองนึกภาพผู้ปราบจะผ่อนปรนมากในไตรมาสที่ 1 (เกรดสังเกต: A 40/50, B 50/50) แต่รุนแรงในไตรมาสที่ 2 (สังเกต: A 42/50, 30/50) จากนั้นเราสังเกตผลรวม 82 สำหรับ A และ 80 สำหรับ B. ถ้าคุณต้องพิจารณาคะแนนองค์ประกอบ

เนื้อหานี้เป็นความคิดเห็นเพิ่มเติมมากกว่าคำตอบในแง่ที่มันไม่ได้เสนอวิธีการแก้ปัญหาเฉพาะภายในขอบเขตเดิมของปัญหาของคุณ แต่ถ้านักเรียนระดับประถมของคุณจัดการเอกสารประมาณ 55 ฉบับแล้วละก็มันไม่ดีที่พวกเขาจะต้องดูที่ห้าหรือสิบเพิ่มเติมเพื่อจุดประสงค์ในการสอบเทียบ? คุณมีความคิดที่ดีเกี่ยวกับความสามารถของนักเรียนดังนั้นคุณสามารถเลือกตัวอย่างเอกสารจากด้านขวาของช่วงคะแนน จากนั้นคุณสามารถประเมินได้ว่าคุณต้องการชดเชยความเอื้ออาทรให้กับการทดสอบทั้งหมดหรือในแต่ละองค์ประกอบและว่าจะทำเช่นนั้นเพียงแค่เพิ่ม / ลบค่าคงที่หรือสิ่งที่ซับซ้อนกว่าเช่นการแก้ไข (เช่นถ้าคุณกังวลเกี่ยวกับการที่ไม่ เป็นเส้นตรงใกล้ 100) แต่คำเตือนเกี่ยวกับการแก้ไข: สมมติว่าหัวหน้าผู้ประเมินทำเครื่องหมายเอกสารห้าตัวอย่างเป็น 70, 75, 80, 85 และ 90 ในขณะที่เกรดให้คะแนนเป็น 80, 88, 84, 93 และ 96 ดังนั้นจึงมีความขัดแย้งเกี่ยวกับการสั่งซื้อ คุณอาจต้องการแมปคะแนนที่สังเกตได้จาก 96 ถึง 100 ลงในช่วงเวลา 90 ถึง 100 และคะแนนที่สังเกตได้จาก 93 ถึง 96 ลงในช่วง 85 ถึง 90 แต่ความคิดบางอย่างจำเป็นสำหรับเครื่องหมายด้านล่าง บางทีคะแนนที่สังเกตได้จาก 84 ถึง 93 ควรแมปกับช่วง 75 ถึง 85 อีกทางเลือกหนึ่งคือการถดถอย (อาจเป็นพหุนาม) เพื่อให้ได้สูตรสำหรับ "เกรดจริงที่คาดการณ์" จาก "เกรดที่สังเกต" บางทีคะแนนที่สังเกตได้จาก 84 ถึง 93 ควรแมปกับช่วง 75 ถึง 85 อีกทางเลือกหนึ่งคือการถดถอย (อาจเป็นพหุนาม) เพื่อให้ได้สูตรสำหรับ "เกรดจริงที่คาดการณ์" จาก "เกรดที่สังเกต" บางทีคะแนนที่สังเกตได้จาก 84 ถึง 93 ควรแมปกับช่วง 75 ถึง 85 อีกทางเลือกหนึ่งคือการถดถอย (อาจเป็นพหุนาม) เพื่อให้ได้สูตรสำหรับ "เกรดจริงที่คาดการณ์" จาก "เกรดที่สังเกต"


1
น่าเสียดายที่ธรรมชาติของการประเมิน 2 ทำให้เป็นไปไม่ได้ที่นักเรียนระดับประถมจะมองดูเพิ่มเติมเพื่อจุดประสงค์ในการสอบเทียบ คุณสามารถคิดว่ามันเป็นเหมือนการอ่านบทกวีในปากที่ทำครั้งเดียวโดยไม่มีการบันทึกและถูกประเมินทันทีหลังจากนั้น มันจะเป็นไปไม่ได้ที่จะกำหนดเวลาการทบทวนใหม่อย่างหมดจดเพื่อวัตถุประสงค์ในการสอบเทียบ เพื่อตอบคำถามอื่นของคุณการประเมิน 2 ไม่มีองค์ประกอบย่อยที่ชัดเจนและเราไม่จำเป็นต้องพิจารณาคะแนนองค์ประกอบ
user1205901 - Reinstate Monica

1
นี่คือ "ไม่ใช่คำตอบ" แต่ในโลกอุดมคติที่ฉันแนะนำให้ทำสิ่งต่าง ๆ รอบตัวและใช้ตัวอย่างตัวอย่าง (อาจเป็นงานประดิษฐ์ที่ออกแบบมาเพื่อจงใจให้อยู่ในแนวเขตแดนแทนที่จะเป็นนักเรียนจริง) นักเรียนระดับประถมที่มีความเอื้ออาทรเดียวกันมากกว่าที่จะอนุมานและชดเชยความเอื้ออาทรของพวกเขา หากการประเมินผลเสร็จสิ้นสิ่งนี้ก็ชัดเจนว่าไม่มีวิธีแก้ปัญหาสำหรับคุณ
Silverfish

1
(+1) "ไม่ใช่คำตอบ" อย่างละเอียดมาก ความสม่ำเสมอในการทดสอบแบบอัตนัยนั้นสามารถปรับปรุงให้ดีขึ้นได้อย่างมากโดยแบ่งภารกิจการให้คะแนนออกเป็นส่วนประกอบ - มิเช่นนั้นนักเรียนเกรดหนึ่งอาจให้น้ำหนักกับจังหวะมากขึ้น
Scortchi - Reinstate Monica

เป็นที่ชัดเจนว่านอกเหนือจากการส่งการปรับเปลี่ยนที่เป็นไปได้ให้กับผู้ที่จะตัดสินใจในเรื่องนี้ในที่สุดฉันจะต้องส่งคำอธิบายข้อดีและข้อเสียของการปรับบางอย่าง คำตอบของคุณมีเนื้อหาที่เป็นประโยชน์มากมายเกี่ยวกับเรื่องนี้ อย่างไรก็ตามฉันสงสัยว่าเกณฑ์ใดที่ฉันสามารถใช้ในการตัดสินว่าจะมีประโยชน์มากกว่าที่จะทิ้งทุกอย่างไว้ตามลำพังหรือทำการเปลี่ยนแปลง ฉันดูที่คะแนนหมู่และปรีชาญาณของฉันบอกว่าความแตกต่างระหว่างเครื่องหมายมีผลกระทบอย่างมาก สัญชาตญาณไม่น่าเชื่อถือ แต่ฉันไม่แน่ใจว่าฉันจะทำอะไรต่อในกรณีนี้
user1205901 - Reinstate Monica

2
คำถามหนึ่งก็คือคุณมีเหตุผลเพียงพอที่จะเชื่อหรือไม่ว่าเอฟเฟกต์ "ความถนัดของงานที่แตกต่าง" มีขนาดเล็กโดยเฉพาะอย่างยิ่งเมื่อเฉลี่ยอยู่ในกลุ่มที่เปรียบเทียบกับเอฟเฟ็กต์ "ความเอื้ออาทร" ถ้าเป็นเช่นนั้นคุณอาจพยายามประเมินผลความเอื้ออาทรสำหรับแต่ละกลุ่ม - แต่คุณมีความเสี่ยงที่จะสับสน ยิ่งกว่านั้นมีการจับ 22 ฉันจะต้องระมัดระวังมากที่สุดในการใช้ "การแก้ไข" ขนาดใหญ่กับเกรดที่สังเกตได้ แต่ถ้าการแก้ไขที่แนะนำมีขนาดเล็กมันก็เป็นไปได้ที่จะเกิดความแตกต่างอย่างเป็นระบบในความสามารถในการทำงานที่แตกต่างกันระหว่างผองเพื่อน
Silverfish

2

แบบจำลองที่ง่ายมาก:

ให้เป็นคะแนนของนักเรียนในการทดสอบ 1 และคะแนนของเขาในการทดสอบ 2 ให้เป็นพาร์ติชันของนักเรียนในกลุ่มเดิมs1,iis2,iA1,,Ap

แต่ละกลุ่มจะมีอคติโดยความแข็งแกร่งของนักเรียนและความสะดวกสบายของผู้เรียน สมมติว่านี่เป็นเอฟเฟ็กต์เสริมเราจึงถอยออกมาจากวิธีต่อไปนี้: เราจะลบคะแนนเฉลี่ยของหมู่ในการทดสอบครั้งแรกและเพิ่มคะแนนเฉลี่ยของหมู่ในการทดสอบครั้งที่สอง

เราคำนวณคะแนนที่ปรับแล้วดังต่อไปนี้s1

jp,iAj,s1,i=s1,i1|Aj|iAj(s1,is2,i)

สุดท้ายรูปแบบคะแนนสุดท้ายกับน้ำหนักแล้วแต่จำนวนใดที่คุณพบที่เหมาะสมs

i,si=αs1,i+(1α)s2,i

ข้อเสียคือนักเรียนแต่ละคนอาจถูกลงโทษหากผู้คนในกลุ่มของเขาเกิดโชคร้ายในการทดสอบครั้งที่สอง แต่เทคนิคทางสถิติใด ๆ ที่จะนำข้อเสียที่ไม่เป็นธรรมนี้


3
เช่นเดียวกับข้อเสนออื่น ๆ ข้อเสนอนี้จะประสบกับความไม่เป็นธรรมโดยธรรมชาติของการไม่สามารถแยกแยะผลกระทบในระดับที่มากขึ้นจากผลของกลุ่ม มันไม่มีทางรอบนั้น อย่างน้อยกระบวนงานของคุณจะโปร่งใสน้อยกว่ากระบวนการอื่น ๆ ที่ได้รับการเสนอโดยทำให้ธรรมชาติของมันชัดเจน (ในการเลือก ) α
whuber

1
ไม่ - กลุ่มคนจะไม่ถูกเลือกแบบสุ่ม
Scortchi - Reinstate Monica

1
... ซึ่งตามที่ @ โฮเบอร์ยังคงพูดอยู่ก็สับสนกับแนวโน้มที่มีอยู่จริงของหมู่คน (เนื่องจากอายุหรืออะไรก็ตาม) ที่จะทำการทดสอบได้ดีกว่าแบบทดสอบประเภทอื่น
Scortchi - Reinstate Monica

2
คุณไม่สามารถกำจัดสิ่งรบกวนได้ด้วยการเลือกกลุ่มใหญ่! ที่ดีที่สุดคุณสามารถประเมินค่าที่ไม่สามารถตีความได้มากขึ้น
whuber

3
อาจสมเหตุสมผล: แต่ไม่สามารถระบุได้ว่าเป็นข้อมูลที่มีให้แก่ OP ความถูกต้องของคำตอบของคุณขึ้นอยู่กับความจริงของข้อสันนิษฐานนี้ แม้เลวปฏิเสธมัน (ซึ่งแน่นอนว่าเป็นยัง untestable) เป็นที่เหมาะสมอย่างเด่นชัดมากเกินไปเพราะผองเพื่อนเป็นตัวเลือกที่พวกเขาอาจจะประกอบด้วยคนที่ดำเนินการในรูปแบบที่พบบ่อยในตราสารการประเมินที่แตกต่างกันบอกมันจริงอาจจะมีแนวโน้มว่าประสบความสำเร็จที่แตกต่างกัน จะครบกำหนดในส่วนของหมู่และเพียงบางส่วนเนื่องจากความแปรปรวนในหมู่นักเรียนระดับประถม
whuber

1

คุณทำไม่ได้ อย่างน้อยก็ไม่ใช่โดยไม่เก็บข้อมูลเพิ่มเติม เพื่อดูว่าทำไมอ่านความเห็นที่อัปโหลดจำนวนมากของ @ whuber ตลอดหัวข้อนี้


0

แก้ไข

ปัญหาที่แก้ไขได้ในคำตอบนี้คือการหานักเรียนระดับประถมที่ให้คะแนนน้อยกว่าแก่นักเรียนที่พวกเขาไม่ชอบ

โพสต์ต้นฉบับ

แนวทางของฉันซึ่งฉันคิดว่าง่ายต่อการติดตั้งจะเป็นดังนี้:

ให้แทนนักเรียนชั้นประถมศึกษาปีซึ่งเป็นกลุ่มที่ได้รับมอบหมาย 1 ให้แสดงถึงระดับสำหรับการมอบหมายครั้งที่สอง k ฉันy k , ฉันμk,ikiyk,i

1

สมมติว่าเป็นแบบจำลอง

α α ฉันαyk,i=μk,i+α+τek,i และประมาณสำหรับนักเรียนทุกคน นั่นคือเป็นที่คาดกันโดยไม่คำนึงถึงฉันมีความเป็นไปได้ที่เป็นศูนย์ แต่นักเรียนอาจเปลี่ยนผลการสอบของพวกเขาสำหรับการสอบปลายภาคที่ให้การเพิ่ม / ลดโดยรวมααiα

2

Letแสดงความเอื้ออาทรสำหรับเกรดจำนวนกลุ่มประชากรตามรุ่นผมจากนั้นสร้างและสมมติว่าเป็นแบบจำลองฉัน~ Y k , ฉันGiiy~k,i

yk,iμk,iα=y~k,i=Gi+σie~k,i

และทำประมาณ 11 รายการของ และσGσ

3

ตอนนี้การสังเกตที่ผิดปกติเป็นสิ่งหนึ่งที่ปริมาณ

T=|y~Giσi|มีขนาดใหญ่ เลือกจำนวนที่มากที่สุดของเหล่านี้สำหรับทุกรุ่นและตรวจสอบพวกเขา

บันทึก

ทั้งหมดถือว่าเป็นเกาส์เซียน โดยปกติเกรดจะไม่กระจายดังนั้นแนวทางเกี่ยวกับขนาดของจึงยากที่จะให้ทีeT

R-รหัส

ด้านล่างเป็นรหัสในอาร์โปรดทราบว่าในกรณีของคุณทั้ง mu และ y จะได้รับดังนั้นการสร้างแถวเมื่อพวกเขาได้รับการกำหนดหมายเลข rnorm-number ควรละเว้น ฉันรวมไว้เพื่อให้สามารถประเมินสคริปต์โดยไม่มีข้อมูล

mu_0 <- 50; 
alpha <- 5;
tau<- 10; 
# 0 Generate data for first assignment
mu <- matrix(rnorm(605, mu_0, tau), 11) 

# 1 Generate data for second assignment and estimate alpha
G <- rnorm(11, 0)*10;
for(i in 1:11){
    y[i,] <- rnorm(55, 0, sigma) + mu[i,] + alpha + G[i];
}

alpha_hat <- mean(y-mu)
alpha_hat

# 2 Form \tilde{y} and find unsual observations
ytilde <- y - mu - alpha_hat
T <- matrix(0, 11, 55);
for(i in 1:11){
    G_hat <- mean(ytilde[i,]);
    sigma_hat <- sd(ytilde[i,]);
    T[i,] <- order(abs(ytilde[i,] - G_hat)/sigma_hat)
}
# 3 Look at grader number 2 by
T[2,]

4
คุณดูเหมือนจะไม่ได้ตอบคำถามนี้: คุณลงท้ายด้วยคำแนะนำเพื่อตรวจสอบ "ข้อสังเกตที่ผิดปกติ" วิธีนี้แก้ปัญหาได้อย่างไร
whuber

อ่านคำถามอีกครั้งบางทีฉันอาจมุ่งเน้นไปที่ส่วน "บุคคล" มากเกินไป ปัญหาที่ได้รับการแก้ไขในคำตอบนี้คือการหานักเรียนระดับประถมที่ให้คะแนนน้อยกว่าแก่นักเรียนที่พวกเขาไม่ชอบ คำถามเดิมเป็นไปไม่ได้ (!) เพื่อแก้ไข ตามที่แนะนำไปแล้วมีความเป็นไปได้สูงที่นักเรียนจะร่วมมือกัน
Hunaphu

0

การรื้อฟื้นปัญหา: วิธีที่ดีที่สุดในการกำหนดเครื่องหมายการสอบสองส่วนด้วยเงื่อนไขที่กำหนดให้ส่วนที่สองต้องเผชิญกับความไม่แน่นอนที่มากขึ้นเนื่องจากช่วงของการประเมินเชิงคุณภาพของตัวแทนที่ได้รับมอบหมาย

ที่ไหน: ผู้ทดสอบหลัก = บุคคลที่รับผิดชอบสำหรับการสอบตัวแทนที่ได้รับมอบหมาย = คน (1 จาก 11) มอบหมายให้ทำเครื่องหมายพาร์ # 2 ของการสอบนักเรียน = คนที่สนุกกับการนั่งทำข้อสอบ

เป้าหมายรวมถึง: A) นักเรียนได้รับเครื่องหมายที่สะท้อนการทำงานของพวกเขา B) จัดการความไม่แน่นอนของส่วนที่สองให้สอดคล้องกับเจตนาของผู้ทดสอบหลัก

วิธีการที่แนะนำ (คำตอบ): 1. ผู้ทดสอบหลักเลือกสุ่มชุดตัวอย่างของการสอบทำเครื่องหมายส่วนที่ 2 และพัฒนาความสัมพันธ์กับส่วนที่ 1 2 ใช้ความสัมพันธ์เพื่อประเมินข้อมูลของผู้ทำเครื่องหมายที่ได้รับมอบหมายทั้งหมด (ตอนที่ 1) vs # 2 คะแนน) 3. ในกรณีที่ความสัมพันธ์แตกต่างจากผู้ทดสอบหลักอย่างมีนัยสำคัญ - ซึ่งเป็นที่ยอมรับของผู้ทดสอบหลัก - ตรวจสอบการทดสอบในฐานะผู้ทดสอบหลักเพื่อกำหนดผลลัพธ์ใหม่

วิธีการนี้ทำให้มั่นใจได้ว่าผู้ทดสอบหลักจะต้องรับผิดชอบต่อความสัมพันธ์และความสำคัญที่ยอมรับได้ ความสัมพันธ์อาจง่ายเหมือนคะแนนสำหรับส่วนที่ 1 กับ # 2 หรือคะแนนที่สัมพันธ์กันสำหรับคำถามของการทดสอบ # 1 กับ # 2

ผู้ทดสอบหลักจะสามารถกำหนดคุณภาพของผลลัพธ์สำหรับส่วนที่ 2 ตาม "ความสัมพันธ์ระหว่างยาง" กับความสัมพันธ์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.