สมการในข่าว: การแปลโมเดลหลายระดับเป็นกลุ่มเป้าหมายทั่วไป


24

เดอะนิวยอร์กไทมส์มีความคิดเห็นที่ยาวนานเกี่ยวกับระบบการประเมินผลครู 'มูลค่าเพิ่ม' ที่ใช้ในการให้ข้อเสนอแนะกับนักการศึกษานิวยอร์กซิตี้ lede เป็นสมการที่ใช้ในการคำนวณคะแนน - นำเสนอโดยไม่มีบริบท กลยุทธ์วาทศิลป์ดูเหมือนจะเป็นการข่มขู่ทางคณิตศาสตร์:

ข้อความแสดงแทน

เนื้อหาทั้งหมดของบทความมีอยู่ที่: http://www.nytimes.com/2011/03/07/education/07winerip.html

ผู้เขียน Michael Winerip ให้เหตุผลว่าความหมายของสมการนั้นเกินความสามารถของใครก็ตามที่ไม่เข้าใจแมตต์เดมอนผู้เข้าใจโดยเฉลี่ยน้อยกว่าครูทั่วไป:

"การคำนวณคะแนนคาดคะเนของมิสซิสไอแซคสัน 3.69 นั้นยิ่งน่ากลัวมากขึ้นมันขึ้นอยู่กับตัวแปร 32 ตัว - รวมถึงว่านักเรียน“ ถูกเก็บรักษาไว้ในเกรดก่อนปีที่ทดสอบก่อน” และนักเรียนเป็น“ ใหม่สู่เมืองก่อนสอบ ปี."

ตัวแปร 32 ตัวนั้นเสียบเข้ากับแบบจำลองทางสถิติที่ดูเหมือนหนึ่งในสมการเหล่านั้นใน“ การล่าสัตว์ตามใจปรารถนา” เท่านั้นที่ Matt Damon เท่านั้นที่สามารถแก้ไขได้

กระบวนการดูเหมือนโปร่งใส แต่ชัดเจนว่าเป็นโคลนแม้กระทั่งคนที่มีความคิดสร้างสรรค์เช่นครูอาจารย์ใหญ่และฉันลังเลที่จะพูดแบบนี้ - นักข่าว

นางสาว Isaacson อาจมีสององศา Ivy League แต่เธอหายไป “ ฉันพบว่าเป็นไปไม่ได้ที่จะเข้าใจ” เธอกล่าว

ในภาษาอังกฤษธรรมดา Ms. Isaacson เดาได้ดีที่สุดเกี่ยวกับสิ่งที่แผนกพยายามจะบอกเธอว่า: แม้ว่านักเรียน 65 คนจาก 66 คนของเธอทำคะแนนได้ดีในการทดสอบระดับรัฐ แต่ 3 ใน 4 ของเธอควรเป็น 4s

แต่นั่นเป็นเพียงการคาดเดา "

คุณจะอธิบายโมเดลให้กับคนทั่วไปได้อย่างไร? FYI รายงานทางเทคนิคฉบับสมบูรณ์อยู่ที่:

http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf

อัปเดต: Andrew Gelman เสนอความคิดของเขาที่นี่: http://www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html


1
ความคิดของเจลแมนและความคิดเห็นต่อโพสต์ของเขานั้นคุ้มค่าที่จะอ่าน ระบบการให้คะแนนเป็นเกือบแน่นอนขยะ: พิจารณาว่า 95% CI สำหรับครูนี้เป็น\%] [0%, 52%]
gung - Reinstate Monica

คำตอบ:


12

นี่เป็นไปได้อย่างหนึ่ง

การประเมินประสิทธิภาพของครูนั้นเป็นเรื่องยาก ส่วนหนึ่งของความยากลำบากนี้คือนักเรียนที่แตกต่างกันมีระดับความสนใจแตกต่างกันในแต่ละวิชา หากนักเรียนที่ได้รับ A ไม่ได้หมายความว่าการสอนนั้นยอดเยี่ยม แต่อาจหมายถึงว่านักเรียนที่มีพรสวรรค์และมีความสนใจทำอย่างดีที่สุดเพื่อประสบความสำเร็จแม้จะมีคุณภาพการสอนที่ไม่ดีก็ตาม ในทางกลับกันนักเรียนที่ได้รับ D ไม่ได้แปลว่าการสอนไม่ดี - แต่อาจหมายถึงว่านักเรียนที่ไม่สนใจเข้าฝั่งแม้จะพยายามอย่างที่สุดในการให้การศึกษาและสร้างแรงบันดาลใจ

ความยากลำบากนั้นรุนแรงขึ้นจากความจริงที่ว่าการเลือกนักเรียน (และระดับความสนใจของนักเรียน) อยู่ไกลจากการสุ่ม เป็นเรื่องปกติที่โรงเรียนจะเน้นเรื่องใดเรื่องหนึ่ง (หรือกลุ่มวิชา) ให้มากกว่าวิชาอื่น ตัวอย่างเช่นโรงเรียนอาจเน้นวิชาด้านเทคนิคมากกว่ามนุษยศาสตร์ นักเรียนในโรงเรียนดังกล่าวอาจให้ความสนใจในด้านเทคนิคที่พวกเขาจะได้รับคะแนนผ่านแม้จะเป็นครูที่แย่ที่สุดก็ตาม ดังนั้นเศษส่วนของนักเรียนที่ผ่านวิชาคณิตศาสตร์จึงไม่ใช่วิธีการสอนที่ดี - เราคาดหวังให้ครูที่ดีทำดีกว่านั้นกับนักเรียนที่กระตือรือร้นที่จะเรียนรู้ ในทางตรงกันข้ามนักเรียนคนเดียวกันอาจไม่สนใจศิลปะเลย มันยากที่จะคาดหวังจากครูที่ดีที่สุดเพื่อให้แน่ใจว่านักเรียนทุกคนได้รับ A

ปัญหาอีกประการหนึ่งคือความสำเร็จที่ไม่ได้เกิดขึ้นในชั้นเรียนนั้นเป็นผลมาจากอาจารย์ของชั้นเรียนนั้นโดยตรง แต่ความสำเร็จอาจเกิดจากโรงเรียน (หรือทั้งเขต) สร้างแรงบันดาลใจและกรอบการทำงานเพื่อความสำเร็จ

เพื่อพิจารณาปัญหาทั้งหมดเหล่านี้นักวิจัยได้สร้างแบบจำลองที่ประเมิน 'มูลค่าเพิ่ม' ของครู โดยสรุปแล้วตัวแบบจะคำนึงถึงลักษณะที่แท้จริงของนักเรียนแต่ละคน (ระดับโดยรวมของความสนใจและความสำเร็จในการเรียนรู้) เช่นเดียวกับผลงานของโรงเรียนและเขตการปกครองที่มีต่อความสำเร็จของนักเรียนและคาดการณ์ผลการเรียนของนักเรียน การสอนในสภาพแวดล้อมนั้น จากนั้นแบบจำลองจะเปรียบเทียบคะแนนจริงกับคะแนนที่คาดการณ์ไว้และพิจารณาจากการตัดสินใจว่าการสอนนั้นเพียงพอหรือไม่เมื่อพิจารณาอื่น ๆ ทั้งหมดดีกว่าเพียงพอหรือแย่กว่านั้น แม้ว่าแบบจำลองอาจดูซับซ้อนสำหรับนักคณิตศาสตร์ที่ไม่ใช่นักคณิตศาสตร์ แต่จริงๆแล้วมันเรียบง่ายและเป็นมาตรฐาน นักคณิตศาสตร์ใช้แบบจำลองที่คล้ายคลึงกัน (และซับซ้อนยิ่งขึ้น) มานานหลายทศวรรษ

เพื่อสรุปการเดาของ Ms. Isaacson นั้นถูกต้อง แม้ว่านักเรียน 65 คนจาก 66 คนของเธอทำคะแนนได้ดีในการทดสอบระดับรัฐ แต่พวกเขาก็จะได้คะแนนเท่ากันแม้ว่าสุนัขจะเป็นครูของพวกเขา ครูที่ดีจริงจะช่วยให้นักเรียนเหล่านี้ประสบความสำเร็จไม่เพียง แต่ 'เชี่ยวชาญ' แต่จริง ๆ แล้วคะแนน 'ดี' ในการทดสอบเดียวกัน


ณ จุดนี้ฉันสามารถพูดถึงข้อกังวลบางอย่างของฉันกับโมเดล ตัวอย่างเช่นผู้พัฒนาโมเดลอ้างว่าได้จัดการกับปัญหาบางอย่างด้วยการประเมินคุณภาพการสอน ฉันมีเหตุผลเพียงพอที่จะเชื่อพวกเขาหรือไม่? ย่านที่มีประชากรที่มีรายได้ต่ำจะมีคะแนน 'เขต' และ 'โรงเรียน' ที่ต่ำกว่า สมมติว่าย่านที่คุ้นเคยจะมีคะแนนคาดว่าจะเท่ากับ 2.5 ครูที่จะบรรลุค่าเฉลี่ย 3 จะได้รับการประเมินที่ดี สิ่งนี้อาจกระตุ้นให้ครูเล็งเป้าหมายไปที่คะแนน 3 แทนที่จะพูดเป็นคะแนน 4 หรือ 5 กล่าวอีกนัยหนึ่งครูจะมุ่งเป้าไปที่คนธรรมดามากกว่าความสมบูรณ์แบบ เราต้องการให้สิ่งนี้เกิดขึ้นหรือไม่ ในที่สุดถึงแม้ว่าแบบจำลองจะง่ายในเชิงคณิตศาสตร์มันทำงานในลักษณะที่แตกต่างจากสัญชาตญาณของมนุษย์ ดังนั้นเราจึงไม่มีวิธีที่ชัดเจนในการตรวจสอบหรือโต้แย้งรูปแบบ ' การตัดสินใจของ ตัวอย่างที่โชคร้ายของมิสซิสไอแซคแสดงให้เห็นว่าสิ่งนี้นำไปสู่อะไร เราต้องการพึ่งพาคอมพิวเตอร์ในสิ่งที่สำคัญมาก ๆ หรือไม่?


โปรดทราบว่านี่เป็นคำอธิบายของบุคคลทั่วไป ฉันหลีกเลี่ยงปัญหาที่อาจเป็นข้อโต้แย้งหลายประการ ตัวอย่างเช่นฉันไม่ต้องการบอกว่าโรงเรียนที่มีประชากรที่มีรายได้ต่ำคาดว่าจะทำงานได้แย่ลงเพราะสิ่งนี้ไม่ได้ผลดีกับคนธรรมดา

นอกจากนี้ฉันได้สันนิษฐานว่าเป้าหมายคือการให้คำอธิบายที่ยุติธรรมพอสมควรแก่โมเดล แต่ฉันค่อนข้างแน่ใจว่านี่ไม่ใช่เป้าหมายของ NYT ที่นี่ ดังนั้นอย่างน้อยส่วนหนึ่งของเหตุผลที่คำอธิบายของพวกเขาไม่ดีคือ FUD โดยเจตนาในความคิดของฉัน


ฉันอาจเปลี่ยนประโยคที่สองของย่อหน้าสุดท้ายเพื่อพูดว่า "แม้ว่านักเรียน 65 คนจาก 66 คนของเธอทำคะแนนได้ 'ในการทดสอบของรัฐ
Wayne

11

คะแนนการสอนของคุณขึ้นอยู่กับว่านักเรียนของคุณทำคะแนนได้ดีแค่ไหน

  • สิ่งที่พวกเขารู้มาก่อนโดยวัดจากการทดสอบ

  • เราคิดว่านักเรียนสามารถเรียนรู้ได้ดีเพียงใดโดยพิจารณาจากสิ่งที่เรารู้เกี่ยวกับพวกเขาเป็นรายบุคคล ("ลักษณะเฉพาะ")

  • และโดยเฉลี่ยแล้วนักเรียนทำได้ดีแค่ไหนในเขตโรงเรียนและห้องเรียนของคุณ (ถ้ามีครูคนอื่นในห้องเรียนของคุณ)

"ในคำอื่น ๆ เรากำลังประเมินคุณตามปริมาณการเรียนรู้ที่วัดหลังจากการเตรียมการและลักษณะของนักเรียนของคุณและการแสดงทั่วไปของนักเรียนทุกคนในสภาพแวดล้อมเช่นคุณกับทรัพยากรที่มีให้คุณ

“ ด้วยวิธีนี้คะแนนของคุณสะท้อนถึงสิ่งที่คุณมีส่วนร่วมในการแสดงของนักเรียนตราบเท่าที่เราสามารถระบุได้แน่นอนว่าเราไม่สามารถรู้ทุกสิ่ง: เรารู้ว่าคุณมีนักเรียนที่ไม่เหมือนใครและพิเศษและสถานการณ์ที่คุณเผชิญจะไม่ซ้ำกัน รู้ว่าคะแนนนี้เป็นเพียงการประเมินที่ไม่สมบูรณ์สะท้อนถึงวิธีการสอนที่ดีของคุณ แต่เป็นการประเมินที่ยุติธรรมและถูกต้องมากกว่าการทดสอบหลังการทดสอบหรือจากผลการทดสอบที่ได้จากชั้นเรียนของคุณ "


2
NBโปรดอย่าคิดว่าความคิดเหล่านี้กับฉัน! ฉันแค่พยายามทำให้ดีที่สุดเพื่อเป็นปล้องและปกป้องโมเดลที่ระบุไว้ตามที่ร้องขอ ไม่ว่าจะเป็นรุ่นนี้มีความเหมาะสมใช้งานได้พอดี ฯลฯ เป็นประเด็นที่แยกจากกันโดยสิ้นเชิง
whuber

(+1) ใส่ย่อหน้าสุดท้ายได้ดีมาก
chl

2

ไม่มีอะไรจะเข้าใจที่นี่

ก็โอเคมันเป็นแค่โมเดลการถดถอยเชิงเส้นแบบมาตรฐาน มันสันนิษฐานว่าคะแนนของนักเรียนสามารถอธิบายได้ว่าเป็นฟังก์ชันเชิงเส้นของปัจจัยหลายประการรวมถึงค่าสัมประสิทธิ์ประสิทธิภาพของโรงเรียนและครู - ดังนั้นจึงแบ่งปันปัญหามาตรฐานทั้งหมดของตัวแบบเชิงเส้นส่วนใหญ่ความจริงที่ว่ามันเป็นการประมาณที่ดีของแบบไม่เชิงเส้น โลกและอาจทำงานได้อย่างสมบูรณ์แบบหรือไม่ดีน่าอายขึ้นอยู่กับสถานการณ์และความพยายามที่จะประเมินด้วย (อย่างไรก็ตามควรคาดหวังว่าผู้เขียนของตัวแทนฝ่ายเทคโนโลยีจะตรวจสอบและพบว่ามันใช้ได้ ;-))

แต่ปัญหาที่แท้จริงคือว่านี่เป็นเครื่องมือในการวิเคราะห์และไม่ควรนำมาใช้เพื่อประเมินความสำเร็จของผู้คนด้วยวิธีนี้ (โดยไม่คำนึงว่าเครื่องหมายมีความยุติธรรมหรือไม่ก็ตาม) ผู้ประเมินทุกคนพยายามทำความเข้าใจเครื่องหมายของเขา การเพิ่มประสิทธิภาพ) จะพบกับความสับสนที่สิ้นหวังเช่นเดียวกับในกรณีนี้


3
"ไม่มีอะไรที่จะเข้าใจที่นี่ - มันเป็นแค่รูปแบบการถดถอยเชิงเส้นมาตรฐาน" - ทีฮี .... เหมือนว่าเป็นคำปลอบใจสำหรับคณิตศาสตร์ ฉันคิดว่าคุณไม่เคยมีความสุขในการสอนหลักสูตรระดับปริญญาตรีในสถิติมาพูดถึงสังคมวิทยาหรือพระเจ้าช่วยฉันวิชาเอกการสื่อสาร
fabians

@fabians นี่เป็นการพิสูจน์จุดของฉันเท่านั้น - การเผชิญหน้ากับผู้คนที่มีความซับซ้อนทางคณิตศาสตร์มากกว่าการนับเป็นข้อบกพร่องที่ใหญ่ที่สุดของวิธีการนี้ =] แต่ฉันจะพยายามพูดมันอีกครั้ง

นี่คือการวิจารณ์ที่ถูกต้องโดยเฉพาะอย่างยิ่งส่วนที่เกี่ยวกับการสมมติเป็นเส้นตรง - แต่มันก็ไม่ได้ตอบคำถามเดิม (เว้นแต่คุณตั้งใจจะทำให้เป็น "คนธรรมดา" สมมุติ)
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.