วิธีทดสอบอย่างเป็นทางการสำหรับ“ หยุด” ในการแจกแจงแบบปกติ (หรืออื่น ๆ )


10

บ่อยครั้งที่มันเกิดขึ้นในสังคมศาสตร์ว่าตัวแปรที่ควรแจกจ่ายในทางใดทางหนึ่งพูดตามปกติจบลงด้วยความไม่ต่อเนื่องในการกระจายรอบจุดต่าง ๆ

ตัวอย่างเช่นหากมีการตัดเฉพาะเช่น "การผ่าน / ไม่ผ่าน" และหากมาตรการเหล่านี้มีการบิดเบือนอาจมีความไม่ต่อเนื่อง ณ จุดนั้น

ตัวอย่างที่โดดเด่นหนึ่งตัวอย่าง (อ้างอิงด้านล่าง) มาจากคะแนนการทดสอบตามมาตรฐานของนักเรียนโดยทั่วไปจะกระจายอยู่ทั่วไปทุกที่ยกเว้น 60% ที่มีมวลน้อยมากจาก 50-60% และมีมวลมากเกินไปประมาณ 60-65% สิ่งนี้เกิดขึ้นในกรณีที่ครูให้คะแนนนักเรียนของตนเอง ผู้เขียนตรวจสอบว่าครูช่วยนักเรียนสอบจริง ๆ หรือไม่

หลักฐานที่น่าเชื่อถือที่สุดอย่างไม่ต้องสงสัยมาจากการแสดงกราฟของเส้นโค้งระฆังที่มีความไม่ต่อเนื่องรอบการตัดที่แตกต่างกันสำหรับการทดสอบที่แตกต่างกัน อย่างไรก็ตามคุณจะพัฒนาการทดสอบทางสถิติอย่างไร? พวกเขาพยายามแก้ไขแล้วเปรียบเทียบเศษส่วนด้านบนหรือด้านล่างและทดสอบ t ในส่วนที่ 5 คะแนนด้านบนและด้านล่างตัด ในขณะที่มีเหตุผลเหล่านี้เป็นเฉพาะกิจ ใครสามารถคิดอะไรดีกว่า

Link: หลักเกณฑ์และดุลยพินิจในการประเมินผลของนักเรียนและโรงเรียน: กรณีของนิวยอร์กผู้สำเร็จราชการสอบ http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

การกระจายของคะแนนการทดสอบ, การจัดการในสีดำ, บันทึกความหนาแน่นลดลงคมชัดด้านล่างทางลัดและเพิ่มขึ้นที่สอดคล้องกันข้างต้น


เพื่ออธิบายให้ชัดเจน - คุณกำลังทดสอบการขาดทั่วไปเช่นความปกติหรือการมีความไม่ต่อเนื่อง ณ จุดที่กำหนดไว้ล่วงหน้าหรือไม่? ตัวอย่างของคุณเป็นตัวอย่างที่ผ่านมา แต่แน่นอนว่าการทดสอบความดีที่เหมาะสมเช่น Anderson-Darling หรือ Shapiro-Wilk สำหรับ Normality จะให้บริการแม้ว่าจะมีทางเลือกที่เฉพาะเจาะจงอย่างมากคุณสามารถสร้างการทดสอบที่มีประสิทธิภาพมากขึ้น นอกจากนี้ในกราฟของคุณด้านบนคุณเห็นได้ชัดว่ามีตัวอย่างเป็นพัน สิ่งนี้จะเป็นเรื่องปกติด้วยหรือไม่
jbowman

คำตอบ:


6

มันเป็นสิ่งสำคัญที่จะต้องวางกรอบคำถามให้ถูกต้องและนำแบบจำลองเชิงแนวคิดที่มีประโยชน์มาใช้

คำถาม

เกณฑ์การโกงที่อาจเกิดขึ้นเช่น 55, 65 และ 85 เป็นที่ทราบกันดีว่าเป็นข้อมูลที่ไม่เกี่ยวข้อง: ไม่จำเป็นต้องพิจารณาจากข้อมูล (ดังนั้นนี่ไม่ใช่ปัญหาการตรวจหาค่าผิดปกติหรือปัญหาการกระจายสัญญาณที่เหมาะสม) การทดสอบควรประเมินหลักฐานว่าคะแนนบางส่วน (ไม่ใช่ทั้งหมด) น้อยกว่าขีด จำกัด เหล่านี้ถูกย้ายไปยังขีด จำกัด เหล่านั้น (หรืออาจมากกว่าขีด จำกัด เหล่านั้น)

รูปแบบความคิด

สำหรับโมเดลเชิงแนวคิดสิ่งสำคัญคือต้องเข้าใจว่าคะแนนไม่น่าจะมีการแจกแจงแบบปกติ (หรือการแจกแจงแบบพารามิเตอร์อื่น ๆ ได้ง่าย) ที่ชัดเจนอย่างมากในตัวอย่างที่โพสต์และในทุกๆ ตัวอย่างจากรายงานต้นฉบับ คะแนนเหล่านี้เป็นส่วนผสมของโรงเรียน แม้ว่าการแจกแจงภายในโรงเรียนใด ๆ เป็นเรื่องปกติ (ไม่ใช่พวกเขา) แต่ส่วนผสมไม่น่าจะเป็นปกติ

วิธีง่ายๆยอมรับว่ามีการแจกแจงคะแนนจริง: วิธีการที่จะรายงานยกเว้นการโกงรูปแบบนี้โดยเฉพาะ ดังนั้นจึงเป็นการตั้งค่าที่ไม่ใช่พารามิเตอร์ ดูเหมือนจะกว้างเกินไป แต่มีบางลักษณะของการแจกแจงคะแนนที่สามารถคาดการณ์หรือสังเกตได้ในข้อมูลจริง:

  1. นับคะแนน , ฉันและฉัน+ 1จะมีความสัมพันธ์อย่างใกล้ชิด1 ฉัน 99ผม-1ผมผม+11ผม99

  2. จะมีการเปลี่ยนแปลงในจำนวนเหล่านี้เกี่ยวกับการแจกแจงคะแนนในอุดมคติที่ราบรื่น รูปแบบเหล่านี้โดยทั่วไปจะมีขนาดเท่ากับรากที่สองของการนับ

  3. โกงเทียบกับเกณฑ์จะไม่ส่งผลกระทบต่อการนับคะแนนใด ๆฉันที ผลของมันคือสัดส่วนกับจำนวนของคะแนนแต่ละคะแนน (จำนวนนักเรียน "เสี่ยง" ที่ได้รับผลกระทบจากการโกง) สำหรับคะแนนฉันต่ำกว่าเกณฑ์นี้นับ( ฉัน)จะลดลงบางส่วนδ ( T - ฉัน) ( ฉัน)และเงินจำนวนนี้จะถูกเพิ่มเข้าไปที( ฉัน )เสื้อผมเสื้อผม(ผม)δ(เสื้อ-ผม)(ผม)เสื้อ(ผม)

  4. จำนวนของการเปลี่ยนแปลงลดลงด้วยระยะห่างระหว่างคะแนนและเกณฑ์: เป็นฟังก์ชั่นการลดลงของฉัน= 1 , 2 , ...δ(ผม)ผม=1,2,...

กำหนดเกณฑ์ , สมมติฐาน (ไม่มีโกง) คือδ ( 1 ) = 0หมายความδเป็นเหมือนกัน0 ทางเลือกคือที่δ ( 1 ) > 0เสื้อδ(1)=0δ0δ(1)>0

การสร้างแบบทดสอบ

สถิติทดสอบใดที่จะใช้ ตามสมมติฐานเหล่านี้ (a) ผลกระทบคือสารเติมแต่งในการนับและ (b) ผลกระทบที่ยิ่งใหญ่ที่สุดจะเกิดขึ้นรอบเกณฑ์ นี้แสดงให้เห็นความแตกต่างที่กำลังมองหาที่แรกของการนับ, ) การพิจารณาเพิ่มเติมชี้ให้เห็นอีกหนึ่งขั้นตอนต่อไป: ภายใต้สมมติฐานทางเลือกเราคาดว่าจะเห็นลำดับของการนับหดหู่ค่อยเป็นค่อยไปเมื่อคะแนนที่ฉันเข้าใกล้เกณฑ์tจากด้านล่างจากนั้น (i) การเปลี่ยนแปลงเชิงบวกขนาดใหญ่ที่tตามด้วย (ii) a การเปลี่ยนแปลงเชิงลบขนาดใหญ่ที่'(ผม)=(ผม+1)-(ผม)ผมเสื้อเสื้อ 1 เพื่อเพิ่มพลังของการทดสอบให้มากที่สุดเรามาดูความแตกต่างที่สองเสื้อ+1

"(ผม)='(ผม+1)-'(ผม)=(ผม+2)-2(ผม+1)+(ผม),

เพราะที่สิ่งนี้จะรวมการปฏิเสธเชิงลบที่ใหญ่โตc ( t + 1 ) - c ( t )กับการลบของการเพิ่มเชิงบวกที่มีขนาดใหญ่c ( t ) - c ( t - 1 )ดังนั้นจึงขยายผลการโกง .ผม=เสื้อ-1(เสื้อ+1)-(เสื้อ)(เสื้อ)-(เสื้อ-1)

ฉันจะตั้งสมมติฐาน - และสิ่งนี้สามารถตรวจสอบได้ - ความสัมพันธ์แบบอนุกรมของจำนวนที่ใกล้กับธรณีประตูนั้นค่อนข้างเล็ก (ความสัมพันธ์แบบอนุกรมที่อื่นไม่เกี่ยวข้อง) นี่ก็หมายความว่าความแปรปรวนของมีค่าประมาณ"(เสื้อ-1)=(เสื้อ+1)-2(เสื้อ)+(เสื้อ-1)

var("(เสื้อ-1))var((เสื้อ+1))+(-2)2var((เสื้อ))+var((เสื้อ-1)).

ก่อนหน้านี้ฉันแนะนำว่าสำหรับiทั้งหมด(บางสิ่งที่สามารถตรวจสอบได้) จากไหนvar((ผม))(ผม)ผม

Z="(เสื้อ-1)/(เสื้อ+1)+4(เสื้อ)+(เสื้อ-1)

ควรมีความแปรปรวนของหน่วยโดยประมาณ สำหรับประชากรที่มีคะแนนจำนวนมาก (คนที่โพสต์ดูเหมือนว่าจะมีประมาณ 20,000 คน) เราสามารถคาดหวังการกระจายตัวแบบปกติประมาณเช่นกัน เนื่องจากเราคาดว่าจะมีค่าติดลบอย่างมากที่จะบ่งบอกถึงรูปแบบการโกงเราได้อย่างง่ายดายได้รับการทดสอบของขนาดα : เขียนΦสำหรับ CDF ของการกระจายปกติมาตรฐานปฏิเสธสมมติฐานของการไม่มีโกงที่เกณฑ์ทีเมื่อΦ ( Z ) < α"(เสื้อ-1)αΦเสื้อΦ(Z)<α

ตัวอย่าง

ตัวอย่างเช่นลองพิจารณาคะแนนการทดสอบจริงชุดนี้วาด iid จากส่วนผสมของการแจกแจงปกติสามแบบ:

ฮิสโตแกรมของคะแนนจริง

เสื้อ=65δ(ผม)=ประสบการณ์(-2ผม)

ฮิสโตแกรมของคะแนนหลังจากการโกง

Zเสื้อ

แปลง Z

Z

Z=-4.19Φ(Z)=0.0000136

Z

เมื่อใช้การทดสอบนี้กับหลาย ๆ เกณฑ์การปรับขนาด Bonferroni ของขนาดทดสอบจะเป็นการฉลาด การปรับเพิ่มเติมเมื่อใช้กับการทดสอบหลายรายการในเวลาเดียวกันก็เป็นความคิดที่ดีเช่นกัน

การประเมินผล

ZZ ง่ายมากการจำลองจะสามารถทำได้และดำเนินการอย่างรวดเร็ว


Z

1

ฉันขอแนะนำให้ปรับแบบจำลองซึ่งทำนาย dips อย่างชัดเจนแล้วแสดงว่ามันเหมาะกับข้อมูลมากกว่ารุ่นที่ไร้เดียงสาอย่างมีนัยสำคัญ

คุณต้องการสององค์ประกอบ:

  • การแจกแจงเริ่มต้นของคะแนน
  • ขั้นตอนของการตรวจสอบซ้ำ (ซื่อสัตย์หรือไม่) ของคะแนนเมื่อมีค่าต่ำกว่าเกณฑ์

เสื้อ

พีผมnaล.(s)=พีผมnผมเสื้อผมaล.(s)-พีผมnผมเสื้อผมaล.(s)ม.(sเสื้อ)+δ(s=เสื้อ)Σs'=0เสื้อ-1พีผมnผมเสื้อผมaล.(s')ม.(s'เสื้อ),
  • พีผมnaล.(s)
  • พีผมnผมเสื้อผมaล.(s)
  • ม.(s'เสื้อ)s'เสื้อ
  • δ(s=เสื้อ)s=เสื้อ

ม.(s'เสื้อ)aQเสื้อ-s'a

ในฐานะการกระจายเริ่มต้นคุณสามารถลองใช้การกระจาย Poisson หรือ Gaussian แน่นอนว่ามันจะเป็นการดีที่จะมีการทดสอบแบบเดียวกัน แต่สำหรับกลุ่มครูหนึ่งกลุ่มจะมีเกณฑ์และเกณฑ์อื่น ๆ - ไม่มีเกณฑ์

เสื้อผมaผม

หมายเหตุ:

  • บางครั้งมีขั้นตอนการทดสอบการตรวจสอบอีกครั้งหากมีคะแนนต่ำกว่าระดับที่ผ่าน ถ้าอย่างนั้นก็ยากที่จะบอกว่ากรณีใดที่ซื่อสัตย์และไม่ -
  • ม.(sเสื้อ)s
  • เสื้อδ(s=เสื้อ)

ฉันไม่แน่ใจว่าตอบคำถามของฉันแน่นอน ในกรณีนี้เราไม่มีความสามารถในการตรวจสอบการสอบอีกครั้ง สิ่งที่สังเกตได้คือการแจกแจงคะแนนสุดท้าย การกระจายส่วนใหญ่เป็นเรื่องปกติ ยกเว้นรอบจุดตัดบางจุดที่เราสงสัยว่ามีการโกงมีการหยุดในโค้งปกติ หากค่าว่างคือเส้นโค้งนั้น "ราบรื่น" ณ จุดนั้นเราจะทดสอบกับสมมติฐานทางเลือกว่ามันเป็น "bumpy" ได้อย่างไร
d_a_c321

X2พีผมnaล.X2Σs=099|พี(s+1)-พี(s)|2) อาจน่าสนใจ แต่ก็เป็นสิ่งสำคัญในการตรวจสอบสมมติฐานและอื่น ๆ (เช่นสำหรับการทดสอบที่มีคำถามจำนวนมากสำหรับ 2 คะแนนอาจมีความขรุขระ "เริ่มต้น" ค่อนข้างสูง) หากมีการเข้าถึงข้อมูลดิบ (เช่นคำตอบทั้งหมดไม่เพียง แต่คะแนนรวมทั้งหมด) ก็จะมีพื้นที่สำหรับทดสอบเพิ่มเติม ...
Piotr Migdal

1

ฉันจะแยกปัญหานี้ออกเป็นสองปัญหาย่อย:

  • ประเมินพารามิเตอร์ของการแจกแจงเพื่อให้พอดีกับข้อมูล
  • ดำเนินการตรวจหาค่าผิดปกติโดยใช้การกระจายแบบติดตั้ง

มีหลายวิธีในการจัดการกับปัญหาย่อย

ฉันคิดว่าการแจกแจงปัวซงจะพอดีกับข้อมูลถ้ามันเป็นอิสระและกระจายตัว (iid)ซึ่งแน่นอนว่าเราคิดว่ามันไม่ใช่ หากเราพยายามประเมินพารามิเตอร์ของการกระจายอย่างไร้เดียงสาเราจะบิดเบือนค่าผิดปกติ สองวิธีที่เป็นไปได้ที่จะเอาชนะสิ่งนี้คือการใช้เทคนิคการถดถอยที่แข็งแกร่งหรือวิธีการแก้ปัญหาเช่นการตรวจสอบข้าม

สำหรับการตรวจสอบค่าผิดปกติมีวิธีการมากมายอีกครั้ง วิธีที่ง่ายที่สุดคือการใช้ช่วงความเชื่อมั่นจากการกระจายที่เราได้ติดตั้งไว้ในขั้นตอนที่ 1 วิธีอื่น ๆ ได้แก่ วิธีบูตสแตรปและวิธีมอนติคาร์โล

แม้ว่าสิ่งนี้จะไม่บอกคุณว่ามี "การข้าม" ในการแจกจ่าย แต่จะบอกคุณว่ามีค่าผิดปกติมากกว่าที่คาดไว้สำหรับขนาดตัวอย่างหรือไม่

วิธีที่ซับซ้อนกว่านี้ก็คือการสร้างแบบจำลองต่างๆสำหรับข้อมูลเช่นการแจกแจงแบบผสมและใช้วิธีการเปรียบเทียบแบบจำลอง (AIC / BIC) เพื่อกำหนดว่าแบบจำลองใดเหมาะสมที่สุดสำหรับข้อมูล อย่างไรก็ตามหากคุณเพียงแค่มองหา "การเบี่ยงเบนจากการแจกแจงที่คาดหวัง" นี่ดูเหมือนจะเกินความจริง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.