ความแตกต่างระหว่างการสร้างมาตรฐานและการเป็นนักเรียนเป็นอย่างไร


21

เป็นที่ทราบหรือไม่ว่าในความแปรปรวนของมาตรฐานในขณะที่อยู่ในการทำให้เป็นนักเรียนมันไม่เป็นที่รู้จัก ขอขอบคุณ.


2
คุณอาจต้องการชี้แจงบริบทของคำถามของคุณ มาตรฐานแบบไหนการเรียนแบบไหน ค่าเหล่านี้ถูกใช้เพื่ออะไร
russellpierce

3
หากคุณกำลังถามเกี่ยวกับสิ่งตกค้างแล้วคำศัพท์ไม่ได้ (อะแฮ่ม) มาตรฐาน ผู้แต่งต่างใช้ชื่อต่างกันในสิ่งเดียวกันและบางครั้ง - และที่น่าสับสนที่สุดคือชื่อเดียวกันสำหรับสิ่งต่าง ๆ นอกจากนี้สิ่งที่ผมเรียก (i) การลดขนาดเหลือ ( (yy^i)/sที่เรียกว่ามาตรฐานที่เหลือบางคนเขียน); (ii) studentized ภายในเหลือ (เรียกว่ามาตรฐานโดยบางส่วนเขียน / แพคเกจstudentizedโดยคนอื่น ๆ ); (iii) ลบนักเรียน / นิสิตนักศึกษาภายนอกแล้วสิ่งที่เหลือ
Glen_b -Reinstate Monica

คำตอบ:


20

สรุปสั้น ๆ กำหนดรูปแบบy=Xβ+εที่Xคือn×p , β = ( X ' X ) - 1 X ' YและY = X β = X ( X ' X ) - 1 X ' Y = H yโดยที่H = X ( X Xβ^=(XX)1Xyy^=Xβ^=X(XX)1Xy=HyH=X(XX)1Xคือ "hat matrix" เหลือใช้เป็น

e=yy^=yHy=(IH)y
ประชากรแปรปรวนσ2เป็นที่รู้จักและสามารถประมาณการโดยMSEที่คลาดเคลื่อน

สารตกค้างกึ่งแบบกึ่งกลางถูกกำหนดเป็น แต่เนื่องจากความแปรปรวนของที่เหลือขึ้นอยู่กับทั้งสองσ2และXแปรปรวนประมาณของพวกเขาคือ: V(อีฉัน)=MSE(1-เอชฉันฉัน) ที่ชั่วโมงฉันฉันเป็นฉันTH องค์ประกอบในแนวทแยง ของหมวกเมทริกซ์

ei=eiMSE
σ2X
V^(ei)=MSE(1hii)
hiii

ค่ามาตรฐานที่เหลือเรียกอีกอย่างหนึ่งว่าค่าส่วนที่เหลือภายในนักเรียนคือ:

ri=eiMSE(1hii)

อย่างไรก็ตามเดียวและM S Eจะไม่อิสระดังนั้นr ฉันไม่สามารถมีเสื้อกระจาย ขั้นตอนแล้วจะลบผมสังเกต, th พอดีกับฟังก์ชั่นการถดถอยเพื่อที่เหลือn - 1สังเกตและได้รับใหม่Y 's ซึ่งสามารถแสดงโดยปีฉัน( ฉัน ) ความแตกต่าง: d ฉัน = Y ฉัน- Yฉัน( ฉัน) จะเรียกว่าeiMSEritin1y^y^i(i)

di=yiy^i(i)
ที่ถูกลบที่เหลือ นิพจน์ที่เทียบเท่าที่ไม่ต้องการทำการคำนวณใหม่คือ: แสดงถึงXและMSE ใหม่โดยX(i)และMSE(i)เนื่องจากพวกเขาไม่ได้ขึ้นอยู่กับการสังเกตที่iเราได้รับ: ti=di
di=ei1hii
XMSEX(i)MSE(i)iทีฉัน's จะเรียกว่าstudentized(ลบ)เหลือหรือเหลือ studentized ภายนอก
ti=diMSE(i)1hii=eiMSE(i)(1hii)tnp1
ti

ดู Kutner et al. โมเดลเชิงสถิติเชิงเส้นประยุกต์บทที่ 10

แก้ไข: ฉันต้องบอกว่าคำตอบโดย rpierce นั้นสมบูรณ์แบบ ฉันคิดว่า OP เป็นเรื่องเกี่ยวกับค่ามาตรฐานและค่าส่วนของนักเรียน(และหารด้วยค่าเบี่ยงเบนมาตรฐานประชากรเพื่อให้ได้ค่ามาตรฐานที่เหลือดูแปลกสำหรับฉันแน่นอน) แต่ฉันคิดผิด ฉันหวังว่าคำตอบของฉันสามารถช่วยใครบางคนแม้ว่า OT


2
... และคำตอบนี้ถูกต้องในการกำหนดเศษเหลือของนักเรียนจากสมการถดถอย ไม่มีคำจำกัดความของส่วนที่เหลือมาตรฐานที่สอดคล้องกัน กรอบการถดถอยดูเหมือนจะไม่ใช้กับคำถามที่ถาม แต่นี่ก็ยังเป็นสิ่งที่มีค่า +1
russellpierce

2
@ รุนแรงคุณพูดถูก: ทันทีที่ฉันอ่าน "การเป็นนักเรียน" ฉันอ่าน "ส่วนที่เหลือ" ด้วย แต่พวกเขาก็อยู่ในใจฉันเท่านั้น ;-) ขออภัย ฉันสังเกตเห็นการกำกับดูแลของฉันหลังจากคลิกครั้งสุดท้ายเท่านั้น
Sergio

9

sσ

อย่างไรก็ตามปรากฏว่ามีความแตกต่างทางคำศัพท์ข้ามฟิลด์ (โปรดดูความคิดเห็นในคำตอบนี้) ดังนั้นเราควรดำเนินการด้วยความระมัดระวังในการสร้างความแตกต่างเหล่านี้ ยิ่งไปกว่านั้นคะแนนของนักเรียนมักจะถูกเรียกเช่นนี้และมักจะเห็นค่า 'ที่ทำให้เป็นนักเรียน' ในบริบทของการถดถอย @Sergio ให้รายละเอียดเกี่ยวกับประเภทของเศษซากที่ถูกลบไปแล้วที่ได้รับการคัดนักเรียน


2
วิกิพีเดียเสริมว่า "คำนี้ใช้สำหรับการสร้างมาตรฐานของสถิติระดับสูงโดยสถิติอื่นในระดับเดียวกันเช่นการประมาณช่วงเวลากลางที่สามจะถูกทำให้เป็นมาตรฐานโดยการหารด้วยลูกบาศก์ของส่วนเบี่ยงเบนมาตรฐานตัวอย่าง "
Nick Stauner

2
ฉันคิดว่ามันจะปลอดภัยกว่าถ้าจะบอกว่าการทำให้เป็นนักศึกษานั้นเป็นรูปแบบของมาตรฐานที่มีให้หากไม่ทราบความแปรปรวนของประชากร สิ่งนี้ใช้รูปแบบของจุดทางเทคนิคและคำศัพท์ที่แตกต่างมากกว่าข้อความที่ทำให้เข้าใจผิดเกี่ยวกับคำทั่วไปที่กว้างขึ้นและใช้กันอย่างแพร่หลาย
Nick Stauner

2
σ

2
@Nick ดูเหมือนว่าจะเป็นความละเอียดที่ดีเนื่องจากหน่วยงานต่าง ๆ ใช้ "มาตรฐาน" ในวงกว้าง แต่ไม่มีใคร (AFAIK) ใช้ "studentize" ในแง่ที่กว้าง
whuber

2
@rpierce หนังสือเล่มที่สอง (Freedman, Pisani และ Purves) ได้รับรอบ 40 ปีผ่านรุ่นห้า (ส่วนใหญ่ไม่เปลี่ยนแปลง) และเริ่มชีวิตเป็นข้อความสำหรับหลักสูตรสถิติของ UC Berkeley ครอบคลุมทุกสาขาที่เป็นไปได้ทั้งหมดไม่ใช่แค่ด้านสาธารณสุข ในอีกด้านหนึ่งจุดแข็งของมันคือการหลีกเลี่ยงการเน้นความแตกต่างเล็ก ๆ น้อย ๆ ไร้ความหมายหรือสุดเหวี่ยงทางเทคนิคดังนั้นแม้ว่ามันจะเป็นแนวทางที่ดีสำหรับสถิติโดยทั่วไป
whuber

3

ฉันสายเกินไปที่จะตอบคำถามนี้ !! แต่ไม่สามารถหาคำตอบได้ในภาษาที่ง่ายมากดังนั้นพยายามที่จะตอบคำถามนี้อย่างถ่อมใจ

ทำไมเราถึงต้องสร้างมาตรฐาน? ลองนึกภาพคุณมีสองแบบจำลองหนึ่งทำนายความบ้าคลั่งจากระยะเวลาที่ใช้ในการศึกษาสถิติในขณะที่สถิติทำนายอื่น ๆ (บ้า) ด้วยจำนวนเวลาที่สถิติ

มันจะยากที่จะเข้าใจสารตกค้างที่อยู่ในหน่วยต่าง ๆ ดังนั้นเราจึงสร้างมาตรฐานให้พวกเขา (ทฤษฎีที่คล้ายกันกับ Z-score)

ค่ามาตรฐานที่เหลืออยู่: - เมื่อค่าส่วนที่เหลือถูกหารด้วยค่าประมาณของค่าเบี่ยงเบนมาตรฐาน โดยทั่วไปหากค่าสัมบูรณ์> 3 แล้วมันเป็นสาเหตุของความกังวล

เราใช้สิ่งนี้เพื่อตรวจสอบค่าผิดปกติในรูปแบบ

Studentized Residual: เราใช้สิ่งนี้เพื่อศึกษาความมั่นคงของแบบจำลอง

กระบวนการนั้นง่าย เราลบกรณีทดสอบออกจากแบบจำลองและค้นหาค่าที่คาดการณ์ใหม่ ความแตกต่างระหว่างค่าใหม่และค่าดั้งเดิมที่สังเกตได้สามารถเป็นมาตรฐานโดยการหารข้อผิดพลาดมาตรฐาน ค่านี้เป็น Studentized Residual

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการค้นพบสถิตยศาสตร์โดยใช้ R - http://www.statisticshell.com/html/dsur.html


1

Wikipedia มีภาพรวมที่ดีที่https://en.wikipedia.org/wiki/Normalization_(statistics) :

คะแนนมาตรฐาน Xμσ

XX¯s : การทำให้ค่าส่วนที่เหลือเป็นปกติเมื่อไม่ทราบพารามิเตอร์ประชากร (โดยประมาณ)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.