อะไรคือสมมติฐานของการถดถอยสันและวิธีการทดสอบพวกเขา?


21

พิจารณาตัวแบบมาตรฐานสำหรับการถดถอยหลายจุดโดยที่ε N ( 0 , σ 2 I n )ดังนั้นความเป็นมาตรฐานความสม่ำเสมอความเป็นหนึ่งเดียวและข้อผิดพลาดที่ไม่เกี่ยวข้องทั้งหมด

Y=Xβ+ε
εN(0,σ2In)

สมมติว่าเราทำการถดถอยแบบสันเขาโดยการเพิ่มจำนวนเล็กน้อยลงในองค์ประกอบทั้งหมดของเส้นทแยงมุมของ :X

βridge=[XX+kI]1XY

มีค่าบางอย่างที่ซึ่งค่าสัมประสิทธิ์สันเขามีข้อผิดพลาดยกกำลังสองเฉลี่ยน้อยกว่าผู้ที่ได้รับโดย OLS แม้ว่าβ r ฉันd กรัมอีเป็นประมาณการลำเอียงของβ ในทางปฏิบัติkได้มาจากการตรวจสอบข้ามkβridgeβk

นี่คือคำถามของฉัน: อะไรคือสมมติฐานสมมติฐานต้นแบบสันเขา? จะเป็นรูปธรรมมากขึ้น

  1. สมมติฐานทั้งหมดของ square อย่างน้อยสามัญ (OLS) ใช้ได้กับการถดถอยของสันเขาหรือไม่?

  2. ถ้าใช่ต่อคำถามที่ 1 เราจะทดสอบความเป็นเนื้อเดียวกันและขาดความสัมพันธ์กับค่าประมาณความลำเอียงของอย่างไรβ

  3. มีงานทดสอบสมมติฐาน OLS อื่น ๆ (homoscedasticity และการขาดความสัมพันธ์อัตโนมัติ) ภายใต้การถดถอยของสันเขาหรือไม่?


6
โปรดทราบว่า OLS ไม่ถือว่าผู้ทำนายอิสระ มันเป็นเพียงวิธีการแก้ปัญหาเฉพาะบางอย่างหรือสูตรที่ทำให้สมมติฐานดังกล่าว สิ่งที่สำคัญคือวิธีที่คุณเลือกตัวคูณการถดถอยของสันเขาไม่ใช่ว่าการประมาณของอาจจะลำเอียง หากเลือกตัวคูณนั้นด้วยการมองหาร่องรอยของสันเขาคุณก็ไม่มีวิธีที่จะบอกปริมาณความไม่แน่นอนซึ่งเรียกว่าเป็นข้อสงสัยเกี่ยวกับการทดสอบวินิจฉัยส่วนใหญ่ในทฤษฎีการถดถอยเชิงเส้น สิ่งนี้ทำให้ฉันถามสิ่งที่คุณหมายถึงจริง ๆ โดย "ridge regression": คุณประเมินพารามิเตอร์ของมันอย่างไร β
whuber

บางทีฉันผิด แต่การพิจารณารูปแบบมาตรฐานของการถดถอยหลาย Y และถ้าXไม่ได้เป็นอันดับที่เต็มรูปแบบนี้นำไปสู่การที่ไม่ใช่ invertible เมทริกซ์X ' Xโดยเฉพาะอย่างยิ่งในกรณีของมิติสูงของ X. ฉันได้แก้ไขคำถามของฉัน ขอบคุณ βOLS=(XX)1XYXXX
พี่เลี้ยง

1
การถดถอยเชิงเส้นสามารถจัดการกับ collinearity ได้อย่างสมบูรณ์ตราบใดที่มันไม่ "ใหญ่เกินไป"
jona

3
นั่นไม่ใช่แบบจำลองสำหรับการถดถอยหลายครั้ง: มันเป็นวิธีเดียวในการแสดงค่าประมาณกำลังสองน้อยที่สุด เมื่อไม่สามารถกลับสมการปกติยังคงมีการแก้ปัญหาและ (ปกติ) รุ่นยังคงมีที่ไม่ซ้ำกันพอดีซึ่งหมายความว่ามันทำให้การคาดการณ์ที่ไม่ซ้ำกัน XX
whuber

คำตอบ:


21

คืออะไรสมมติฐานของกระบวนการทางสถิติ?

ฉันไม่ใช่นักสถิติและนี่อาจผิด แต่ฉันคิดว่าคำว่า "สมมติฐาน" มักถูกใช้อย่างไม่เป็นทางการและสามารถอ้างถึงสิ่งต่าง ๆ ได้ สำหรับฉัน "การสันนิษฐาน" คือการพูดอย่างเคร่งครัดสิ่งที่ผลลัพธ์ทางทฤษฎีเท่านั้น (ทฤษฎีบท) สามารถมีได้

เมื่อผู้คนพูดถึงสมมติฐานของการถดถอยเชิงเส้น ( ดูที่นี่สำหรับการสนทนาเชิงลึก) พวกเขามักจะอ้างถึงทฤษฎีของเกาส์ - มาร์คอฟที่บอกว่าภายใต้สมมติฐานของ uncorrelated, เท่ากัน - แปรปรวน, ค่าศูนย์ผิดพลาด, OLS ประมาณน้ำเงิน คือไม่มีอคติและมีความแปรปรวนขั้นต่ำ นอกเหนือจากบริบทของทฤษฎีบทเกาส์ - มาร์กอฟแล้วมันไม่ชัดเจนสำหรับฉันว่า "สมมติฐานการถดถอย" จะหมายถึงอะไร

ในทำนองเดียวกันสมมติฐานของการพูดหนึ่งตัวอย่าง t-test อ้างถึงสมมติฐานที่อยู่ภายใต้ -statistic มีเสื้อ -distributed และด้วยเหตุนี้การอนุมานที่ถูกต้อง มันไม่ได้เรียกว่า "ทฤษฎีบท" แต่มันเป็นผลทางคณิตศาสตร์ที่ชัดเจน: ถ้าnตัวอย่างมีการกระจายตามปกติแล้วเสื้อ -statistic จะปฏิบัติตามของนักเรียนที -distribution กับn - 1องศาอิสระttnttn1

สมมติฐานของเทคนิคการถดถอยที่ถูกลงโทษ

พิจารณาตอนนี้เทคนิคการถดถอยแบบปกติใด ๆ : การถดถอยของสัน, เชือก, ยางยืด, การถดถอยส่วนประกอบหลัก, การถดถอยกำลังสองน้อยที่สุดบางส่วน ฯลฯ ฯลฯ จุดรวมของวิธีการเหล่านี้คือการประมาณค่าพารามิเตอร์การถดถอยแบบเอนเอียงและหวังว่าจะลดความคาดหวัง การสูญเสียโดยการใช้ประโยชน์จากการแลกเปลี่ยนความแปรปรวนแบบอคติ

วิธีการทั้งหมดเหล่านี้มีพารามิเตอร์การทำให้เป็นมาตรฐานอย่างน้อยหนึ่งตัวและไม่มีวิธีใดที่จะมีกฎที่แน่นอนสำหรับการเลือกค่าของพารามิเตอร์เหล่านี้ ค่าที่ดีที่สุดมักจะพบผ่านขั้นตอนการตรวจสอบความถูกต้องบางประเภท แต่มีวิธีการตรวจสอบความถูกต้องข้ามหลายแบบและสามารถให้ผลลัพธ์ที่แตกต่างกันบ้าง ยิ่งไปกว่านั้นไม่ใช่เรื่องแปลกที่จะเรียกใช้กฎของหัวแม่มือเพิ่มเติมนอกเหนือจากการตรวจสอบข้าม เป็นผลให้ผลที่เกิดขึ้นจริงβของการใดวิธีการถดถอยลงโทษเหล่านี้จะไม่จริงที่กำหนดไว้อย่างเต็มที่โดยวิธี แต่จะขึ้นอยู่กับทางเลือกของนักวิเคราะห์β^

ดังนั้นจึงไม่ชัดเจนกับผมว่าจะมีคำสั่งใด ๆ optimality ทฤษฎีเกี่ยวกับβและอื่น ๆ ผมไม่แน่ใจว่าการพูดคุยเกี่ยวกับ "สมมติฐาน" (มีหรือไม่มีมัน) ของวิธีการลงโทษเช่นการถดถอยสันทำให้ความรู้สึกที่ทุกคนβ^

แต่สิ่งที่เกี่ยวกับผลการคำนวณทางคณิตศาสตร์ที่ริดจ์ถดถอยเสมอ OLS?

λβλ

ผลลัพธ์นี้ไม่จำเป็นต้องใช้สมมติฐานใด ๆ และเป็นจริงเสมอ แต่มันก็แปลกที่จะอ้างว่าการถดถอยของสันไม่มีสมมติฐานใด ๆ

โอเค แต่ฉันจะรู้ได้อย่างไรว่าฉันสามารถใช้การถดถอยแบบสันได้หรือไม่

ฉันจะบอกว่าแม้ว่าเราจะไม่สามารถพูดถึงสมมติฐานได้ แต่เราสามารถพูดคุยเกี่ยวกับกฎง่ายๆได้ เป็นที่ทราบกันดีว่าการถดถอยของสันเขานั้นมีประโยชน์มากที่สุดในกรณีที่การถดถอยหลายครั้งกับตัวทำนายที่สัมพันธ์กัน เป็นที่ทราบกันดีว่ามันมีแนวโน้มที่จะดีกว่า OLS ซึ่งมักจะมีกำไรที่สูง มันจะมีแนวโน้มที่จะดีกว่าแม้ในกรณีที่มีความแตกต่างของความผิดพลาดที่มีความสัมพันธ์หรือสิ่งอื่นใด ดังนั้นกฎง่ายๆระบุว่าถ้าคุณมีข้อมูลหลายระดับหลายปีการถดถอยสันและการตรวจสอบข้ามจึงเป็นความคิดที่ดี

อาจมีกฎที่เป็นประโยชน์อื่น ๆ เกี่ยวกับหัวแม่มือและกลอุบายทางการค้า (เช่นเช่นจะทำอย่างไรกับค่าผิดปกติขั้นต้น) แต่พวกเขาไม่ใช่ข้อสมมติฐาน

pp


ในสถานการณ์ที่มีคุณสมบัติของการอนุมานที่เกี่ยวข้องกับกระบวนการบางอย่างไม่ว่าจะเป็นคุณสมบัติของการทดสอบสมมติฐานของความชันถดถอยหรือคุณสมบัติของช่วงความเชื่อมั่นหรือช่วงการทำนายตัวอย่างเช่นการทดสอบตัวเองจะได้รับภายใต้ ชุดของสมมติฐาน เนื่องจากในสาขาวิชาหลาย ๆ เรื่องโดยทั่วไปแล้วจุดประสงค์ในการใช้การถดถอยก็คือทำการอนุมานบางอย่าง (ที่จริงแล้วในบางพื้นที่ของแอปพลิเคชั่นนั้นไม่ค่อยได้ทำด้วยเหตุผลอื่นใด) สมมติฐานที่เกี่ยวข้องกับกระบวนการอนุมาน ด้วย ... ctd
Glen_b -Reinstate Monica

ctd ... สิ่งที่พวกเขาใช้ ดังนั้นหากคุณต้องการสมมติฐานบางอย่างเพื่อหาค่า t-test สำหรับการทดสอบสัมประสิทธิ์การถดถอยหรือสำหรับการทดสอบ F บางส่วนหรือสำหรับ CI สำหรับค่าเฉลี่ยหรือช่วงการทำนาย ... และการอนุมานรูปแบบปกติทั้งหมดทำแบบเดียวกันหรือเกือบ การรวบรวมสมมติฐานแบบเดียวกันดังนั้นสิ่งเหล่านั้นจะถือว่าเป็นสมมติฐานที่เกี่ยวข้องกับการอนุมานโดยใช้สิ่งนั้น หากใครจะทำการอนุมานด้วยการถดถอยสัน (พูดช่วงการทำนาย) และทำให้สมมติฐานเพื่อทำเช่นนั้นพวกเขาอาจถูกกล่าวว่าเป็นสมมติฐาน ... ctd
Glen_b

จำเป็นต้องได้รับการสืบทอด (และจากนั้นสมมุติว่าจะใช้) การอนุมานแบบนั้นเกี่ยวกับการถดถอยของสันเขา
Glen_b -Reinstate Monica

R2

1
ไม่สายเกินไปฉันหวังว่าจะขอบคุณ @amoeba คำตอบที่ดี!
นักขัตฤกษ์

1

ฉันต้องการให้ข้อมูลบางอย่างจากมุมมองสถิติ ถ้า Y ~ N (Xb, sigma2 * In) ดังนั้นค่าเฉลี่ยของข้อผิดพลาดกำลังสองของ b ^ คือ

MSE(b^)=E(b^-b).T*(b^-b)=E(|b^-b|^2)=sigma2*trace(inv(X.T*X))

D(|b^-b|^2)=2*sigma4*trace((X.T*X)^(-2))

b^=inv(X.T*X)*X.T*Y

หาก XT X มีค่าประมาณศูนย์ดังนั้น inv (XT X) จะใหญ่มาก ดังนั้นการประมาณค่าพารามิเตอร์ของ b จึงไม่เสถียรและอาจมีปัญหาต่อไปนี้

  1. ค่าสัมบูรณ์บางอย่างของการประมาณพารามิเตอร์นั้นใหญ่มาก
  2. b มีเครื่องหมายบวกหรือลบตรงข้ามกับที่คาดไว้
  3. การเพิ่มหรือลบตัวแปรหรือการสังเกตจะทำให้การประมาณการพารามิเตอร์เปลี่ยนแปลงไปอย่างมาก

เพื่อที่จะทำให้ค่าประมาณกำลังสองน้อยที่สุดของ b เสถียรเราแนะนำการถดถอยของสันเขาโดยการประมาณb^(k)=inv(X.T*X+kI)*X.T*Y.และเราสามารถพิสูจน์ได้ว่ามีเอเคเสมอที่ทำให้ค่าคลาดเคลื่อนกำลังสองเฉลี่ยของ

MSE(b^(k)) < MSE(b^).

ในการเรียนรู้ของเครื่องการถดถอยแบบสันเรียกว่าการทำให้เป็นรูปเป็นร่าง L2 และเพื่อต่อสู้กับปัญหาที่เกิดจากการปรับแต่งที่เกินความเหมาะสม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.