การถดถอย: ทำไมการทดสอบภาวะปกติของเศษโดยรวมแทนที่จะเหลือเงื่อนไขใน


10

ฉันเข้าใจว่าในการถดถอยเชิงเส้นข้อผิดพลาดจะถูกกระจายโดยปกติเงื่อนไขตามค่าที่ทำนายของ y จากนั้นเราดูที่เหลือเป็นพร็อกซีสำหรับข้อผิดพลาด

ป้อนคำอธิบายรูปภาพที่นี่มันมักจะแนะนำให้สร้างผลลัพธ์เช่นนี้ อย่างไรก็ตามฉันไม่เข้าใจว่าจุดใดที่ได้รับส่วนที่เหลือของแต่ละจุดข้อมูลและทำการบดเข้าด้วยกันในพล็อตเดียว

ฉันเข้าใจว่าเราไม่น่าจะมีจุดข้อมูลเพียงพอที่จะประเมินว่าเรามีค่าคงที่ปกติตามค่าที่ทำนายไว้ของ y หรือไม่

อย่างไรก็ตามไม่ใช่คำถามว่าเรามีสารตกค้างตามปกติโดยรวมแยกจากกันหรือไม่และเป็นสิ่งที่ไม่เกี่ยวข้องอย่างชัดเจนกับสมมติฐานแบบจำลองของค่าคงที่ปกติที่แต่ละค่าคาดการณ์ของ y เราไม่สามารถมีค่าคงที่ปกติในแต่ละค่าที่คาดการณ์ของ y ในขณะที่มีค่าคงที่โดยรวมที่ค่อนข้างไม่ปกติ


1
อาจมีข้อดีบางอย่างกับแนวคิด - บางที bootstrapping อาจช่วยได้ที่นี่ (เพื่อให้ได้ส่วนที่เหลือ)
ความเป็นไปได้ที่จะเกิดขึ้น

2
คุณสามารถให้ข้อมูลอ้างอิงสำหรับการถดถอยเชิงเส้นได้หรือไม่ข้อผิดพลาดจะถูกกระจายตามปกติโดยมีเงื่อนไขกับค่าที่ทำนายไว้ของ y (ถ้าคุณมี)
Richard Hardy

ฉันไม่ได้มีแหล่งที่มาที่เฉพาะเจาะจงในใจเมื่อฉันโพสต์คำถาม แต่วิธีการเกี่ยวกับ "การสร้างแบบจำลองสมมติฐานคือว่าตัวแปรตอบสนองมักจะกระจายไปทั่วเส้นการถดถอย จากที่นี่ ยินดีต้อนรับข้อเสนอแนะเพิ่มเติมหากฉันผิดเกี่ยวกับเรื่องนี้
user1205901 - Reinstate Monica

คำตอบ:


17

เราไม่สามารถมีค่าคงที่ปกติในแต่ละค่าที่คาดการณ์ของ y ในขณะที่มีค่าคงที่โดยรวมที่ค่อนข้างไม่ปกติ

ไม่ - อย่างน้อยไม่ได้อยู่ภายใต้สมมติฐานมาตรฐานที่ความแปรปรวนของข้อผิดพลาดคงที่

คุณสามารถนึกถึงการกระจายของส่วนที่เหลือโดยรวมว่าเป็นส่วนผสมของการแจกแจงแบบปกติ (หนึ่งระดับสำหรับแต่ละระดับ) โดยสมมติฐานการแจกแจงปกติเหล่านี้ทั้งหมดมีค่าเฉลี่ย (0) และความแปรปรวนเดียวกัน ดังนั้นการกระจายตัวของบรรทัดฐานของการผสมผสานนี้จึงเป็นการกระจายตัวแบบปกติy^

ดังนั้นจากนี้เราสามารถก่อรูปแบบการอ้างเหตุผลเล็กน้อย หากการแจกแจงรายบุคคลที่ได้รับค่าของตัวทำนาย X เป็นปกติ (และความแปรปรวนของพวกเขาเท่ากัน) การกระจายตัวของค่าตกค้างโดยรวมนั้นเป็นปกติ ดังนั้นถ้าเราสังเกตว่าการกระจายตัวของสารตกค้างโดยรวมนั้นไม่ปกตินี่ก็หมายความว่าการแจกแจงที่ให้ X นั้นไม่ปกติกับความแปรปรวนเท่ากัน ซึ่งเป็นการละเมิดสมมติฐานมาตรฐาน


1
p(ϵ)=p(ϵ|x)p(x)dxp(ϵ|x)p(ϵ)p(x)y^=β0+β1Xy^X

เป็นเรื่องเหมาะสมหรือไม่ที่จะบอกว่ามาร์จิ้นที่ไม่ใช่ปกติทำให้เรา "ปฏิเสธ" เงื่อนไขที่ไม่ปกติ แต่มาร์จิ้นปกตินั้นไม่อนุญาตให้เรา "ยอมรับ" เงื่อนไขปกติ?
shadowtalker

6
p(ϵ|x)=p(ϵ)p(ϵ)N(0,σ2)N(0,σ2)
Bill

1
ε | XN(0,σ2)εN(0,σ2)

@ssdecontrol จากคำตอบ: " ถ้าการแจกแจงรายบุคคลที่กำหนดค่าของตัวทำนาย X เป็นปกติ (และค่าความแปรปรวนเท่ากัน) การกระจายตัวของเศษซากโดยรวมเป็นเรื่องปกติ " ไม่แน่ใจว่าฉันจะชัดเจนกว่านี้อีกเท่าใด
Jake Westfall

3

มันได้รับการกล่าวสามัญสี่เหลี่ยมจัตุรัสที่น้อยที่สุดใน y (OLS) นั้นเหมาะสมที่สุดในคลาสของตัวประมาณค่าแบบไม่ลำเอียงเชิงเส้นเมื่อความผิดพลาดนั้นเป็นแบบ homoscedastic และไม่ได้มีการเรียงตัวกันแบบอนุกรม สำหรับความแตกต่างของสารตกค้างแบบ homoscedastic นั้นความแปรปรวนของส่วนที่เหลือจะเป็นอิสระจากที่เราจะวัดความแปรปรวนของขนาดที่เหลืออยู่บนแกน x ตัวอย่างเช่นสมมติว่าข้อผิดพลาดของการวัดของเราเพิ่มขึ้นตามสัดส่วนเพื่อเพิ่มค่า y จากนั้นเราสามารถหาลอการิทึมของค่า y เหล่านั้นก่อนดำเนินการถดถอย หากทำเช่นนั้นคุณภาพพอดีจะเพิ่มขึ้นเมื่อเทียบกับข้อผิดพลาดแบบสัดส่วนโดยไม่ต้องใช้ลอการิทึม โดยทั่วไปเพื่อให้ได้ homoscedasticity เราอาจต้องรับส่วนกลับของข้อมูล y หรือแกน x, ลอการิทึม (s), สแควร์รูทหรือสแควร์รูทหรือใช้เลขชี้กำลัง อีกทางเลือกหนึ่งคือการใช้ฟังก์ชั่นน้ำหนัก(ymodel)2y2(ymodel)2

ต้องบอกว่ามากมักเกิดขึ้นที่ทำให้ส่วนที่เหลือ homoscedastic ทำให้พวกเขากระจายตามปกติ แต่บ่อยครั้งที่คุณสมบัติ homoscedastic มีความสำคัญมากขึ้น หลังนั้นจะขึ้นอยู่กับสาเหตุที่เราทำการถดถอย ตัวอย่างเช่นถ้าสแควร์รูทของข้อมูลกระจายมากกว่าปกติโดยใช้ลอการิทึม แต่ข้อผิดพลาดเป็นประเภทสัดส่วนการทดสอบลอการิทึม t-test จะมีประโยชน์สำหรับการตรวจจับความแตกต่างระหว่างประชากรหรือการวัด แต่สำหรับการค้นหาที่คาดหวัง คุณค่าเราควรใช้สแควร์รูทของข้อมูลเพราะมีเพียงสแควร์รูทของข้อมูลเท่านั้นคือการกระจายแบบสมมาตรซึ่งคาดว่าค่าเฉลี่ยโหมดและค่ามัธยฐานจะเท่ากัน

ยิ่งกว่านั้นมันเกิดขึ้นบ่อยครั้งที่เราไม่ต้องการคำตอบที่ทำให้เราคาดการณ์ข้อผิดพลาดน้อยที่สุดของค่าแกน y และการถดถอยเหล่านั้นสามารถลำเอียงอย่างมาก ตัวอย่างเช่นบางครั้งเราอาจต้องการความผิดพลาดน้อยที่สุดใน x หรือบางครั้งเราต้องการเปิดเผยความสัมพันธ์ระหว่าง y และ x ซึ่งไม่ใช่ปัญหาการถดถอยตามปกติ จากนั้นเราอาจใช้ Theil คือความชันเฉลี่ยการถดถอยเป็นการประนีประนอมที่ง่ายที่สุดระหว่าง x และ y การถดถอยข้อผิดพลาดน้อยที่สุด หรือถ้าเรารู้ว่าความแปรปรวนของการวัดซ้ำสำหรับทั้ง x และ y เราสามารถใช้ Deming regression ได้ การถดถอยของพวกเขาดีกว่าเมื่อเรามีค่าผิดปกติซึ่งทำสิ่งที่น่ากลัวต่อผลลัพธ์การถดถอยปกติ และสำหรับการถดถอยของค่ามัธยฐานแบบปานกลางมันมีความสำคัญเพียงเล็กน้อยไม่ว่าจะมีการแจกแจงแบบปกติหรือไม่

BTW ค่าเฉลี่ยของค่าคงที่ไม่จำเป็นต้องให้ข้อมูลการถดถอยเชิงเส้นที่เป็นประโยชน์กับเราตัวอย่างเช่นสมมติว่าเรากำลังทำการวัดซ้ำสองการวัดอิสระ เนื่องจากเรามีความเป็นอิสระความสัมพันธ์ที่คาดหวังนั้นเป็นศูนย์และความชันของเส้นถดถอยจะเป็นจำนวนสุ่มใด ๆ ที่ไม่มีความชันที่มีประโยชน์ เราทำการวัดซ้ำเพื่อสร้างการประมาณตำแหน่งเช่นค่าเฉลี่ย (หรือค่ามัธยฐาน (การแจกแจงแบบ Cauchy หรือเบต้าที่มีจุดสูงสุดหนึ่งจุด) หรือโดยทั่วไปแล้วค่าคาดหวังของประชากร) และจากนั้นเพื่อคำนวณความแปรปรวนใน x และความแปรปรวน ใน y ซึ่งสามารถใช้สำหรับ Deming ถดถอยหรืออะไรก็ได้ ยิ่งกว่านั้นสมมติฐานที่ว่าการซ้อนทับจึงเป็นเรื่องปกติที่ค่าเฉลี่ยเดียวกันถ้าประชากรดั้งเดิมเป็นปกติทำให้เราไม่มีการถดถอยเชิงเส้นที่มีประโยชน์ เพื่อดำเนินการต่อไปนี้ สมมติว่าฉันเปลี่ยนพารามิเตอร์เริ่มต้นและสร้างการวัดใหม่ด้วย Monte Carlo x และฟังก์ชัน y-value ที่ต่างกันสร้างตำแหน่งและเปรียบเทียบข้อมูลนั้นด้วยการเรียกใช้ครั้งแรก จากนั้นค่าคงที่เป็นปกติในทิศทาง y ที่ค่า x ทุกค่า แต่ในทิศทาง x ค่าฮิสโตแกรมจะมียอดเขาสองอันซึ่งไม่เห็นด้วยกับสมมติฐาน OLS และความชันและการสกัดกั้นของเราจะลำเอียงเพราะ ไม่มีข้อมูลช่วงเวลาเท่ากันบนแกน x อย่างไรก็ตามการถดถอยของข้อมูลที่ถูกจัดเรียงในขณะนี้มีความชันและการสกัดกั้นที่ชัดเจนในขณะที่ไม่เคยมีมาก่อน ยิ่งกว่านั้นเพราะเราทดสอบเพียงสองจุดด้วยการสุ่มตัวอย่างซ้ำเราจึงไม่สามารถทดสอบความเป็นเชิงเส้นได้ อันที่จริงค่าสัมประสิทธิ์สหสัมพันธ์จะไม่เป็นการวัดที่เชื่อถือได้ด้วยเหตุผลเดียวกัน

ในทางกลับกันบางครั้งก็สันนิษฐานว่าข้อผิดพลาดนั้นมีการแจกแจงแบบปกติตามเงื่อนไขบน regressors สมมติฐานนี้ไม่จำเป็นสำหรับความถูกต้องของวิธีการ OLS แม้ว่าคุณสมบัติตัวอย่างแน่นอนบางอย่างเพิ่มเติมสามารถสร้างขึ้นได้ในกรณีเมื่อมันทำ (โดยเฉพาะในพื้นที่ของการทดสอบสมมติฐาน)ดูที่นี่. เมื่อใดที่ OLS อยู่ในการถดถอยที่ถูกต้อง ตัวอย่างเช่นหากเราทำการวัดราคาหุ้นที่ปิดทุกวันในเวลาเดียวกันอย่างแม่นยำดังนั้นจะไม่มีความแปรปรวนแกน T (แกน x คิด) อย่างไรก็ตามเวลาของการซื้อขายครั้งสุดท้าย (การตั้งถิ่นฐาน) จะกระจายแบบสุ่มและการถดถอยเพื่อค้นหาความสัมพันธ์ระหว่างตัวแปรจะต้องรวมความแปรปรวนทั้งสอง ในกรณีดังกล่าว OLS ใน y จะประมาณการข้อผิดพลาดน้อยที่สุดในค่า y เท่านั้นซึ่งจะเป็นตัวเลือกที่ไม่ดีสำหรับการคาดการณ์ราคาการซื้อขายสำหรับการชำระราคาเนื่องจากเวลาของการตั้งถิ่นฐานนั้นจำเป็นต้องคาดการณ์เช่นกัน นอกจากนี้ยังมีข้อผิดพลาดในการกระจายตามปกติอาจจะด้อยกว่าไปแกมมา Pricing Model

มันมีความหมายอะไร? ทีนี้บางหุ้นซื้อขายหลายครั้งต่อนาทีและอื่น ๆ ไม่ซื้อขายทุกวันหรือทุกสัปดาห์และมันสามารถสร้างความแตกต่างเป็นตัวเลขที่ค่อนข้างใหญ่ ดังนั้นมันขึ้นอยู่กับข้อมูลที่เราต้องการ หากเราต้องการถามว่าตลาดจะทำอย่างไรในวันพรุ่งนี้เมื่อปิดนั่นคือคำถาม "ประเภท" OLS แต่คำตอบอาจเป็นแบบไม่เชิงเส้นไม่เป็นแบบตกค้างเป็นปกติและต้องการฟังก์ชันการฟิตที่มีค่าสัมประสิทธิ์รูปร่างที่เห็นด้วยกับอนุพันธ์พอดี (และ / หรือช่วงเวลาที่สูงกว่า) เพื่อสร้างความโค้งที่ถูกต้อง . (หนึ่งสามารถพอดีกับอนุพันธ์เช่นเดียวกับฟังก์ชั่นเช่นใช้ลูกบาศก์ splines ดังนั้นแนวคิดของสัญญาซื้อขายล่วงหน้าไม่ควรมาเป็นที่น่าประหลาดใจแม้ว่ามันจะไม่ค่อยมีการสำรวจ) หากเราต้องการทราบว่าเราจะทำเงินหรือไม่ ในสต็อกเฉพาะจากนั้นเราจะไม่ใช้ OLS เนื่องจากปัญหาจะเกิดขึ้นที่ตัวแปร


1
คุณจะบอกว่าบรรทัดฐานนั้นเพียงพอ แต่ไม่จำเป็นสำหรับการอนุมานที่ถูกต้อง? ทำไมไม่ลองทดสอบความแตกต่างโดยเฉพาะ แน่นอนว่าการแจกแจงส่วนน้อยของส่วนที่เหลือไม่ได้หมายความว่าการสันนิษฐานว่าเป็นเงื่อนไขปกตินั้นผิดหรือเปล่า? ทว่าด้วยการออกแบบที่ไม่ผ่านการทดสอบเพื่อให้ได้มาตรฐาน
shadowtalker

สำหรับการทดสอบ t homoscedasticity มักจะสำคัญกว่า ค่าผิดปกติทำให้ 1.359 SD >> IQR ช่วยลดพลังของการทดสอบ t จากนั้นลองทดสอบ reparameterization หรือ Wilcoxon ซึ่งจะใช้งานได้ในสถานการณ์ส่วนใหญ่ (อาจไม่ใช่เมื่อ r> 0.9999) โดยไม่คำนึงถึงประเภทการแจกจ่ายหรือระดับของความแตกต่าง ในความเป็นจริงหากมีการทดสอบพารามิเตอร์ที่คล้ายกันหลายอย่างทั้ง Wilcoxon หรือ t-test จะทำงานได้ดีขึ้นเพื่อแยกความน่าจะเป็นต่ำและสูงดังนั้นข้อมูลเองมักจะประกาศสิ่งที่มีประโยชน์มากขึ้น
Carl

ทำให้นั่น 1.349 SD >> IQR 1.349 คือจำนวนของ SD ที่การแจกแจงแบบปกติมีหนึ่งช่วง interquartile (IQR) การแจกแจงบางอย่างเช่นการแจกจ่าย Cauchy หรือนักเรียนที่มีอิสระสององศาไม่มี SDs คนร้ายฆ่าคนนั้น แต่พวกเขามี IQRs จากนั้นหนึ่งคนใช้ Wilcoxon หรือการทดสอบแบบไม่มีพารามิเตอร์อื่น ๆ เป็นการทดสอบที่ตั้ง
Carl

เมื่อคิดเพิ่มเติม (ดูวัสดุใหม่ตอบ) ความปกติของเศษแกน y ก็ดี แต่ก็มีไม่เพียงพอ
Carl

การแจกแจงแบบเทลด์หนักทำสิ่งที่น่ากลัวต่อสมการถดถอย ตัวอย่างเช่นถ้าใครจะตรวจสอบทุกเนินเขาไปได้ในชุดข้อมูลหนึ่งมักจะได้รับการกระจาย Cauchy เนินเขาอาคา Student's- เสื้อกับหนึ่งระดับของเสรีภาพ สำหรับการกระจาย Cauchy ไม่มีเวลา นั่นคือเราสามารถคำนวณค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานและยิ่งมีข้อมูลมากเท่าใดยิ่งค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเท่าไร ค่าที่คาดหวังของการกระจาย Cauchy คือค่ามัธยฐานและการคำนวณค่าเฉลี่ยจะต้องตรวจสอบค่าที่มากที่สุด
Carl
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.