ใช้การถดถอยกับโครงการนอกช่วงข้อมูลตกลงหรือไม่ ไม่เคยตกลง บางครั้งก็โอเค?


10

คุณคิดอย่างไรเกี่ยวกับการใช้การถดถอยกับโครงการนอกช่วงข้อมูล หากเราแน่ใจว่ามันเป็นไปตามรูปแบบเชิงเส้นหรือพลังงานรูปแบบนั้นจะไม่เป็นประโยชน์นอกเหนือจากช่วงข้อมูลหรือไม่ เช่นฉันมีปริมาณการขับเคลื่อนด้วยราคา เราควรจะสามารถคาดการณ์ราคานอกช่วงข้อมูลที่ฉันเชื่อ ความคิดของคุณ?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92

1
ขึ้นอยู่กับสมมติฐานของคุณว่าอยู่นอกช่วงข้อมูลได้ดีเพียงใด ทำนายYสำหรับคนที่ไม่ได้สังเกต xนั่นคือเหตุผลทั้งหมดที่คุณทำการถดถอยตั้งแต่แรก
Ben

3
แม้ว่าคุณจะเป็นจริงแน่นอนว่าความสัมพันธ์เชิงเส้นยังคงดำเนินต่อไปนอกเหนือจากช่วงของการทำนาย x1,...,xn ในตัวอย่างของคุณ n การสังเกตมีคำหนึ่งในความแปรปรวนของการตอบสนองที่คาดการณ์ไว้สำหรับการสังเกตใหม่ x* * * * - กล่าวคือ (x* * * *-x¯)2Σผมn(xผม-x¯)2- ที่ควรกังวลคุณ
Scortchi - Reinstate Monica

เบ็นฉันมักจะเห็นด้วยไม่ได้ทำนายว่า y จะเป็นจุดรวมของ X หรือเปล่า? ถ้าอย่างนั้นทำไมถึงถดถอย? บางทีการกำหนดขีด จำกัด ว่าฉันอนุญาตให้ตัวเองไปไกลแค่ไหนจากช่วงข้อมูลที่สังเกตได้อาจเป็นความรับผิดชอบ แน่นอน 10% จะปลอดภัย .. ไม่เลย
จอห์นสันเจสัน

ปทัฏฐานโปรดของฉันในหัวข้อนี้เป็นbmj.com/content/317/7155/409
Carlo Lazzaro

@ Ben, @ Johnson - อาจจะพูดคลุมเครือ มีการใช้อีกวิธีหนึ่งสำหรับการถดถอย สามารถใช้อธิบายมากกว่าคาดการณ์ได้ ฉันคิดว่าโดยเฉพาะอย่างยิ่งในสังคมศาสตร์นี่เป็นการใช้การถดถอยครั้งใหญ่ ฉันได้อ่านข้อโต้แย้งมากมายเช่นเราคิดว่า (ตัวแปร) ผลของผลลัพธ์ B เราใช้การถดถอยพบว่าช่วงความมั่นใจ 95% ของสัมประสิทธิ์ของ A ไม่มี 0 และเราสรุปว่ามี ความสัมพันธ์ของแบบฟอร์ม A ทำให้ B. โดยบังเอิญนี่ไม่ใช่สิ่งที่ฉันทำ!
meh

คำตอบ:


13

คำตอบและความคิดเห็นเกือบทั้งหมดเตือนต่ออันตรายของการคาดการณ์ ฉันต้องการเสนอวิธีที่เป็นทางการมากขึ้นในการดูว่าการทำนายนั้นรอบคอบหรือไม่ วิธีการจะขึ้นอยู่กับเมทริกซ์การฉายภาพในพื้นที่ที่ถูกทอดโดยคอลัมน์ของXซึ่งเราถือว่าตำแหน่งเต็มเช่นเราสมมติว่าพื้นที่คอลัมน์เป็นมิติ อย่างที่คุณอาจจำได้

H=X(XTX)-1X

มันสามารถแสดงให้เห็นว่าองค์ประกอบเส้นทแยงมุมของ H พอใจ 0<Hผมผม<1, ผม=1,...,nนี่เป็นผลสืบเนื่องมาจากความเฉื่อยชาทางและพวกเขาสามารถตีความได้ว่าเป็นระยะทางจากเซนทรอยด์ของพื้นที่ทำนาย สิ่งนี้เป็นจริงเพราะมีการติดต่อแบบหนึ่งต่อหนึ่งระหว่างการใช้ประโยชน์Hผมผมและระยะทาง Mahalanobis กำลังสอง วิธีที่จะมองเห็นการคาดการณ์ที่ซ่อนอยู่นั้นจะเห็นว่าการถูกครอบงำใหม่มาจากเซนทรอยด์มากแค่ไหน? ซึ่งสามารถทำได้โดยการคำนวณองค์ประกอบเส้นทแยงมุมใหม่ ระลึกถึงกฎพื้นฐานบางประการของการคูณเมทริกซ์เรามี

HnอีW,nอีW=xnอีWT(XTX)-1xnอีW

ถ้า HnอีW,nอีWใหญ่กว่าส่วนที่เหลือของเส้นทแยงมุมมากแล้วนี่บอกคุณว่าการสังเกตใหม่ของคุณอยู่ค่อนข้างไกลจากเซนทรอยด์และการทำนายน่าจะเป็นการเคลื่อนไหวที่มีความเสี่ยง ต้องใช้วิจารณญาณในการตัดสินใจว่ามีขนาดใหญ่เกินไปดังนั้นแน่นอนว่าเทคนิคนี้ไม่สามารถป้องกันความผิดพลาดได้ ความงามของมันก็คือมันทำงานได้ในทุกมิติเมื่อคุณไม่สามารถมองเห็นพล็อตแบบง่าย ๆ นั่นก็คือ

ฉันไม่แน่ใจว่าคุณใช้ซอฟต์แวร์ใด แต่เกือบทั้งหมดจะคืนค่าเมทริกซ์หมวกด้วยคำสั่งที่ถูกต้อง ดังนั้นฉันขอแนะนำให้คุณดูก่อนตัดสินใจ


ทำได้ดีมาก JohnK สิ่งนี้มีประโยชน์มาก FYI ฉันกำลังใช้การถดถอยของ Excel
จอห์นสันเจสัน

9

ข้อผิดพลาดในการทำนายเพิ่มขึ้นเป็นสองเท่ากับระยะทางจากค่าเฉลี่ย สมการการถดถอยและผลลัพธ์ช่วยให้คุณสามารถวัดขนาดของข้อผิดพลาดในช่วงข้อมูลที่สังเกตได้และตัวแบบนั้นเพียงพอในช่วงเดียวกันนั้นเท่านั้น

นอกช่วงนั้นมีหลายสิ่งที่สามารถเกิดขึ้นได้ ประการแรกการคาดคะเนแย่ลงเรื่อย ๆ เนื่องจากการเพิ่มขึ้นของการทำนายผิดพลาด

ประการที่สองรูปแบบอาจพังทลายลงอย่างสมบูรณ์ วิธีที่ง่ายที่สุดที่จะเห็นว่าคือการพยายามสร้างแบบจำลองที่เกี่ยวข้องกับราคาเป็นครั้งคราว: คุณไม่สามารถคาดการณ์เวลาเชิงลบได้

ประการที่สามความสัมพันธ์เชิงเส้นอาจไม่เพียงพอ ในตัวอย่างของคุณมีการประหยัดจากขนาดอย่างแน่นอนซึ่งจะเห็นได้ชัดเจนมากหากคุณพยายามคาดการณ์นอกค่าที่สังเกตได้

ตัวอย่างที่ตลกขบขันของเอฟเฟ็กต์แบบเดียวกันนี้ปรากฏในผลงานของมาร์กทเวนซึ่งเขาพยายามที่จะสร้างแบบจำลองความยาวของแม่น้ำมิสซิสซิปปีเมื่อเวลาผ่านไป --- มัน / ค่อนข้างลมแรงและสั้นลง / เอ็ดในแต่ละปี ของโค้งเช่นเดียวกับทางลัดที่มนุษย์สร้างขึ้น --- และ "คาดการณ์" ว่าในระยะเวลาหลายปีที่ผ่านมาระหว่างกรุงไคโรอิลลินอยส์และนิวออร์ลีนส์จะหดประมาณหนึ่งไมล์และสามในสี่)

สุดท้ายโปรดทราบว่าช่วงของค่าที่สังเกตได้นั้นค่อนข้างซับซ้อนหากคุณมีตัวแปรทำนายมากกว่าหนึ่งตัว (เนื่องจากความสัมพันธ์ระหว่างตัวทำนายที่คุณมักจะไม่สามารถใช้กล่องที่กำหนดโดย maxima และ minima ในตัวทำนายแต่ละตัว)


1
(+1) แม้ว่าจะบอกว่ารูปแบบเป็นที่เพียงพอเท่านั้นในช่วงของข้อมูลที่สังเกตเป็นบิตที่แข็งแกร่ง - มันว่าปัญหาที่คุณอธิบายมากขึ้นและอื่น ๆ ที่เกี่ยวข้องกับการอยู่ไกลออกไปคุณจะได้รับจากมัน
Scortchi - Reinstate Monica

ดังนั้นจะมีการแก้ไขว่าระยะห่างที่ปลอดภัยนั้นห่างไกลจากช่วงข้อมูลที่สังเกตได้หรือไม่? ค่าเบี่ยงเบนมาตรฐานน้อยกว่า 1 เอาล่ะ
จอห์นสันเจสัน

1
@Scortchi จุดที่ถ่าย ในสถานการณ์ส่วนใหญ่ความเสื่อมโทรมของตัวแบบค่อยเป็นค่อยไป อย่างไรก็ตามบางครั้งก็มีขอบเขตที่ยากลำบากและการพยายามไปให้ไกลกว่านั้นจะทำให้เกิดความเศร้าโศก
3697176

1
@JohnsonJason: ไม่มีเหตุผลที่จะมองหากฎง่ายๆ คุณสามารถคำนวณช่วงเวลาการทำนายได้อย่างง่ายดายสมมติว่าแบบจำลองของคุณสามารถคาดการณ์ได้ ระดับที่คุณสามารถเชื่อถือการคาดการณ์ขึ้นอยู่กับความรู้ในเรื่อง: สิ่งที่ยอมรับได้แตกต่างกันไปในแต่ละกรณี
Scortchi - Reinstate Monica

1
คะแนนยอดเยี่ยม (+1) แต่ไม่มีปัญหาเชิงตรรกะในการทำนายราคาสำหรับเวลาลบ ปัญหาที่แท้จริงคือถ้าคุณทำนายราคาติดลบในบางครั้ง บ่อยครั้งที่หมายความว่าแบบจำลองนั้นมีความผิดพลาดเชิงคุณภาพมากพอ ๆ กับการคาดการณ์ที่ยืดเส้นตรง (หรือเส้นโค้ง) ไปไกลเกินไป ฟังก์ชั่นการเชื่อมโยงลอการิทึมเช่นแสดงถึงการคาดการณ์ในเชิงบวกเสมอ
Nick Cox

4

คุณไม่สามารถทำการตัดสินใจที่ขับเคลื่อนด้วยข้อมูลสำหรับพื้นที่ที่คุณไม่มีข้อมูล ตอนจบของเรื่อง. ข้อมูลสามารถรองรับรูปร่างเชิงเส้นในช่วงที่มีการรวบรวมข้อมูลของคุณได้เป็นอย่างดี แต่คุณไม่มีเหตุผลที่ขับเคลื่อนด้วยข้อมูลที่จะเชื่อว่ารูปร่างนี้ยังคงเป็นเส้นตรงนอกช่วงของคุณ มันอาจเป็นรูปร่างใด ๆ ภายใต้ดวงอาทิตย์!

คุณอาจสันนิษฐานว่ารูปร่างเชิงเส้นยังคงอยู่นอกช่วงข้อมูลของคุณ แต่นี่เป็นสมมติฐานที่ไม่สนับสนุนข้อมูลที่คุณรวบรวม ฉันขอแนะนำให้ปรึกษาผู้เชี่ยวชาญเรื่องที่จะดูตามความเชี่ยวชาญเรื่องของพวกเขาว่าสมมติฐานนี้ปลอดภัยแค่ไหน


2
ดังนั้นอะไรคือจุดสำคัญของการถดถอยถ้าเราไม่สามารถคาดการณ์ Y สำหรับการไม่ได้รับ X
จอห์นสันเจสัน

2
ฉันคิดว่าประเด็นคือคุณยังคงสามารถคาดเดาได้ในช่วงนั้นไม่แนะนำให้คาดการณ์นอกช่วง จุดข้อมูลใหม่ส่วนใหญ่น่าจะอยู่ในช่วงดังนั้นโมเดลจะยังคงมีประโยชน์ส่วนใหญ่เวลา
Ryan Zotti
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.