มันเหมาะสมหรือไม่ที่จะใช้ตัวแปรวันที่ในการถดถอย


17

ฉันไม่คุ้นเคยกับการใช้ตัวแปรในรูปแบบวันที่ในอาร์ฉันแค่สงสัยว่ามันเป็นไปได้ที่จะเพิ่มตัวแปรวันที่เป็นตัวแปรอธิบายในรูปแบบการถดถอยเชิงเส้น ถ้าเป็นไปได้เราจะตีความค่าสัมประสิทธิ์ได้อย่างไร มันเป็นผลของหนึ่งวันกับตัวแปรผลลัพธ์หรือไม่?

ดูของฉันเค้าด้วยตัวอย่างสิ่งที่ฉันพยายามที่จะทำ


3
วันที่สามารถแปลงเป็นตัวเลข

ความประทับใจของฉันคือ R ทำโดยอัตโนมัติ
PAC

3
แต่ผลลัพธ์ที่ได้มักมีขนาดใหญ่มากซึ่งอาจนำไปสู่ปัญหา ดีกว่าที่จะแปลงตัวเองเช่นไปยังขั้นตอนเวลา (ชั่วโมงหรือวันหรือ ... ) ตั้งแต่เริ่มต้นการวัด นอกจากนี้ยังทำให้ตีความตีความดักจับได้ง่ายขึ้น
Roland

3
แปลงเป็นปัจจัย (เพื่อให้ได้ผลคงที่วัน) หรือแปลงเป็นตัวเลขและ rescale ดังนั้นค่าของวันแรกคือ 0 เพื่อให้ได้ผลเชิงเส้นของวันตั้งแต่ต้นกำเนิด
Thomas

1
นั่นเป็นคำถามที่ดีจริง ฉันคิดว่าเป็นทั้งคำถามเชิงสถิติและคำถามการเขียนโปรแกรม คำถามการเขียนโปรแกรมเป็นอย่างไร R จัดการกับวันที่เมื่อเราใส่วันที่เป็นตัวแปรอธิบายในรูปแบบการถดถอยและคำถามทางสถิติเกี่ยวกับการตีความที่แน่นอนของสัมประสิทธิ์
PAC

คำตอบ:


17

การสร้างความคิดเห็นก่อนหน้านี้เกี่ยวกับ Stack Overflow:

ใช่มันสมเหตุสมผลแล้ว ที่นี่ฉันตอบคำถามทั่วไปและยินดีที่จะให้ผู้เชี่ยวชาญ R กรอกรายละเอียดที่สำคัญ ในมุมมองของฉันเนื่องจากตอนนี้เป็นแบบ Cross-Validated เราไม่ควรมุ่งเน้นไปที่ซอฟท์แวร์โปรดของผู้โพสต์มากเกินไปซึ่งสำคัญสำหรับคนที่มีใจเดียวกัน

วันที่ในซอฟต์แวร์ใด ๆ หากไม่ใช่ตัวเลขสามารถแปลงเป็นตัวแปรตัวเลขที่แสดงในปีวันมิลลิวินาทีหรืออะไรก็ได้นับตั้งแต่เวลาเริ่มต้น สัมประสิทธิ์ที่เกี่ยวข้องกับแต่ละวันมีหน่วยตัวหารซึ่งเป็นหน่วยของวันที่ หน่วยตัวเศษขึ้นอยู่กับหน่วยการตอบสนองหรือตัวแปรตาม (ฟังก์ชั่นการเชื่อมโยงที่ไม่ใช่ตัวตนทำให้สิ่งนี้ซับซ้อนขึ้นตามธรรมชาติ)

อย่างไรก็ตามโดยทั่วไปแล้วจะเหมาะสมที่สุดเมื่อเปลี่ยนวันที่เป็นจุดเริ่มต้นที่เหมาะสมสำหรับการศึกษา โดยปกติแล้ว แต่ไม่จำเป็นต้องมีต้นกำเนิดควรเป็นวันที่ภายในระยะเวลาของการศึกษาหรือใกล้เคียงกับมันมาก

บางทีกรณีที่ง่ายที่สุดคือการถดถอยเชิงเส้นในตัวแปรวันที่ในปี นี่คือการถดถอยของบางคนresponseที่dateแสดงวันที่ 2000 หรือ 2553 หมายถึงการสกัดกั้นซึ่งเป็นค่าของresponseในปี 0 การตั้งค่ารายละเอียดปฏิทินที่ไม่มีปีเช่นนี้ ตรรกะ แต่เป็นสิ่งที่ทำให้ไขว้เขวในการตีความและการนำเสนอ (แม้แต่ผู้ชมที่รอบรู้)

ในตัวอย่างจริงจากการทำงานกับนักศึกษาระดับปริญญาตรีจำนวนของพายุไซโคลนต่อปีในบางพื้นที่เพิ่มขึ้นเล็กน้อยเมื่อวันที่และแนวโน้มเชิงเส้นดูเป็นแทงครั้งแรกที่สมเหตุสมผล การสกัดกั้นจากการถดถอยเป็นจำนวนลบจำนวนมากซึ่งก่อให้เกิดความสับสนมากจนรู้ว่านี่เป็นเช่นเคยการคาดการณ์ถึงปีที่ 0 การเปลี่ยนต้นกำเนิดเป็น 2,000 ให้ผลลัพธ์ที่ดีกว่า (อันที่จริงการถดถอยของปัวซองทำให้มั่นใจว่าการคาดการณ์ในเชิงบวกดีขึ้นกว่าเดิม

การถอยหลังdate - 2000หรืออะไรก็ตามที่เป็นความคิดที่ดี รายละเอียดที่สำคัญของการศึกษามักจะระบุวันฐานที่ดีเช่นแหล่งกำเนิดใหม่

การใช้แบบจำลองอื่น ๆ และ / หรือตัวทำนายอื่น ๆ ไม่ได้ทำลายหลักการนี้ มันแค่บดบังมัน

นอกจากนี้คุณควรสร้างกราฟผลลัพธ์โดยใช้วันที่ใดก็ได้ที่คิดง่ายที่สุด อาจเป็นวันที่ดั้งเดิม นั่นไม่ใช่ความขัดแย้งเนื่องจากเป็นเพียงหลักการเดียวกับการใช้สิ่งที่คิดได้ง่ายที่สุด

ความคิดเล็กน้อยแสดงให้เห็นว่าหลักการทั่วไปมากขึ้น เรามักจะดีกว่าด้วย (อายุ - 20) หรือบางอย่างเพื่อหลีกเลี่ยงการคาดการณ์เชิงตรรกะ แต่อึดอัดใจสำหรับอายุ 0

แก้ไข 21 มีนาคม 2019 (ต้นฉบับ 29 ก.ค. 2556): ข้อโต้แย้งเหล่านี้ได้รับการกล่าวถึงในบริบท Stata ใน Cox, NJ 2015 ชนิดของแหล่งกำเนิด Stata Journal 15: 574-587 ดูที่นี่

แก้ไข 2 และ 4 ธันวาคม 2558 @ ทุกคนในความคิดเห็นยกประเด็นสำคัญของความแม่นยำเชิงตัวเลข บ่อยครั้งที่หน่วยเวลานั้นใช้ได้และวันที่หรือเวลาที่เกิดขึ้นอาจมีขนาดใหญ่มากยกประเด็นที่สำคัญสำหรับผลรวมของสี่เหลี่ยมและอื่น ๆ เขายกตัวอย่างจากอาร์เพื่อให้เราสามารถเพิ่ม (เช่น) วันที่ - เวลาในสตาตาเป็นมิลลิวินาทีนับตั้งแต่เริ่มต้นของปี 1960 ปัญหานี้ไม่ได้เฉพาะเจาะจงกับวันที่เนื่องจากมันสามารถเกิดขึ้นโดยทั่วไปกับตัวเลขที่มีขนาดใหญ่มาก หรือเล็กมาก แต่ก็คุ้มค่าที่จะตั้งค่าสถานะเช่นกัน


1
การพูดเชิงเศรษฐมิติมักใช้วันที่เป็นพร็อกซีสำหรับตัวแปรที่ไม่สามารถวัดได้หรือข้อมูลที่คุณไม่สามารถหาได้ง่าย ดังจะเห็นได้จากอัตราการขายที่เพิ่มขึ้นของผลิตภัณฑ์บางอย่างจาก บริษัท ใหม่เมื่อเวลาผ่านไปเนื่องจากการรับรู้แบรนด์เพิ่มขึ้น เนื่องจากคุณมักจะไม่มีตัวชี้วัดสำหรับการรับรู้แบรนด์จึงสามารถใช้วันที่เป็นพร็อกซี นี้จะให้ regressors อื่น ๆ ของคุณ "ที่สมจริงมากขึ้น" ค่าสัมประสิทธิ์ ** TL: DR ** คุณควรจะระมัดระวังโดยใช้วันที่ในการถดถอยของคุณโดยไม่คิดเกี่ยวกับสิ่งที่ไม่สามารถวัดได้วันปัจจัยอาจจะมีความสัมพันธ์กับที่จะส่งผลกระทบต่อตัวแปรอิสระของคุณ.
สกอตต์

1
คำปรึกษาที่ดี. ฉันคาดเดาว่าวันที่ในปฏิทิน (ฟังก์ชั่น) นั้นมักจะเป็นพร็อกซีสำหรับกระบวนการบางอย่างในเวลาที่ยากที่จะจับภาพเป็นอย่างอื่นดังนั้นจุดจึงขยายออกไปเกินกว่าเศรษฐมิติ
Nick Cox

1
ฉันชอบไซน์และโคไซน์เหมือนใคร แต่การสุ่มตัวอย่างปัญหาข้ามสาขาวิชานำไปสู่การตัดสินนั้น
Nick Cox

1
หากสนใจดูstata-journal.com/sjsearch.html?choice=keyword&q=seasonสำหรับลิงก์ไปยังงานบางส่วนของฉันตามฤดูกาล
Nick Cox

3
R1

5

ดังที่กล่าวไว้ข้างต้นด้วยการปรับขนาดที่เหมาะสมวันที่เป็น regressors ที่ดี เอฟเฟกต์เวลามีแนวโน้มที่จะเป็นเส้นตรงน้อยกว่าแม้แต่ covariates ทั่วไปดังนั้นฉันมักจะใช้เส้นโค้งการถดถอยในเวลา แนวโน้มเวลาที่ซับซ้อนบางอย่างต้องใช้นอตจำนวนมาก (เช่น 7 หรือมากกว่า) เพื่อให้พอดี Splines ลูกบาศก์แบบ จำกัด (เส้นโค้งธรรมชาติ) ให้การคาดการณ์เชิงเส้นที่ปลอดภัยกว่าเวลาสิ้นสุดที่สังเกตแม้ว่าการคาดการณ์จะไม่ปลอดภัยอย่างสมบูรณ์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.