โมเดลการถดถอยที่มีตัวแปรตอบกลับคือวันของปีที่มีเหตุการณ์รายปี (ปกติ) เกิดขึ้น


13

ในกรณีนี้ฉันหมายถึงวันที่ทะเลสาบค้าง วันที่ "ice-on" นี้เกิดขึ้นปีละครั้ง แต่บางครั้งก็ไม่เกิดขึ้นเลย (หากฤดูหนาวอบอุ่น) ดังนั้นในหนึ่งปีทะเลสาบอาจหยุดในวันที่ 20 (มกราคม 20) และอีกปีหนึ่งก็อาจไม่หยุดเลย

เป้าหมายคือการหาไดรเวอร์ของวันที่น้ำแข็ง

ตัวทำนายจะเป็นสิ่งต่าง ๆ เช่นอุณหภูมิอากาศฤดูใบไม้ร่วง / ฤดูหนาวในแต่ละปี ปีอาจเป็นเครื่องทำนายแนวโน้มเชิงเส้นในระยะยาว

1) จำนวนเต็ม "วันของปี" เป็นตัวแปรตอบกลับที่สมเหตุสมผล (ถ้าไม่ใช่คืออะไร)

2) เราควรจัดการกับปีที่ทะเลสาบไม่เคยแข็งตัวอย่างไร?

แก้ไข:

ฉันไม่รู้ว่ามารยาทคืออะไรที่นี่ แต่ฉันคิดว่าฉันโพสต์ผลลัพธ์ของคำแนะนำที่ฉันได้รับ นี่คือกระดาษที่เปิดการเข้าถึง ฉันได้รับผลตอบรับที่ดีเกี่ยวกับวิธีการใช้ขอบคุณ @pedrofigueira และ @cboettig แน่นอนข้อผิดพลาดเป็นของฉันเอง


คุณมีชุดข้อมูลประเภทใด มาตรการในระหว่างวันของปี?
Donbeo

@ Donbeo, ice-on เกิดขึ้นปีละครั้งดังนั้นตัวแปรการตอบสนองจะอยู่ที่การแก้ไขรายปี ข้อมูลอื่น ๆ จะมีความถี่เป็นรายปีเช่นกัน แต่ในบางกรณีสามารถแปลงเป็นข้อมูลความถี่ที่สูงขึ้นได้
rbatt

คุณต้องการที่จะพิจารณาวันที่น้ำแข็ง? ฉันถามสิ่งนี้เพราะการสร้างแบบจำลองทางสถิติจะไม่จริงหรือเท็จ แต่มีประโยชน์หรือไร้ประโยชน์ ดังนั้นการใช้ผลลัพธ์ทางสถิติจึงมีความสำคัญเช่นกันหากมีการใช้ตัวแปรเป้าหมายทั้งหมด เช่นถ้าทะเลสาบค้างด้วยโล่น้ำแข็งบางแล้วในเดือนตุลาคม แต่ละลายในสัปดาห์เดียวกันและไม่หยุดอีกครั้งในฤดูหนาวนี้? คุณอาจทำการวิเคราะห์เพื่อคาดการณ์ว่าเมื่อใดที่จะเริ่มใช้ยางหิมะ นี่อาจเป็นคำแนะนำที่เป็นประโยชน์สำหรับคำถามที่ 2 ของคุณ
Horst Grünbusch

ขอบคุณสำหรับความคิดของคุณ @ HorstGrünbusch ฉันต้องการทราบว่าการเปลี่ยนแปลงของภูมิอากาศมีผลกระทบต่อน้ำแข็งอย่างไรเนื่องจากการปิดฝาบนระบบน้ำมีผลกระทบต่อสิ่งต่างๆมากมาย (การแลกเปลี่ยนก๊าซแสง ฯลฯ ) ข้อมูลน้ำแข็งที่มีอยู่คือวันที่บนน้ำแข็ง (ไม่ใช่ความหนา ฯลฯ )
rbatt

คำตอบ:


4

ฉันคิดว่าเราสามารถพิจารณา "วันแห่งปี" เป็นตัวแปรตอบสนองต่อการถดถอยหลายตัวแปร เพื่อที่จะจัดการกับปีที่ทะเลสาบไม่เคยแข็งตัวฉันก็แค่คิดว่าวันของการแช่แข็งนั้นใหญ่กว่าขีด จำกัด ล่างที่สังเกตได้ซึ่งสอดคล้องเช่นจนถึงวันที่ปริมาณน้ำแข็งเริ่มละลาย (หรือละลายอย่างสมบูรณ์ถ้าคุณต้องการ ระมัดระวังมาก) ในทางทฤษฎีมันควรจะหยุดหลังจากนั้นหรือสามารถตรึงหลังจากนั้น แต่เราไม่ทราบ วิธีนี้คุณสามารถใช้ข้อมูลที่คุณรวบรวมไว้ในพารามิเตอร์ต่าง ๆ เพื่อทำความเข้าใจว่าวันที่แช่แข็งขึ้นอยู่กับพวกเขาอย่างไรหากได้รับอนุญาตให้ช้ากว่าวันที่สังเกตได้ล่าสุด จากนั้นคุณสามารถใช้โมเดล Tobitเพื่อจัดการวันที่แช่แข็งพร้อมกัน (สอดคล้องกับดาต้าพ้อยท์ "ปกติ") และขีด จำกัด ล่าง (สอดคล้องกับขีด จำกัด และการถดถอยแบบเซ็นเซอร์)

ในการรวมขีด จำกัด ล่างที่วัดได้อย่างถูกต้องในการวิเคราะห์คุณสามารถใช้แบบจำลองการถดถอยที่ตรวจสอบได้ซึ่งตัวแปรตามมีการตัดค่าที่ค่าขีด จำกัด ล่าง โมเดล Tobit ที่กล่าวถึงข้างต้นมีความเหมาะสมสำหรับกรณีนี้ มันสันนิษฐานว่ามีตัวแปรซึ่งขึ้นอยู่กับตัวแปรที่ไม่สามารถสังเกตได้ซึ่งในกรณีของเราตรงกับวันที่แช่แข็งหากฤดูหนาวยืดออกไปเรื่อย ๆ ตัวแปรตามที่สังเกตได้ (เช่นขีด จำกัด ล่างที่วัดได้ในวันที่แช่แข็ง) จะถูกนำมาให้เท่ากับตัวแปรแฝงในกรณีที่ไม่มีขีด จำกัด ล่างและเท่ากับขีด จำกัด ล่างมิฉะนั้นyiyiLi

yi={yiif¯Li(i.e.yi<Li)LiifyiLi

การประยุกต์ใช้แบบจำลอง Tobit ในการจัดการกับการตรวจสอบการสังเกตการณ์โดยการสังเกตผลในฟังก์ชั่นบันทึกความน่าจะเป็นของรูปแบบ

L=iyi<Liln[ϕ(yiXijβjσ)/σ]+iyiLiln[Φ(LiXijβjσ)]

โดยที่และแสดงถึงความน่าจะเป็นและฟังก์ชันความหนาแน่นสะสมตามลำดับของการแจกแจงแบบปกติมาตรฐาน ดัชนีรันบนการสังเกตและบนตัวแปรอิสระ วิธีการแก้ปัญหาการถดถอยเชิงเส้นคือชุดของพารามิเตอร์ (รวมถึงการสกัดกั้น) ที่เพิ่มฟังก์ชั่นบันทึกความเป็นไปได้สูงสุดΦ ( . ) ฉันj β jϕ(.)Φ(.)ijβj


3
ปัญหาใหญ่ที่มี "วันแห่งปี" เกี่ยวข้องกับวิธีการเข้ารหัส ปกติมันจะแสดงเป็นวันที่จูเลียนระหว่างและหรือเป็นปีทศนิยมจากที่จะแต่ไม่มีของเหล่านี้มีความเหมาะสมเพราะเป็นวงกลมตัวแปร: วันจูเลียนทันทีตามวันตัวอย่างเช่น ดังนั้นโดยเฉพาะอย่างยิ่งขีด จำกัด "บน" และ "ต่ำ" จึงไม่มีความหมาย (นอกจากนี้ยังมีปัญหาเล็กน้อยเกี่ยวกับวิธีจัดการกับปีอธิกสุรทินซึ่งอาจแก้ไขได้ด้วยวิธีง่าย ๆ ) ปัญหาใหญ่อีกข้อหนึ่งที่เกี่ยวข้องกับการจัดการปีที่ไม่เกิดการแช่แข็ง: นี่ไม่ได้หายไปหรือถูกเซ็นเซอร์ข้อมูล 365 0 1 1 3651365011365
whuber

1
ฉันขอยืนยันว่าแนวคิดของขีด จำกัด ล่างยังคงรักษาความหมายของมันไว้ถ้าในแต่ละปีถือได้ว่าเป็นการทดลองอิสระเช่นถ้าการทดลองไม่มีความทรงจำและวันที่แช่แข็งในหนึ่งปีนั้นสามารถสันนิษฐานได้ว่าเป็นอิสระจากวันที่ ก่อนหน้า; จากนั้นควรขึ้นอยู่กับพารามิเตอร์ของปีที่มีปัญหาเท่านั้น ถ้าเป็นเช่นนั้นถ้าอย่างนั้นเท่าที่ฉันเข้าใจได้ดีที่สุดตัวแปรนั้นจะไม่เป็นวงกลม
pedrofigueira

1
ใช่ในบางสถานการณ์เทคนิคเฉพาะกิจดังกล่าวสามารถทำงานได้ เมื่อ (ก) เหตุการณ์เกิดขึ้นเสมอในแต่ละปีและ (ข) เหตุการณ์นั้นแยกย้ายกันไปอย่างแน่นหนาประมาณวันที่คาดการณ์คุณจะไม่เป็นไรโดยเลือกแหล่งกำเนิดของปีอย่างเหมาะสม แต่ด้วยการกระจายที่มากขึ้น (ซึ่งน่าจะเป็นในกรณีนี้) - หรือในกรณีที่รุนแรงที่สุดเมื่อเหตุการณ์อาจไม่อยู่ด้วยกัน - คุณจำเป็นต้องใช้วิธีการทางสถิติแบบวงกลม ("ทิศทาง") BTW, ความสัมพันธ์แบบอนุกรมหรือความเป็นอิสระเป็นข้อกังวลแยกกันโดยสิ้นเชิง
whuber

2
ฉันคิดว่าขีด จำกัด สูงสุดควรเป็นปีที่กำหนดอย่างแม่นยำที่สุดเท่าที่จะทำได้ หากสามารถทำได้การวิเคราะห์ Tobit ก็จะลึกซึ้งยิ่งขึ้น ฉันขอแนะนำว่าขีด จำกัด ที่ต่ำกว่า (การแช่แข็งอาจเกิดขึ้นก่อนหน้านี้ แต่ไม่ได้สังเกต / สังเกตได้) DoY ที่คุณพิจารณาแล้วว่าคุณไม่สามารถตรวจจับการละลายได้อีก บางทีสิ่งนี้สามารถทำได้โดยการดู (P, T) ที่จำเป็นสำหรับน้ำที่จะแช่แข็งและสมมติว่ามีแรงดันคงที่ให้เลือก minima ท้องถิ่นสุดท้ายของปีหรือคล้ายกัน ฉันเชื่อว่าคำถามในจุดนี้กลายเป็นเรื่องทางกายภาพมากกว่าคำถามเชิงสถิติ (แต่น่าสนใจมาก)
pedrofigueira

2
@ rbatt ฉันคิดว่าคำตอบนี้มีเหตุผล วันที่เริ่มต้นเป็นวันใดวันหนึ่งโดยพลการคุณสามารถเริ่มจากวันอื่นหรือใช้ตัวเลขติดลบ ฉันไม่เห็นปัญหา วงกลมจะดูแลตัวเองโดยนับจากวันของปี
cboettig

1

วันของปีเป็นหนึ่งในตัวแปรทำนายที่สมเหตุสมผลและสำหรับฉันคิดว่ามันสมเหตุสมผลที่จะปฏิบัติตาม @ pedrofigueira

สำหรับตัวแปรทำนายอื่น ๆ คุณอาจต้องระวังเกี่ยวกับวิธีการแสดงเวลา ตัวอย่างเช่นสมมติว่าคุณมีอุณหภูมิอากาศแบบวันต่อวันคุณจะจำลองอุณหภูมิอากาศเป็นตัวทำนายวันบนน้ำแข็งได้อย่างไร ฉันไม่คิดว่าการเปรียบเทียบตัวอย่างวันเดียวกันของปีนั้นเพียงพอแล้ว

ในการวิเคราะห์เช่นนี้ฉันคิดว่ามันจะช่วยให้คุณจดบันทึกสิ่งที่คุณคิดว่าอาจเป็นรูปแบบการสร้าง (หรือแบบจำลอง) ที่เป็นไปได้ของข้อมูล (ซึ่งอาจมีบางวิชาฟิสิกส์เป็นแนวทาง) ตัวอย่างเช่นแบบจำลองที่สมเหตุสมผลอาจรวมจำนวนวันที่ต่ำกว่าจุดเยือกแข็งและเมื่ออินทิกรัลผ่านขีด จำกัด (เช่นที่เกี่ยวข้องกับมวลความร้อนของทะเลสาบ) เกิดน้ำแข็งขึ้น จากแบบจำลองดังกล่าวคุณสามารถถามว่าการประมาณที่เหมาะสมคืออะไรและไม่ใช่อะไร

ตัวอย่างเช่นวันของปีในฐานะผู้ทำนายมีความสำคัญต่อตัวแบบนั้นเพียงเท่าที่วันของปีนั้นเป็นตัวทำนายอุณหภูมิที่ดี ดังนั้นจึงรู้เพียงวันแห่งปีคน ๆ หนึ่งจะมีค่าเฉลี่ยวันต่อปีที่สอดคล้องกับขีด จำกัด น้ำแข็งซึ่งอาจมีการแจกแจงปกติบางอย่างเกี่ยวกับเรื่องนี้ซึ่งเป็นผลมาจากการเปลี่ยนแปลงอุณหภูมิระหว่างปีและมองหาแนวโน้มในวันนั้น แห่งปีมีเหตุผลอย่างสมบูรณ์

แต่ถ้าคุณรู้ว่าตัวแปรอื่น ๆ เช่นอุณหภูมิอากาศในแต่ละวันคุณอาจต้องเผชิญกับโมเดลที่ซับซ้อนกว่านี้โดยตรง หากคุณเพียงแค่ใช้ค่าประจำปี (ต่ำสุดหมายถึง?) กว่าตัวแปรเป็นตัวทำนายของวันน้ำแข็งก็ดูเหมือนว่าสมเหตุสมผล (โดยอาร์กิวเมนต์เดียวกันดังกล่าวข้างต้น)


+1 สำหรับการชี้ไปที่ฟิสิกส์ หากคุณไม่สามารถอธิบายผลลัพธ์ทางสถิติได้ด้วยเหตุผลมันอาจจะปลอมแปลงแม้ว่ามันจะปรากฏขึ้นอย่างมีนัยสำคัญ
Horst Grünbusch

เพียงเพื่อให้ชัดเจนวันของปีสำหรับ ice-on เป็นตัวแปรการตอบสนอง ... มันเป็นสิ่งที่ฉันพยายามที่จะ "ทำนาย" (ในคำตอบของคุณคุณอ้างถึงมันเป็น 'ทำนาย' ในไม่กี่แห่ง) คุณมีข้อเสนอแนะสำหรับการจัดการปีที่ไม่มีการแช่แข็ง (ข้อเสนอแนะอื่น ๆ ของ Tobit ด้านล่าง)?
rbatt

1
@ rbatt ขอโทษสำหรับความสับสน แบบจำลองที่ง่ายที่สุดคือ 1D โดยใช้วันของปีที่น้ำแข็งเกิดขึ้นในอดีตเป็นตัวทำนาย แต่ถ้าคุณต้องการตรวจสอบแนวโน้มในวันที่น้ำแข็งคุณมีวันที่เต็มรูปแบบไม่ใช่วันของปีเป็นสิ่งที่คุณต้องการที่จะทำนายเพราะการทำนายสำหรับพูด 2020 ก็อาจแตกต่างจากที่ในปี 2050
cboettig

0

สำหรับปัญหานี้คุณต้องการตัวแปรตอบกลับสองตัว หนึ่งการตอบสนองทางบูลีนที่ระบุว่าทะเลสาบนั้นแข็งหรือไม่และการตอบสนองจำนวนเต็มหนึ่งครั้งที่ให้วันของปีโดยมีเงื่อนไขว่าตัวบ่งชี้เป็นจริง ในปีที่ผ่านมาเมื่อทะเลสาบแข็งตัวจะมีการสังเกตทั้งบูลีนและจำนวนเต็ม ในปีที่ผ่านมาเมื่อทะเลสาบไม่แข็งตัว Boolean จะถูกตรวจจับและจำนวนเต็มไม่ใช่ คุณสามารถใช้การถดถอยโลจิสติกสำหรับบูลีน การถดถอยสำหรับวันของปีอาจเป็นการถดถอยเชิงเส้นปกติ

ลักษณะวนเวียนของวันของปีไม่น่าจะมีปัญหาตราบใดที่คุณนับจำนวนวันค้างที่เป็นไปได้ติดต่อกันภายในระยะเวลาที่กำหนด หากคุณสงสัยว่าจะเริ่มการนับเลขที่ใดฉันจะแนะนำวันที่วัดการทำนาย หากคุณต้องการให้แบบจำลองแสดงผลกระทบเชิงสาเหตุต้องเป็นกรณีที่ตัวทำนายทั้งหมดถูกวัดก่อนที่จะเกิดการค้างมากเกินไป

เพื่อจัดการกับจำนวนเต็มและธรรมชาติที่ล้อมรอบของวันของปีสามารถใช้รูปแบบ discretization นั่นคือมีค่าแฝงจริงซึ่งสร้างการสังเกตด้วยวิธีดังต่อไปนี้: ถ้าค่าอยู่ภายในขอบเขตการสังเกตจะเท่ากับมูลค่าแฝงที่ปัดเศษเป็นจำนวนเต็มที่ใกล้ที่สุดมิฉะนั้นค่าจะถูกปัดเศษเป็นขอบเขต ค่าแฝงนั้นสามารถจำลองเป็นฟังก์ชันเชิงเส้นของตัวทำนายพร้อมกับเสียงรบกวน


ฉันเข้าใจหลักฐานของวิธีการ แต่ฉันไม่แน่ใจว่าจะใช้มันอย่างไร ฉันจะจัดเรียงข้อมูลและประเมินอิทธิพลของผู้สมัครสอบของบูลีน / วันที่ได้อย่างไร ฉันทำงานใน R.
rbatt

ใส่ข้อมูลลงในกรอบข้อมูลที่หนึ่งคอลัมน์เป็นบูลีนและอีกคอลัมน์เป็นวันที่ จากนั้นใช้: fit1 = glm (froze ~ x, frame, family = "binomial") fit2 = lm (date ~ x, frame)
Tom Minka

ขออภัยฉันอาจเข้าใจ "fit2 = lm (date ~ x, frame, subset = Boolean == TRUE)" ได้ไหม
Sergio

นั่นจะเป็นสองโมเดลที่แยกจากกัน ในแบบจำลองที่การตอบสนอง "วันที่" ฉันจะทำอะไรกับปีที่น้ำไม่เคยแข็งตัว? หากฉันลบหลายปีเหล่านั้นออกไปฉันก็ให้น้ำหนักผลลัพธ์ (หรือลดช่วงการตอบสนองที่สังเกตเห็นอย่างรุนแรง) เพราะฉันเลือกที่จะลบข้อสังเกตที่รุนแรงที่สุดของการตอบสนองออกไป (นั่นคือการแช่แข็งเป็นวันน้ำแข็งที่สุด หลายปีที่น้ำไม่เคยแข็งตัวควรบอกอะไรเราเกี่ยวกับอิทธิพลของคนขับในวันที่น้ำแข็ง ดูเหมือนว่าข้อมูลในทั้งสองโมเดลควรนำมารวมกัน
rbatt

ฉันรู้สึกไม่สบายใจกับการปฏิบัติต่อการแช่แข็งในฐานะตัวแปรบูลีนเพราะกระบวนการที่อยู่ข้างใต้นั้นไม่ต้องสงสัยเลยว่าต่อเนื่องมากกว่านั้น
cboettig

0

สิ่งที่คุณมีคือข้อมูลแบบเวลาต่อเหตุการณ์ซึ่งเรียกว่าการวิเคราะห์การรอดชีวิต นั่นไม่ใช่พื้นที่ของฉันดังนั้นฉันจึงไม่ได้ให้คำตอบอย่างละเอียดที่นี่ Googling สำหรับ "ข้อมูลตามเวลาเหตุการณ์" หรือ "การวิเคราะห์การอยู่รอด" จะให้ความนิยมมาก!

จุดเริ่มต้นที่ดีอย่างหนึ่งอาจเป็นบทที่ (13) เกี่ยวกับการวิเคราะห์การเอาตัวรอดใน Venables / Ripley: MASS หรือ "การวิเคราะห์เชิงสถิติของข้อมูลความล้มเหลวเวลารุ่นที่สอง" โดย John D. Kalbfleisch, Ross L. Prentice (auth.)

แก้ไขขยายคำตอบ

เพื่อเป็นทางเลือกในการวิเคราะห์การเอาตัวรอดคุณสามารถประมาณค่าได้จากการถดถอยโลจิสติกอันดับ ตามตัวอย่างในกรณีตัวอย่างของคุณในวันที่การแช่แข็งครั้งแรกให้กำหนดบางวันที่คุณให้สถานะ "ได้รับการแช่แข็งที่หรือก่อน", 0 (ไม่มีการแช่แข็ง), 1 (การแช่แข็ง) ที่รองรับปีที่ไม่มีการแช่แข็งคุณก็มีเวกเตอร์ตอบสนองที่ไม่มีศูนย์ หากวันที่คุณเลือกคือพูด

1:08   15:08 1:09 15:09 1:10 15:10 1:11 15:11 1:12  15:12  1:01  15:01
and the actual date of first freezing was  17:11, then your observed vector will be
0       0    0    0     0    0     0    0      1     1     1      1

และโดยทั่วไปเวกเตอร์การตอบสนองทั้งหมดจะมีบล็อกเริ่มต้นของศูนย์ตามด้วยบล็อกของคน จากนั้นคุณสามารถใช้สิ่งนี้กับการถดถอยโลจิสติกอันดับที่ได้รับความน่าจะเป็นประมาณของการแช่แข็งสำหรับแต่ละวัน การพล็อตโค้งนั้นจะให้ค่าประมาณสำหรับกราฟการเอาตัวรอด (การอยู่รอดในบริบทนี้จะกลายเป็น "ยังไม่มีการแช่แข็ง")

EDIT

เราสามารถเห็นข้อมูลของคุณว่าเป็นกิจกรรมที่เกิดซ้ำเนื่องจากแม่น้ำค้าง (เกือบ) ทุกปี ค้นหาคำตอบของฉันที่นี่: การ ค้นหาตัวทำนายที่สำคัญของการอ่านค่าทางจิตเวช

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.