Spline df selection ในปัญหาโมเดลเสริมปัวซองทั่วไป


9

ฉันได้รับการกระชับข้อมูลอนุกรมเวลาโดยใช้รูปแบบการเติมแต่งทั่วไป Poisson ใช้ PROC GAMSAS โดยทั่วไปฉันมีกระบวนการตรวจสอบข้ามแบบทั่วไปในตัวแล้วสร้าง "จุดเริ่มต้น" ที่ดีสำหรับเส้นโค้งเดี่ยวของฉันซึ่งเป็นฟังก์ชันที่ไม่ใช่เชิงเส้นของเวลาพร้อมกับคำพารามิเตอร์เดียว (อันที่ฉัน สนใจจริงๆ)

จนถึงตอนนี้มันทำงานได้ค่อนข้างว่ายน้ำยกเว้นหนึ่งในชุดข้อมูลของฉัน มีการสังเกตในชุดข้อมูล 132 ชุดและ GCV แนะนำให้มีอิสระในระดับ 128 องศา ดูเหมือนว่า ... ผิด ผิดมาก ที่สำคัญมันยังไม่เสถียรเลย ฉันลองวิธีที่สองโดยใช้บางอย่างเช่น "เปลี่ยนค่าประมาณ" เพื่อหยุดเพิ่มองศาอิสระเมื่อการประมาณค่าพารามิเตอร์หยุดหยุดการเปลี่ยนแปลงเพราะเหตุใดจึงต้องเพิ่มการควบคุมหากไม่มีอะไรแตกต่างกัน

ปัญหาคือว่าการประมาณการไม่เสถียรเลย ฉันลองใช้องศาอิสระดังต่อไปนี้และอย่างที่คุณเห็นคำศัพท์เกี่ยวกับพารามิเตอร์จะเด้งไปมาอย่างดุเดือด:

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

ฉันไม่มีสัญชาตญาณเกี่ยวกับสิ่งที่ฉันควรใช้ในแง่ของ df สำหรับข้อมูลบิตนี้ ความคิดอื่น ๆ สำหรับวิธีการเลือก df หรือไม่? ฉันควรจะดูความสำคัญของเส้นโค้งหรือไม่

เมื่อดูระหว่าง df = 10 และ df = 15 ดูเหมือนว่า df = 12 เป็นค่าที่ใกล้เคียงที่สุดที่คุณสามารถมาถึงค่าประมาณที่ 128 และยังคงอยู่ในช่วง นอกเหนือจากเทอมเชิงเส้นแล้วการสกัดกั้นและเทอมเดียวที่ให้ความรู้สึกเหมือนแบบจำลองที่มีความอิ่มตัวสูงมาก เป็นไปได้หรือไม่ที่จะไปกับ 12

ในฐานะที่เป็นปรับปรุงที่สองเปลี่ยนเรียบจากspline(t)ที่จะloess(t)เป็นผลในมากขึ้นมีความประพฤติดี DF ประมาณการ - ควรฉันเพียงแค่สลับไปเหลืองเรียบ?


ในชุดข้อมูลของคุณด้วยการสังเกต 132 ครั้งมีการนับและระยะเวลาที่เกี่ยวข้องซึ่งหมายความว่าเป็นชุดข้อมูลถ่วงน้ำหนักที่มีการสังเกตมากกว่า 132 รายการหรือไม่ เนื่องจากความสัมพันธ์แปรปรวนเฉลี่ยใน Poisson RVs การนับจำนวนมากสามารถนำไปสู่คุณสมบัติ "การเลือกแบบจำลอง" ซึ่งไม่น่าพึงพอใจเนื่องจาก "ขนาดตัวอย่างขนาดใหญ่"
AdamO

ชุดข้อมูลคือ 132 สัปดาห์ของข้อมูลซึ่งจำลองเป็น counts = เทอมการทำงาน + บันทึก (เวลาบุคคล) เป็นออฟเซ็ต จำนวนนั้นไม่สูงมากนัก - แต่ก็มีเลขศูนย์อยู่พอสมควร
Fomite

คำตอบ:


5

ในฐานะที่เป็น @ M.Berk กล่าวถึง GCV เป็นที่รู้จักกันดีว่าส่วนใหญ่เป็นเพราะเกณฑ์นี้มีการลงโทษที่ไม่เหมาะสมมากเกินไปซึ่งมีแนวโน้มที่จะส่งผลให้เกณฑ์ขั้นต่ำสุดของ GCV เป็นฟังก์ชันของ , พารามิเตอร์ความลื่น เนื่องจากขั้นต่ำนั้นตื้นมาก GCV ที่ดีที่สุดสามารถเกิดขึ้นได้ในช่วงกว้างของการประมาณนอกจากนี้เกณฑ์ GCV ซึ่งเป็นหน้าที่ของมีแนวโน้มที่จะมีหลาย minima ซึ่งสามารถนำไปสู่ความไม่แน่นอนที่คุณอธิบาย Simon Wood (2011) มีภาพประกอบที่ดีของเรื่องนี้ในรูปที่ 1 ของเขาλλλ

Wood (2011) ยังแสดงให้เห็นว่า AICc ไม่ได้ให้ประโยชน์เพิ่มเติมมากไปกว่า GCV สำหรับฐานอันดับต่ำถึงกลางที่ใช้สำหรับฟังก์ชั่นที่ราบรื่น

ในทางตรงกันข้ามการเลือกความนุ่มนวลของ REML (และ ML) ยังเป็นการลงโทษที่เกินพอดีมากกว่า GCV และทำให้มีการกำหนดที่เหมาะสมอย่างชัดเจนมากขึ้น สิ่งนี้นำไปสู่การประมาณการที่มีเสถียรภาพมากขึ้นและลดความเสี่ยงจากการไม่ยอมแพ้λ

Wood (2011) อธิบายถึงขั้นตอนการประมาณค่า REML และ ML ที่รวดเร็วและมีเสถียรภาพซึ่งเขาแสดงให้เห็นว่ามีการปรับปรุงมากกว่าวิธี REML (ML) ที่มีอยู่ในแง่ของการลู่เข้า ความคิดเหล่านี้มีอยู่ในไซมอนmgcvแพคเกจสำหรับR

เนื่องจาก Wood (2011) อยู่หลัง paywall ฉันจึงรวมสำเนาของภาพที่คล้ายกัน (ผลลัพธ์ AICc ไม่ปรากฏที่นี่) ที่นำมาจากชุดสไลด์ของ Simon ที่มีอยู่ในเว็บไซต์ของเขาเกี่ยวกับวิธีการเลือกที่ราบรื่น {PDF} รูปจากสไลด์ 10 แสดงอยู่ด้านล่าง

ป้อนคำอธิบายรูปภาพที่นี่

สองแถวแสดงข้อมูลจำลองที่มีสัญญาณแรง (ด้านบน) หรือไม่มี (ล่าง) ตามลำดับ พาเนลซ้ายสุดแสดงการรับรู้จากแต่ละรุ่น พาเนลที่เหลือแสดงให้เห็นว่าเกณฑ์ GCV (คอลัมน์กลาง) และ REML แตกต่างกันอย่างไรเมื่อฟังก์ชันของสำหรับชุดข้อมูล 10 ชุดแต่ละชุดจำลองจากแบบจำลองของจริง ในกรณีของแถวบนสังเกตว่า GCV แบบแบนอยู่ทางด้านซ้ายของจุดที่เหมาะสม ผืนพรมในแผงเหล่านี้แสดงดีที่สุดสำหรับการรับรู้ 10 อย่าง เกณฑ์ REML มีที่ดีที่สุดที่เด่นชัดมากขึ้นและความแปรปรวนน้อยกว่าค่าที่ได้รับการแต่งตั้งของ\λλλ

ดังนั้นฉันจะแนะนำวิธีการสนับสนุนโดย Simon Wood สำหรับแพคเกจmgcvของเขาคือการเลือกเป็นมิติพื้นฐานสิ่งที่มีขนาดใหญ่พอที่จะรวมถึงความยืดหยุ่นที่คาดการณ์ไว้ในความสัมพันธ์ระหว่างแต่ไม่ใช่ ใหญ่. จากนั้นให้พอดีกับรุ่นโดยใช้การเลือกความนุ่มนวลของ REML หากองศาอิสระของโมเดลที่เลือกอยู่ใกล้กับมิติที่ระบุไว้ในตอนแรกให้เพิ่มมิติพื้นฐานและปรับใหม่y=f(x)+ε

ในฐานะที่เป็นทั้ง @ M.Berk และ @BrendenDufault พูดถึงระดับของความเป็นส่วนตัวอาจจำเป็นเมื่อตั้งค่าพื้นฐาน spline ในแง่ของการเลือกมิติพื้นฐานที่เหมาะสมที่เหมาะสมกับ GAM แต่การเลือกความนุ่มนวลของ REML นั้นพิสูจน์แล้วว่าแข็งแกร่งในประสบการณ์ของฉันในแอพพลิเคชั่นของ GAM โดยใช้วิธีการของ Wood

ไม้, SN (2011) ที่มีเสถียรภาพอย่างรวดเร็ว จำกัด โอกาสสูงสุดและการประมาณค่าความน่าจะเป็นส่วนเพิ่มของการพูดคุย semiparametric เชิงเส้นรุ่น J. สมาคมสถิติรอยัล B 73 (ตอนที่ 1), 3--6


@EpiGrad ยินดีต้อนรับ ขออภัยฉันพลาดคำถามในเวลานั้น ในช่วงปีที่ผ่านมาหรือสองปีที่ผ่านมาฉันได้ดิ้นรนกับสถานการณ์ที่คล้ายกับของคุณและได้อ่านเอกสารของ Simon Wood เกี่ยวกับเรื่องนี้และการเลือกคุณสมบัติในหลายครั้ง ดีใจที่ฉันสามารถเรียกคืนรายละเอียดบางอย่างเพื่อช่วย
Gavin Simpson

3

ฉันคิดว่าทางออกที่ดีที่สุดของคุณอยู่นอกอัลกอริธึมที่ราบเรียบ พิจารณาแบบจำลอง parsimony

คุณพูดถึงเรื่องนี้ แต่ฉันเชื่อว่ามันจะต้องเป็นเกณฑ์การคัดเลือกหัวหน้าของคุณ ถามตัวเองว่า "โค้ง" ดูสมเหตุสมผลมากเพียงใดโดยพิจารณาจากสาเหตุ / สาเหตุของกระบวนการที่เป็นแบบจำลอง แสดงกราฟเส้นโค้งที่ติดตั้งพร้อมกับplots=components(clm)คำสั่งและประเมินความพอดี บางทีเส้นโค้ง DF สูงกำลังบอกเล่าเรื่องราวที่คล้ายกันว่าเส้นโค้ง DF ต่ำ แต่มีเสียงดังมากขึ้น ในกรณีนี้ให้เลือก DF ที่พอดีน้อย

ท้ายที่สุดแล้วโมเดลของ GAM มีจุดประสงค์เพื่อการสำรวจ

ต้องใช้ตัวเลือกgcv ด้วยตัวเองฉันสงสัยเกี่ยวกับประสิทธิภาพของมันภายใต้เงื่อนไขของปัวซองข้อมูลที่กระจัดกระจาย ฯลฯ บางทีอาจมีการศึกษาแบบจำลองที่นี่


2

ฉันพิมพ์คำตอบต่อไปนี้และจากนั้นฉันก็ไม่รู้ว่ามันใช้ได้กับการถดถอยของปัวซองซึ่งฉันไม่เคยมีประสบการณ์มาก่อน บางทีผู้คนสามารถตอบได้ด้วยความคิดเห็น


โดยส่วนตัวแล้วฉันชอบคำแนะนำของ BW Silverman (1985) "บางแง่มุมของวิธีการทำให้เส้นโค้งเรียบขึ้นเพื่อปรับเส้นโค้งการถดถอยแบบไม่อิงพารามิเตอร์ (พร้อมการอภิปราย)" (มีให้โดยไม่ต้องสมัครสมาชิกที่นี่ ): ลองใช้พารามิเตอร์การปรับให้เรียบและเลือกพารามิเตอร์ที่ดึงดูดสายตามากที่สุด

ในขณะที่เขาชี้ให้เห็นอย่างถูกต้องในกระดาษแผ่นเดียวกันในขณะที่วิธีการส่วนตัวอาจเป็นที่ต้องการยังคงมีความต้องการวิธีการอัตโนมัติ อย่างไรก็ตาม GCV โดยทั่วไปเป็นตัวเลือกที่แย่เนื่องจากมีแนวโน้มที่จะเรียบ ดูตัวอย่างเช่น Hurvich et al (1998) "การเลือกพารามิเตอร์การปรับให้เรียบในการถดถอยแบบไม่มีพารามิเตอร์โดยใช้เกณฑ์ข้อมูล Akaike ที่ได้รับการปรับปรุง" (มีให้โดยไม่ต้องสมัครสมาชิกที่นี่ ) ในกระดาษเดียวกันพวกเขาเสนอเกณฑ์ใหม่ที่อาจบรรเทาปัญหาของคุณ AIC ที่แก้ไขซึ่งรวมถึงการแก้ไขขนาดตัวอย่างเล็ก ๆ คุณอาจพบว่าคำอธิบายวิกิพีเดียของ AICcง่ายต่อการติดตามมากกว่าบทความ บทความ Wikipedia ยังมีคำแนะนำที่ดีจาก Burnham & Anderson (เช่นใช้ AICc มากกว่า AIC โดยไม่คำนึงถึงขนาดของตัวอย่าง)

โดยสรุปคำแนะนำของฉันจะเป็นไปตามลำดับของการตั้งค่า:

  1. เลือกพารามิเตอร์การปรับให้เรียบด้วยตนเองผ่านการประเมินด้วยภาพ
  2. ใช้ AIC ที่ถูกต้อง (AICc) มากกว่า GCV
  3. ใช้ AIC มาตรฐาน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.