เส้นโค้งลูกบาศก์ จำกัด และแตกต่างกันอย่างไร

ฉันอ่านมากเกี่ยวกับการใช้ splines ในปัญหาการถดถอยต่าง ๆ หนังสือบางเล่ม (เช่น Hodges Richly Parrameterized Linear Models ) แนะนำ splines ที่ถูกลงโทษ อื่น ๆ (เช่นกลยุทธ์การสร้างแบบจำลองการถดถอยของ Harrell ) เลือกใช้เส้นโค้งลูกบาศก์แบบ จำกัด

ในทางปฏิบัติแล้วสิ่งเหล่านี้ต่างกันอย่างไร คุณมักจะได้รับผลลัพธ์ที่แตกต่างอย่างมากจากการใช้อย่างใดอย่างหนึ่งหรือไม่? ข้อใดข้อหนึ่งมีข้อดีเป็นพิเศษหรือไม่

regression splines

— Peter Flom
แหล่งที่มา

จากการอ่านของฉันแนวคิดสองข้อที่คุณขอให้เราเปรียบเทียบนั้นเป็นสัตว์ที่แตกต่างกันมากและจะต้องมีการเปรียบเทียบแอปเปิ้ลและส้ม สิ่งนี้ทำให้คำถามของคุณค่อนข้างที่จะสงสัย - โดยเฉพาะอย่างยิ่ง (สมมติว่ามีใครสามารถเขียนบทลงโทษลงมาสำหรับพื้นฐาน RCS ในรูปแบบที่ต้องการ) คุณจะต้องใช้แบบจำลองการถดถอยแบบลูกบาศก์ลูกบาศก์ที่ถูกลงโทษที่ถูกลงโทษ

Splines แบบลูกบาศก์ที่ถูก จำกัด

เส้นโค้งลูกบาศก์ที่ถูก จำกัด (หรือเส้นโค้งธรรมชาติ) เป็นพื้นฐานของเส้นโค้งที่สร้างขึ้นจากฟังก์ชั่นพหุนามลูกบาศก์ตามลำดับที่เข้าร่วมได้อย่างราบรื่นในบางตำแหน่งที่ระบุไว้ล่วงหน้าหรือเป็นนอต สิ่งที่แตกต่างจาก spline ลูกบาศก์ จำกัด จาก spline ลูกบาศก์คือข้อ จำกัด เพิ่มเติมจะถูกกำหนดในรุ่นที่ จำกัด เช่นนั้น spline เป็นเส้นตรงก่อนปมแรกและหลังปมสุดท้าย นี้จะทำเพื่อปรับปรุงประสิทธิภาพการทำงานของเส้นโค้งในหางของX $X$

การเลือกแบบจำลองด้วย RCS มักจะเกี่ยวข้องกับการเลือกจำนวนนอตและตำแหน่งของพวกเขาโดยที่ก่อนหน้านี้จะควบคุมวิธีการที่ทำให้เกิดแนวโค้งหรือซับซ้อน นอกจากจะมีขั้นตอนเพิ่มเติมบางอย่างเพื่อทำให้ค่าสัมประสิทธิ์โดยประมาณเป็นปกติเมื่อทำการประกอบโมเดลแล้วจำนวนของนอตจะควบคุมความซับซ้อนของเส้นโค้งโดยตรง

ซึ่งหมายความว่าผู้ใช้มีปัญหาบางอย่างที่จะเอาชนะได้เมื่อประเมินโมเดลที่มีคำ RCS หนึ่งรายการขึ้นไป:

ใช้นอตกี่อัน?
จะวางนอตเหล่านั้นในช่วงอย่างไร? $X$
วิธีเปรียบเทียบแบบจำลองที่มีจำนวนนอตแตกต่างกันอย่างไร

ด้วยตนเองข้อกำหนด RCS ต้องการการแทรกแซงของผู้ใช้เพื่อแก้ไขปัญหาเหล่านี้

เส้นโค้งลงโทษ

เส้นโค้งการถดถอยที่ถูกปรับโทษ (sensu Hodges) เกี่ยวกับปัญหาการแก้ไขปัญหาของตนเอง3.เท่านั้น แต่พวกเขาอนุญาตสำหรับการแก้ไขปัญหา1.เพื่อหลีกเลี่ยง แนวคิดนี้ก็คือเช่นเดียวกับการขยายฐานของและสำหรับตอนนี้สมมติว่านี่คือพื้นฐานลูกบาศก์ลูกบาศก์คุณยังสร้างเมทริกซ์การลงโทษแบบ wiggliness Wiggliness วัดโดยใช้บางส่วนที่มาของเส้นโค้งประมาณที่มีอนุพันธ์ทั่วไปที่ใช้เป็นอนุพันธ์ที่สองและโทษตัวเองหมายถึงตราสารอนุพันธ์ที่สองยกกำลังสองแบบบูรณาการในช่วงของXการลงโทษนี้สามารถเขียนในรูปกำลังสองเป็น $X$ $X$

β^{T} S β

$\boldsymbol{\beta}^{\mathsf{T}} \boldsymbol{S} \boldsymbol{\beta}$

โดยที่เป็นเมทริกซ์การลงโทษและเป็นค่าสัมประสิทธิ์ของแบบจำลอง จากนั้นพบว่ามีค่าสัมประสิทธิ์เพื่อเพิ่มความน่าจะเป็น _p $\boldsymbol{S}$ $\boldsymbol{\beta}$ $\mathcal{L}_p$

L_{p} = L - λ β^{T} S β

$\mathcal{L}_p = \mathcal{L} - \lambda \boldsymbol{\beta}^{\mathsf{T}} \boldsymbol{S} \boldsymbol{\beta}$

โดยที่คือความเป็นไปได้ของแบบจำลองและคือพารามิเตอร์ความนุ่มนวลซึ่งควบคุมว่าจะลงโทษอย่างรุนแรงต่อ wigginess ของเส้นโค้งได้อย่างไร $\mathcal{L}$ $\lambda$

ในฐานะที่เป็นบันทึกน่าจะลงโทษสามารถประเมินในแง่ของค่าสัมประสิทธิ์รูปแบบที่เหมาะสมแบบนี้ได้อย่างมีประสิทธิภาพกลายเป็นปัญหาในการหาค่าที่เหมาะสมที่สุดสำหรับขณะที่การปรับปรุงค่าสัมประสิทธิ์ในระหว่างการค้นหาที่ดีที่สุด\ $\lambda$ $\lambda$

$\lambda$ สามารถเลือกโดยใช้การตรวจสอบความถูกต้องข้าม, การตรวจสอบความถูกต้องข้ามโดยทั่วไป (GCV), หรือความเป็นไปได้เล็กน้อยหรือการ จำกัด เกณฑ์ความเป็นไปได้เล็กน้อย สองรูปแบบใหม่ได้อย่างมีประสิทธิภาพ spline แบบจำลองผลกระทบผสม (ส่วนที่ราบรื่นอย่างสมบูรณ์แบบของพื้นฐานกลายเป็นผลกระทบคงที่และส่วน wiggly ของพื้นฐานเป็นผลแบบสุ่มและพารามิเตอร์ความเรียบเนียนจะเกี่ยวข้องกับคำแปรปรวนสำหรับผลกระทบแบบสุ่ม ) ซึ่งเป็นสิ่งที่ฮอดจ์สกำลังพิจารณาในหนังสือของเขา

เหตุใดจึงแก้ปัญหาจำนวนนอตที่จะใช้? มันเป็นแบบนั้นเท่านั้น วิธีนี้จะช่วยแก้ปัญหาที่ไม่ต้องใช้ปมในทุกจุดข้อมูลที่ไม่ซ้ำกัน (เส้นโค้งเรียบ) แต่คุณยังต้องเลือกฟังก์ชั่นการใช้งานนอตหรือพื้นฐาน อย่างไรก็ตามเนื่องจากการลงโทษนั้นทำให้ค่าสัมประสิทธิ์ลดลงคุณสามารถหลีกเลี่ยงการเลือกมิติพื้นฐานขนาดใหญ่ตามที่คุณคิดว่าจำเป็นต้องมีฟังก์ชั่นจริงหรือการประมาณที่ใกล้เคียงกับมันจากนั้นคุณให้การควบคุมค่าปรับ คือมีโอกาสเพิ่ม wigginess อยู่ในพื้นฐานที่จะถูกลบออกหรือควบคุมโดยการลงโทษ

การเปรียบเทียบ

เส้นโค้งที่ถูกปรับ (ถดถอย) และ RCS เป็นแนวคิดที่แตกต่างกันมาก ไม่มีอะไรหยุดคุณสร้างพื้นฐาน RCS และการลงโทษที่เกี่ยวข้องในรูปแบบสมการกำลังสองแล้วประเมินค่าสัมประสิทธิ์อิสระโดยใช้ความคิดจากแบบจำลองการถดถอยเชิงเส้นโค้งลงโทษ

RCS เป็นพื้นฐานหนึ่งเดียวที่คุณสามารถใช้เพื่อสร้างพื้นฐานอิสระและการถดถอยเชิงลงโทษนั้นเป็นวิธีหนึ่งในการประมาณรูปแบบที่มีหนึ่งหรือมากกว่าหนึ่งเส้นโค้งที่มีบทลงโทษ Wigginess ที่เกี่ยวข้อง

เราสามารถหลีกเลี่ยงปัญหา 1. , 2. และ 3. ได้ไหม

ใช่มีบางส่วนที่มีพื้นฐานแผ่นโค้ง (TPS) พื้นฐาน TPS มีฟังก์ชั่นพื้นฐานเป็นจำนวนมากค่าของข้อมูลที่ไม่ซ้ำกันในXอะไรไม้ (2003) แสดงให้เห็นได้ว่าคุณสามารถสร้างแผ่นบางถดถอย Spline (tprs) พื้นฐานใช้ eigendecomposition ของ TPS ฟังก์ชั่นพื้นฐานและการรักษาเพียงครั้งแรกพูดที่ใหญ่ที่สุด คุณยังต้องระบุ $X$ $k$ $k$ จำนวนฟังก์ชั่นพื้นฐานที่คุณต้องการใช้ แต่โดยทั่วไปแล้วตัวเลือกจะขึ้นอยู่กับว่าคุณคาดหวังให้ฟังก์ชั่นการติดตั้งเป็นอย่างไรและคุณยินดีที่จะคำนวณจำนวนเท่าใด ไม่จำเป็นต้องระบุตำแหน่งปมอย่างใดอย่างหนึ่งและการลงโทษจะลดค่าสัมประสิทธิ์ดังนั้นเราจึงหลีกเลี่ยงปัญหาการเลือกรูปแบบเนื่องจากคุณมีรูปแบบการลงโทษเพียงแห่งเดียว

P-เส้นโค้ง

เพียงเพื่อทำให้สิ่งต่าง ๆ มีความซับซ้อนมากขึ้นมีประเภทพื้นฐานที่รู้จักกันในชื่อ P-spline (Eilers & Marx, 1996) ซึ่งมักถูกตีความว่าเป็น "ลงโทษ" P-splines เป็นพื้นฐาน B-spline ที่มีการปรับค่าความแตกต่างโดยตรงกับสัมประสิทธิ์ของโมเดล โดยทั่วไปแล้วการใช้โทษ P-spline จะลงโทษความแตกต่างยกกำลังสองระหว่างค่าสัมประสิทธิ์ของแบบจำลองที่อยู่ติดกัน P-splines ง่ายต่อการติดตั้งและส่งผลให้เกิดเมทริกซ์การลงโทษแบบเบาบางซึ่งทำให้พวกเขามีความสามารถในการประมาณค่าระยะเวลาของสปินในแบบจำลอง Bayesian จาก MCMC (Wood, 2017) $P$

อ้างอิง

Eilers, PHC และ BD Marx 1996. การปรับให้เรียบแบบยืดหยุ่นด้วย -splines และบทลงโทษ สถิติ วิทย์

ไม้ SN 2003 เส้นโค้งการถดถอยแผ่นบาง JR สถิติ Soc สถิติ Series B Methodol 65: 95–114 ดอย: 10.1111 / 1467-9868.00374

Wood, SN 2017 รุ่นเสริมทั่วไป: ความรู้เบื้องต้นเกี่ยวกับ R, Second Edition, CRC Press

— กาวินซิมป์สัน
แหล่งที่มา

+6 การรักษาที่ยอดเยี่ยม เตือนฉันในอีกสองสามวันถ้าฉันลืม & ฉันจะวางรางวัลนี้

— gung - Reinstate Monica

ขอบคุณสำหรับสิ่งนี้!

— Peter Flom

ค่าหัว ??????

— kjetil b halvorsen