การเลือก k knots ในการถดถอยเส้นโค้งที่ราบเรียบเทียบเท่ากับตัวแปรเด็ดขาด k?


9

ฉันกำลังทำงานกับแบบจำลองการคาดการณ์ที่อายุของผู้ป่วย (จำนวนเต็มวัดเป็นปี) เป็นหนึ่งในตัวแปรตัวทำนาย ความสัมพันธ์แบบไม่เชิงเส้นที่แข็งแกร่งระหว่างอายุและความเสี่ยงของการเข้าพักในโรงพยาบาลจะเห็นได้ชัด:

ป้อนคำอธิบายรูปภาพที่นี่

ฉันกำลังพิจารณาว่าการทำให้เส้นโค้งการถดถอยเป็นไปอย่างราบรื่นสำหรับผู้ป่วยอายุ ตามองค์ประกอบของการเรียนรู้ทางสถิติ (Hastie et al, 2009, p.151) ตำแหน่งปมที่ดีที่สุดคือหนึ่งปมต่อค่าที่ไม่ซ้ำกันของอายุสมาชิก

ระบุว่าฉันรักษาอายุเป็นจำนวนเต็มเป็น spline ปรับลงโทษให้เรียบเพื่อเรียกใช้สันเขาถดถอยหรือ lasso กับ 101 ตัวบ่งชี้ตัวแปรอายุที่แตกต่างกันหนึ่งค่าต่ออายุพบในชุดข้อมูล (ลบหนึ่งสำหรับการอ้างอิง)? การหลีกเลี่ยงค่าพารามิเตอร์มากเกินไปนั้นจะถูกหลีกเลี่ยงเนื่องจากค่าสัมประสิทธิ์ของตัวบ่งชี้อายุแต่ละตัวนั้นหดตัวลงไปเป็นศูนย์


ข้อเสนอของคุณอายุ-ตัวชี้วัดการหดตัว + เป็นหลักสิ่งเดียวกันเป็นเส้นโค้งเรียบของการสั่งซื้อ 0.
Glen_b -Reinstate โมนิกา

มันจะมีประโยชน์ถ้าคุณระบุว่าตัวแปรทำนายอื่น ๆ คืออะไรเป็นหนึ่งในคำตอบที่แนะนำถ้าคุณควบคุมด้วยเหตุผลการรับสมัครคุณอาจมีกราฟที่แตกต่างกันมาก
seanv507

คำตอบ:


11

เป็นคำถามที่ดีมาก ฉันเชื่อว่าคำตอบสำหรับคำถามที่คุณถาม - "คือความโค้งที่ราบเรียบซึ่งถูกลงโทษอย่างราบเรียบเมื่อเทียบกับการใช้สันเขาหรือ lasso" - ใช่ มีแหล่งข้อมูลจำนวนมากที่สามารถให้ความเห็นและมุมมองได้ ที่เดียวที่คุณอาจต้องเริ่มด้วยคือลิงค์ PDFนี้ ตามที่ระบุไว้ในบันทึกย่อ:

"การติดตั้งโมเดล spline ที่ราบเรียบกับการแสดงรูปแบบการถดถอยของสันในพื้นฐานสำหรับเส้นโค้งธรรมชาติ"

หากคุณกำลังมองหาบางอ่านโดยทั่วไปแล้วคุณอาจจะสนุกกับการตรวจสอบจากกระดาษที่ยอดเยี่ยมในการลงโทษถดถอย: The Bridge กับเชือก สิ่งนี้อาจช่วยตอบคำถามที่ว่าเส้นโค้งที่ปรับให้เรียบนั้นถูกลงโทษนั้นมีความเท่าเทียมกันหรือไม่แม้ว่ามันจะให้มุมมองที่กว้างกว่าก็ตาม ฉันพบว่ามันน่าสนใจเพราะพวกเขาเปรียบเทียบเทคนิคที่แตกต่างกันไปโดยเฉพาะรูปแบบการถดถอยสะพานใหม่โดยเฉพาะกับ LASSO เช่นเดียวกับ Ridge Regression

สถานที่ตรวจสอบทางยุทธวิธีอีกแห่งหนึ่งอาจเป็นบันทึกย่อของแพ็คเกจสำหรับแพ็คเกจ smooth.splineใน R. โปรดทราบว่าพวกเขาบอกใบ้ถึงความสัมพันธ์ที่นี่โดยสังเกตว่า: "ด้วยคำจำกัดความเหล่านี้ซึ่งการแสดงพื้นฐาน B-spline สามารถระบุว่า f = X c (กล่าวคือ c คือเวกเตอร์ของสัมประสิทธิ์อิสระ) ความน่าจะเป็นบันทึกการลงโทษคือและจึงเป็นวิธีแก้ปัญหา ของ (ถดถอยลงสัน) . "L=(yf)TW(yf)+λcTΣcc(XTWX+λΣ)c=XTWy


ไม่ต้องกังวล @RobertF ขอให้มีความสุขตอนบ่าย
Nathaniel Payne

1
ลิงก์ไปยังลิงก์ PDF ในวรรค 1 เสียหาย
Jthorpe

3

ฉันไม่แน่ใจว่าคุณต้องการนอตมากมายจริงๆ

ดูเหมือนว่าคุณอาจมีตัวอย่างขนาดเล็กบางช่วงอายุ จุดสูงสุดที่ 74 และ 0 ค่าที่ต่ำสุดและสูงทำให้รู้สึกเล็กน้อย

เมื่อพิจารณาถึงแหล่งที่มาของไซต์ของคุณคุณอาจต้องการลูกบาศก์ splines แบบ จำกัด แทนโดยมีจำนวนนอตน้อยลงหรือไม่


1
ขอบคุณ Peter - จำนวน # ของ obs กระจัดกระจายสำหรับเด็กและผู้ใหญ่มาก การใช้ปมจำนวนมากดูเหมือนจะขัดเกลาฉันใช้จิตสองครั้งเมื่ออ่านครั้งแรกใน ESL ที่วางปมในการสังเกตทุกครั้งจะช่วยลดผลรวมที่เหลือจากการลงโทษของสี่เหลี่ยม ฉันคิดว่าการพิสูจน์อยู่ในพุดดิ้งไม่ว่าจะเป็น spline ลูกบาศก์ลูกบาศก์ที่ถูก จำกัด หรือ spline smoothing ที่ถูกลงโทษจะทำงานได้ดีขึ้นในการทำนายตัวแปรตอบสนองของฉันในชุดข้อมูลการทดสอบ
RobertF

0

ฉันมาสายการสนทนานี้ แต่ดูที่แผนภูมิของข้อมูล ... ที่ความชัดเจนของข้อมูลในช่วงอายุ 70 ​​นั้นไม่ใช่ภาพสะท้อนที่แท้จริงของความเสี่ยงที่เกี่ยวข้องกับอายุมันเป็นอาการของข้อมูลเบาบางและการสุ่ม

คุณไม่ต้องการที่จะสร้างแบบจำลองที่ใช้หนึ่งปมต่อปีซึ่งแน่นอนว่าจะนำไปสู่เสียงรบกวนที่มากเกินไป

นอกจากนี้คุณจะพบรูปแบบที่แตกต่างกันมากถ้าคุณดูผู้หญิงกับผู้ชาย ยอดเขาที่สูงที่สุดในช่วงอายุ 15-30 นั้นจะเป็นสูติศาสตร์


สวัสดีดั๊ก - ถูกต้องมีการสังเกตการณ์น้อยกว่าในช่วงอายุ 70 ​​ปีรูปแบบอิสระที่ถูกลงโทษหนึ่งปีต่อเงื่อนปมน่าจะทำให้ค่าสัมประสิทธิ์ 70+ เป็นศูนย์ เป้าหมายที่นี่จะเป็นการแทนที่การเลือกปมด้วยตนเองด้วยกระบวนการอัตโนมัติที่เหมาะสมที่สุดกับความสัมพันธ์แบบไม่เชิงเส้นระหว่างอายุและการยอมรับ IP โดยเฉพาะอย่างยิ่งมีประโยชน์ในรูปแบบการทำนาย
RobertF
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.