อะไรคือข้อดี / ข้อเสียของการใช้เส้นโค้ง, เส้นโค้งเรียบและตัวเลียนแบบกระบวนการ Gaussian?


20

ฉันสนใจที่จะเรียนรู้ (และการนำไปใช้) เป็นทางเลือกในการแก้ไขพหุนาม

อย่างไรก็ตามฉันมีปัญหาในการหาคำอธิบายที่ดีเกี่ยวกับวิธีการทำงานของวิธีการที่เกี่ยวข้องและวิธีเปรียบเทียบ

ฉันขอขอบคุณอินพุตของคุณเกี่ยวกับข้อดี / ข้อเสีย / เงื่อนไขซึ่งวิธีการหรือทางเลือกเหล่านี้จะมีประโยชน์ แต่การอ้างอิงที่ดีบางอย่างเกี่ยวกับข้อความสไลด์หรือพอดคาสต์ก็เพียงพอแล้ว


นี้ในย่อมเป็นคำถามที่น่าสนใจมาก แต่บางที (เฉพาะอาจจะ) ที่เหมาะสมสำหรับmath.stackexchange.com ?
steffen

มีเนื้อหาเกี่ยวกับเส้นโค้งและเส้นโค้งเรียบในองค์ประกอบของการเรียนรู้ทางสถิติโดย Hastie et al
NPE

8
ฉันคิดว่านี่เป็นคำถามที่สมเหตุสมผลอย่างสมบูรณ์ในสถิติการคำนวณ
csgillespie

@csgillespie: ทั้งหมดที่ฉันรู้เกี่ยวกับเส้นโค้งและการแก้ไขที่ฉันได้เรียนรู้ในการบรรยายเชิงตัวเลข / คณิตศาสตร์ ดังนั้นฉันอาจจะลำเอียงเล็กน้อย)
steffen

คำตอบ:


24

การถดถอย OLS พื้นฐานเป็นเทคนิคที่ดีมากในการปรับฟังก์ชั่นให้เข้ากับชุดของข้อมูล อย่างไรก็ตามการถดถอยอย่างง่าย ๆ นั้นเหมาะกับเส้นตรงที่คงที่ตลอดช่วงX ที่เป็นไปได้ทั้งหมดX Xสิ่งนี้อาจไม่เหมาะสมกับสถานการณ์ที่กำหนด ตัวอย่างเช่นข้อมูลบางครั้งแสดงความสัมพันธ์ของเส้นโค้ง นี้สามารถกระทำโดยวิธีการถอยสู่การเปลี่ยนแปลงของX , F ( X ) การเปลี่ยนแปลงที่แตกต่างกันเป็นไปได้ ในสถานการณ์ที่ความสัมพันธ์ระหว่างXและYเป็นต่อเนื่องแต่อย่างต่อเนื่องชะลอออกเป็นบันทึกการเปลี่ยนYX(X)XYสามารถใช้ได้. อีกทางเลือกที่นิยมคือการใช้พหุนามที่มีคำใหม่เกิดขึ้นโดยการเพิ่มเป็นชุดของพลัง (เช่นX 2 , X 3 , ฯลฯ ) กลยุทธ์นี้ใช้งานง่ายและคุณสามารถตีความความพอดีตามที่บอกคุณว่ามี 'โค้ง' อยู่ในข้อมูลของคุณจำนวนเท่าใด (ที่จำนวนการโค้งงอเท่ากับพลังงานสูงสุดที่ต้องการลบ 1) XX2X3

XY

อีกวิธีคือการใช้เส้นโค้ง ที่ง่ายที่สุดคือ spline เป็นคำใหม่ที่ใช้กับส่วนหนึ่งของช่วงเท่านั้น ตัวอย่างเช่น,Xอาจจะอยู่ในช่วง 0-1 และระยะเส้นโค้งอาจเพียงช่วงตั้งแต่ 0.7 ถึง 1 ในกรณีนี้ 0.7 เป็นปม คำง่ายเชิงเส้นตรงจะถูกคำนวณเช่นนี้: X s p l ฉันn e = { 0X และจะถูกเพิ่มลงในแบบจำลองของคุณนอกเหนือจากต้นฉบับ

Xsพีล.ผมnอี={0ถ้า X0.7X-0.7ถ้า X>0.7

คำศัพท์ Xโมเดลที่ติดตั้งจะแสดงการแตกที่คมชัดที่. 7 โดยมีเส้นตรงตั้งแต่ 0 ถึง. 7 และเส้นที่ดำเนินการต่อไปที่มีความลาดชันที่แตกต่างกันจาก 0.7 ถึง 1 อย่างไรก็ตามคำว่าเส้นโค้งไม่จำเป็นต้องเป็นเชิงเส้น โดยเฉพาะมันได้รับการพิจารณาแล้วว่าลูกบาศก์ splines มีประโยชน์อย่างยิ่ง (เช่น X 3 s p l i n eXXsพีล.ผมnอี3) ความคมชัดไม่จำเป็นต้องอยู่ที่นั่นเช่นกัน อัลกอริทึมได้รับการพัฒนาที่ จำกัด พารามิเตอร์ที่ติดตั้งเช่นว่าการจับคู่อนุพันธ์ครั้งแรกและครั้งที่สองที่นอตซึ่งทำให้นอตเป็นไปไม่ได้ที่จะตรวจสอบในการส่งออก ผลลัพธ์สุดท้ายของทั้งหมดนี้คือมีเพียงไม่กี่นอต (ปกติ 3-5) ในสถานที่ที่เลือก (ซึ่งซอฟต์แวร์สามารถกำหนดให้คุณ) สามารถทำซ้ำได้สวยมากเส้นโค้ง ยิ่งไปกว่านั้นองศาความเป็นอิสระถูกคำนวณอย่างถูกต้องเพื่อให้คุณสามารถเชื่อถือผลลัพธ์ซึ่งไม่เป็นความจริงเมื่อคุณดูข้อมูลของคุณก่อนแล้วจึงตัดสินใจให้พอดีกับคำที่ยกกำลังสองเพราะคุณเห็นโค้ง นอกจากนี้ทั้งหมดนี้เป็นเพียงอีกรุ่นหนึ่ง (แม้ว่าจะมีความซับซ้อนมากขึ้น) ของโมเดลเชิงเส้นพื้นฐาน ดังนั้นทุกสิ่งที่เราได้รับจากตัวแบบเชิงเส้นจะมาพร้อมกับสิ่งนี้ (เช่นการทำนายเศษซากแถบความเชื่อมั่นการทดสอบ ฯลฯ ) สิ่งเหล่านี้เป็นข้อได้เปรียบที่ สำคัญ

บทนำที่ง่ายที่สุดสำหรับหัวข้อเหล่านี้ที่ฉันรู้คือ:


6

บันทึกออนไลน์ของ Cosma Shalizi ในหลักสูตรการบรรยายของเขา วิเคราะห์ข้อมูลขั้นสูงจากมุมมองระดับประถมศึกษาค่อนข้างดีในเรื่องนี้โดยมองสิ่งต่าง ๆ จากมุมมองที่การแก้ไขและการถดถอยเป็นสองแนวทางในปัญหาเดียวกัน ฉันต้องการโดยเฉพาะอย่างยิ่งดึงดูดความสนใจของคุณไปยังบทที่เกี่ยวกับวิธีการปรับให้เรียบและเส้นโค้ง


ลิงก์ของคุณสามารถใช้การอัปเดต ฉันให้ไป แต่คุณควรตรวจสอบว่าการแก้ไขที่เสนอของฉันไปถึงหน้าที่คุณต้องการ
Gregor
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.