การไล่ระดับสีเพื่อเพิ่มการถดถอยเชิงเส้น - ทำไมมันไม่ทำงาน?


35

ในขณะที่เรียนรู้เกี่ยวกับการไล่ระดับสีแบบค่อยเป็นค่อยไปฉันไม่เคยได้ยินข้อ จำกัด ใด ๆ เกี่ยวกับคุณสมบัติของ "ตัวจําแนกแบบอ่อน" ที่วิธีใช้ในการสร้างและสร้างแบบจําลองทั้งหมด อย่างไรก็ตามฉันไม่สามารถจินตนาการแอปพลิเคชันของ GB ที่ใช้การถดถอยเชิงเส้นและในความเป็นจริงเมื่อฉันทำการทดสอบบางอย่าง - มันไม่ทำงาน ฉันกำลังทดสอบวิธีมาตรฐานที่สุดด้วยการไล่ระดับสีของผลรวมของส่วนที่เหลือกำลังสองและการเพิ่มแบบจำลองที่ตามมาเข้าด้วยกัน

ปัญหาที่เห็นได้ชัดคือส่วนที่เหลือจากแบบจำลองแรกมีประชากรในลักษณะที่ไม่มีเส้นการถดถอยให้เหมาะสมอีกต่อไป การสังเกตอีกอย่างของฉันคือผลรวมของตัวแบบการถดถอยเชิงเส้นที่ตามมาสามารถแสดงเป็นตัวแบบการถดถอยแบบเดียวได้เช่นกัน (การเพิ่มการสกัดกั้นทั้งหมดและสัมประสิทธิ์ที่สอดคล้องกัน) ดังนั้นฉันจึงไม่สามารถจินตนาการได้ว่า การสังเกตครั้งสุดท้ายคือการถดถอยเชิงเส้น (วิธีการทั่วไปมากที่สุด) ใช้ผลรวมของค่าคงที่กำลังสองเป็นฟังก์ชันการสูญเสียซึ่งเป็นค่าเดียวกับที่ GB ใช้

ฉันคิดเกี่ยวกับการลดอัตราการเรียนรู้หรือใช้เพียงชุดย่อยของตัวทำนายสำหรับการวนซ้ำแต่ละครั้ง แต่ก็ยังสามารถสรุปได้ถึงการนำเสนอแบบจำลองเดียวในที่สุดดังนั้นฉันคิดว่ามันจะไม่ทำให้ดีขึ้น

สิ่งที่ฉันหายไปที่นี่? การถดถอยเชิงเส้นอย่างใดที่ไม่เหมาะสมที่จะใช้กับการไล่ระดับสีไล่โทนสี? เป็นเพราะการถดถอยเชิงเส้นใช้ผลรวมของส่วนที่เหลือกำลังสองเป็นฟังก์ชันการสูญเสียหรือไม่? มีข้อ จำกัด บางประการเกี่ยวกับตัวพยากรณ์ที่อ่อนแอเพื่อให้สามารถใช้กับการไล่ระดับสีไล่โทนสีได้หรือไม่?


โดยส่วนตัวแล้วฉันมักจะคิดว่าคุณไม่ควรใช้ตัวแยกประเภทเนื่องจากผลรวมของตัวแยกประเภทเป็นตัวแยกประเภทเดียวกัน เช่นผลรวมของฟังก์ชันเชิงเส้นคือฟังก์ชันเชิงเส้น
user18764

ฉันรู้ว่ามันเก่า แต่ความเข้าใจของฉันคือขั้นตอนการเร่งลดฟังก์ชั่นการสูญเสียระหว่างส่วนที่เหลือปัจจุบันและผู้เรียนพื้นฐาน (ซึ่งในกรณีของคุณคือการถดถอยเชิงเส้น) คูณด้วยอัตราการเรียนรู้ ดังนั้นในขณะที่ผู้เรียนพื้นฐานลด mse ฟังก์ชั่นการสูญเสียที่ใช้โดยบูสเตอร์อาจเป็น MAPE เดียวกันได้หรือไม่
เดวิดวอเตอร์เวิร์

คำตอบ:


35

สิ่งที่ฉันหายไปที่นี่?

ฉันไม่คิดว่าคุณจะคิดถึงอะไรจริงๆ!

การสังเกตอีกอย่างก็คือผลรวมของตัวแบบการถดถอยเชิงเส้นที่ตามมาสามารถแสดงเป็นตัวแบบการถดถอยแบบเดียวได้เช่นกัน (เพิ่มการสกัดกั้นทั้งหมดและสัมประสิทธิ์ที่สอดคล้องกัน) ดังนั้นฉันจึงไม่สามารถจินตนาการได้ว่าจะปรับปรุงตัวแบบได้อย่างไร การสังเกตครั้งสุดท้ายคือการถดถอยเชิงเส้น (วิธีการทั่วไปมากที่สุด) ใช้ผลรวมของค่าคงที่กำลังสองเป็นฟังก์ชันการสูญเสียซึ่งเป็นค่าเดียวกับที่ GB ใช้

ดูเหมือนกับฉันว่าคุณถูกจับตรงนั้นและให้ภาพร่างสั้น ๆ ของการพิสูจน์ว่าการถดถอยเชิงเส้นเพียงแค่กระตุ้นการถดถอยเชิงเส้นในการตั้งค่านี้

เพื่อเป็นการอวดความคิดทั้งสองวิธีกำลังพยายามแก้ไขปัญหาการปรับให้เหมาะสมต่อไปนี้

β^=argminβ(yXβ)t(yXβ)

การถดถอยเชิงเส้นเป็นเพียงการสังเกตว่าคุณสามารถแก้ได้โดยตรงโดยการหาวิธีการแก้สมการเชิงเส้น

XtXβ=Xty

สิ่งนี้จะช่วยให้คุณมีค่าดีที่สุดโดยอัตโนมัติจากความเป็นไปได้ทั้งหมดβ

การส่งเสริมไม่ว่าจะเป็นลักษณนามที่อ่อนแอของคุณเป็นหนึ่งในตัวแปรหรือถดถอยตัวแปรหลายช่วยให้คุณมีลำดับของค่าสัมประสิทธิ์เวกเตอร์\ การทำนายแบบจำลองขั้นสุดท้ายคือเมื่อคุณสังเกตเห็นผลรวมและมีรูปแบบการทำงานเหมือนกับตัวถดถอยเชิงเส้นแบบเต็มβ1,β2,

Xβ1+Xβ2++Xβn=X(β1+β2++βn)

แต่ละขั้นตอนเหล่านี้ถูกเลือกเพื่อลดผลรวมของข้อผิดพลาดกำลังสองเพิ่มเติม แต่เราสามารถพบผลรวมขั้นต่ำที่เป็นไปได้ของข้อผิดพลาดสแควร์ภายในรูปแบบการทำงานนี้โดยเพียงแค่ทำการถดถอยเชิงเส้นเต็มรูปแบบเพื่อเริ่มต้น

การป้องกันที่เป็นไปได้ของการส่งเสริมในสถานการณ์นี้อาจเป็นการกำหนดมาตรฐานโดยนัย อาจเป็นไปได้ (ฉันไม่ได้เล่นกับสิ่งนี้) คุณสามารถใช้คุณสมบัติการหยุดก่อนหน้าของผู้สนับสนุนการไล่ระดับสีพร้อมกับการตรวจสอบความถูกต้องข้ามเพื่อหยุดการถดถอยเชิงเส้นแบบเต็ม สิ่งนี้จะช่วยให้การถดถอยของคุณเป็นไปได้อย่างสม่ำเสมอและอาจช่วยได้มากเกินไป นี่ไม่ใช่วิธีปฏิบัติโดยเฉพาะอย่างยิ่งเนื่องจากมีตัวเลือกที่มีประสิทธิภาพและเข้าใจได้ดีเช่นการถดถอยของสันเขาและตาข่ายที่ยืดหยุ่นในการตั้งค่านี้

การเพิ่มความเงางามเมื่อไม่มีรูปแบบการทำงานสั้น ๆ การส่งเสริมต้นไม้การตัดสินใจช่วยให้รูปแบบการทำงานของตัวแยกส่วน / ตัวแยกประเภทมีการพัฒนาอย่างช้าๆเพื่อให้พอดีกับข้อมูลซึ่งมักจะส่งผลให้มีรูปทรงที่ซับซ้อนซึ่งไม่สามารถฝันได้ด้วยมือและตา เมื่อรูปแบบการทำงานที่เรียบง่ายเป็นที่ต้องการส่งเสริมการจะไม่ช่วยให้คุณพบว่ามัน (หรืออย่างน้อยน่าจะเป็นวิธีที่ค่อนข้างไม่มีประสิทธิภาพที่จะหาได้)


2
ฉันชอบคำตอบ แต่จะค่อนข้างคล่องแคล่วจากการถดถอยเป็นตัวประมาณค่าแบบไม่มีเส้นตรงที่ดีที่สุด การปล่อยความไม่เป็นกลางอาจทำให้คุณทำได้ดีขึ้นโดยเฉพาะอย่างยิ่งเมื่ออยู่ภายใต้ความหลากสีหลายระดับสูงซึ่งเป็นสิ่งที่คุณหลีกเลี่ยงได้ในตอนท้าย β
Jonathan Lisic

นั่นเป็นคำตอบที่ดีและชัดเจนมาก ขอบคุณสำหรับคำยืนยัน / คำอธิบาย Matthew!
Matek

"การเพิ่มความเงางามเมื่อไม่มีรูปแบบการทำงานสั้น ๆ " นี่เป็นคำตอบที่ฉันกำลังมองหา ดังนั้นเพียงแค่ต้องการยืนยันคุณหมายถึงคำตอบของคำถามของฉันคือใช่ แต่ไม่มีใครใช้แบบจำลองเชิงเส้นเป็นฐานผู้เรียนได้หรือไม่, stats.stackexchange.com/questions/231286/…
Haitao Du

5

เมทริกซ์การฉายสแควร์น้อยที่สุดให้โดย

X(XTX)1XT

เราสามารถใช้สิ่งนี้เพื่อรับค่าที่คาดการณ์ของเราโดยตรงy^

y^=X(XTX)1XTy

สมมติว่าคุณพอดีกับการถดถอยแล้วคุณคำนวณเศษของคุณ

e=yy^=yX(XTX)1XTy

แล้วคุณใช้เวกเตอร์ที่เหลือนี่เป็นตัวแปรใหม่ของคุณในการถดถอยครั้งถัดไป ใช้เมทริกซ์การฉายอีกครั้งเพื่อคำนวณการทำนายของการถดถอยครั้งที่สองโดยตรงและเรียกการคาดการณ์ใหม่เหล่านี้ :y^2

y^2=X(XTX)1XTe=X(XTX)1XT(yX(XTX)1XTy)=X(XTX)1XTyX(XTX)1XTX(XTX)1XTy=X(XTX)1XTyX(XTX)1XTy=0

เหตุผลก็คือว่าโดยการสร้างเวกเตอร์ที่เหลือจากการถดถอยครั้งแรกคือ orthogonal ไปยัง X Space นั่นคือคือการประมาณการมุมฉากจาก y ไปยังช่องว่าง X (คุณจะพบภาพสวย ๆ ที่แสดงให้เห็นในวรรณกรรม )y^

นี่หมายถึงวิธีการที่ง่าย ๆ ในการปรับการถดถอยให้เหมาะสมแล้วการถดถอยใหม่ที่เหลือจากการถดถอยครั้งแรกจะไม่ส่งผลให้เกิดความรู้สึกใด ๆ เพราะ X ไม่มีความสัมพันธ์กับ e ทั้งหมด

ฉันเขียนสิ่งนี้เพราะคุณบอกว่าไม่มีบรรทัดใหม่ที่จะเข้ากันได้ซึ่งสอดคล้องกับการอ้างอิงข้างต้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.