มาตรฐานกับการทำให้เป็นมาตรฐานสำหรับ Lasso / Ridge Regression


11

ฉันรู้ว่ามันเป็นเรื่องธรรมดาที่จะสร้างมาตรฐานสำหรับฟีเจอร์สำหรับการถดถอยของสันเขาและบ่วงบาศ แต่มันจะเป็นประโยชน์หรือไม่ในการปรับมาตรฐานในสเกล (0,1) ให้เป็นทางเลือกแทนมาตรฐาน z-score สำหรับวิธีการถดถอยเหล่านี้

คำตอบ:


4

หากคุณใช้การทำให้เป็นมาตรฐาน (บีบใน [0,1]) คุณจะมีการวัดความสำคัญของตัวแปรสัมพัทธ์ แต่มันจะเปลี่ยนขนาดของตัวแปรของคุณและคุณจะสูญเสียความสามารถในการตีความโมเดลทั้งหมด ข้อได้เปรียบของการสร้างมาตรฐานคือคุณยังสามารถตีความรูปแบบได้เหมือนเดิมด้วยการถดถอย OLS ที่ไม่สม่ำเสมอ (สิ่งนี้ได้รับคำตอบแล้วที่นี่ )


3
โมเดลที่ทำให้เป็นมาตรฐานนั้นทำหน้าที่แตกต่างกันมากทั้งที่มีและไม่มีการทำให้เป็นมาตรฐาน !! โดยเฉพาะถ้าเราไม่มีคุณสมบัติของบรรทัดฐานเราจะมีบทลงโทษที่แตกต่างกันในคุณสมบัติที่แตกต่างกัน!
Haitao Du

1
ฉันกำลังพูดถึงการตีความสัมประสิทธิ์ Lassoโดยเฉพาะไม่ใช่การประมาณค่า เนื่องจากการประมาณการจะเปลี่ยนไปฉันอยากรู้ว่าแบบจำลองการตีความจะเปลี่ยนแปลงอย่างไร
Digio

1
ฉันไม่ได้ดูเหมือนว่าคำถามที่คุณเชื่อมโยงในคำตอบของคุณสนับสนุนจุดที่คุณทำ คุณช่วยให้ชัดเจนมากขึ้นในโพสต์ต้นฉบับของคุณทำไมการตีความของ ols สัมประสิทธิ์เห็นด้วยกับ lasso สัมประสิทธิ์เฉพาะเมื่อคุณสมบัติเป็นมาตรฐาน? ขอบคุณ!
user795305

@Ben คุณเข้าใจผิดคำตอบของฉัน (ความผิดของฉันอาจจะ) คำตอบที่ฉันได้เชื่อมโยงกับการอธิบายถึงวิธีสัมประสิทธิ์ในรูปแบบเชือกและการถดถอยง่าย (OLS หรืออื่น ๆ ) จะถูกตีความในทางเดียวกัน - ภายใต้สถานการณ์ใด ๆ (มาตรฐานหรือไม่) ด้วยการทำให้เป็นมาตรฐาน (ในรูปแบบใด ๆ หรือการถดถอยแบบพารามิเตอร์) คุณสูญเสียขนาดเดิมและคุณไม่สามารถตีความค่าสัมประสิทธิ์โดยไม่ต้องแปลงกลับ ด้วยมาตรฐานคุณตีความรูปแบบในลักษณะปกติ
Digio

@Digio: ทำไมมาตรฐานจะทำให้ค่าสัมประสิทธิ์ตีความน้อยกว่าการเปลี่ยนแปลงขนาดอื่น ๆ ? การทำให้เป็นมาตรฐานและการแปลงแบบมาตรฐานไม่เหมือนกัน แต่สำหรับตัวเศษที่ใช้? ทั้งสองต้องการการแปลงกลับในวิธีเดียวกันเพื่อตีความค่าสัมประสิทธิ์เป็น dV / dx โดยที่ x ในหน่วยของคุณลักษณะที่ไม่ได้ปรับขนาด ได้ค่าสัมประสิทธิ์ของคุณลักษณะมาตรฐานสามารถตีความได้โดยตรงเช่น dV / dz, z เป็นคะแนน z ของแต่ละคุณลักษณะและการตีความนี้ไม่สามารถทำได้ด้วยการทำให้เป็นมาตรฐาน แต่นั่นหมายความว่าค่าสัมประสิทธิ์ของคุณลักษณะปกติสูญเสียการตีความทั้งหมด?
OldSchool

0

การทำให้เป็นมาตรฐานนั้นมีความสำคัญมากสำหรับวิธีที่มีการทำให้เป็นมาตรฐาน นี่เป็นเพราะขนาดของตัวแปรมีผลต่อจำนวนการปรับปกติที่จะใช้กับตัวแปรเฉพาะ

ตัวอย่างเช่นสมมติว่าหนึ่งตัวแปรมีขนาดใหญ่มากพูดลำดับของล้านและอีกตัวแปรหนึ่งคือ 0 ถึง 1 จากนั้นเราสามารถคิดว่าการทำให้เป็นมาตรฐานจะมีผลเพียงเล็กน้อยกับตัวแปรแรก

เช่นเดียวกับที่เราทำการปรับสภาพให้เป็นมาตรฐานให้เป็น 0 ถึง 1 หรือทำให้เป็นมาตรฐานคุณสมบัติไม่สำคัญมากนัก


1
คำตอบนี้ระบุชัดเจน โดย "การทำให้เป็นมาตรฐาน" ที่นี่จะเป็นการบีบค่าทั้งหมดใน [0,1] ไม่ใช่คำอื่นสำหรับการสร้างมาตรฐาน คำถามเกี่ยวกับผลกระทบของการทำให้เป็นมาตรฐานใน [0,1] เทียบกับมาตรฐาน ~ N (0,1) ต่อค่าสัมประสิทธิ์แบบจำลอง
Digio

การทำให้ปกติกลับเป็น [0,1] หมายความว่าอย่างไร มีหลายวิธีที่จะทำให้สำเร็จ คำแนะนำของคุณสำหรับการถดถอยที่ถูกต้องคืออะไร?
Cagdas Ozgenc

1
ในฐานะที่เป็นรัฐคำถามที่ "ปกติคุณสมบัติใน (0,1)" ขนาดแม้ว่าบางทีคุณลักษณะrescaling เป็นคำที่ดีกว่าเป็นเทคนิคทั่วไปการประมาณการการผลิตค่าสัมประสิทธิ์ที่แสดงถึงความสำคัญของตัวแปรญาติ (คล้ายกับการวัดความบริสุทธิ์ของ RF) ใช่มีหลายวิธีในการบรรลุเป้าหมายนี้และไม่ใช่สิ่งที่เฉพาะเจาะจงสำหรับการถดถอยเชิงลงโทษ แต่คำถามนี้เกี่ยวกับผลกระทบของการลดขนาดคุณสมบัติ (ไม่ใช่มาตรฐาน) ต่อ Lasso
Digio

คุณหมายถึงอะไรโดย "ปรับมาตรฐานเป็น 0 ถึง 1 หรือทำให้เป็นมาตรฐานคุณลักษณะไม่สำคัญมากนัก" ในแง่ใดมันไม่สำคัญมากเกินไป? คุณสามารถให้สัญชาติญาณหรือข้อมูลอ้างอิงใด ๆ สำหรับการอ้างสิทธิ์นี้ได้หรือไม่?
user795305
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.