ไม่ว่าจะ rescale ตัวบ่งชี้ / ไบนารี / ตัวจำลองการคาดการณ์สำหรับ LASSO


30

สำหรับ LASSO (และขั้นตอนการเลือกรุ่นอื่น ๆ ) มันเป็นสิ่งสำคัญที่จะช่วยลดการคาดการณ์ ทั่วไป คำแนะนำของ ผมต่อไปนี้เป็นเพียงการใช้ 0 เฉลี่ย 1 การฟื้นฟูส่วนเบี่ยงเบนมาตรฐานของตัวแปรอย่างต่อเนื่อง แต่จะทำอย่างไรกับหุ่น?

เช่นบางตัวอย่างที่นำมาใช้จากโรงเรียนภาคฤดูร้อน (ยอดเยี่ยม) เดียวกันฉันเชื่อมโยงกับ rescales ตัวแปรต่อเนื่องให้อยู่ระหว่าง 0 และ 1 (ไม่ดีกับค่าผิดปกติแม้ว่า) อาจเทียบได้กับหุ่น แต่ถึงอย่างนั้นก็ไม่ได้รับประกันว่าสัมประสิทธิ์ควรจะมีขนาดเท่ากันและทำให้ถูกลงโทษในทำนองเดียวกันเหตุผลสำคัญสำหรับการช่วยชีวิตไม่ใช่?


2
คำตอบสั้น ๆ - ไม่ห้ามขายหุ่น
Affine

4
เกี่ยวข้องกับสิ่งนี้
กรกฎาคม

@julieth ขอบคุณมากแจ้งให้เราทราบหากคุณพบคำตอบบางอย่างตั้งแต่
László

คำตอบ:


27

ตาม Tibshirani ( วิธี LASSO สำหรับการเลือกที่หลากหลายในรูปแบบ COX, สถิติการแพทย์, ฉบับที่ 16, 385-395 (1997 ), ผู้เขียนหนังสือเกี่ยวกับวิธีการทำให้เป็นมาตรฐานคุณควรสร้างมาตรฐานหุ่น อย่างไรก็ตามคุณสูญเสียความสามารถในการตีความตรงไปตรงมาของค่าสัมประสิทธิ์ของคุณ ถ้าคุณทำไม่ได้ตัวแปรของคุณไม่ได้อยู่ในสนามแข่งขัน คุณกำลังเอียงเครื่องชั่งให้เหมาะกับตัวแปรต่อเนื่องของคุณ (เป็นไปได้มากที่สุด) ดังนั้นหากเป้าหมายหลักของคุณคือการเลือกแบบจำลองนี่เป็นข้อผิดพลาดร้ายแรง อย่างไรก็ตามหากคุณสนใจในการตีความมากกว่านี้อาจไม่ใช่ความคิดที่ดีที่สุด

คำแนะนำอยู่ในหน้า 394:

วิธีการแบบบาศต้องใช้มาตรฐานเริ่มต้นของ regressors เพื่อให้รูปแบบการลงโทษมีความยุติธรรมกับ regressors ทั้งหมด สำหรับ regressor เด็ดขาดหนึ่งรหัส regressor ที่มีตัวแปรดัมมี่แล้วมาตรฐานตัวแปรดัมมี่ ดังที่ผู้ชี้แจ้งชี้ให้เห็นอย่างไรก็ตามการปรับขนาดสัมพัทธ์ระหว่างตัวแปรแบบต่อเนื่องและหมวดหมู่ในโครงการนี้อาจค่อนข้างไม่มีข้อ จำกัด


3
คุณสามารถให้การอ้างอิงที่แม่นยำไปยังที่ที่ Tibshirani แนะนำให้ทำหุ่นมาตรฐาน
seanv507

@ seanv507 "... หนึ่งรหัส regressors ที่มีตัวแปรดัมมี่แล้วสร้างมาตรฐานตัวแปรจำลอง " ฉันคิดว่าคำอธิบาย rocrat นั้นถูกต้อง: โดยทั่วไปคุณต้องการให้ผู้ทำนายทั้งหมดรวมถึงหุ่นมีขนาดและความแปรปรวนเดียวกันเพื่อให้การลงโทษมีความยุติธรรม
Robert Kubrick

1
@ RobertKubrick ฉันไม่เห็นด้วย เหตุผลพื้นฐานสำหรับการทำให้เป็นปกติคือการเปลี่ยนแปลงเล็กน้อยควรมีผลกระทบเล็กน้อย ดังนั้นกรณีอุดมคติคือตัวแปรทั้งหมดของคุณมีสเกลทางกายภาพตามธรรมชาติซึ่งเป็นตัวแปรที่ขึ้นอยู่กับคุณและคุณไม่ได้ทำให้เป็นมาตรฐาน โดยทั่วไปแล้วเราไม่ทราบขนาดที่ถูกต้องดังนั้นเราจึงหันไปใช้การทำให้เป็นมาตรฐาน อย่างไรก็ตามตัวแปรตามหมวดหมู่มีสเกลตามธรรมชาตินั่นคือความน่าจะเป็นที่พวกเขาเป็น 0 หรือ 1: ฉันขอยืนยันว่าตัวแปรที่เป็นส่วนใหญ่ของเวลา 0 นั้นมีความสำคัญน้อยกว่าตัวแปรที่พลิกระหว่าง 0/1 คำตอบของ Jeff ดูเหมือนจะเหมาะสม
seanv507

8

บล็อกโพสต์แอนดรู Gelman ของเมื่อจะสร้างมาตรฐานปัจจัยการผลิตถดถอยและเมื่อปล่อยให้พวกเขาเพียงอย่างเดียวยังเป็นดูคุ้มค่า ส่วนนี้เกี่ยวข้องโดยเฉพาะ:

สำหรับการเปรียบเทียบค่าสัมประสิทธิ์สำหรับตัวทำนายที่แตกต่างกันภายในแบบจำลองการทำให้เป็นมาตรฐานได้รับการพยักหน้า (แม้ว่าฉันจะไม่ได้มาตรฐานอินพุตแบบไบนารี่ฉันรหัสมันเป็น 0/1 และจากนั้นฉันสร้างมาตรฐานอินพุตตัวเลขอื่น ๆ ทั้งหมดโดยการหารด้วยค่าเบี่ยงเบนมาตรฐานสองค่า


1
และเมื่อเขาพูดว่า"ไม่ได้มาตรฐานอินพุตแบบไบนารี"ดูเหมือนว่าเขาจะหมายถึงกลุ่มของตัวแปรที่มีความร้อนแรงใด ๆ นั่นก็คือหุ่นใด ๆ สำหรับตัวแปรเด็ดขาด?
smci

2
พี(1-พี)พี=0.50.25

x -> x / 2σ

ไม่เป็นไรดูเหมือนจะอธิบายทั้งหมดที่นี่: stat.columbia.edu/~gelman/research/unpublished/…
อเล็กซ์

3

นี่เป็นความคิดเห็นมากกว่า แต่นานเกินไป หนึ่งในโปรแกรมที่ใช้มากที่สุดสำหรับเชือก (และเพื่อน) glmnetเป็นอาร์เอส จากหน้าช่วยเหลือพิมพ์โดย?glmnet:

มาตรฐาน: แฟล็กเชิงตรรกะสำหรับการกำหนดมาตรฐาน x ตัวแปรก่อนที่จะจัดลำดับชุดรูปแบบให้เหมาะสม ค่าสัมประสิทธิ์จะถูกส่งกลับในระดับเดิมเสมอ ค่าเริ่มต้นคือ 'standardize = TRUE' หากตัวแปรอยู่ในหน่วยเดียวกันแล้วคุณอาจไม่ต้องการสร้างมาตรฐาน ดูรายละเอียดด้านล่างสำหรับมาตรฐาน y ด้วย 'family = "gaussian"'

X

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.