ฉันได้อ่านว่ากลุ่ม lasso ใช้สำหรับการเลือกตัวแปรและ sparsity ในกลุ่มของตัวแปร ฉันต้องการทราบสัญชาตญาณที่อยู่เบื้องหลังการเรียกร้องนี้
- เหตุใดจึงเลือกกลุ่มบาศกลุส
- ทำไมเส้นทางการแก้ปัญหาแบบกลุ่มแบบไม่ต่อเนื่องเป็นเส้นตรง
ฉันได้อ่านว่ากลุ่ม lasso ใช้สำหรับการเลือกตัวแปรและ sparsity ในกลุ่มของตัวแปร ฉันต้องการทราบสัญชาตญาณที่อยู่เบื้องหลังการเรียกร้องนี้
คำตอบ:
การพูดอย่างสังหรณ์ใจสามารถใช้บ่วงบาศแบบกลุ่มเพื่อบ่วงเพราะมันมีวิธีการที่เราจะรวมข้อมูลเพิ่มเติม (บางประเภท) เข้ากับการประมาณค่าสัมประสิทธิ์แท้จริงของเรา เป็นสถานการณ์ที่รุนแรงพิจารณาดังต่อไปนี้:
ด้วยใส่กับการสนับสนุนของ * พิจารณาตัวประมาณค่า "oracle"ซึ่งเป็นกลุ่ม Lasso ที่มีสองกลุ่ม - หนึ่งการสนับสนุนที่แท้จริงและ หนึ่งในส่วนประกอบ Letเป็นค่าที่เล็กที่สุดของที่ทำให้0 เนื่องจากธรรมชาติของบทลงโทษกลุ่มบาศเรารู้ว่าย้ายจากเป็น (สำหรับบางคน
ในทางปฏิบัติเราไม่ได้เลือกกลุ่มที่ดี อย่างไรก็ตามกลุ่มแม้จะละเอียดกว่าสถานการณ์สุดโต่งข้างต้นจะยังคงช่วยเรา: ทางเลือกจะยังคงทำระหว่างกลุ่มผู้แปรปรวนที่แท้จริงและกลุ่มผู้แปรปรวนที่ไม่จริง เรายังคงยืมความแข็งแกร่ง
นี้จะเป็นทางการที่นี่ พวกเขาแสดงภายใต้เงื่อนไขบางอย่างว่าขอบเขตบนของข้อผิดพลาดในการทำนายของกลุ่มเชือกต่ำกว่าขอบเขตล่างในข้อผิดพลาดในการทำนายของเชือกแบน นั่นคือพวกเขาพิสูจน์ว่าการจัดกลุ่มทำให้การประเมินของเราทำได้ดีกว่า
สำหรับคำถามที่สองของคุณ: การลงโทษบาศ (ธรรมดา) นั้นเป็นเส้นตรงแบบทวนเข็มนาฬิกาและสิ่งนี้ทำให้เกิดเส้นทางการแก้ปัญหาแบบเชิงเส้นทีละชิ้น ในกรณีของกลุ่มบาศกฤษณ์โดยสังหรณ์ใจการลงโทษไม่เป็นเส้นตรงอีกต่อไปดังนั้นเราจึงไม่มีคุณสมบัตินี้อีกต่อไป การอ้างอิงที่ดีในเชิงเส้นค่ของเส้นทางการแก้ปัญหาคือที่นี่ ดูข้อเสนอของพวกเขา 1. ให้และ\ พวกเขาแสดงให้เห็นว่าเส้นทางการแก้ปัญหาของกลุ่ม lasso เป็นเชิงเส้นหากเป็นค่าคงที่ทีละส่วน แน่นอนว่าไม่ใช่เพราะการลงโทษของเรามีความโค้งทั่วโลก
คำตอบของเบ็นเป็นคำตอบทั่วไปมากที่สุด แต่คำตอบที่เข้าใจง่ายของ OP นั้นได้รับแรงบันดาลใจมาจากกรณีของตัวพยากรณ์หมวดหมู่ซึ่งมักจะถูกเข้ารหัสเป็นตัวแปรจำลองหลายตัว: หนึ่งตัวสำหรับแต่ละหมวดหมู่ มันมีเหตุผลในการวิเคราะห์หลายอย่างเพื่อพิจารณาตัวแปรตัวจำลองเหล่านี้
หากคุณมีตัวแปรเด็ดขาดด้วยพูดว่าห้าระดับบ่วงบาศแบบตรงอาจปล่อยให้สองและสามออก คุณจัดการเรื่องนี้ในลักษณะที่เป็นหลักการได้อย่างไร? ตัดสินใจที่จะลงคะแนน? ใช้ตัวแปรดัมมี่อย่างแท้จริงแทนที่จะเป็นหมวดหมู่ที่มีความหมายมากกว่านี้หรือไม่ การเข้ารหัสดัมมี่ของคุณส่งผลต่อตัวเลือกของคุณอย่างไร
ในขณะที่พวกเขาพูดในการแนะนำของกลุ่ม Lasso สำหรับการถดถอยโลจิสติกก็กล่าวถึง:
สำหรับกรณีพิเศษแล้วในการถดถอยเชิงเส้นเมื่อไม่เพียง แต่ต่อเนื่องเท่านั้น แต่ยังมีตัวทำนายหมวดหมู่ (ปัจจัย) อยู่ด้วยวิธีการแก้ปัญหาแบบบ่วงบาศนั้นไม่เป็นที่น่าพอใจเนื่องจากมันเลือกเฉพาะตัวแปรจำลองแทน ยิ่งกว่านั้นโซลูชัน lasso ขึ้นอยู่กับการเข้ารหัสตัวแปรจำลอง การเลือกความแตกต่างที่แตกต่างกันสำหรับตัวทำนายหมวดหมู่จะสร้างโซลูชันที่แตกต่างกันโดยทั่วไป
เมื่อเบนชี้ให้เห็นว่ามีการเชื่อมโยงที่ละเอียดยิ่งขึ้นระหว่างตัวทำนายที่อาจบ่งบอกว่าพวกเขาควรจะเข้าหรือออกจากกัน แต่ตัวแปรเด็ดขาดเป็นลูกโปสเตอร์สำหรับกลุ่มบ่วง