การลงโทษแบบนุ่มนวลเทียบกับการลงโทษ
ฉันกำลังพยายามสรุปสิ่งที่ฉันเข้าใจจนถึงการวิเคราะห์หลายตัวแปรที่มีการลงโทษด้วยชุดข้อมูลมิติสูงและฉันยังคงดิ้นรนโดยใช้คำจำกัดความที่ถูกต้องเกี่ยวกับการลงโทษที่นุ่มนวลกับLasso (หรือ )L1L1L_1 แม่นยำยิ่งขึ้นฉันใช้การกระจัดกระจาย PLS เพื่อวิเคราะห์โครงสร้างข้อมูลแบบ 2 บล็อกรวมถึงข้อมูลจีโนม ( polymorphisms นิวคลีโอไทด์เดี่ยวที่เราพิจารณาความถี่ของอัลลีลย่อยในช่วง {0,1,2} ซึ่งถือว่าเป็นตัวแปรตัวเลข) และ ฟีโนไทป์ต่อเนื่อง (คะแนนเชิงปริมาณลักษณะบุคลิกภาพหรือความไม่สมดุลของสมองยังถือว่าเป็นตัวแปรต่อเนื่อง) ความคิดคือการแยกตัวทำนายที่มีอิทธิพลมากที่สุด (ที่นี่ความผันแปรทางพันธุกรรมในลำดับดีเอ็นเอ) เพื่ออธิบายการแปรผันของฟีโนไทป์ระหว่างบุคคล ฉันเริ่มใช้แพ็คเกจ mixOmics R (เดิมintegrOmics) ซึ่งมีการลงโทษPLSและCCA ที่ทำให้เป็นมาตรฐาน เมื่อมองไปที่รหัส R เราพบว่า "sparsity" ในตัวทำนายนั้นเกิดจากการเลือกตัวแปรอันดับสูงสุดที่มีการโหลดสูงสุด (ในค่าสัมบูรณ์) บนองค์ประกอบ th, (อัลกอริทึม คือการทำซ้ำและคำนวณตัวแปรของการโหลดในองค์ประกอบทำให้ตัวบล็อกการทำนายในแต่ละการวนซ้ำดูการกระจัดกระจาย PLS: การเลือกตัวแปรเมื่อรวมข้อมูล Omicsสำหรับภาพรวม) ในทางตรงกันข้ามแพ็คเกจsplsร่วมเขียนโดย S. Keleş (ดูkkkiiii=1,…,ki=1,…,ki=1,\dots, kkkkเบาบางบางส่วนแควน้อยถดถอยสำหรับพร้อมกันขนาดลดลงและการคัดเลือกตัวแปรสำหรับคำอธิบายที่เป็นทางการมากขึ้นของวิธีการดำเนินการโดยผู้เขียนเหล่านี้) การดำเนินการ -penalization สำหรับการปรับไหมตัวแปรL1L1L_1 มันไม่ได้เป็นที่เห็นได้ชัดกับผมว่ามีความเข้มงวด "bijection" เพื่อที่จะพูดระหว่างการเลือกคุณลักษณะซ้ำขึ้นอยู่กับนุ่ม thresholding …