คำถามติดแท็ก feature-selection

วิธีการและหลักการในการเลือกชุดย่อยของคุณลักษณะสำหรับใช้ในการสร้างแบบจำลองเพิ่มเติม

2
ตัวประมาณเบย์นั้นมีภูมิคุ้มกันต่อการเลือกอคติ
ตัวประมาณของ Bayes มีภูมิคุ้มกันต่อการเลือกอคติหรือไม่? เอกสารส่วนใหญ่ที่กล่าวถึงการประมาณค่าในมิติที่สูงเช่นข้อมูลลำดับจีโนมทั้งหมดมักจะทำให้เกิดปัญหาอคติในการคัดเลือก ความลำเอียงที่เลือกเกิดขึ้นจากข้อเท็จจริงที่ว่าแม้ว่าเรามีผู้ทำนายที่มีศักยภาพหลายพันคนเท่านั้นที่จะได้รับการคัดเลือกเพียงไม่กี่คนเท่านั้น ดังนั้นกระบวนการจึงมีสองขั้นตอน: (1) เลือกชุดย่อยของตัวทำนาย (2) ทำการอนุมานบนชุดที่เลือกเช่นประมาณอัตราต่อรอง Dawid ในกระดาษที่ขัดกันในปี 1994 ของเขามุ่งเน้นไปที่ตัวประมาณค่าที่เป็นกลางและตัวประมาณ Bayes เขาลดความยุ่งยากของปัญหาในการเลือกเอฟเฟกต์ที่ใหญ่ที่สุดซึ่งอาจเป็นผลการรักษา จากนั้นเขาก็บอกว่าตัวประมาณที่ไม่เอนเอียงได้รับผลกระทบจากอคติการคัดเลือก เขาใช้ตัวอย่าง: สมมติว่า จากนั้นแต่ละอันZi∼N(δi,1),i=1,…,NZi∼N(δi,1),i=1,…,N Z_i\sim N(\delta_i,1),\quad i=1,\ldots,N ZiZiZ_iเป็นกลางสำหรับ\ปล่อย , ตัวประมาณ อย่างไรก็ตามเอนเอียง ( บวก) สำหรับ\ สูงสุด \ {\ delta_1 \ delta_2 \ ldots \ delta_N \} ข้อความนี้สามารถพิสูจน์ได้อย่างง่ายดายด้วยความไม่เท่าเทียมของ Jensen ดังนั้นหากเรารู้ว่าi _ {\ max}ดัชนีของ\ delta_i ที่ใหญ่ที่สุดเราจะใช้Z_ {i …

1
ขัดขวางแบบเบย์และแผ่นเปรียบเทียบกับวิธีการลงโทษ
ฉันกำลังอ่านสไลด์ของ Steven Scott เกี่ยวกับแพ็คเกจ BSTS R (คุณสามารถค้นหาได้ที่นี่: สไลด์ ) เมื่อถึงจุดหนึ่งเมื่อพูดถึงการรวมถึง regressors จำนวนมากในโมเดลอนุกรมเวลาเชิงโครงสร้างเขาได้แนะนำค่าสัมประสิทธิ์การถดถอยและสแลบพื้นและบอกว่าพวกเขาดีกว่าเมื่อเทียบกับวิธีการลงโทษ Scott กล่าวซึ่งอ้างถึงตัวอย่างของชุดข้อมูลที่มีตัวทำนาย 100 ตัว: วิธีการลงโทษจะทำการตัดสินใจเพียงครั้งเดียวว่าตัวแปรใดที่จะถูกรวม / แยกออกซึ่งหมายความว่าพวกเขาจะเลือกเซตย่อยของตัวทำนายหนึ่งตัวอย่างเช่นแบบจำลองหนึ่งในเป็นไปได้2 100210021002^{100} "นักบวช Lasso (และที่เกี่ยวข้อง) ไม่กระจัดกระจายพวกเขาชักนำ sparsity ที่โหมด แต่ไม่ได้อยู่ในการกระจายหลัง" เมื่อมาถึงจุดนี้เขาแนะนำ Spike และ Slab Priors ฉันคิดว่าฉันได้รับปรีชาญาณ แต่ฉันต้องการให้แน่ใจว่า: พวกเขาดีขึ้นหรือไม่ในแง่ที่ว่าพวกเขาใช้วิธีการทดสอบแบบบังคับกำลังอันโหดร้ายในการทดสอบแต่ละชุดย่อยของ regressors ข้อเสียเปรียบคือเวลาในการคำนวณใช่หรือไม่? คุณคิดว่าเขาหมายถึงอะไรเมื่อพูดว่า "Lasso (และที่เกี่ยวข้อง) ... แต่ไม่ได้อยู่ในการกระจายหลัง"

1
วิธีการตีความผลลัพธ์เมื่อสันเขาและเชือกแยกทั้งสองทำงานได้ดี แต่ให้ค่าสัมประสิทธิ์ที่แตกต่างกัน
ฉันกำลังใช้ตัวแบบการถดถอยทั้งกับ Lasso และ Ridge (เพื่อทำนายตัวแปรผลลัพธ์แบบไม่ต่อเนื่องตั้งแต่ 0-5) ก่อนที่จะใช้รูปแบบที่ผมใช้SelectKBestวิธีการในการscikit-learnที่จะลดการตั้งค่าให้สถานที่นั้น250ไป25 หากไม่มีการเลือกคุณสมบัติเริ่มต้นทั้ง Lasso และ Ridge ให้คะแนนความแม่นยำที่ต่ำกว่า [ซึ่งอาจเป็นเพราะกลุ่มตัวอย่างขนาดเล็ก 600] นอกจากนี้โปรดทราบว่าคุณลักษณะบางอย่างมีความสัมพันธ์ หลังจากรันโมเดลฉันสังเกตว่าความแม่นยำในการทำนายนั้นใกล้เคียงกับ Lasso และ Ridge อย่างไรก็ตามเมื่อฉันตรวจสอบ 10 คุณสมบัติแรกหลังจากสั่งซื้อโดยค่าสัมประสิทธิ์สัมบูรณ์ฉันเห็นว่ามีการทับซ้อนกันมากที่สุด 50% นั่นคือเนื่องจากความสำคัญของคุณสมบัติที่แตกต่างกันได้รับการกำหนดโดยแต่ละวิธีฉันอาจมีการตีความที่แตกต่างกันโดยสิ้นเชิงกับรุ่นที่ฉันเลือก โดยปกติแล้วคุณสมบัติดังกล่าวจะแสดงถึงพฤติกรรมบางประการของผู้ใช้ในเว็บไซต์ ดังนั้นฉันต้องการอธิบายสิ่งที่ค้นพบโดยเน้นคุณสมบัติ (พฤติกรรมผู้ใช้) ด้วยความสามารถในการคาดเดาที่สูงขึ้นและคุณสมบัติที่อ่อนแอกว่า (พฤติกรรมผู้ใช้) อย่างไรก็ตามฉันไม่ทราบวิธีการก้าวไปข้างหน้า ณ จุดนี้ ฉันจะเข้าใกล้การตีความตัวแบบได้อย่างไร ตัวอย่างเช่นควรรวมทั้งสองและเน้นที่ทับซ้อนกันหรือฉันควรจะไปกับ Lasso เพราะมันให้ตีความมากกว่า

1
เหตุใดการเลือกคุณสมบัติจึงสำคัญสำหรับงานจัดประเภท
ฉันเรียนรู้เกี่ยวกับการเลือกคุณสมบัติ ฉันเห็นได้ว่าทำไมมันถึงมีความสำคัญและมีประโยชน์สำหรับการสร้างแบบจำลอง แต่เรามาเน้นที่งานการเรียนรู้แบบแบ่งหมวดหมู่ เหตุใดการเลือกคุณสมบัติจึงสำคัญสำหรับงานจัดประเภท ฉันเห็นวรรณกรรมจำนวนมากที่เขียนเกี่ยวกับการเลือกคุณสมบัติและการใช้เพื่อการเรียนรู้แบบมีผู้ควบคุม แต่สิ่งนี้ทำให้ฉันสับสน การเลือกคุณสมบัติเป็นเรื่องเกี่ยวกับการระบุคุณสมบัติที่จะทิ้ง โดยสังเขปการทิ้งคุณสมบัติบางอย่างดูเหมือนว่าจะเอาชนะตนเองได้: กำลังทิ้งข้อมูล ดูเหมือนว่าการโยนข้อมูลไม่ควรช่วย และแม้ว่าการลบคุณลักษณะบางอย่างจะช่วยได้ถ้าเราทิ้งคุณสมบัติบางอย่างแล้วป้อนส่วนที่เหลือลงในอัลกอริทึมการเรียนรู้ภายใต้การดูแลทำไมเราต้องทำเช่นนั้นด้วยตัวเองแทนที่จะปล่อยให้อัลกอริทึมการเรียนรู้ภายใต้การดูแลจัดการ หากคุณลักษณะบางอย่างไม่เป็นประโยชน์ควรอัลกอริทึมการเรียนรู้แบบมีผู้สอนที่เหมาะสมไม่ควรค้นพบและเรียนรู้รูปแบบที่ไม่ใช้คุณลักษณะนั้น ดังนั้นโดยสังเขปฉันคาดหวังว่าการเลือกคุณสมบัติจะเป็นการออกกำลังกายที่ไม่มีจุดหมายที่ไม่เคยช่วยและบางครั้งก็เจ็บปวด แต่ความจริงที่ว่ามันถูกใช้อย่างกว้างขวางและเขียนเกี่ยวกับทำให้ฉันสงสัยว่าสัญชาตญาณของฉันเป็นความผิดพลาด ทุกคนสามารถให้สัญชาตญาณว่าทำไมการเลือกคุณสมบัตินั้นมีประโยชน์และสำคัญเมื่อทำการเรียนรู้แบบมีผู้สอน ทำไมมันถึงปรับปรุงประสิทธิภาพของการเรียนรู้ของเครื่อง? มันขึ้นอยู่กับลักษณนามที่ฉันใช้หรือไม่?

1
การเลือกคุณสมบัติแบบใดที่สามารถใช้ทดสอบไคสแควร์ได้
ที่นี่ฉันถามเกี่ยวกับสิ่งที่คนอื่นทำกันโดยทั่วไปเพื่อใช้การทดสอบไคสแควร์สำหรับการเลือกคุณสมบัติ WRT ในการเรียนรู้แบบมีผู้สอน หากฉันเข้าใจอย่างถูกต้องพวกเขาจะทดสอบความเป็นอิสระระหว่างแต่ละคุณลักษณะและผลลัพธ์และเปรียบเทียบค่า p ระหว่างการทดสอบสำหรับแต่ละคุณลักษณะหรือไม่ ในhttp://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test , การทดสอบไคสแควร์ของเพียร์สันเป็นการทดสอบทางสถิติที่ใช้กับชุดของข้อมูลที่เป็นหมวดหมู่เพื่อประเมินว่ามีความเป็นไปได้ที่ความแตกต่างที่สังเกตได้ระหว่างเซตเกิดขึ้นโดยบังเอิญ ... การทดสอบความเป็นอิสระประเมินว่าการสังเกตแบบจับคู่กับตัวแปรสองตัวที่แสดงในตารางฉุกเฉินหรือไม่นั้นเป็นอิสระจากกัน (เช่นการตอบแบบสำรวจจากคนต่างชาติเพื่อดูว่าสัญชาติของคนนั้นเกี่ยวข้องกับการตอบสนองหรือไม่) ดังนั้นตัวแปรทั้งสองที่ต้องทดสอบความเป็นอิสระโดยการทดสอบจะต้องจัดหมวดหมู่หรือไม่ต่อเนื่อง (อนุญาตให้สั่งนอกเหนือจากหมวดหมู่) แต่ไม่ต่อเนื่องกัน? จากhttp://scikit-learn.org/stable/modules/feature_selection.htmlพวกเขา ดำเนินการทดสอบχ2χ2\chi^2กับชุดข้อมูล irisเพื่อดึงเฉพาะคุณสมบัติที่ดีที่สุดสองอย่าง ในชุดข้อมูล irisคุณลักษณะทั้งหมดเป็นตัวเลขและต่อเนื่องมูลค่าและผลลัพธ์คือเลเบลคลาส (หมวดหมู่) การทดสอบความเป็นอิสระของไคสแควร์นำไปใช้กับคุณลักษณะต่อเนื่องได้อย่างไร ในการใช้การทดสอบความเป็นอิสระของไคสแควร์กับชุดข้อมูลเราต้องแปลงฟีเจอร์ต่อเนื่องเป็นฟีเจอร์ที่แยกออกจากกันโดยเริ่มจากการทำ binning (เช่นการแยกโดเมนแรกต่อเนื่องของฟีเจอร์ออกเป็นถังขยะแล้วเปลี่ยนฟีเจอร์นั้น ๆ )? เหตุการณ์ที่เกิดขึ้นในถังขยะหลายรูปแบบนั้นมีคุณลักษณะหลายอย่าง (เกิดขึ้นหรือไม่เกิดขึ้นในแต่ละถังขยะ) ดังนั้นการทดสอบความเป็นอิสระของไคสแควร์จึงสามารถใช้ได้กับพวกมันใช่ไหม? โดยวิธีการที่ฉันเดาเราสามารถใช้การทดสอบความเป็นอิสระของไคสแควร์กับคุณสมบัติและผลลัพธ์ของชนิดใด ๆถูกต้อง? สำหรับส่วนผลลัพธ์เราสามารถเลือกฟีเจอร์สำหรับการจัดหมวดหมู่ไม่เพียง แต่สำหรับการถดถอยโดยการทดสอบความเป็นอิสระของไคสแควร์โดยการสรุปผลลัพธ์อย่างต่อเนื่องใช่มั้ย เว็บไซต์เรียนรู้ scikitยังกล่าวว่า คำนวณสถิติไคสแควร์ระหว่างคุณลักษณะที่ไม่เป็นลบและคลาส คะแนนนี้สามารถใช้เพื่อเลือกคุณสมบัติ n_features ที่มีค่าสูงสุดสำหรับสถิติทดสอบไคสแควร์จาก X ซึ่งต้องมีเฉพาะคุณสมบัติที่ไม่เป็นลบเช่น booleans หรือความถี่ (เช่นจำนวนคำในการจำแนกเอกสาร) เทียบกับ ชั้นเรียน ทำไมการทดสอบจึงต้องการคุณสมบัติที่ไม่จำเป็น หากคุณสมบัติไม่มีสัญญาณ แต่มีการจัดหมวดหมู่หรือไม่ต่อเนื่องการทดสอบยังสามารถใช้กับมันได้หรือไม่? …

6
วิธีการใน R หรือ Python เพื่อทำการเลือกคุณสมบัติในการเรียนรู้ที่ไม่มีผู้ดูแล [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา อะไรคือวิธีการ / การนำไปใช้งานใน R / Python เพื่อยกเลิก / เลือกคุณสมบัติที่ไม่สำคัญ / สำคัญในข้อมูล ข้อมูลของฉันไม่มีป้ายกำกับ (ไม่มีการสำรอง) ข้อมูลมีคุณสมบัติประมาณ ~ 100 ชนิดผสม บางตัวเป็นตัวเลขในขณะที่อื่น ๆ เป็นเลขฐานสอง (0/1)

2
การวัดความไม่สามารถแยกชั้นได้ในปัญหาการจำแนกประเภท
ตัวอย่างของการวัดความสามารถในการแบ่งแยกชั้นเรียนที่ดีในผู้เรียนที่เลือกปฏิบัติแบบเส้นตรงคืออัตราส่วนการจำแนกเชิงเส้นของฟิชเชอร์ มีตัวชี้วัดที่มีประโยชน์อื่น ๆ หรือไม่ในการพิจารณาว่าชุดคุณลักษณะให้การแยกคลาสที่ดีระหว่างตัวแปรเป้าหมายหรือไม่ โดยเฉพาะอย่างยิ่งฉันสนใจในการค้นหาแอตทริบิวต์อินพุตหลายตัวแปรที่ดีสำหรับการเพิ่มการแยกชั้นเป้าหมายและมันจะดีถ้ามีการวัดแบบไม่เชิงเส้น / ไม่อิงพารามิเตอร์เพื่อกำหนดว่าการแยกนั้นดีหรือไม่

1
การเลือกคุณสมบัติอัตโนมัติสำหรับการตรวจจับความผิดปกติ
วิธีที่ดีที่สุดในการเลือกคุณสมบัติโดยอัตโนมัติสำหรับการตรวจจับความผิดปกติคืออะไร? ผมปกติการรักษาความผิดปกติของการตรวจสอบเป็นขั้นตอนวิธีการที่คุณสมบัติที่ได้รับการคัดเลือกโดยผู้เชี่ยวชาญของมนุษย์: สิ่งที่สำคัญคือการส่งออกช่วง (ในขณะที่ "การป้อนข้อมูลที่ผิดปกติ - ส่งออกผิดปกติ") ดังนั้นแม้จะมีคุณสมบัติหลายอย่างที่คุณสามารถมากับชุดย่อยขนาดเล็กมากโดยการรวม คุณสมบัติ. อย่างไรก็ตามสมมติว่าในกรณีทั่วไปรายการคุณลักษณะอาจมีขนาดใหญ่บางทีการเรียนรู้แบบอัตโนมัติบางครั้งก็เป็นที่นิยมกว่า เท่าที่ฉันเห็นมีความพยายามบางอย่าง: "การเลือกคุณสมบัติอัตโนมัติสำหรับการตรวจจับความผิดปกติ" ( pdf ) ซึ่งสรุปคำอธิบายข้อมูลเวกเตอร์สนับสนุน "ระบบตรวจจับการบุกรุกบนโฮสต์ที่รวดเร็วโดยใช้ทฤษฎีการตั้งค่าแบบคร่าวๆ" (ไม่มีไฟล์ PDF ให้ใช้?) ซึ่งฉันเดาว่าใช้ทฤษฎีการตั้งค่าแบบหยาบ "กฎการเรียนรู้สำหรับการตรวจจับความผิดปกติของการรับส่งข้อมูลเครือข่ายที่ไม่เป็นมิตร" ( pdf , วิดีโอ ) ซึ่งใช้วิธีการทางสถิติ ดังนั้นตอนนี้ฉันสงสัยว่าใครสามารถบอกได้ - สมมติว่ามีการตรวจจับความผิดปกติและชุดคุณลักษณะที่มีขนาดใหญ่มาก (หลายร้อย?): ฟีเจอร์ที่ยิ่งใหญ่เหล่านี้เหมาะสมหรือไม่? เราไม่ควรลดคุณสมบัติที่ตั้งไว้พูดสองสามสิบแล้วใช่มั้ย หากชุดคุณลักษณะขนาดใหญ่เข้ากันได้อย่างใดอย่างหนึ่งในวิธีการด้านบนจะให้การคาดการณ์ที่ดีขึ้นและทำไม? มีอะไรที่ไม่ได้ระบุไว้ซึ่งดีกว่ามาก? ทำไมพวกเขาควรให้ผลลัพธ์ที่ดีกว่าเมื่อเปรียบเทียบกับพูดลดขนาดหรือสร้างโครงสร้างผ่านการจัดกลุ่ม / อันดับ / ฯลฯ

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
LASSO เลือกกลุ่มพยากรณ์ได้อย่างไร
ฉันกำลังมองหาคำตอบที่เข้าใจง่ายว่าทำไมรุ่น GLM LASSO เลือกตัวทำนายที่เฉพาะเจาะจงออกจากกลุ่มของกลุ่มที่มีความสัมพันธ์สูงและทำไมมันถึงแตกต่างจากการเลือกคุณสมบัติชุดย่อยที่ดีที่สุด จากรูปทรงเรขาคณิตของ LASSO ที่แสดงในรูปที่ 2 ในTibshirani 1996ฉันเชื่อว่า LASSO เลือกตัวทำนายที่มีความแปรปรวนมากขึ้น ตอนนี้สมมติว่าฉันใช้การเลือกชุดย่อยที่ดีที่สุดกับ CV 10 เท่าเพื่อรับตัวทำนาย 2 ตัวสำหรับโมเดลการถดถอยโลจิสติกและฉันมีความรู้ก่อนที่เหมาะสมว่าตัวทำนาย 2 ตัวเหล่านี้เหมาะสมที่สุด (ในแง่สูญเสีย 0-1) วิธีการแก้ปัญหา LASSO สนับสนุนวิธีการแก้ปัญหาที่ไม่พึงประสงค์ (5 ตัวทำนาย) ที่น้อยกว่าพร้อมกับข้อผิดพลาดในการทำนายที่มากขึ้น โดยสัญชาตญาณอะไรทำให้เกิดความแตกต่างเกิดขึ้น เป็นเพราะวิธีที่ LASSO เลือกระหว่างตัวทำนายที่สัมพันธ์กันหรือไม่?

2
การลงโทษแบบนุ่มนวลเทียบกับการลงโทษ
ฉันกำลังพยายามสรุปสิ่งที่ฉันเข้าใจจนถึงการวิเคราะห์หลายตัวแปรที่มีการลงโทษด้วยชุดข้อมูลมิติสูงและฉันยังคงดิ้นรนโดยใช้คำจำกัดความที่ถูกต้องเกี่ยวกับการลงโทษที่นุ่มนวลกับLasso (หรือ )L1L1L_1 แม่นยำยิ่งขึ้นฉันใช้การกระจัดกระจาย PLS เพื่อวิเคราะห์โครงสร้างข้อมูลแบบ 2 บล็อกรวมถึงข้อมูลจีโนม ( polymorphisms นิวคลีโอไทด์เดี่ยวที่เราพิจารณาความถี่ของอัลลีลย่อยในช่วง {0,1,2} ซึ่งถือว่าเป็นตัวแปรตัวเลข) และ ฟีโนไทป์ต่อเนื่อง (คะแนนเชิงปริมาณลักษณะบุคลิกภาพหรือความไม่สมดุลของสมองยังถือว่าเป็นตัวแปรต่อเนื่อง) ความคิดคือการแยกตัวทำนายที่มีอิทธิพลมากที่สุด (ที่นี่ความผันแปรทางพันธุกรรมในลำดับดีเอ็นเอ) เพื่ออธิบายการแปรผันของฟีโนไทป์ระหว่างบุคคล ฉันเริ่มใช้แพ็คเกจ mixOmics R (เดิมintegrOmics) ซึ่งมีการลงโทษPLSและCCA ที่ทำให้เป็นมาตรฐาน เมื่อมองไปที่รหัส R เราพบว่า "sparsity" ในตัวทำนายนั้นเกิดจากการเลือกตัวแปรอันดับสูงสุดที่มีการโหลดสูงสุด (ในค่าสัมบูรณ์) บนองค์ประกอบ th, (อัลกอริทึม คือการทำซ้ำและคำนวณตัวแปรของการโหลดในองค์ประกอบทำให้ตัวบล็อกการทำนายในแต่ละการวนซ้ำดูการกระจัดกระจาย PLS: การเลือกตัวแปรเมื่อรวมข้อมูล Omicsสำหรับภาพรวม) ในทางตรงกันข้ามแพ็คเกจsplsร่วมเขียนโดย S. Keleş (ดูkkkiiii=1,…,ki=1,…,ki=1,\dots, kkkkเบาบางบางส่วนแควน้อยถดถอยสำหรับพร้อมกันขนาดลดลงและการคัดเลือกตัวแปรสำหรับคำอธิบายที่เป็นทางการมากขึ้นของวิธีการดำเนินการโดยผู้เขียนเหล่านี้) การดำเนินการ -penalization สำหรับการปรับไหมตัวแปรL1L1L_1 มันไม่ได้เป็นที่เห็นได้ชัดกับผมว่ามีความเข้มงวด "bijection" เพื่อที่จะพูดระหว่างการเลือกคุณลักษณะซ้ำขึ้นอยู่กับนุ่ม thresholding …

3
อะไรคือข้อดีของการถดถอยแบบขั้นตอน
ฉันกำลังทดลองกับการถดถอยแบบขั้นตอนเพื่อเห็นแก่ความหลากหลายในแนวทางการแก้ไขปัญหา ดังนั้นฉันมี 2 คำถาม: อะไรคือข้อดีของการถดถอยแบบขั้นตอน จุดเด่นเฉพาะคืออะไร คุณคิดอย่างไรเกี่ยวกับวิธีการไฮบริดที่คุณใช้การถดถอยแบบขั้นตอนเพื่อเลือกคุณสมบัติแล้วใช้การถดถอยปกติโดยนำคุณสมบัติที่เลือกทั้งหมดมารวมกัน


2
ใช้ LASSO สำหรับการเลือกคุณสมบัติเท่านั้น
ในระดับการเรียนรู้เครื่องของเราได้เรียนรู้เกี่ยวกับวิธีการ Lasso ถดถอยเป็นอย่างดีในการดำเนินการเลือกคุณลักษณะเพราะมันทำให้การใช้ regularizationล.1ล.1l_1 คำถามของฉัน: โดยปกติแล้วคนใช้แบบจำลอง LASSO เพียงเพื่อทำการเลือกคุณลักษณะ (แล้วดำเนินการถ่ายโอนคุณลักษณะเหล่านั้นไปยังรูปแบบการเรียนรู้ของเครื่องอื่น) หรือพวกเขามักจะใช้ LASSO เพื่อทำการเลือกทั้งคุณสมบัติและการถดถอยจริง ตัวอย่างเช่นสมมติว่าคุณต้องการลดการถดถอยในแนวสัน แต่คุณเชื่อว่าคุณสมบัติหลายอย่างของคุณไม่ดีนัก จะเป็นการดีไหมถ้าจะเรียกใช้ LASSO ใช้เฉพาะฟีเจอร์ที่อัลกอริธึมไม่ใกล้ศูนย์และใช้เฉพาะในการทิ้งข้อมูลของคุณเป็นแบบจำลองการถดถอยของสันเขา? ด้วยวิธีนี้คุณจะได้รับประโยชน์จากการทำให้เป็นปกติสำหรับการเลือกคุณสมบัติ แต่ยังได้รับประโยชน์จากการทำให้เป็นเพื่อลดการ(ฉันรู้ว่าสิ่งนี้มีความสำคัญกับ Elastic Net Regression แต่ดูเหมือนว่าคุณไม่จำเป็นต้องมีทั้งคำและในฟังก์ชันวัตถุประสงค์การถดถอยขั้นสุดท้าย)ล.1ล.1l_1ล.2ล.2l_2ล.1ล.1l_1ล.2ล.2l_2 นอกเหนือจากการถดถอยแล้วนี่เป็นกลยุทธ์ที่ชาญฉลาดหรือไม่เมื่อทำการแบ่งประเภท (ใช้ SVMs, โครงข่ายประสาทเทียม, ฟอเรสต์แบบสุ่ม, ฯลฯ )?

3
คุณสมบัติการจัดอันดับในการถดถอยโลจิสติก
ฉันใช้การถดถอยโลจิสติก ฉันมีหกคุณสมบัติฉันต้องการทราบคุณสมบัติที่สำคัญในตัวจําแนกนี้ที่มีผลต่อผลลัพธ์มากกว่าคุณสมบัติอื่น ๆ ฉันใช้ Information Gain แต่ดูเหมือนว่ามันไม่ได้ขึ้นอยู่กับตัวจําแนกที่ใช้แล้ว มีวิธีการจัดอันดับคุณลักษณะตามความสำคัญของพวกเขาตามตัวจําแนกเฉพาะ (เช่น Logistic Regression) หรือไม่ ความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.