สถิติและข้อมูลขนาดใหญ่ feature-selection

2

เหตุใดการถดถอยของสันเขาจึงไม่สามารถตีความได้ดีกว่า LASSO

ฉันมีความคิดเกี่ยวกับข้อดีข้อเสียของการถดถอยสันและ LASSO แล้ว สำหรับ LASSO คำสั่งลงโทษ L1 จะให้ค่าสัมประสิทธิ์แบบเบาบางซึ่งสามารถดูได้ว่าเป็นวิธีการเลือกคุณลักษณะ อย่างไรก็ตามมีข้อ จำกัด บางประการสำหรับ LASSO หากคุณสมบัติมีความสัมพันธ์สูง LASSO จะเลือกหนึ่งในนั้นเท่านั้น นอกจากนี้สำหรับปัญหาที่ > LASSO จะเลือกพารามิเตอร์มากที่สุด (และคือจำนวนการสังเกตและพารามิเตอร์ตามลำดับ) สิ่งเหล่านี้ทำให้ LASSO สังเกตุว่าเป็นวิธีที่ไม่ดีในแง่ของความสามารถในการคาดการณ์เมื่อเทียบกับการถดถอยของสันเขาพีพีpnnnnnnnnnพีพีp สำหรับการถดถอยของสันเขามันให้การคาดการณ์ที่ดีกว่าโดยทั่วไป อย่างไรก็ตามความสามารถในการตีความไม่ดีเท่า LASSO คำอธิบายข้างต้นมักพบได้ในหนังสือเรียนในการเรียนรู้ของเครื่อง / การขุดข้อมูล อย่างไรก็ตามฉันยังคงสับสนเกี่ยวกับสองสิ่ง: หากเราทำให้ช่วงของคุณลักษณะเป็นปกติ (พูดระหว่าง 0 ถึง 1 หรือด้วยค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย) และเรียกใช้การถดถอยของสันเขาเรายังคงมีแนวคิดสำคัญของคุณลักษณะโดยการเรียงลำดับค่าสัมบูรณ์ของสัมประสิทธิ์ ค่าสัมประสิทธิ์สัมบูรณ์สูงสุดของสัมบูรณ์) แม้ว่าเราจะไม่ได้เลือกคุณสมบัติอย่างชัดเจน แต่การตีความก็ไม่ได้หายไปจากการถดถอยของสันเขา ในขณะเดียวกันเรายังสามารถบรรลุพลังการทำนายสูง ถ้าอย่างนั้นทำไมเราถึงต้องการ LASSO ฉันทำอะไรบางอย่างหายไปหรือเปล่า LASSO เป็นที่ต้องการเนื่องจากลักษณะการเลือกคุณสมบัติหรือไม่? เพื่อความเข้าใจของฉันเหตุผลที่เราต้องเลือกคุณสมบัติคือความสามารถในการพูดคุยทั่วไปและความสะดวกในการคำนวณ เพื่อความสะดวกในการคำนวณเราไม่ต้องการฟีดทั้งหมด 1 ล้านฟีเจอร์ในแบบจำลองของเราหากเราทำงาน …

13 feature-selection lasso regularization ridge-regression elastic-net

2

การเลือกคุณสมบัติตาม p-value ผิดหรือไม่?

มีหลายโพสต์เกี่ยวกับวิธีการเลือกคุณสมบัติ หนึ่งในวิธีการอธิบายความสำคัญของคุณสมบัติตามสถิติ t ใน R ที่varImp(model)ใช้กับโมเดลเชิงเส้นพร้อมคุณสมบัติที่เป็นมาตรฐานจะใช้ค่าสัมบูรณ์ของ t-statistic สำหรับพารามิเตอร์แต่ละโมเดล ดังนั้นโดยทั่วไปเราเลือกคุณลักษณะตามสถิติของ t ซึ่งหมายถึงความแม่นยำของสัมประสิทธิ์ แต่ความแม่นยำของค่าสัมประสิทธิ์ของฉันบอกฉันบางอย่างเกี่ยวกับความสามารถในการทำนายของคุณสมบัติหรือไม่ มันจะเกิดขึ้นหรือไม่ที่คุณสมบัติของฉันมี t-statisstics ต่ำ แต่จะยังคงปรับปรุง (สมมติว่า) ความแม่นยำของโมเดลหรือไม่ ถ้าใช่จะมีใครต้องการแยกตัวแปรตามสถิติของ t หรือไม่ หรือเป็นเพียงจุดเริ่มต้นในการตรวจสอบความสามารถในการทำนายของตัวแปรที่ไม่สำคัญ?

12 regression p-value feature-selection

1

การเลือกตัวแปรเทียบกับการเลือกรุ่น

ฉันเข้าใจว่าการเลือกตัวแปรเป็นส่วนหนึ่งของการเลือกแบบจำลอง แต่การเลือกแบบจำลองนั้นประกอบด้วยอะไรบ้าง? มันเป็นมากกว่าต่อไปนี้: 1) เลือกการกระจายสำหรับรุ่นของคุณ 2) เลือกตัวแปรอธิบาย? ฉันถามสิ่งนี้เพราะฉันกำลังอ่านบทความBurnham & Anderson: AIC กับ BICที่พวกเขาพูดคุยเกี่ยวกับ AIC และ BIC ในการเลือกรูปแบบ การอ่านบทความนี้ฉันรู้ว่าฉันกำลังคิดถึง 'การเลือกแบบจำลอง' เป็น 'การเลือกตัวแปร' (อ้างอิงความคิดเห็นBIC พยายามค้นหาแบบจำลองที่แท้จริงหรือไม่ ) ข้อความที่ตัดตอนมาจากบทความที่พวกเขาพูดคุยเกี่ยวกับ 12 รุ่นที่มีระดับ "ทั่วไป" ที่เพิ่มขึ้นและโมเดลเหล่านี้แสดง "เอฟเฟกต์การเรียว" (รูปที่ 1) เมื่อ KL-Information ถูกพล็อตกับ 12 โมเดล: ปรัชญาและรุ่นเป้าหมายที่แตกต่าง ... แม้ว่าเป้าหมายของ BIC จะเป็นรูปแบบทั่วไปมากกว่าแบบเป้าหมายสำหรับ AIC แต่แบบจำลองที่เลือกโดย BIC ส่วนใหญ่มักจะน้อยกว่ารุ่น 7 ยกเว้นว่าnมีขนาดใหญ่มาก มันอาจจะเป็นแบบ 5 …

12 feature-selection model-selection aic bic

5

ความถี่ระยะ / ความถี่เอกสารผกผัน (TF / IDF): น้ำหนัก

ฉันมีชุดข้อมูลที่แสดงถึง 1,000 เอกสารและคำทั้งหมดที่ปรากฏในนั้น ดังนั้นแถวแสดงถึงเอกสารและคอลัมน์เป็นตัวแทนของคำ ดังนั้นสำหรับตัวอย่างเช่นค่าในเซลล์ย่อมาจากคำว่าครั้งญเกิดขึ้นในเอกสารฉัน ตอนนี้ฉันต้องค้นหา 'น้ำหนัก' ของคำโดยใช้วิธี tf / idf แต่จริง ๆ แล้วฉันไม่รู้วิธีการทำสิ่งนี้ มีคนช่วยฉันออกได้ไหม(i,j)(i,j)(i,j)jjjiii

12 r data-mining feature-selection

5

แพ็คเกจการเลือกคุณสมบัติใน R ซึ่งทำได้ทั้งการถดถอยและการจัดหมวดหมู่

ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันยังใหม่กับอาร์มากฉันกำลังเรียนรู้การเรียนรู้ของเครื่องตอนนี้ ขอโทษถ้าคำถามนี้ดูเหมือนจะเป็นพื้นฐานมาก ฉันพยายามค้นหาแพ็คเกจการเลือกคุณสมบัติที่ดีใน R. ฉันผ่านแพ็คเกจ Boruta มันเป็นแพ็คเกจที่ดี แต่ฉันอ่านว่ามันมีประโยชน์สำหรับการจัดหมวดหมู่เท่านั้น ฉันต้องการใช้การเลือกคุณสมบัติใน R สำหรับงานการถดถอย ฉันอ่านเอกสารกำกับชุด Caret แต่สำหรับระดับของฉันมันยากที่จะเข้าใจ คนใดคนหนึ่งได้โปรดชี้ให้ฉันไปสอนที่ดีหรือรายการแพคเกจที่ดีหรือแพคเกจที่ใช้บ่อยที่สุดใน R สำหรับการเลือกคุณสมบัติ ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม ขอบคุณล่วงหน้า.

12 r feature-selection

2

ทำไมการเพิ่มจำนวนคุณสมบัติจึงทำให้ประสิทธิภาพลดลง?

ฉันพยายามที่จะเพิ่มสัญชาตญาณว่าทำไมการเพิ่มจำนวนคุณสมบัติจึงสามารถลดประสิทธิภาพลงได้ ขณะนี้ฉันใช้ตัวแยกประเภท LDA ซึ่งทำงานได้ดีกว่าในฟีเจอร์บางอย่าง แต่ก็แย่ลงเมื่อดูฟีเจอร์อื่น ๆ ความแม่นยำในการจัดหมวดหมู่ของฉันดำเนินการโดยใช้ช่วงเวลา 10 เท่า x มีกรณีง่ายๆหรือไม่ที่เมื่อตัวจําแนกจะทำงานได้ดีกว่าแบบไม่มีเงื่อนไขโดยดีกว่าการได้รับ bivaraiately เพื่อให้ได้สัญชาตญาณทางกายภาพหรือเชิงพื้นที่ของสิ่งที่เกิดขึ้นในมิติที่สูงขึ้นเหล่านี้หรือไม่

12 classification feature-selection

6

อัลกอริธึมการเรียนรู้ของเครื่องใดดีสำหรับการประเมินว่าคุณลักษณะใดมีความสำคัญมากกว่า

ฉันมีข้อมูลที่มีคุณสมบัติขั้นต่ำที่ไม่เปลี่ยนแปลงและมีคุณสมบัติเพิ่มเติมบางอย่างที่สามารถเปลี่ยนแปลงได้และมีผลกระทบอย่างมากต่อผลลัพธ์ ชุดข้อมูลของฉันมีลักษณะดังนี้: คุณสมบัติคือ A, B, C (แสดงเสมอ) และ D, E, F, G, H (บางครั้งก็ปรากฏ) A = 10, B = 10, C = 10 outcome = 10 A = 8, B = 7, C = 8 outcome = 8.5 A = 10, B = 5, C = 11, D = 15 …

12 machine-learning feature-selection

1

ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom

หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

1

คุณจะเลือกตัวแปรในตัวแบบการถดถอยได้อย่างไร?

วิธีการดั้งเดิมในการเลือกตัวแปรคือการค้นหาตัวแปรที่มีส่วนร่วมมากที่สุดในการทำนายการตอบสนองใหม่ เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้ทางเลือกนี้ ในการสร้างแบบจำลองตัวแปรที่กำหนดผลกระทบของการรักษา - ตัวอย่างเช่นในการทดลองทางคลินิกของยา - ตัวแปรถูกกล่าวถึงว่ามีปฏิสัมพันธ์ในเชิงคุณภาพกับการรักษาถ้าปล่อยให้สิ่งอื่นคงที่การเปลี่ยนแปลงในตัวแปรนั้นสามารถสร้างการเปลี่ยนแปลงที่การรักษามีประสิทธิภาพมากที่สุด ตัวแปรเหล่านี้ไม่ได้เป็นตัวทำนายผลที่แข็งแกร่งเสมอไป แต่อาจมีความสำคัญสำหรับแพทย์เมื่อตัดสินใจเลือกการรักษาสำหรับผู้ป่วยแต่ละราย ในวิทยานิพนธ์ปริญญาเอกของเธอ Lacey Gunter พัฒนาวิธีการเลือกตัวแปรการโต้ตอบเชิงคุณภาพที่อาจพลาดโดยอัลกอริธึมที่เลือกการทำนาย เมื่อเร็ว ๆ นี้ฉันได้ทำงานกับเธอในการขยายวิธีการเหล่านี้ไปยังรุ่นอื่น ๆ รวมถึงการถดถอยโลจิสติกและโมเดลการถดถอยอันตรายตามสัดส่วนของ Cox ฉันมีสองคำถาม: คุณคิดอย่างไรเกี่ยวกับคุณค่าของวิธีการใหม่เหล่านี้ ในกรณีของวิธีการแบบดั้งเดิมคุณชอบวิธีการแบบไหน? เกณฑ์เช่น AIC, BIC, Mallows Cp, F สำหรับการทดสอบการป้อนหรือการลดตัวแปรในแบบขั้นตอนไปข้างหน้าและข้างหลัง ... บทความแรกในเรื่องนี้ออกมาใน Gunter, L. , Zhu, J และ Murphy, SA (2009) เลือกตัวแปรสำหรับการปฏิสัมพันธ์เชิงคุณภาพ ระเบียบวิธีทางสถิติ ดอย: 10, 1016 / j.stamet.2009.05.003 บทความต่อไปปรากฏใน …

12 regression feature-selection

2

คุณสมบัติวิศวกรรมที่ไม่เชื่อเรื่องพระเจ้าที่ยังคงรักษาความหมายของความหมาย?

คุณสมบัติทางวิศวกรรมมักเป็นส่วนประกอบสำคัญในการเรียนรู้ของเครื่อง (มันถูกใช้อย่างหนักเพื่อเอาชนะ KDD Cup ในปี 2010 ) อย่างไรก็ตามฉันพบว่าเทคนิคทางวิศวกรรมส่วนใหญ่มีคุณสมบัติเช่นกัน ทำลายความหมายใด ๆ ที่ใช้งานง่ายของคุณสมบัติพื้นฐานหรือ มีความเฉพาะเจาะจงกับโดเมนหนึ่ง ๆ หรือแม้กระทั่งคุณสมบัติบางประเภท ตัวอย่างแบบดั้งเดิมของอดีตคือการวิเคราะห์องค์ประกอบหลัก สำหรับฉันแล้วความรู้ใด ๆ ที่ผู้เชี่ยวชาญในหัวเรื่องจะมีเกี่ยวกับคุณลักษณะนั้นจะถูกทำลายโดยการแปลงคุณสมบัติเหล่านั้นให้เป็นองค์ประกอบหลัก ตรงกันข้ามกับเทคนิคง่ายๆในการแปลงวันที่เป็นคุณสมบัติสำหรับ "วันของเดือน" และ "วันของสัปดาห์" ความหมายพื้นฐานยังคงอยู่ในคุณลักษณะใหม่ แต่เห็นได้ชัดว่าเทคนิคเฉพาะนี้ใช้เฉพาะกับวันที่เท่านั้นและไม่ใช่คุณสมบัติที่กำหนดเอง มีเนื้อหามาตรฐานของเทคนิควิศวกรรมฟีเจอร์ที่ไม่ทำลายความหมายของคุณสมบัติพื้นฐานในขณะที่ใช้กับโดเมนที่กำหนดเอง (หรืออย่างน้อยก็มีโดเมนที่หลากหลาย)

12 predictive-models feature-selection feature-construction

5

ฉันสามารถใช้ PCA เพื่อทำการเลือกตัวแปรสำหรับการวิเคราะห์กลุ่มได้หรือไม่

ฉันต้องลดจำนวนของตัวแปรเพื่อดำเนินการวิเคราะห์กลุ่ม ตัวแปรของฉันมีความสัมพันธ์อย่างมากดังนั้นฉันจึงคิดว่าจะทำการวิเคราะห์ปัจจัย PCA (การวิเคราะห์องค์ประกอบหลัก) อย่างไรก็ตามถ้าฉันใช้คะแนนผลลัพธ์กลุ่มของฉันไม่ถูกต้อง (เทียบกับการจำแนกประเภทก่อนหน้านี้ในวรรณคดี) คำถาม: ฉันสามารถใช้เมทริกซ์การหมุนเพื่อเลือกตัวแปรที่มีโหลดมากที่สุดสำหรับแต่ละส่วนประกอบ / ตัวประกอบและใช้เฉพาะตัวแปรเหล่านี้สำหรับการจัดกลุ่มของฉันได้หรือไม่ การอ้างอิงบรรณานุกรมใด ๆ ก็จะมีประโยชน์เช่นกัน ปรับปรุง: clarifiations บาง: เป้าหมายของฉัน: ฉันต้องเรียกใช้การวิเคราะห์กลุ่มด้วยอัลกอริทึมแบบสองขั้นตอนโดย SPSS แต่ตัวแปรของฉันไม่ได้เป็นอิสระดังนั้นฉันจึงคิดถึงการทิ้งบางอย่าง ชุดข้อมูลของฉัน: ฉันทำงานกับพารามิเตอร์สเกลาร์ 15 รายการ (ตัวแปรของฉัน) จำนวน 100,000 ราย ตัวแปรบางตัวมีความสัมพันธ์กันอย่างมาก ( Pearson)>0.9>0.9>0.9 ข้อสงสัยของฉัน: เนื่องจากฉันต้องการเพียงตัวแปรอิสระฉันจึงคิดว่าจะทำการวิเคราะห์องค์ประกอบหลัก (ขออภัย: ฉันพูดถึงการวิเคราะห์ปัจจัยในคำถามเดิมของฉันผิดพลาด) และเลือกเฉพาะตัวแปรที่มีการโหลดมากที่สุดสำหรับแต่ละองค์ประกอบ ฉันรู้ว่ากระบวนการ PCA นำเสนอบางขั้นตอนโดยพลการ แต่ฉันพบว่าการเลือกนี้คล้ายกับ " วิธี B4 " ที่เสนอโดย IT Jolliffe (1972 & 2002) …

12 clustering pca feature-selection factor-analysis

4

วิธีการใช้วิธีกำลังสองน้อยที่สุด (IRLS) ที่ได้รับผลตอบแทนซ้ำกับโมเดล LASSO อย่างไร

ฉันมีโปรแกรมถดถอยโลจิสติกโดยใช้อัลกอริทึม IRLS ฉันต้องการใช้การลงโทษ LASSOเพื่อเลือกคุณสมบัติที่ถูกต้องโดยอัตโนมัติ ในการวนซ้ำแต่ละครั้งจะมีการแก้ไขดังต่อไปนี้: (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} ให้เป็นจำนวนจริงที่ไม่ลบ ฉันไม่ได้ทำการลงโทษดักตามที่แนะนำในองค์ประกอบของ การเรียนรู้ทางสถิติ เหมือนกันสำหรับสัมประสิทธิ์เป็นศูนย์อยู่แล้ว มิฉะนั้นฉันจะลบคำหนึ่งออกจากด้านขวา:λλ\lambda XT(y−p)−λ×sign(β^)XT(y−p)−λ×sign(β^)\mathbf{X^T\left(y-p\right)-\lambda\times \mathrm{sign}\left(\hat\beta\right)} อย่างไรก็ตามฉันไม่แน่ใจเกี่ยวกับการปรับเปลี่ยนอัลกอริทึม IRLS มันเป็นวิธีที่ถูกต้องหรือไม่ แก้ไข: แม้ว่าฉันไม่มั่นใจเกี่ยวกับเรื่องนี้ แต่นี่เป็นหนึ่งในวิธีแก้ปัญหาที่ฉันได้รับในที่สุด สิ่งที่น่าสนใจคือโซลูชันนี้สอดคล้องกับสิ่งที่ฉันเข้าใจเกี่ยวกับ LASSO ในขณะนี้ แน่นอนว่ามีสองขั้นตอนในการทำซ้ำแต่ละครั้งแทนที่จะเป็นเพียงขั้นตอนเดียว: ขั้นตอนแรกเหมือนกับเมื่อก่อน: เราทำการวนซ้ำของอัลกอริทึม (ราวกับว่าในสูตรสำหรับการไล่ระดับสีด้านบน)λ=0λ=0\lambda=0 ขั้นตอนที่สองคือขั้นตอนใหม่: เราใช้ซอฟต์ในแต่ละองค์ประกอบ (ยกเว้น componentซึ่งสอดคล้องกับการสกัดกั้น) ของ vectorได้รับในขั้นตอนแรก นี้เรียกว่าซ้ำอ่อน Thresholding อัลกอริทึมβ0β0\beta_0ββ\beta ∀i≥1,βi←sign(βi)×max(0,|βi|−λ)∀i≥1,βi←sign(βi)×max(0,|βi|−λ)\forall i \geq 1, \beta_{i}\leftarrow\mathrm{sign}\left(\beta_{i}\right)\times\max\left(0,\,\left|\beta_{i}\right|-\lambda\right)

12 logistic generalized-linear-model feature-selection lasso convex

4

อะไรทำให้บ่วงบาศไม่เสถียรสำหรับการเลือกคุณสมบัติ?

ในการตรวจจับแบบบีบอัดมีทฤษฎีบทรับประกันได้ว่า มีวิธีแก้ปัญหากระจัดกระจายc (ดูภาคผนวกสำหรับรายละเอียดเพิ่มเติม)cargmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc มีทฤษฎีบทที่คล้ายกันสำหรับบ่วงบาศหรือไม่? หากมีทฤษฎีบทดังกล่าวไม่เพียง แต่จะรับประกันความมั่นคงของบาศกัมมันตภาพรังสีเท่านั้น แต่มันยังให้การตีความที่มีความหมายมากขึ้นด้วย เชือกสามารถค้นพบเบาบางค่าสัมประสิทธิ์การถดถอยเวกเตอร์cccที่ใช้ในการสร้างการตอบสนองyyyโดยy=Xcy=Xcy = XcXc มีสองเหตุผลที่ฉันถามคำถามนี้: ฉันคิดว่า 'lasso เป็นคำตอบที่กระจัดกระจาย' ไม่ใช่คำตอบว่าทำไมใช้ lasso เพื่อเลือกคุณลักษณะเนื่องจากเราไม่สามารถบอกได้ว่าข้อดีของคุณสมบัติที่เราเลือกคืออะไร ฉันเรียนรู้ Lasso ที่มีชื่อเสียงในเรื่องความไม่แน่นอนในการเลือกคุณสมบัติ ในทางปฏิบัติเราต้องรันตัวอย่างบูตสแตรปเพื่อประเมินความเสถียร อะไรคือเหตุผลที่สำคัญที่สุดที่ทำให้เกิดความไม่แน่นอนนี้ ภาคผนวก: ได้รับXN×M=(x1,⋯,xM)XN×M=(x1,⋯,xM)X_{N \times M} = (x_1, \cdots, x_M)x_M) cccคือΩΩ\Omega -sparse vector ( Ω⩽MΩ⩽M\Omega \leqslant …

12 regression self-study feature-selection lasso regularization

2

การเลือกคุณสมบัติและการปรับพารามิเตอร์ด้วยคาเร็ตสำหรับฟอเรสต์แบบสุ่ม

ฉันมีข้อมูลที่มีฟีเจอร์ไม่กี่พันรายการและฉันต้องการทำการเลือกฟีเจอร์แบบเรียกซ้ำ (RFE) เพื่อลบข้อมูลที่ไม่ต้องการออก ฉันทำสิ่งนี้ด้วยคาเร็ตและ RFE อย่างไรก็ตามฉันเริ่มคิดว่าถ้าฉันต้องการได้รับแบบจำลองการถดถอยที่ดีที่สุด (เช่นฟอเรสต์แบบสุ่ม) ฉันควรทำการปรับพารามิเตอร์ ( mtryสำหรับ RF) เมื่อใด นั่นคือตามที่ฉันเข้าใจcaretฝึก RF ซ้ำ ๆ กันในชุดย่อยที่แตกต่างกันด้วย mtry คงที่ ฉันคิดว่าmtryควรพบสิ่งที่ดีที่สุดหลังจากการเลือกคุณสมบัติเสร็จสิ้นแล้ว แต่mtryค่าที่คาเร็ตใช้จะมีผลกับชุดย่อยของฟีเจอร์ที่เลือกหรือไม่ แน่นอนว่าการใช้คาเร็เทตกับ low mtryนั้นเร็วกว่ามาก หวังว่าใครบางคนสามารถอธิบายเรื่องนี้กับฉันได้

12 regression feature-selection random-forest caret

1

วิธีปรับน้ำหนักให้เป็นค่า Q ด้วยการประมาณฟังก์ชั่นเชิงเส้น

ในการเรียนรู้การเสริมแรงการประมาณฟังก์ชั่นเชิงเส้นมักใช้เมื่อมีพื้นที่ของรัฐขนาดใหญ่ (เมื่อค้นหาตารางจะไม่สามารถทำได้) รูปแบบของคุ้มค่ากับฟังก์ชั่นการประมาณเชิงเส้นจะถูกกำหนดโดยถาม-Q−Q- Q ( s , a ) = w1ฉ1( s , a ) + w2ฉ2( s , a ) + ⋯ ,Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots, ที่มีน้ำหนักและฉฉันเป็นคุณสมบัติWผมWผมw_iฉผมฉผมf_i คุณสมบัติที่กำหนดไว้ล่วงหน้าโดยผู้ใช้ คำถามของฉันคือน้ำหนักถูกกำหนดอย่างไร ฉันได้อ่าน / ดาวน์โหลดสไลด์การบรรยายบางอย่างเกี่ยวกับการเรียนรู้ด้วยฟังก์ชั่นการประมาณ ส่วนใหญ่มีสไลด์บนการถดถอยเชิงเส้นที่ตามมา เนื่องจากเป็นเพียงสไลด์จึงมีแนวโน้มที่จะไม่สมบูรณ์ ฉันสงสัยว่าการเชื่อมต่อ / ความสัมพันธ์ระหว่างสองหัวข้อคืออะไรถาม-Q-Q-

12 machine-learning feature-selection reinforcement-learning

คำถามติดแท็ก feature-selection