คำถามติดแท็ก feature-selection

วิธีการและหลักการในการเลือกชุดย่อยของคุณลักษณะสำหรับใช้ในการสร้างแบบจำลองเพิ่มเติม

5
เรายังต้องเลือกคุณสมบัติในขณะใช้อัลกอริทึม
ฉันมีคำถามหนึ่งข้อที่ต้องใช้วิธีการเลือกคุณลักษณะ (สุ่มป่าคุณลักษณะค่าความสำคัญหรือวิธีการเลือกคุณสมบัติแบบไม่รวมตัวแปร) ก่อนใช้อัลกอริทึมการเรียนรู้เชิงสถิติ เรารู้ว่าเพื่อหลีกเลี่ยงการ overfitting เราสามารถแนะนำการปรับความสม่ำเสมอในเวกเตอร์น้ำหนัก ดังนั้นถ้าฉันต้องการทำการถดถอยเชิงเส้นจากนั้นฉันสามารถแนะนำ L2 หรือ L1 หรือแม้แต่พารามิเตอร์การทำให้เป็นมาตรฐานสุทธิยืดหยุ่น ในการรับโซลูชันที่กระจัดกระจายการลงโทษ L1 จะช่วยในการเลือกคุณลักษณะ ถ้าอย่างนั้นก็ยังต้องเลือกคุณสมบัติก่อนใช้การถดถอยปกติของ L1 เช่น Lasso? ในทางเทคนิค Lasso ช่วยฉันลดฟีเจอร์ด้วยการลงโทษ L1 แล้วทำไมต้องเลือกฟีเจอร์ก่อนใช้งาน algo? ฉันอ่านบทความวิจัยที่บอกว่าการทำ Anova จากนั้น SVM ให้ประสิทธิภาพที่ดีกว่าการใช้ SVM เพียงอย่างเดียว ตอนนี้คำถามคือ: SVM ทำการทำให้เป็นมาตรฐานโดยใช้ L2 เป็นประจำ เพื่อให้ได้มาร์จิ้นที่มากที่สุดก็คือการลดขนาดของเวกเตอร์น้ำหนัก ดังนั้นมันจึงทำให้เป็นมาตรฐานในฟังก์ชันวัตถุประสงค์ ถ้าเช่นนั้นอัลกอริทึมทางเทคนิคเช่น SVM ไม่ควรกังวลเกี่ยวกับวิธีการเลือกคุณสมบัติหรือไม่ แต่รายงานยังคงกล่าวว่าการเลือกคุณลักษณะ Univariate ก่อน SVM ปกติจะมีประสิทธิภาพมากกว่า ใครที่มีความคิด

2
การทดสอบความสำคัญหรือการตรวจสอบความถูกต้องข้าม?
วิธีการทั่วไปสองวิธีในการเลือกตัวแปรที่เกี่ยวข้องคือการทดสอบที่สำคัญและการตรวจสอบความถูกต้องข้าม แต่ละปัญหาพยายามแก้ปัญหาอย่างไรและเมื่อใดที่ฉันจะเลือกใช้อีกอันหนึ่ง

2
มันสมเหตุสมผลที่จะทำ OLS หลังจากการเลือกตัวแปร LASSO อย่างไร
เมื่อเร็ว ๆ นี้ฉันได้พบว่าในวรรณคดีเศรษฐศาสตร์ประยุกต์ที่ใช้เมื่อจัดการกับปัญหาการเลือกคุณสมบัติมันไม่แปลกที่จะทำ LASSO ตามด้วย OLS ถดถอยโดยใช้ตัวแปรที่เลือก ฉันสงสัยว่าเราจะมีคุณสมบัติที่ถูกต้องของกระบวนการดังกล่าวได้อย่างไร มันจะทำให้เกิดปัญหาเช่นตัวแปรที่ละเว้นหรือไม่ หลักฐานใด ๆ ที่แสดงว่ามีประสิทธิภาพมากขึ้นหรือผลลัพธ์สามารถตีความได้มากกว่านี้? นี่คือการสนทนาที่เกี่ยวข้อง: การเลือกตัวแปรกับ LASSO การใช้ต้นไม้หลังจากการเลือกตัวแปรโดยใช้ Lasso / Random ถ้าตามที่ระบุไว้ขั้นตอนดังกล่าวไม่ถูกต้องโดยทั่วไปแล้วทำไมยังมีงานวิจัยมากมายที่ทำเช่นนั้น? ฉันสามารถพูดได้ไหมว่ามันเป็นเพียงแค่กฎของหัวแม่มือวิธีการประนีประนอมเนื่องจากคุณสมบัติที่ไม่สบาย ๆ ของเครื่องประมาณ LASSO และความชื่นชอบของผู้คนที่มีต่อ OLS?

1
สิ่งที่จะสรุปได้จากพล็อต lasso (glmnet)
ต่อไปนี้คือโครงร่างของ glmnet ที่มีค่าเริ่มต้นอัลฟา (1 ดังนั้น lasso) โดยใช้mtcarsชุดข้อมูลใน R พร้อมกับmpgDV และอื่น ๆ เป็นตัวแปรตัวทำนาย glmnet(as.matrix(mtcars[-1]), mtcars[,1]) สิ่งที่เราสามารถสรุปได้จากพล็อตนี้เกี่ยวกับตัวแปรที่แตกต่างกันโดยเฉพาะอย่างยิ่งam, cylและwt(สีแดง, สีดำและสีแสงเส้นสีน้ำเงิน)? เราจะวลีผลลัพธ์ในรายงานที่จะเผยแพร่อย่างไร ฉันคิดถึงสิ่งต่อไปนี้: wtmpgเป็นปัจจัยบ่งชี้ที่สำคัญที่สุดของ mpgมันเป็นในเชิงลบที่มีผลต่อ cylmpgเป็นปัจจัยบ่งชี้เชิงลบที่อ่อนแอของ ammpgอาจจะเป็นปัจจัยบ่งชี้ในเชิงบวกของ ตัวแปรอื่น ๆ mpgที่มีการพยากรณ์ไม่ได้ที่แข็งแกร่งของ ขอบคุณสำหรับความคิดของคุณเกี่ยวกับเรื่องนี้ (หมายเหตุ: cylเป็นเส้นสีดำซึ่งไม่ถึง 0 จนกระทั่งอยู่ใกล้มาก) แก้ไข: ต่อไปนี้คือพล็อต (mod, xvar = 'lambda') ซึ่งแสดงแกน x ในลำดับที่กลับด้านบนของพล็อต: (ป.ล. : หากคุณพบว่าคำถามนี้น่าสนใจ / สำคัญโปรดโหวตขึ้น;)

2
ความสำคัญของตัวพยากรณ์เชิงหมวดหมู่ในการถดถอยโลจิสติกส์
ฉันมีปัญหาในการตีความค่า z สำหรับตัวแปรเด็ดขาดในการถดถอยโลจิสติก ในตัวอย่างด้านล่างฉันมีตัวแปรเด็ดขาดที่มี 3 คลาสและตามค่า z CLASS2 อาจมีความเกี่ยวข้องในขณะที่คนอื่นไม่ได้ แต่ตอนนี้สิ่งนี้หมายความว่าอย่างไร ฉันจะรวมคลาสอื่น ๆ เข้าด้วยกันได้หรือไม่ ตัวแปรทั้งหมดอาจไม่ใช่ตัวทำนายที่ดีใช่มั้ย นี่เป็นเพียงตัวอย่างและค่า z ที่แท้จริงที่นี่ไม่ได้มาจากปัญหาจริงฉันแค่มีปัญหาเกี่ยวกับการตีความของพวกเขา Estimate Std. Error z value Pr(>|z|) CLASS0 6.069e-02 1.564e-01 0.388 0.6979 CLASS1 1.734e-01 2.630e-01 0.659 0.5098 CLASS2 1.597e+00 6.354e-01 2.514 0.0119 *

1
“ ฟีเจอร์สเปซ” คืออะไร
คำจำกัดความของ "ฟีเจอร์สเปซ" คืออะไร? ตัวอย่างเช่นเมื่ออ่านเกี่ยวกับ SVM ฉันอ่านเกี่ยวกับ "การแมปไปยังพื้นที่ของฟีเจอร์" เมื่ออ่านเกี่ยวกับรถเข็นฉันอ่านเกี่ยวกับ "การแบ่งพาร์ติชันเพื่อใช้พื้นที่" ฉันเข้าใจว่าเกิดอะไรขึ้นโดยเฉพาะกับรถเข็น แต่ฉันคิดว่ามีคำจำกัดความที่ฉันพลาดไป มีคำจำกัดความทั่วไปของ "ฟีเจอร์สเปซ" หรือไม่? มีคำจำกัดความที่จะให้ข้อมูลเชิงลึกแก่ฉันเกี่ยวกับเมล็ด SVM และ / หรือรถเข็นมากขึ้นหรือไม่

2
LASSO ประสบปัญหาการถดถอยแบบขั้นตอนเหมือนกันหรือไม่?
วิธีการเลือกตัวแปรแบบอัลกอริธึมแบบขั้นตอนมีแนวโน้มที่จะเลือกแบบจำลองที่มีอคติมากกว่าหรือน้อยกว่าทุกการประมาณค่าในตัวแบบการถดถอย ( ββ\beta s และ SEs, p-ค่า, สถิติF , ฯลฯ ) ตัวพยากรณ์เท็จตามวรรณกรรมจำลองที่สมเหตุสมผล LASSO ประสบปัญหาในลักษณะที่เหมือนกันเมื่อใช้เพื่อเลือกตัวแปรหรือไม่?

2
ความเร็ว, ค่าใช้จ่ายในการคำนวณของ PCA, LASSO, elastic net
ฉันกำลังพยายามเปรียบเทียบความซับซ้อนของการคำนวณ / ความเร็วในการประมาณค่าของวิธีการสามกลุ่มสำหรับการถดถอยเชิงเส้นตามที่ระบุไว้ใน Hastie et al "องค์ประกอบของการเรียนรู้ทางสถิติ" (2nd ed.), บทที่ 3: การเลือกชุดย่อย วิธีการหดตัว วิธีการที่ใช้ทิศทางอินพุตที่ได้รับ (PCR, PLS) การเปรียบเทียบอาจหยาบมากเพียงแค่ให้ความคิด ฉันรวบรวมว่าคำตอบอาจขึ้นอยู่กับขนาดของปัญหาและวิธีการที่เหมาะสมกับสถาปัตยกรรมคอมพิวเตอร์ดังนั้นสำหรับตัวอย่างที่เป็นรูปธรรมเราอาจพิจารณาขนาดตัวอย่างของผู้ลงทะเบียนผู้สมัคร 500 และ 50 คน ฉันส่วนใหญ่สนใจในแรงจูงใจเบื้องหลังความซับซ้อนของการคำนวณ / ความเร็วในการประมาณค่า แต่ไม่นานเท่าไรที่จะใช้กับโพรเซสเซอร์บางตัวสำหรับตัวอย่างที่กำหนด

1
ความขัดแย้งในการเลือกรูปแบบ (AIC, BIC, เพื่ออธิบายหรือทำนาย)
หลังจากอ่าน Galit Shmueli "เพื่ออธิบายหรือทำนาย" (2010) ฉันรู้สึกสับสนกับความขัดแย้งที่เห็นได้ชัด มีสามสถานที่ AIC- เมื่อเทียบกับ BIC ตามทางเลือกรูปแบบ (ในตอนท้ายของหน้า 300 - จุดเริ่มต้นของ P 301..) ใส่เพียง AIC ควรจะใช้สำหรับการเลือกรูปแบบที่มีไว้สำหรับการคาดการณ์ในขณะที่ BIC ควรจะใช้สำหรับการเลือกรูปแบบการหาคำอธิบาย นอกจากนี้ (ไม่ใช่ในกระดาษด้านบน) เรารู้ว่าภายใต้เงื่อนไขบางอย่าง BIC เลือกรูปแบบที่แท้จริงในชุดของแบบจำลองที่มีตัวเลือก; รูปแบบที่แท้จริงคือสิ่งที่เราแสวงหาในการสร้างแบบจำลองที่อธิบาย (ตอนท้ายของหน้า 293) Simple arithmetics: AIC จะเลือกแบบจำลองที่มีขนาดใหญ่กว่า BIC สำหรับตัวอย่างที่มีขนาด 8 หรือใหญ่กว่า (ที่น่าพอใจln(n)>2ln(n)>2\text{ln}(n)>2เนื่องจากการปรับความซับซ้อนแตกต่างกันใน AIC กับ BIC) "true"รูปแบบ (เช่นรุ่นที่มี regressors ที่ถูกต้องและรูปแบบการทำงานที่ถูกต้อง แต่ค่าสัมประสิทธิ์ประมาณไม่สมบูรณ์) อาจจะไม่เป็นแบบที่ดีที่สุดในการทำนาย (หน้า 307.) …

4
จะคำนวณจำนวนฟีเจอร์ตามความละเอียดของภาพได้อย่างไร?
เพิ่งครอบคลุมสมมุติฐานของ Neural Netowrks ที่ไม่ใช่เชิงเส้นของ Andrew Ng และเรามีคำถามแบบปรนัยสำหรับกำหนดจำนวนของคุณสมบัติสำหรับภาพความละเอียด100x100ของความเข้มระดับgrescale และคำตอบคือ 50 ล้าน, x10 755510710710^7 อย่างไรก็ตามก่อนหน้านี้สำหรับรูปภาพขนาด 50 x 50 พิกเซลสีเทา จำนวนคุณสมบัติคือ 50x50 (2500) ทำไมมันจะเป็น xแทน ?10 7 10 , 00055510710710^710,00010,00010,000 อย่างไรก็ตามเขาพูดว่ารวมถึงคำที่เป็นกำลังสองทั้งหมด ( xixjxixjx_ix_j ) เป็นคุณสมบัติ สมมติว่าคุณกำลังเรียนรู้ที่จะรับรู้รถยนต์จากภาพ 100 × 100 พิกเซล (โทนสีเทาไม่ใช่ RGB) ปล่อยให้คุณสมบัติเป็นค่าความเข้มของพิกเซล หากคุณฝึกการถดถอยโลจิสติกรวมถึงเงื่อนไขกำลังสองทั้งหมด ( ) เป็นฟีเจอร์คุณจะมีฟีเจอร์จำนวนเท่าใดxixjxixjx_ix_j และในสไลด์ก่อนหน้าเกี่ยวกับ 100x100 นั้นฟีเจอร์สมการกำลังสอง ( x ) …

5
ความแปรปรวนในผลลัพธ์ cv.glmnet
ฉันใช้cv.glmnetเพื่อค้นหาผู้ทำนาย การตั้งค่าที่ฉันใช้มีดังนี้: lassoResults&lt;-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda&lt;-lassoResults$lambda.min results&lt;-predict(lassoResults,s=bestlambda,type="coefficients") choicePred&lt;-rownames(results)[which(results !=0)] set.seed(1)เพื่อให้แน่ใจว่าผลจะทำซ้ำฉัน ผลลัพธ์มีความแปรปรวนสูง ฉันใช้รหัสเดียวกัน 100 เพื่อดูว่าผลลัพธ์เป็นอย่างไร ในการวิ่ง 98/100 มีตัวพยากรณ์หนึ่งตัวเลือกเสมอ (บางครั้งก็เป็นของตัวเอง); มีการเลือกตัวทำนายอื่น ๆ (co-efficient เป็น non-zero) โดยปกติ 50/100 ครั้ง ดังนั้นมันบอกกับฉันว่าทุกครั้งที่การตรวจสอบความถูกต้องไขว้ทำงานมันอาจจะเป็นการเลือกแลมบ์ดาที่ดีที่สุดเพราะการสุ่มเริ่มต้นของโฟลเดอร์สำคัญ คนอื่น ๆ ได้เห็นปัญหานี้ ( ผลลัพธ์ CV.glmnet ) แต่ไม่มีวิธีการแก้ไขที่แนะนำ ฉันคิดว่าบางทีสิ่งที่แสดงให้เห็นว่า 98/100 น่าจะสัมพันธ์กับคนอื่น ๆ ผลจะมีเสถียรภาพถ้าฉันเพียงแค่เรียกใช้ LOOCV ( fold-size=nfold-size=n\text{fold-size} = n ) แต่ผมอยากรู้ว่าทำไมพวกเขาจึงตัวแปรเมื่อnfold&lt;nnfold&lt;n\text{nfold} < n n

3
การสร้างตัวแยกประเภทมัลติคลาสดีกว่าไบนารีหลายตัวหรือไม่?
ฉันต้องการจัดหมวดหมู่ URL เป็นหมวดหมู่ สมมติว่าฉันมี 15 หมวดหมู่ที่ฉันวางแผนจะลดศูนย์ทุก URL ลงให้ ตัวจําแนกแบบ 15 ทางดีกว่าหรือไม่ ที่ฉันมี 15 ป้ายกำกับและสร้างคุณสมบัติสำหรับแต่ละจุดข้อมูล หรือการสร้างตัวแยกประเภทไบนารี 15 ตัวบอกว่า: ภาพยนตร์หรือไม่ใช่ภาพยนตร์และใช้ตัวเลขที่ฉันได้รับจากการจำแนกประเภทเหล่านี้เพื่อสร้างอันดับเพื่อเลือกหมวดหมู่ที่ดีที่สุด

5
การทำความเข้าใจว่าคุณลักษณะใดสำคัญที่สุดสำหรับการถดถอยโลจิสติก
ฉันได้สร้างลักษณนามการถดถอยโลจิสติกที่มีความแม่นยำมากกับข้อมูลของฉัน ตอนนี้ฉันต้องการเข้าใจที่ดีขึ้นว่าทำไมมันถึงทำงานได้ดี โดยเฉพาะฉันต้องการจัดอันดับว่าคุณลักษณะใดที่ทำให้เกิดผลงานมากที่สุด (ซึ่งฟีเจอร์ใดมีความสำคัญมากที่สุด) และในเชิงปริมาณการกำหนดว่าแต่ละฟีเจอร์มีส่วนสนับสนุนความแม่นยำของโมเดลโดยรวมอย่างไร (หรือบางอย่างในเส้นเลือดนี้) ฉันจะทำสิ่งนี้ได้อย่างไร ความคิดแรกของฉันคือการจัดอันดับพวกเขาตามค่าสัมประสิทธิ์ของพวกเขา แต่ฉันคิดว่ามันไม่ถูกต้อง หากฉันมีคุณสมบัติสองอย่างที่มีประโยชน์เท่าเทียมกัน แต่การแพร่กระจายของรายการแรกมีขนาดใหญ่เป็นสิบเท่าของอันดับที่สองดังนั้นฉันคาดว่ารายการแรกจะได้รับค่าสัมประสิทธิ์ต่ำกว่าครั้งที่สอง มีวิธีที่เหมาะสมกว่าในการประเมินความสำคัญของคุณลักษณะหรือไม่ โปรดทราบว่าฉันไม่ได้พยายามที่จะเข้าใจว่าการเปลี่ยนแปลงเล็ก ๆ น้อย ๆ ในคุณลักษณะส่งผลกระทบต่อความน่าจะเป็นของผลลัพธ์ ค่อนข้างฉันพยายามที่จะเข้าใจว่าแต่ละคุณสมบัติมีคุณค่าในแง่ของการทำให้ลักษณนามถูกต้อง นอกจากนี้เป้าหมายของฉันไม่มากนักที่จะทำการเลือกคุณสมบัติหรือสร้างแบบจำลองที่มีคุณสมบัติน้อยลง แต่พยายามที่จะให้ "ความสามารถอธิบายได้" สำหรับแบบจำลองที่เรียนรู้ดังนั้นตัวแยกประเภทไม่ได้เป็นเพียงกล่องดำทึบ

3
การอนุมานหลังจากใช้ Lasso เพื่อเลือกตัวแปร
ฉันใช้ Lasso สำหรับการเลือกคุณสมบัติในการตั้งค่ามิติที่ค่อนข้างต่ำ (n &gt;&gt; p) หลังจากติดตั้ง Lasso model แล้วฉันต้องการใช้ covariates กับสัมประสิทธิ์ที่ไม่ใช่ศูนย์เพื่อให้พอดีกับ model โดยไม่มีการลงโทษ ฉันกำลังทำเช่นนี้เพราะฉันต้องการการประเมินที่เป็นกลางซึ่ง Lasso ไม่สามารถให้ฉันได้ ฉันยังต้องการค่า p และช่วงความเชื่อมั่นสำหรับการประเมินที่เป็นกลาง ฉันมีปัญหาในการค้นหาวรรณกรรมในหัวข้อนี้ วรรณคดีที่ฉันพบส่วนใหญ่เกี่ยวกับการกำหนดช่วงความเชื่อมั่นในการประเมิน Lasso ไม่ใช่โมเดลที่มีการปรับปรุง จากสิ่งที่ฉันได้อ่านเพียงแค่อ้างอิงโมเดลโดยใช้ชุดข้อมูลทั้งหมดทำให้เกิดข้อผิดพลาด p-values ​​/ std ที่ไม่สมจริง ตอนนี้การแยกตัวอย่าง (ในรูปแบบของ Wasserman และ Roeder (2014) หรือ Meinshausen et al. (2009)) ดูเหมือนจะเป็นแนวทางที่ดี แต่ฉันกำลังมองหาคำแนะนำเพิ่มเติม มีใครพบปัญหานี้หรือไม่? ถ้าเป็นเช่นนั้นคุณช่วยกรุณาให้คำแนะนำได้ไหม

1
ในฟอเรสต์แบบสุ่ม% IncMSE ที่ใหญ่กว่านั้นจะดีกว่าหรือแย่กว่านั้น?
เมื่อฉันได้สร้าง (ถดถอย) รุ่นป่าสุ่มใน R โทรrf$importanceให้ผมด้วยสองมาตรการสำหรับแต่ละตัวแปรทำนายและ%IncMSE IncNodePurityการตีความตัวแปรทำนายที่มี%IncMSEค่าน้อยกว่าสำคัญกว่าตัวแปรพยากรณ์ที่มี%IncMSEค่ามากกว่าหรือไม่ เกี่ยวกับเพื่อIncNodePurity?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.