คำถามติดแท็ก feature-selection

วิธีการและหลักการในการเลือกชุดย่อยของคุณลักษณะสำหรับใช้ในการสร้างแบบจำลองเพิ่มเติม

8
อัลกอริทึมสำหรับการเลือกรูปแบบอัตโนมัติ
ฉันต้องการใช้อัลกอริทึมสำหรับการเลือกแบบจำลองอัตโนมัติ ฉันกำลังคิดที่จะทำการถดถอยแบบขั้นตอน แต่จะต้องทำทุกอย่าง (จะต้องเป็นไปตามการถดถอยเชิงเส้น) ปัญหาของฉันคือฉันไม่สามารถหาวิธีการหรือการใช้งานโอเพนซอร์ซ (ฉันกำลังใช้ภาษาจาวา) วิธีการที่ฉันมีในใจจะเป็นเช่น: คำนวณเมทริกซ์สหสัมพันธ์ของปัจจัยทั้งหมด เลือกปัจจัยที่มีความสัมพันธ์ต่ำกัน ลบปัจจัยที่มี t-stat ต่ำ เพิ่มปัจจัยอื่น ๆ (ยังคงขึ้นอยู่กับปัจจัยความสัมพันธ์ต่ำที่พบใน 2) ทำซ้ำหลาย ๆ ครั้งจนกว่าเกณฑ์บางอย่าง (เช่น AIC) จะเกินเกณฑ์ที่กำหนดหรือไม่สามารถทำได้หรือเราไม่สามารถหาค่าที่มากขึ้นได้ ฉันรู้ว่ามีการใช้งาน R สำหรับขั้นตอนนี้ (stepAIC) แต่ฉันพบว่ารหัสค่อนข้างเข้าใจยาก นอกจากนี้ฉันไม่สามารถค้นหาบทความที่อธิบายการถดถอยแบบขั้นตอนได้

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
การเลือกคุณสมบัติและการตรวจสอบความถูกต้องข้าม
ฉันเพิ่งอ่านจำนวนมากบนไซต์นี้ (@Aniko, @Dikran Marsupial, @Erik) และที่อื่น ๆ เกี่ยวกับปัญหาการ overfitting ที่เกิดขึ้นกับการตรวจสอบข้าม - (Smialowski et al 2010 ชีวสารสนเทศศาสตร์, Hastie, องค์ประกอบของการเรียนรู้ทางสถิติ) ข้อเสนอแนะคือการที่ใด ๆการเลือกคุณลักษณะภายใต้การดูแล (โดยใช้ความสัมพันธ์ที่มีป้ายชื่อ class) ดำเนินการด้านนอกของประมาณการผลการดำเนินงานรูปแบบการใช้การตรวจสอบข้าม (หรือรูปแบบวิธีการอื่นเช่นการประเมินความร่วมมือ) อาจส่งผลให้อิง สิ่งนี้ดูเหมือนจะไม่ง่ายสำหรับฉัน - แน่นอนถ้าคุณเลือกชุดคุณลักษณะและประเมินโมเดลของคุณโดยใช้เฉพาะคุณสมบัติที่เลือกโดยใช้การตรวจสอบความถูกต้องไขว้กันคุณจะได้รับการประเมินแบบไม่เอนเอียง ของประชากร) ด้วยขั้นตอนนี้เราไม่สามารถอ้างสิทธิ์ชุดคุณลักษณะที่ดีที่สุด แต่สามารถรายงานประสิทธิภาพของคุณลักษณะที่เลือกซึ่งตั้งค่าไว้บนข้อมูลที่มองไม่เห็นว่าถูกต้องได้หรือไม่ ฉันยอมรับว่าการเลือกคุณสมบัติตามชุดข้อมูลทั้งหมดอาจมีการรั่วไหลของข้อมูลระหว่างชุดทดสอบและชุดรถไฟ แต่ถ้าชุดคุณลักษณะเป็นแบบคงที่หลังจากการเลือกเริ่มต้นและไม่มีการปรับแต่งอื่น ๆ แน่นอนว่ามันถูกต้องที่จะรายงานตัวชี้วัดประสิทธิภาพข้ามการตรวจสอบแล้ว? ในกรณีของฉันฉันมี 56 คุณสมบัติและ 259 เคสดังนั้น #case> #features คุณสมบัติที่ได้รับมาจากข้อมูลเซ็นเซอร์ ขออภัยถ้าคำถามของฉันดูเหมือนอนุพันธ์ แต่นี่เป็นจุดสำคัญที่จะชี้แจง แก้ไข: ในการดำเนินการเลือกคุณลักษณะภายในการตรวจสอบข้ามในชุดข้อมูลรายละเอียดข้างต้น (ขอบคุณคำตอบดังต่อไปนี้) ผมสามารถยืนยันได้ว่าคุณสมบัติการเลือกก่อนที่จะข้ามการตรวจสอบในชุดข้อมูลนี้แนะนำอย่างมีนัยสำคัญอคติ ความลำเอียง …

6
การเลือกคุณสมบัติสำหรับรุ่น“ ขั้นสุดท้าย” เมื่อทำการตรวจสอบข้ามในการเรียนรู้ของเครื่อง
ฉันสับสนเล็กน้อยเกี่ยวกับการเลือกคุณสมบัติและการเรียนรู้ของเครื่องและฉันสงสัยว่าคุณจะช่วยฉันออกไปได้ไหม ฉันมีชุดข้อมูลขนาดเล็กที่แบ่งออกเป็นสองกลุ่มและมีคุณสมบัติ 1,000 รายการ เป้าหมายของฉันคือการได้รับยีนจำนวนเล็กน้อย (คุณสมบัติของฉัน) (10-20) ในลายเซ็นที่ฉันจะใช้กับชุดข้อมูลอื่น ๆ ในทางทฤษฎีเพื่อจำแนกตัวอย่างเหล่านั้นอย่างเหมาะสมที่สุด เนื่องจากฉันไม่มีตัวอย่างจำนวนมาก (<100) ฉันไม่ได้ใช้ชุดการทดสอบและการฝึกอบรม แต่ใช้การตรวจสอบความถูกต้องแบบลาออกหนึ่งครั้งเพื่อช่วยในการกำหนดความทนทาน ฉันได้อ่านแล้วว่าควรดำเนินการเลือกคุณสมบัติสำหรับตัวอย่างแต่ละตัวอย่าง เลือกหนึ่งตัวอย่างเป็นชุดทดสอบ ในตัวอย่างที่เหลือดำเนินการเลือกคุณสมบัติ ใช้อัลกอริทึมการเรียนรู้ของเครื่องกับตัวอย่างที่เหลือโดยใช้คุณสมบัติที่เลือก ทดสอบว่าชุดการทดสอบนั้นได้รับการจัดประเภทอย่างถูกต้องหรือไม่ ไปที่ 1 หากคุณทำสิ่งนี้คุณอาจได้รับยีนที่แตกต่างกันในแต่ละครั้งดังนั้นคุณจะได้รับตัวจําแนกยีนที่เหมาะสมที่สุดได้อย่างไร? นั่นคือขั้นตอนที่ 6 สิ่งที่ฉันหมายถึงอย่างดีที่สุดคือการรวบรวมยีนที่ควรมีการศึกษาเพิ่มเติม ตัวอย่างเช่นสมมติว่าฉันมีชุดข้อมูลมะเร็ง / ปกติและฉันต้องการค้นหา 10 อันดับแรกของยีนที่จะจัดประเภทเนื้องอกตาม SVM ฉันต้องการทราบชุดของยีนรวมถึงพารามิเตอร์ SVM ที่สามารถใช้ในการทดลองเพิ่มเติมเพื่อดูว่าสามารถใช้เป็นการทดสอบวินิจฉัยได้หรือไม่

3
ทำไม Lasso ถึงเลือก Variable
ฉันได้อ่านองค์ประกอบของการเรียนรู้ทางสถิติแล้วและฉันอยากจะรู้ว่าทำไม Lasso ถึงเลือกตัวแปรและการถดถอยแบบสันไม่ได้ ทั้งสองวิธีลดผลรวมการตกค้างของสี่เหลี่ยมและมีข้อ จำกัด เกี่ยวกับค่าที่เป็นไปได้ของพารามิเตอร์\สำหรับคล้องข้อ จำกัด คือ , ในขณะที่สำหรับสันมันเป็นสำหรับบางคนทีββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt ฉันเคยเห็นรูป Diamond vs ellipse ในหนังสือแล้วและฉันมีสัญชาตญาณว่าทำไม Lasso ถึงมุมของภูมิภาคที่ถูก จำกัด ซึ่งหมายความว่าหนึ่งในสัมประสิทธิ์ถูกตั้งค่าเป็นศูนย์ อย่างไรก็ตามสัญชาตญาณของฉันค่อนข้างอ่อนแอและฉันไม่มั่นใจ มันควรจะเห็นง่าย แต่ฉันไม่รู้ว่าทำไมเรื่องนี้ถึงเป็นจริง ดังนั้นฉันเดาว่าฉันกำลังมองหาเหตุผลทางคณิตศาสตร์หรือคำอธิบายที่เข้าใจง่ายว่าทำไมรูปทรงของผลรวมที่เหลือของกำลังสองมีแนวโน้มที่จะเข้ามุมของ ขอบเขต จำกัด (ในขณะที่สถานการณ์นี้ไม่น่าจะเกิดขึ้นถ้า ข้อ จำกัด คือ )||β||1||β||1||\beta||_1||β||2||β||2||\beta||_2

6
การเลือกตัวแปรสำหรับการสร้างแบบจำลองการทำนายจำเป็นจริงๆในปี 2559?
คำถามนี้ถูกถามใน CV เมื่อหลายปีที่ผ่านมาดูเหมือนว่ามูลค่าของ repost ในแง่ของ 1) ลำดับความสำคัญของเทคโนโลยีการคำนวณที่ดีกว่า (เช่นการคำนวณแบบขนาน, HPC เป็นต้น) และ 2) เทคนิคที่ใหม่กว่าเช่น [3] ก่อนบริบทบางอย่าง สมมติว่าเป้าหมายไม่ใช่การทดสอบสมมติฐานไม่ใช่การประมาณผล แต่คาดการณ์จากชุดทดสอบที่ไม่เห็น ดังนั้นจะไม่มีการให้น้ำหนักกับผลประโยชน์ใด ๆ ที่สามารถตีความได้ ประการที่สองสมมติว่าคุณไม่สามารถแยกแยะความเกี่ยวข้องของตัวทำนายใด ๆ ในการพิจารณาเรื่องเช่น พวกเขาดูเหมือนจะมีเหตุผลเป็นรายบุคคลหรือใช้ร่วมกับตัวทำนายอื่น ๆ ประการที่สามคุณต้องเผชิญหน้ากับผู้ทำนายหลายล้านคน ข้อที่สี่สมมติว่าคุณมีสิทธิ์เข้าถึง AWS ด้วยงบประมาณไม่ จำกัด ดังนั้นพลังในการคำนวณจึงไม่ใช่ข้อ จำกัด ปกติสำหรับการเลือกตัวแปรคือ 1) ประสิทธิภาพ; เร็วกว่าเพื่อให้พอดีกับโมเดลที่เล็กลงและถูกลงเพื่อรวบรวมตัวทำนายที่น้อยลง, 2) การตีความ; การรู้ตัวแปร "สำคัญ" จะช่วยให้เข้าใจกระบวนการที่เป็นพื้นฐาน [1] ตอนนี้เป็นที่ทราบกันอย่างกว้างขวางว่าวิธีการเลือกตัวแปรหลายวิธีนั้นไม่มีประสิทธิภาพและมักเป็นอันตรายทันที (เช่นการถดถอยแบบขั้นตอนไปข้างหน้า) [2] ประการที่สองถ้าแบบจำลองที่เลือกนั้นดีคุณไม่จำเป็นต้องลดรายชื่อผู้ทำนายเลย แบบจำลองควรทำเพื่อคุณ ตัวอย่างที่ดีคือ lasso ซึ่งกำหนดค่าสัมประสิทธิ์เป็นศูนย์ให้กับตัวแปรที่ไม่เกี่ยวข้องทั้งหมด …

9
อะไรคือข้อเสียของการใช้เชือกสำหรับการเลือกตัวแปรสำหรับการถดถอย
จากสิ่งที่ฉันรู้การใช้ lasso สำหรับการเลือกตัวแปรช่วยจัดการปัญหาของอินพุตที่สัมพันธ์กัน นอกจากนี้เนื่องจากมันเทียบเท่ากับ Least Angle Regression มันจึงไม่คำนวณช้า อย่างไรก็ตามหลายคน (ตัวอย่างเช่นคนที่ฉันรู้ว่าทำสถิติไบโอ) ยังดูเหมือนว่าจะชอบการเลือกตัวแปรขั้นตอน มีข้อเสียในทางปฏิบัติของการใช้บ่วงบาศที่ทำให้เสียเปรียบหรือไม่?

3
ตัวแปรมักจะถูกปรับ (เช่นมาตรฐาน) ก่อนที่จะสร้างแบบจำลอง - นี่เป็นความคิดที่ดีเมื่อใดและเมื่อใดจึงเป็นสิ่งที่ไม่ดี
ในสถานการณ์ใดที่คุณต้องการหรือไม่ต้องการปรับขนาดหรือทำให้มาตรฐานเป็นตัวแปรก่อนที่จะทำการปรับแบบจำลอง ข้อดีและข้อเสียของการปรับขนาดตัวแปรคืออะไร?

2
การอภิปรายที่ชัดเจนยิ่งขึ้นของการเลือกตัวแปร
พื้นหลัง ฉันกำลังทำวิจัยทางคลินิกด้านการแพทย์และมีหลักสูตรสถิติหลายหลักสูตร ฉันไม่เคยตีพิมพ์บทความโดยใช้การถดถอยเชิงเส้น / โลจิสติกและต้องการเลือกตัวแปรอย่างถูกต้อง การตีความเป็นสิ่งสำคัญดังนั้นจึงไม่มีเทคนิคการเรียนรู้ด้วยเครื่อง ฉันได้สรุปความเข้าใจของฉันเกี่ยวกับการเลือกตัวแปร - บางคนจะมีจิตใจที่เข้าใจถึงความเข้าใจผิด ๆ ผมพบว่าสอง (1) ที่คล้ายกัน (2) โพสต์ CV ให้เป็นหนึ่งในนี้ แต่พวกเขาไม่ได้ค่อนข้างเต็มที่ตอบข้อสงสัยของฉัน ความคิดใด ๆ ที่จะได้รับการชื่นชมมาก! ฉันมี 3 คำถามหลักในตอนท้าย ปัญหาและการสนทนา ปัญหาการถดถอย / การจำแนกประเภทโดยทั่วไปของฉันมีการสังเกต 200-300 ครั้งอัตราการเกิดเหตุการณ์ไม่พึงประสงค์ 15% (หากการจำแนก) และข้อมูลเกี่ยวกับตัวแปร 25 จาก 40 ที่อ้างว่ามีผลกระทบ "นัยสำคัญทางสถิติ" ในวรรณคดีหรือทำให้น่าเชื่อถือ ความรู้สึกโดยโดเมนความรู้ ฉันใส่ "นัยสำคัญทางสถิติ" ในเครื่องหมายคำพูดเพราะดูเหมือนว่าทุกคนและแม่ของพวกเขาใช้การถดถอยแบบขั้นตอน แต่Harrell (3) และFlom (4) ดูเหมือนจะไม่ชอบด้วยเหตุผลหลายประการ สิ่งนี้ได้รับการสนับสนุนเพิ่มเติมจากการสนทนาโพสต์บล็อกของ Gelman …

3
การใช้การวิเคราะห์องค์ประกอบหลัก (PCA) สำหรับการเลือกคุณสมบัติ
ฉันใหม่สำหรับการเลือกคุณสมบัติและฉันสงสัยว่าคุณจะใช้ PCA เพื่อดำเนินการเลือกคุณลักษณะอย่างไร PCA คำนวณคะแนนสัมพัทธ์สำหรับตัวแปรอินพุตแต่ละตัวที่คุณสามารถใช้เพื่อกรองตัวแปรอินพุตที่ไม่ใช่ข้อมูลหรือไม่? โดยทั่วไปฉันต้องการที่จะสามารถสั่งซื้อคุณสมบัติเดิมในข้อมูลตามความแปรปรวนหรือจำนวนข้อมูลที่มีอยู่

3
ฟอเรสต์แบบสุ่มสามารถนำมาใช้สำหรับการเลือกคุณสมบัติในการถดถอยเชิงเส้นหลายแบบได้หรือไม่?
เนื่องจาก RF สามารถจัดการแบบไม่เป็นเชิงเส้น แต่ไม่สามารถให้ค่าสัมประสิทธิ์ได้คุณควรใช้ฟอเรสต์แบบสุ่มเพื่อรวบรวมคุณลักษณะที่สำคัญที่สุดจากนั้นจึงเสียบคุณลักษณะเหล่านั้นเข้ากับแบบจำลองการถดถอยเชิงเส้นหลายแบบเพื่อให้ได้ค่าสัมประสิทธิ์

6
คุณสมบัติสำหรับการจำแนกอนุกรมเวลา
ฉันพิจารณาปัญหาของการจัดประเภทตามอนุกรมเวลาของความยาวผันแปรนั่นคือเพื่อค้นหาฟังก์ชัน ผ่านการแสดงทั่วโลกของชุดเวลาโดยชุดของคุณสมบัติที่เลือกขนาดคงที่เป็นอิสระจาก , จากนั้นใช้วิธีการจำแนกมาตรฐานในชุดคุณสมบัตินี้ ฉันไม่สนใจการคาดการณ์เช่นการทำนายf ( X T ) = y ∈ [ 1 .. K ]TTTv ฉัน D T ϕ ( X T ) = v 1 , … , v D ∈ R , x T + 1f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(X_T) = y \in [1..K]\\ …

5
เราตีความน้ำหนักของคุณสมบัติ SVM อย่างไร
ฉันกำลังพยายามตีความน้ำหนักของตัวแปรที่กำหนดโดยการปรับ SVM เชิงเส้นให้เหมาะสม (ฉันใช้Scikit เรียนรู้ ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ ฉันไม่พบสิ่งใดในเอกสารที่ระบุวิธีการคำนวณหรือตีความน้ำหนักเหล่านี้โดยเฉพาะ เครื่องหมายของน้ำหนักมีส่วนร่วมกับชั้นเรียนหรือไม่?

5
การใช้ LASSO จากแพ็คเกจ lars (หรือ glmnet) ใน R เพื่อเลือกตัวแปร
ขออภัยถ้าคำถามนี้เจอพื้นฐานเล็กน้อย ฉันกำลังมองหาที่จะใช้การเลือกตัวแปร LASSO สำหรับตัวแบบการถดถอยเชิงเส้นหลายแบบในอาร์ฉันมีตัวทำนาย 15 ตัวซึ่งหนึ่งในนั้นคือหมวดหมู่ (นั่นจะทำให้เกิดปัญหาหรือไม่) หลังจากตั้งค่าและฉันฉันใช้คำสั่งต่อไปนี้:xxxyyy model = lars(x, y) coef(model) coef(model)ปัญหาของฉันคือเมื่อฉันใช้ สิ่งนี้จะส่งกลับเมทริกซ์ที่มี 15 แถวโดยเพิ่มตัวทำนายพิเศษหนึ่งตัวในแต่ละครั้ง อย่างไรก็ตามไม่มีข้อเสนอแนะว่าควรเลือกรุ่นใด ฉันพลาดอะไรไปหรือเปล่า มีวิธีที่ฉันจะได้รับแพคเกจ lars เพื่อส่งกลับแบบ " ดีที่สุด " เพียงหนึ่งรุ่นหรือไม่? มีโพสต์อื่น ๆ ที่แนะนำให้ใช้glmnetแทน แต่ดูเหมือนจะซับซ้อนกว่านี้ ความพยายามดังต่อไปนี้โดยใช้และเดียวกัน ฉันพลาดอะไรที่นี่ไหม: xxxyyy cv = cv.glmnet(x, y) model = glmnet(x, y, type.gaussian="covariance", lambda=cv$lambda.min) predict(model, type="coefficients") คำสั่งสุดท้ายส่งกลับรายการตัวแปรของฉันส่วนใหญ่มีค่าสัมประสิทธิ์แม้ว่าบาง = 0 นี่เป็นตัวเลือกที่ถูกต้องของรุ่น " …

8
เมื่อใดที่ควรรวมตัวแปรในการถดถอยแม้ว่าจะไม่มีนัยสำคัญทางสถิติ?
ฉันเป็นนักศึกษาเศรษฐศาสตร์ที่มีประสบการณ์เกี่ยวกับเศรษฐมิติและอาร์ฉันอยากจะรู้ว่ามีสถานการณ์ที่เราควรรวมตัวแปรในการถดถอยทั้งๆที่มันไม่ได้มีนัยสำคัญทางสถิติหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.