คำถามติดแท็ก feature-selection

วิธีการและหลักการในการเลือกชุดย่อยของคุณลักษณะสำหรับใช้ในการสร้างแบบจำลองเพิ่มเติม

2
การเลือกคุณสมบัติสำหรับปัญหาการทำคลัสเตอร์
ฉันกำลังพยายามจัดกลุ่มชุดข้อมูลที่แตกต่างกันโดยใช้อัลกอริทึมที่ไม่ได้รับการสำรอง (การจัดกลุ่ม) ปัญหาคือฉันมีคุณสมบัติหลายอย่าง (~ 500) และจำนวนคดีเล็กน้อย (200-300) จนถึงตอนนี้ฉันเคยทำเฉพาะปัญหาการจำแนกซึ่งฉันมักจะมีข้อมูลที่ระบุว่าเป็นชุดฝึกอบรม ที่นั่นฉันใช้เกณฑ์บางอย่าง (เช่น random.forest.importance หรือ information.gain) สำหรับการเลือกคุณสมบัติล่วงหน้าจากนั้นฉันใช้การเลือกไปข้างหน้าตามลำดับสำหรับผู้เรียนที่แตกต่างกันเพื่อค้นหาคุณลักษณะที่เกี่ยวข้อง ตอนนี้ฉันเห็นว่าในกรณีของการเรียนรู้ที่ไม่มีผู้ดูแลฉันไม่มีเกณฑ์สำหรับการเลือกล่วงหน้าและฉันไม่สามารถใช้การเลือกไปข้างหน้าตามลำดับ (อย่างน้อยไม่ได้อยู่ในแพ็คเกจ MLR) ฉันสงสัยว่าฉันสามารถทำการวิเคราะห์องค์ประกอบหลักก่อนที่จะค้นหาคุณลักษณะจำนวนเล็กน้อยเพื่อนำไปใช้กับอัลกอริทึมการจัดกลุ่มของฉันหรือไม่ หรือคุณมีความคิดอื่น ๆ ขอบคุณ แก้ไข: ตกลงดังนั้นหลังจากการวิจัยออนไลน์ฉันสามารถอัปเดตคำถามของฉันได้นิดหน่อย: ก่อนอื่นฉันได้อ่านบางบทความที่ไม่สนับสนุนการใช้ PCA ก่อนอัลกอริทึมการจัดกลุ่มเนื่องจากเหตุผลสองประการ: พีซีเป็นฟังก์ชั่นของฟีเจอร์ทั้งหมดดังนั้นจึงยากที่จะสัมพันธ์กับผลลัพธ์ของชุดข้อมูล inital และทำให้ยากต่อการตีความ ยิ่งไปกว่านั้นถ้าคุณมีปัญหาที่จริงแล้วคุณสมบัติเพียงเล็กน้อยของคุณมีประโยชน์ในการทำคลัสเตอร์ก็ไม่ได้กล่าวว่าคุณสมบัติเหล่านี้ยังอธิบายถึงความแปรปรวนที่ใหญ่ที่สุดในกลุ่มตัวอย่าง (ซึ่งเป็นสิ่งที่พีซีทำ) PCA อยู่นอกโต๊ะ ... ตอนนี้ฉันกลับไปที่แนวคิดเริ่มต้นของฉันเพื่อทำการเลือกการส่งต่อตามลำดับสำหรับการทำคลัสเตอร์ คุณต้องการแนะนำการวัดประสิทธิภาพแบบใด? (ฉันคิดเกี่ยวกับ Dunn-Index) อัลกอริทึมการจัดกลุ่มใดที่จะนำไปสู่กลุ่มที่มีขนาดเท่ากันหรือมากกว่า (สำหรับการจัดกลุ่มแบบลำดับชั้นฉันมักจะได้รับหนึ่งคลัสเตอร์ที่มีค่าผิดปกติเดียวและอีกส่วนที่เหลือทั้งหมด -> ดังนั้นฉันจะต้องการบางสิ่งที่ป้องกันอย่างใดต่อผู้ผิด) หวังว่าพวกคุณจะช่วยฉัน ...

6
วิธีการเตรียม / สร้างฟีเจอร์สำหรับการตรวจจับความผิดปกติ (ข้อมูลความปลอดภัยเครือข่าย)
เป้าหมายของฉันคือการวิเคราะห์บันทึกเครือข่าย (เช่น Apache, syslog, การตรวจสอบความปลอดภัยของ Active Directory และอื่น ๆ ) โดยใช้การตรวจจับกลุ่ม / ความผิดปกติเพื่อวัตถุประสงค์ในการตรวจจับการบุกรุก จากบันทึกฉันมีฟิลด์ข้อความจำนวนมากเช่นที่อยู่ IP ชื่อผู้ใช้ชื่อโฮสต์พอร์ตปลายทางพอร์ตต้นทางและอื่น ๆ (รวมทั้งหมด 15-20 ฟิลด์) ฉันไม่ทราบว่ามีการโจมตีในบันทึกหรือไม่และต้องการเน้นเหตุการณ์ที่น่าสงสัยที่สุด (ผู้ผิด) โดยปกติการตรวจจับความผิดปกติจะทำเครื่องหมายจุดที่มีความน่าจะเป็น / ความถี่ต่ำเป็นความผิดปกติ อย่างไรก็ตามครึ่งหนึ่งของบันทึกรายการบันทึกประกอบด้วยเขตข้อมูลที่ไม่ซ้ำกัน ดังนั้นครึ่งหนึ่งของการบันทึกในชุดข้อมูลจะมีความถี่ต่ำสุดที่เป็นไปได้ ถ้าฉันใช้การตรวจจับความผิดปกติโดยพิจารณาจากการจัดกลุ่ม (เช่นค้นหากลุ่มแล้วเลือกจุดที่อยู่ไกลจากศูนย์คลัสเตอร์ทั้งหมด) ฉันต้องหาระยะทางระหว่างจุดต่าง ๆ เนื่องจากฉันมีฟิลด์ 15-20 ฟิลด์มันจะเป็นพื้นที่แบบหลายมิติซึ่ง dimesions คือชื่อผู้ใช้พอร์ตที่อยู่ IP และอื่น ๆ อย่างไรก็ตามระยะทาง Mahalanobis สามารถใช้ได้กับฟีเจอร์การกระจายแบบปกติเท่านั้น ซึ่งหมายความว่าไม่มีทางที่จะหาระยะห่างระหว่างจุดข้อมูลและสร้างกลุ่ม ... ตัวอย่างเช่นลองนึกภาพว่าฉันมีผู้ใช้ Alice, Bob, Carol, Dave, Eve …

4
Lasso-ing คำสั่งของความล่าช้าหรือไม่?
สมมติว่าฉันมีข้อมูลตามยาวของรูปแบบ (ฉันมีการสังเกตหลายอย่างนี่เป็นเพียงรูปแบบหนึ่งเดียว) ฉันสนใจในข้อ จำกัด ในการ\ไม่ จำกัดเทียบเท่ากับการ กับsigma_j)Y =(Y1, … ,YJ) ∼ N( μ , Σ )Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εjYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj Y_j = \alpha_j + \sum_{\ell = 1} ^ {j - 1} \phi_{\ell j} Y_{j-\ell} + \varepsilon_j εj∼N(0,σj)εj∼N(0,σj)\varepsilon_j \sim N(0, \sigma_j) โดยทั่วไปจะไม่ทำเช่นนี้เนื่องจากต้องมีการประมาณค่าพารามิเตอร์ความแปรปรวนแบบจำลองคือ "lag- " ถ้าเราใช้ นั่นคือเราใช้ก่อนหน้านี้คำศัพท์ในการทำนายจากประวัติO(J2)O(J2)O(J^2)kkkYj=αj+∑ℓ=1kϕℓjYj−ℓ+εj,Yj=αj+∑ℓ=1kϕℓjYj−ℓ+εj, …

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
การทดสอบการเปลี่ยนแปลงแบบสุ่มสำหรับการเลือกคุณสมบัติ
ฉันสับสนเกี่ยวกับการวิเคราะห์การเปลี่ยนแปลงสำหรับการเลือกคุณสมบัติในบริบทการถดถอยโลจิสติก คุณสามารถให้คำอธิบายที่ชัดเจนเกี่ยวกับการทดสอบการเปลี่ยนรูปแบบสุ่มและนำไปใช้กับการเลือกคุณสมบัติได้อย่างไร อาจเป็นไปได้ด้วยอัลกอริทึมและตัวอย่างที่แน่นอน ในที่สุดมันเปรียบเทียบกับวิธีการหดตัวแบบอื่นเช่น Lasso หรือ LAR อย่างไร

4
วิธีการทดสอบไคสแควร์หลังการทดสอบหลายตารางในตาราง 2 X 3
ชุดข้อมูลของฉันประกอบด้วยการเสียชีวิตโดยรวมหรือการอยู่รอดของสิ่งมีชีวิตที่ไซต์สามประเภททั้งฝั่งกลางและกลาง ตัวเลขในตารางด้านล่างแสดงถึงจำนวนเว็บไซต์ 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 ฉันต้องการทราบว่า # ของเว็บไซต์ที่มีอัตราการตาย 100% มีความสำคัญตามประเภทของไซต์หรือไม่ ถ้าฉันใช้ไคสแควร์ 2 x 3 ฉันจะได้ผลลัพธ์ที่สำคัญ มีการเปรียบเทียบแบบคู่หลังที่ฉันสามารถเรียกใช้หรือฉันควรใช้ ANOVA จิสติกส์หรือการถดถอยด้วยการแจกแจงแบบทวินามหรือไม่ ขอบคุณ!

2
เป็นไปได้ไหมที่จะใช้ kernel PCA สำหรับการเลือกคุณสมบัติ?
เป็นไปได้หรือไม่ที่จะใช้การวิเคราะห์องค์ประกอบหลักของเคอร์เนล (kPCA) สำหรับ Latent Semantic Indexing (LSI) ในลักษณะเดียวกับที่ใช้ PCA ฉันดำเนินการ LSI ใน R โดยใช้prcompฟังก์ชั่น PCA และแยกคุณสมบัติด้วยการโหลดสูงสุดจากองค์ประกอบแรก โดยที่ฉันได้รับคุณสมบัติการอธิบายองค์ประกอบที่ดีที่สุดkkk ฉันพยายามใช้kpcaฟังก์ชั่น (จากkernlibแพ็คเกจ) แต่ไม่สามารถดูวิธีการเข้าถึงน้ำหนักของคุณสมบัติไปยังส่วนประกอบหลัก เป็นไปได้โดยรวมเมื่อใช้วิธีเคอร์เนล?

3
การใช้งานของค่ามัธยฐานขัดสำหรับการเลือกคุณสมบัติ
ในกระดาษที่ฉันอ่านเมื่อเร็ว ๆ นี้ฉันเจอบิตต่อไปนี้ในส่วนการวิเคราะห์ข้อมูล: จากนั้นตารางข้อมูลจะถูกแบ่งออกเป็นเนื้อเยื่อและเส้นของเซลล์และทั้งสอง subtables แยกเป็นค่ามัธยฐานขัด (แถวและคอลัมน์ถูกปรับซ้ำ ๆ เพื่อให้มีค่ามัธยฐาน 0) ก่อนที่จะรวมกันเป็นตารางเดียว ในที่สุดเราก็เลือกส่วนย่อยของยีนที่มีการแสดงออกแตกต่างกันอย่างน้อย 4 เท่าจากค่ามัธยฐานในตัวอย่างนี้ตั้งค่าในตัวอย่างอย่างน้อยสามตัวอย่าง ฉันต้องบอกว่าฉันไม่ได้ทำตามเหตุผลจริงๆที่นี่ ฉันสงสัยว่าถ้าคุณสามารถช่วยฉันตอบคำถามสองข้อต่อไปนี้: เหตุใดจึงเป็นที่ต้องการ / เป็นประโยชน์ในการปรับค่ามัธยฐานในชุดข้อมูล? ทำไมมันควรทำแยกต่างหากสำหรับตัวอย่างประเภทต่างๆ สิ่งนี้ไม่ได้แก้ไขข้อมูลการทดลองอย่างไร นี่เป็นวิธีที่รู้จักกันดีในการเลือกจำนวนยีน / ตัวแปรจากชุดข้อมูลขนาดใหญ่หรือค่อนข้างเป็นแบบ adhoc ขอบคุณ

3
การคำนวณเซตย่อยที่ดีที่สุดของตัวทำนายสำหรับการถดถอยเชิงเส้น
สำหรับการเลือกตัวทำนายในการถดถอยเชิงเส้นหลายตัวแปรด้วย พีpp ตัวทำนายที่เหมาะสมวิธีการใดบ้างที่สามารถหาเซตย่อย 'ที่เหมาะสมที่สุด' ของตัวทำนายโดยไม่ต้องทดสอบทั้งหมดอย่างชัดเจน 2พี2p2^pย่อย? ใน 'การเอาตัวรอดวิเคราะห์' Hosmer & Lemeshow อ้างอิงถึงวิธีของ Kuk แต่ฉันไม่พบกระดาษต้นฉบับ ทุกคนสามารถอธิบายวิธีนี้หรือเป็นเทคนิคที่ทันสมัยกว่านี้ได้อีกหรือไม่ อาจมีข้อผิดพลาดกระจายตามปกติ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.