คำถามติดแท็ก feature-selection

วิธีการและหลักการในการเลือกชุดย่อยของคุณลักษณะสำหรับใช้ในการสร้างแบบจำลองเพิ่มเติม

11
การลดมิติข้อมูลคืออะไร? ความแตกต่างระหว่างการเลือกคุณสมบัติและการแยกคืออะไร?
จากวิกิพีเดีย การลดขนาดหรือการลดขนาดเป็นกระบวนการลดจำนวนตัวแปรสุ่มที่พิจารณาและสามารถแบ่งออกเป็นการเลือกคุณลักษณะและการแยกคุณลักษณะ ความแตกต่างระหว่างการเลือกคุณสมบัติและการแยกคุณสมบัติคืออะไร? ตัวอย่างของการลดมิติข้อมูลในงานประมวลผลภาษาธรรมชาติคืออะไร

10
การเรียนรู้ของเครื่อง - คุณสมบัติด้านวิศวกรรมจากข้อมูลวันที่ / เวลา
แนวทางปฏิบัติทั่วไปที่ดีที่สุดในการจัดการข้อมูลเวลาสำหรับแอปพลิเคชันการเรียนรู้ของเครื่องคืออะไร ตัวอย่างเช่นหากในชุดข้อมูลมีคอลัมน์ที่มีการประทับเวลาของเหตุการณ์เช่น "2014-05-05" คุณจะแยกคุณลักษณะที่มีประโยชน์จากคอลัมน์นี้ได้อย่างไร? ขอบคุณล่วงหน้า!

5
scikit-learn มีการเลือกล่วงหน้า / อัลกอริทึมการถดถอยแบบขั้นตอนหรือไม่
ฉันกำลังทำงานกับปัญหาที่มีคุณสมบัติมากเกินไปและการฝึกอบรมแบบจำลองของฉันใช้เวลานานเกินไป ฉันใช้อัลกอริทึมการเลือกไปข้างหน้าเพื่อเลือกคุณสมบัติ อย่างไรก็ตามฉันสงสัยว่า scikit-Learn มีการเลือกล่วงหน้า / อัลกอริทึมการถดถอยแบบขั้นตอนหรือไม่

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

6
มีเครื่องมือใดสำหรับวิศวกรรมฟีเจอร์หรือไม่
โดยเฉพาะสิ่งที่ฉันกำลังมองหาคือเครื่องมือที่มีฟังก์ชั่นการใช้งานบางอย่างซึ่งเป็นคุณสมบัติเฉพาะสำหรับงานวิศวกรรม ฉันต้องการที่จะสามารถเรียบมองเห็นเติมช่องว่าง ฯลฯ สิ่งที่คล้ายกับ MS Excel แต่ที่มี R เป็นภาษาพื้นฐานแทน VB

4
XGBoost จัดการกับความหลากหลายด้วยตัวเองหรือไม่?
ขณะนี้ฉันกำลังใช้ XGBoost กับชุดข้อมูลที่มีคุณสมบัติ 21 รายการ (เลือกจากรายการของคุณสมบัติ 150 รายการ) จากนั้นจึงใช้รหัสร้อนเพื่อรับคุณสมบัติ ~ 98 ไม่กี่ของคุณสมบัติเหล่านี้ 98 จะค่อนข้างซ้ำซ้อนตัวอย่างเช่น: ตัวแปร (คุณลักษณะ) กยังปรากฏเป็นและ{A}AAABABA\frac{B}{A}CACA\frac{C}{A} คำถามของฉันคือ: ต้นไม้ตัดสินใจที่ได้รับการส่งเสริมจะจัดการกับความสัมพันธ์แบบหลายทางได้อย่างไร( ถ้า? ) การมีอยู่ของความหลากสีจะส่งผลกระทบต่อการทำนายอย่างไรถ้ามันไม่ได้ถูกจัดการ? จากสิ่งที่ฉันเข้าใจรูปแบบคือการเรียนรู้มากกว่าหนึ่งต้นและการทำนายขั้นสุดท้ายขึ้นอยู่กับบางสิ่งบางอย่างเช่น "ผลรวมถ่วงน้ำหนัก" ของการทำนายรายบุคคล ดังนั้นหากสิ่งนี้ถูกต้องต้นไม้การตัดสินใจที่ถูกกระตุ้นควรจะสามารถจัดการการพึ่งพาระหว่างตัวแปรได้ นอกจากนี้ในบันทึกที่เกี่ยวข้อง - วัตถุที่มีความสำคัญของตัวแปรใน XGBoost ทำงานอย่างไร

3
วิธีการดำเนินการด้านวิศวกรรมคุณสมบัติในคุณสมบัติที่ไม่รู้จัก?
ฉันมีส่วนร่วมในการแข่งขัน kaggle ชุดข้อมูลมีคุณลักษณะประมาณ 100 รายการและไม่เป็นที่รู้จักทั้งหมด โดยทั่วไปพวกเขาเป็นเพียงตัวเลข ผู้คนกำลังดำเนินการด้านวิศวกรรมฟีเจอร์กับฟีเจอร์มากมาย ฉันสงสัยว่าคนหนึ่งสามารถทำงานด้านวิศวกรรมคุณลักษณะบนคุณสมบัติที่ไม่รู้จักได้อย่างไร ใครช่วยกรุณาช่วยฉันเข้าใจเรื่องนี้และเคล็ดลับเกี่ยวกับฉันจะดำเนินการด้านวิศวกรรมคุณลักษณะในคุณสมบัติที่ไม่รู้จักได้อย่างไร

2
การจัดหมวดหมู่ข้อความ: รวมคุณสมบัติที่แตกต่าง
ปัญหาที่ฉันแก้ปัญหาคือการจัดหมวดหมู่ข้อความสั้น ๆ เป็นหลายคลาส วิธีการปัจจุบันของฉันคือการใช้ความถี่เทอม tf-idf และเรียนรู้ลักษณนามเชิงเส้นอย่างง่าย (การถดถอยโลจิสติก) วิธีนี้ใช้ได้ดีพอสมควร (มาโคร 90% F-1 ในชุดทดสอบเกือบ 100% สำหรับชุดฝึกอบรม) ปัญหาใหญ่คือสิ่งที่มองไม่เห็นคำ / n-g ฉันพยายามปรับปรุงตัวจําแนกโดยการเพิ่มคุณสมบัติอื่น ๆ เช่นเวกเตอร์ขนาดคงที่ที่คำนวณโดยใช้ความคล้ายคลึงกันแบบกระจาย (ตามที่คำนวณโดย word2vec) หรือคุณสมบัติหมวดหมู่อื่น ๆ ของตัวอย่าง ความคิดของฉันคือการเพิ่มคุณสมบัติให้กับคุณสมบัติการป้อนข้อมูลแบบเบาบางจากถุงคำ อย่างไรก็ตามผลลัพธ์นี้มีประสิทธิภาพที่แย่ลงในชุดการทดสอบและการฝึกอบรม คุณสมบัติเพิ่มเติมด้วยตัวเองให้ประมาณ 80% F-1 ในชุดทดสอบดังนั้นพวกเขาจึงไม่ขยะ การขยายคุณสมบัติไม่ได้ช่วยเช่นกัน ความคิดปัจจุบันของฉันคือคุณสมบัติเหล่านี้ไม่เข้ากันได้ดีกับคุณลักษณะถุงคำ (เบาบาง) ดังนั้นคำถามคือสมมติว่าคุณสมบัติเพิ่มเติมให้ข้อมูลเพิ่มเติมวิธีที่ดีที่สุดที่จะรวมพวกเขาคืออะไร? สามารถแยกตัวแยกประเภทและรวมพวกมันในงานวงดนตรีบางประเภทได้หรือไม่ (นี่อาจเป็นข้อเสียเปรียบที่จะไม่มีการโต้ตอบระหว่างคุณลักษณะของตัวแยกประเภทที่แตกต่างกัน) มีรุ่นอื่นที่ซับซ้อนกว่านี้ที่ฉันควรพิจารณาอีกหรือไม่

4
"กฏเกณฑ์ง่ายๆ" ในจำนวนของคุณสมบัติกับจำนวนอินสแตนซ์? (ชุดข้อมูลขนาดเล็ก)
ฉันสงสัยว่าถ้ามีฮิวริสติกเกี่ยวกับคุณลักษณะหลายอย่างกับจำนวนการสังเกต เห็นได้ชัดว่าถ้าคุณสมบัติจำนวนหนึ่งเท่ากับจำนวนการสังเกตแบบจำลองจะพอดี โดยใช้วิธีการกระจัดกระจาย (LASSO, elastic net) เราสามารถลบคุณลักษณะต่าง ๆ เพื่อลดแบบจำลองได้ คำถามของฉันคือ (ในทางทฤษฎี): ก่อนที่เราจะใช้ตัวชี้วัดเพื่อประเมินการเลือกแบบจำลองจะมีข้อสังเกตเชิงประจักษ์ใดบ้างที่เกี่ยวข้องกับจำนวนคุณลักษณะที่เหมาะสมที่สุดกับจำนวนการสังเกต? ตัวอย่างเช่น: สำหรับปัญหาการจำแนกเลขฐานสองที่มี 20 อินสแตนซ์ในแต่ละชั้นจะมีขีด จำกัด บนของจำนวนคุณสมบัติที่จะใช้หรือไม่?

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
วิธีการเลือกคุณสมบัติสำหรับเครือข่ายประสาทเทียม?
ฉันรู้ว่าไม่มีคำตอบที่ชัดเจนสำหรับคำถามนี้ แต่สมมติว่าฉันมีเครือข่ายประสาทขนาดใหญ่ที่มีข้อมูลจำนวนมากและฉันต้องการเพิ่มคุณสมบัติใหม่ในอินพุต วิธีที่ "ดีที่สุด" คือการทดสอบเครือข่ายด้วยคุณสมบัติใหม่และดูผลลัพธ์ แต่มีวิธีทดสอบว่าคุณลักษณะดังกล่าวไม่เป็นประโยชน์หรือไม่? เช่นเดียวกับมาตรการความสัมพันธ์ ( http://www3.nd.edu/~mclark19/learn/CorrelationComparison.pdf ) เป็นต้น?

5
การเลือกคุณสมบัติเทียบกับการแยกคุณสมบัติ จะใช้เมื่อใด
การแยกคุณลักษณะและการเลือกคุณสมบัติเป็นหลักช่วยลดมิติข้อมูล แต่การดึงคุณสมบัติยังทำให้ข้อมูลแยกกันได้มากขึ้นถ้าฉันพูดถูก เทคนิคใดจะเป็นที่ต้องการมากกว่าอีกอันและเมื่อใด ฉันคิดว่าเนื่องจากการเลือกคุณสมบัติไม่ได้แก้ไขข้อมูลต้นฉบับและคุณสมบัติของมันฉันคิดว่าคุณจะใช้การเลือกคุณสมบัติเมื่อสิ่งสำคัญคือคุณสมบัติที่คุณกำลังฝึกอบรมไม่เปลี่ยนแปลง แต่ฉันไม่สามารถจินตนาการได้ว่าทำไมคุณต้องการบางสิ่งเช่นนี้ ..

3
วิธีการรวมฟีเจอร์อินพุตและหมวดหมู่อย่างต่อเนื่องสำหรับการฝึกอบรมโครงข่ายประสาทเทียม
สมมติว่าเรามีคุณสมบัติอินพุตสองประเภทจัดหมวดหมู่และต่อเนื่อง ข้อมูลหมวดหมู่อาจถูกแทนด้วยรหัสร้อนแรง A ในขณะที่ข้อมูลต่อเนื่องเป็นเพียงเวกเตอร์ B ในพื้นที่มิติ N ดูเหมือนว่าการใช้ concat (A, B) ไม่ใช่ทางเลือกที่ดีเพราะ A, B เป็นข้อมูลที่แตกต่างกันโดยสิ้นเชิง ตัวอย่างเช่นแตกต่างจาก B ไม่มีลำดับตัวเลขใน A. ดังนั้นคำถามของฉันคือการรวมข้อมูลสองชนิดนี้หรือมีวิธีการทั่วไปในการจัดการพวกเขา อันที่จริงฉันเสนอโครงสร้างไร้เดียงสาตามที่แสดงในภาพ ดังที่คุณเห็นเลเยอร์แรก ๆ จะใช้ในการเปลี่ยนข้อมูล (หรือแผนที่) A เป็นเอาท์พุทกลางในพื้นที่ต่อเนื่องและจากนั้นจะถูกเชื่อมโยงกับ data B ซึ่งเป็นคุณลักษณะอินพุตใหม่ในพื้นที่ต่อเนื่องสำหรับเลเยอร์ในภายหลัง ฉันสงสัยว่ามันสมเหตุสมผลหรือเป็นแค่เกม "ลองผิดลองถูก" ขอบคุณ.

4
จะระบุคุณลักษณะที่สำคัญได้อย่างไร
สมมติว่าชุดของข้อมูลที่มีโครงสร้างแบบหลวม ๆ (เช่นตารางเว็บ / เปิดข้อมูลที่เชื่อมโยง) ซึ่งประกอบด้วยแหล่งข้อมูลจำนวนมาก ไม่มี schema ทั่วไปตามด้วยข้อมูลและแต่ละแหล่งสามารถใช้แอตทริบิวต์คำพ้องความหมายเพื่ออธิบายค่า (เช่น "สัญชาติ" กับ "bornIn") เป้าหมายของฉันคือการค้นหาคุณลักษณะ "สำคัญ" ที่ "กำหนด" เอนทิตีที่พวกเขาอธิบาย ดังนั้นเมื่อฉันพบค่าเดียวกันสำหรับแอตทริบิวต์ดังกล่าวฉันจะรู้ว่าคำอธิบายทั้งสองมีแนวโน้มมากที่สุดเกี่ยวกับเอนทิตีเดียวกัน (เช่นบุคคลเดียวกัน) ตัวอย่างเช่นแอตทริบิวต์ "lastName" นั้นเลือกปฏิบัติมากกว่าแอตทริบิวต์ "สัญชาติ" ฉันจะค้นหาคุณลักษณะที่สำคัญกว่าตัวอื่นได้อย่างไร (ทางสถิติ) วิธีแก้ปัญหาแบบไร้เดียงสาคือการใช้ IDF เฉลี่ยของค่าของแต่ละคุณลักษณะและทำให้สิ่งนี้เป็นปัจจัย "สำคัญ" ของแอตทริบิวต์ วิธีที่คล้ายกันคือการนับจำนวนค่าที่แตกต่างกันปรากฏสำหรับแต่ละแอตทริบิวต์ ฉันได้เห็นคุณลักษณะคำศัพท์หรือการเลือกคุณลักษณะในการเรียนรู้ของเครื่อง แต่ฉันไม่ต้องการทิ้งคุณลักษณะที่เหลืออยู่ฉันแค่ต้องการให้น้ำหนักที่สูงขึ้นแก่สิ่งที่สำคัญที่สุด

4
ความหมายของการฝึกอบรมชุดทรีด้วยชุดข้อมูลที่มีอคติสูงคืออะไร
ฉันมีชุดข้อมูลไบนารีที่มีอคติอย่างมาก - ฉันมีตัวอย่างของคลาสลบมากกว่าคลาสเชิงบวกจำนวน 1000 เท่า ฉันต้องการฝึกอบรมชุดทรี (เช่นต้นไม้สุ่มพิเศษหรือป่าสุ่ม) จากข้อมูลนี้ แต่มันยากที่จะสร้างชุดข้อมูลการฝึกอบรมที่มีตัวอย่างของชั้นเรียนที่ดีพอ อะไรคือความหมายของการทำวิธีการสุ่มตัวอย่างแบบแบ่งชั้นเพื่อทำให้จำนวนตัวอย่างที่เป็นบวกและลบเป็นปกติ? กล่าวอีกนัยหนึ่งมันเป็นความคิดที่ดีหรือไม่ที่จะพองตัวอย่างของจำนวนบวกในชั้นเรียนในชุดฝึกอบรม?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.