คำถามติดแท็ก feature-selection

วิธีการและหลักการในการเลือกชุดย่อยของคุณลักษณะสำหรับใช้ในการสร้างแบบจำลองเพิ่มเติม

2
คุณสมบัติใดที่ใช้โดยทั่วไปจากต้นการแยกวิเคราะห์ในกระบวนการจำแนกใน NLP
ฉันกำลังสำรวจโครงสร้างต้นไม้แยกวิเคราะห์ประเภทต่างๆ โครงสร้างการแยกวิเคราะห์ต้นไม้ที่รู้จักกันอย่างกว้างขวางทั้งสองคือก) การแยกวิเคราะห์ต้นไม้ตามโครงสร้างและข) โครงสร้างการแยกวิเคราะห์ต้นไม้ที่ขึ้นอยู่กับการพึ่งพา ฉันสามารถใช้สร้างโครงสร้างการแยกวิเคราะห์ต้นไม้ทั้งสองชนิดโดยใช้แพ็คเกจ Stanford NLP อย่างไรก็ตามฉันไม่แน่ใจว่าจะใช้โครงสร้างต้นไม้เหล่านี้สำหรับงานการจัดหมวดหมู่ของฉันได้อย่างไร ตัวอย่างเช่นถ้าฉันต้องการวิเคราะห์ความเชื่อมั่นและต้องการจัดหมวดหมู่ข้อความเป็นคลาสบวกและลบฉันสามารถใช้คุณลักษณะใดได้บ้างจากโครงสร้างการแยกวิเคราะห์ต้นไม้สำหรับงานการจัดหมวดหมู่ของฉัน

1
ความแตกต่างระหว่างการเข้ารหัสแบบร้อนและการเข้ารหัสแบบครั้งเดียวคืออะไร
ฉันกำลังอ่านงานนำเสนอและไม่แนะนำให้ใช้การเข้ารหัสการลาแบบหนึ่งครั้ง แต่ก็โอเคกับการเข้ารหัสแบบร้อนเพียงครั้งเดียว ฉันคิดว่าพวกเขาทั้งสองเหมือนกัน ใครสามารถอธิบายความแตกต่างระหว่างพวกเขาคืออะไร?

1
ความสำคัญของคุณลักษณะที่มีคุณลักษณะหมวดหมู่ที่มีความสำคัญสูงสำหรับการถดถอย (ตัวแปร depdendent ที่เป็นตัวเลข)
ฉันพยายามใช้ความสำคัญของคุณลักษณะจาก Random Forests เพื่อทำการเลือกคุณลักษณะเชิงประจักษ์สำหรับปัญหาการถดถอยที่คุณสมบัติทั้งหมดเป็นหมวดหมู่และส่วนใหญ่มีหลายระดับ (ตามลำดับที่ 100-1,000) เนื่องจากการเข้ารหัสแบบ one-hot สร้างตัวแปรดัมมี่สำหรับแต่ละระดับความสำคัญของคุณลักษณะสำหรับแต่ละระดับและไม่ใช่แต่ละฟีเจอร์ (คอลัมน์) วิธีที่ดีในการรวมความสำคัญของคุณลักษณะเหล่านี้คืออะไร ฉันคิดเกี่ยวกับการสรุปหรือรับความสำคัญโดยเฉลี่ยสำหรับทุกระดับของคุณลักษณะ (อาจเป็นไปได้ว่าในอดีตจะมีอคติต่อคุณลักษณะเหล่านั้นที่มีระดับมากขึ้น) มีการอ้างอิงใด ๆ เกี่ยวกับปัญหานี้หรือไม่? เราสามารถทำอะไรได้อีกเพื่อลดจำนวนคุณสมบัติ ฉันตระหนักถึงกลุ่มเชือกไม่สามารถหาอะไรที่ง่ายต่อการใช้งานสำหรับการเรียนรู้ Scikit

1
การเลือกคุณสมบัติโดยใช้คุณสมบัตินำเข้าในป่าสุ่มพร้อม scikit-Learn
ฉันมีพล็อต importances คุณลักษณะในป่าสุ่มที่มี scikit เพื่อปรับปรุงการทำนายโดยใช้ฟอเรสต์แบบสุ่มฉันจะใช้ข้อมูลพล็อตเพื่อลบคุณลักษณะได้อย่างไร ฉันจะทราบได้อย่างไรว่าฟีเจอร์นั้นไม่มีประโยชน์หรือลดประสิทธิภาพการสุ่มฟอเรสต์โดยใช้ข้อมูลการลงจุดอย่างไร พล็อตจะขึ้นอยู่กับคุณลักษณะfeature_importances_และฉันใช้ตัวจําแนsklearn.ensemble.RandomForestClassifierก ฉันรู้ว่ามีอยู่เทคนิคอื่น ๆ สำหรับการเลือกคุณลักษณะfeature_importances_แต่ในคำถามนี้ผมต้องการที่จะมุ่งเน้นไปที่วิธีการใช้คุณลักษณะ ตัวอย่างของการแปลงความสำคัญของคุณลักษณะดังกล่าว:

3
มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?
ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

4
เทคนิคการแยกคุณสมบัติ - สรุปลำดับของข้อมูล
ฉันมักจะสร้างแบบจำลอง (การจำแนกประเภทหรือการถดถอย) ที่ฉันมีตัวแปรตัวทำนายบางอย่างที่เป็นลำดับและฉันพยายามค้นหาคำแนะนำทางเทคนิคสำหรับการสรุปพวกเขาด้วยวิธีที่ดีที่สุดเท่าที่จะทำได้เพื่อรวมไว้เป็นตัวทำนายในแบบจำลอง ตัวอย่างที่เป็นรูปธรรมสมมติว่ามีการสร้างแบบจำลองเพื่อคาดการณ์ว่าลูกค้าจะออกจาก บริษัท ในอีก 90 วันข้างหน้า (ทุกเวลาระหว่าง t ถึง t + 90 ซึ่งเป็นผลลัพธ์ไบนารี) หนึ่งในตัวทำนายที่มีคือระดับของยอดคงเหลือทางการเงินของลูกค้าสำหรับช่วงเวลา t_0 ถึง t-1 บางทีนี่อาจหมายถึงการสังเกตรายเดือนสำหรับ 12 เดือนก่อนหน้า (เช่น 12 การวัด) ฉันกำลังมองหาวิธีสร้างคุณสมบัติจากซีรี่ส์นี้ ฉันใช้คำอธิบายของชุดลูกค้าแต่ละชุดเช่นค่าเฉลี่ยสูงต่ำ std dev. พอดีกับการถดถอย OLS เพื่อรับแนวโน้ม มีวิธีอื่นในการคำนวณคุณสมบัติหรือไม่ มาตรการอื่น ๆ ของการเปลี่ยนแปลงหรือความผันผวน? เพิ่ม: ดังที่ได้กล่าวไว้ในการตอบกลับด้านล่างฉันยังพิจารณา (แต่ลืมที่จะเพิ่มที่นี่) โดยใช้ Dynamic Time Warping (DTW) และการจัดกลุ่มตามลำดับชั้นบนเมทริกซ์ระยะทางที่ได้ - สร้างกลุ่มจำนวนหนึ่งแล้วใช้กลุ่มสมาชิกเป็นคุณลักษณะ การให้คะแนนข้อมูลการทดสอบน่าจะเป็นไปตามกระบวนการที่ทำ DTW ในกรณีใหม่และกลุ่ม …

4
อันไหนที่แรก: การเปรียบเทียบอัลกอริทึม, การเลือกคุณสมบัติ, การปรับพารามิเตอร์?
เมื่อพยายามที่จะทำเช่นการจัดหมวดหมู่วิธีการของฉันในปัจจุบันคือการ ลองใช้อัลกอริทึมต่าง ๆ ก่อนแล้วทำการเปรียบเทียบ ดำเนินการเลือกคุณสมบัติของอัลกอริทึมที่ดีที่สุดจากด้านบน 1 ปรับพารามิเตอร์โดยใช้คุณสมบัติและอัลกอริทึมที่เลือก อย่างไรก็ตามฉันมักไม่สามารถโน้มน้าวตัวเองได้ว่าอาจมีอัลกอริทึมที่ดีกว่าถ้าเลือกอัลกอริธึมอื่น ๆ ด้วยพารามิเตอร์ที่ดีที่สุด / คุณสมบัติที่เหมาะสมที่สุด ในเวลาเดียวกันการค้นหาคุณสมบัติอัลกอริทึม * พารามิเตอร์ * ทั้งหมดใช้เวลานานเกินไป มีข้อเสนอแนะเกี่ยวกับวิธีการ / ลำดับที่ถูกต้องหรือไม่?

5
เมื่อใดที่จะลบตัวแปรที่เกี่ยวข้อง
ใครก็ได้ช่วยแนะนำขั้นตอนที่ถูกต้องในการลบตัวแปรที่มีความสัมพันธ์กันก่อนวิศวกรรมฟีเจอร์หรือหลังจากคุณสมบัติวิศวกรรม

2
การถดถอยเชิงเส้นและการปรับขนาดของข้อมูล
พล็อตต่อไปนี้แสดงค่าสัมประสิทธิ์ที่ได้จากการถดถอยเชิงเส้น (พร้อมกับmpgตัวแปรเป้าหมายและอื่น ๆ ทั้งหมดเป็นตัวทำนาย) สำหรับชุดข้อมูล mtcars ( ที่นี่และที่นี่ ) ทั้งที่มีและไม่มีการปรับขนาดข้อมูล: ฉันจะตีความผลลัพธ์เหล่านี้ได้อย่างไร ตัวแปรhpและdispมีความสำคัญก็ต่อเมื่อมีการปรับสัดส่วนข้อมูล มีamและqsecความสำคัญเท่าเทียมกันหรือเป็นamสิ่งที่สำคัญกว่าqsec? ซึ่งตัวแปรหนึ่งควรจะพูดว่าเป็นปัจจัยสำคัญของการmpg? ขอบคุณสำหรับความเข้าใจของคุณ

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
จะเปรียบเทียบประสิทธิภาพของวิธีการเลือกคุณสมบัติได้อย่างไร
มีวิธีการเลือกคุณสมบัติ / วิธีเลือกตัวแปรหลายวิธี (ดูตัวอย่างGuyon & Elisseeff, 2003 ; Liu et al., 2010 ): วิธีการกรอง (เช่นความสัมพันธ์, อิงตามเอนโทรปี, อิงตามความสำคัญของป่าแบบสุ่ม), วิธีการ wrapper (เช่นการค้นหาไปข้างหน้าการค้นหาการปีนเขา) และ วิธีการฝังตัวที่การเลือกคุณสมบัติเป็นส่วนหนึ่งของการเรียนรู้รูปแบบ อัลกอริทึมที่เผยแพร่จำนวนมากถูกนำไปใช้ในเครื่องมือการเรียนรู้ของเครื่องเช่น R, Python และอื่น ๆ อะไรจะเป็นวิธีที่เหมาะสมในการเปรียบเทียบอัลกอริธึมการเลือกคุณลักษณะที่แตกต่างกันและเพื่อเลือกวิธีที่ดีที่สุดสำหรับปัญหา / ชุดข้อมูลที่กำหนด จะมีคำถามเพิ่มเติมอีกหรือไม่ว่ามีตัวชี้วัดใดบ้างที่ทราบประสิทธิภาพของอัลกอริธึมการเลือกคุณลักษณะหรือไม่

4
การเลือกคุณสมบัติและความแม่นยำในการจำแนกประเภท
หนึ่งในวิธีการในการเลือกชุดย่อยของคุณสมบัติที่มีอยู่สำหรับตัวจําแนกของคุณคือการจัดอันดับตามเกณฑ์ (เช่นการรับข้อมูล) แล้วคำนวณความถูกต้องโดยใช้ตัวจําแนกและชุดย่อยของคุณลักษณะที่จัดอันดับ ตัวอย่างเช่นหากคุณลักษณะของคุณคือA, B, C, D, Eและหากมีการจัดอันดับดังต่อไปD,B,C,E,Aนี้คุณจะคำนวณความถูกต้องโดยใช้DจากD, Bนั้นD, B, Cจากนั้นจึงD, B, C, E... ... จนกว่าความแม่นยำของคุณจะเริ่มลดลง เมื่อมันเริ่มลดลงคุณจะหยุดเพิ่มคุณสมบัติ ในตัวอย่างที่ 1 (ด้านบน) คุณจะต้องเลือกคุณสมบัติF, C, D, Aและวางคุณสมบัติอื่น ๆ เพื่อลดความแม่นยำของคุณ วิธีการดังกล่าวถือว่าการเพิ่มคุณสมบัติเพิ่มเติมให้กับโมเดลของคุณเพิ่มความแม่นยำของลักษณนามของคุณจนกว่าจะถึงจุดหนึ่งหลังจากนั้นการเพิ่มคุณสมบัติเพิ่มเติมจะช่วยลดความแม่นยำ (ดังที่เห็นในตัวอย่างที่ 1) อย่างไรก็ตามสถานการณ์ของฉันแตกต่างกัน ฉันใช้วิธีการที่อธิบายไว้ข้างต้นและพบว่าการเพิ่มคุณสมบัติอื่น ๆ ลดความแม่นยำจนถึงจุดหนึ่งหลังจากนั้นจะเพิ่มขึ้น ในสถานการณ์เช่นนี้คุณจะเลือกคุณสมบัติของคุณได้อย่างไร คุณเลือกFและวางที่เหลือเท่านั้น? คุณมีความคิดว่าทำไมความแม่นยำจะลดลงและเพิ่มขึ้น?

7
โครงการวิทยาศาสตร์ข้อมูลอธิบายทีละขั้นตอน?
ฉันกำลังมองหาเว็บไซต์หรือหนังสือที่มีตัวอย่างการปฏิบัติหลายขั้นตอนอธิบายวิธีการเลือกคุณสมบัติที่เกี่ยวข้องขั้นตอนการเลือกรุ่น ฯลฯ

3
พิกัด GPS (ละติจูดและลองจิจูด) สามารถใช้เป็นคุณสมบัติในตัวแบบเชิงเส้นได้หรือไม่?
ฉันมีชุดข้อมูลที่บรรจุพิกัด GPS (ละติจูดและลองจิจูด) ในบรรดาคุณสมบัติหลายประการ ฉันต้องการใช้ชุดข้อมูลเหล่านี้เพื่อสำรวจปัญหาเช่น: (1) การคำนวณ ETA เพื่อขับเคลื่อนระหว่างจุดเริ่มต้นและจุดสิ้นสุด; และ (2) การประเมินจำนวนอาชญากรรมสำหรับจุดเฉพาะ ฉันต้องการใช้แบบจำลองการถดถอยเชิงเส้น อย่างไรก็ตามฉันสามารถใช้พิกัด GPS เหล่านี้โดยตรงในโมเดลเชิงเส้นได้หรือไม่ ละติจูดและลองจิจูดไม่ได้มีคุณสมบัติลำดับเช่นกับอายุของบุคคล ตัวอย่างเช่นสองจุด (40.805996, -96.681473) และ (41.226682, -95.986587) ดูเหมือนจะไม่มีคำสั่งที่มีความหมายใด ๆ พวกเขาเป็นเพียงจุดในอวกาศ ฉันคิดของการแทนที่พวกเขาด้วยเด็ดขาดรหัสไปรษณีย์ของสหรัฐอเมริกาแล้วทำเข้ารหัสร้อนแต่ที่จะส่งผลให้จำนวนมากของตัวแปร

2
จะทำอย่างไรเมื่อการทดสอบข้อมูลมีคุณสมบัติน้อยกว่าข้อมูลการฝึกอบรม?
สมมติว่าเราคาดการณ์ยอดขายของร้านค้าและข้อมูลการฝึกอบรมของฉันมีคุณสมบัติสองชุด: หนึ่งเกี่ยวกับยอดขายของร้านค้าที่มีวันที่ (ฟิลด์ "Store" ไม่ซ้ำกัน) ประเภทหนึ่งเกี่ยวกับร้านค้า (ฟิลด์ "Store" ไม่ซ้ำกันที่นี่) เมทริกซ์จะออกมาเป็นแบบนี้: +-------+-----------+------------+---------+-----------+------+-------+--------------+ | Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday | +-------+-----------+------------+---------+-----------+------+-------+--------------+ | 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 | | 2 | 5 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.