วิทยาศาสตร์ข้อมูล model-selection

4

"กฏเกณฑ์ง่ายๆ" ในจำนวนของคุณสมบัติกับจำนวนอินสแตนซ์? (ชุดข้อมูลขนาดเล็ก)

ฉันสงสัยว่าถ้ามีฮิวริสติกเกี่ยวกับคุณลักษณะหลายอย่างกับจำนวนการสังเกต เห็นได้ชัดว่าถ้าคุณสมบัติจำนวนหนึ่งเท่ากับจำนวนการสังเกตแบบจำลองจะพอดี โดยใช้วิธีการกระจัดกระจาย (LASSO, elastic net) เราสามารถลบคุณลักษณะต่าง ๆ เพื่อลดแบบจำลองได้ คำถามของฉันคือ (ในทางทฤษฎี): ก่อนที่เราจะใช้ตัวชี้วัดเพื่อประเมินการเลือกแบบจำลองจะมีข้อสังเกตเชิงประจักษ์ใดบ้างที่เกี่ยวข้องกับจำนวนคุณลักษณะที่เหมาะสมที่สุดกับจำนวนการสังเกต? ตัวอย่างเช่น: สำหรับปัญหาการจำแนกเลขฐานสองที่มี 20 อินสแตนซ์ในแต่ละชั้นจะมีขีด จำกัด บนของจำนวนคุณสมบัติที่จะใช้หรือไม่?

17 feature-selection model-selection

1

ฉันควรใช้เซลล์ LSTM กี่เซลล์

มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

4

จะเปรียบเทียบประสิทธิภาพของวิธีการเลือกคุณสมบัติได้อย่างไร

มีวิธีการเลือกคุณสมบัติ / วิธีเลือกตัวแปรหลายวิธี (ดูตัวอย่างGuyon & Elisseeff, 2003 ; Liu et al., 2010 ): วิธีการกรอง (เช่นความสัมพันธ์, อิงตามเอนโทรปี, อิงตามความสำคัญของป่าแบบสุ่ม), วิธีการ wrapper (เช่นการค้นหาไปข้างหน้าการค้นหาการปีนเขา) และ วิธีการฝังตัวที่การเลือกคุณสมบัติเป็นส่วนหนึ่งของการเรียนรู้รูปแบบ อัลกอริทึมที่เผยแพร่จำนวนมากถูกนำไปใช้ในเครื่องมือการเรียนรู้ของเครื่องเช่น R, Python และอื่น ๆ อะไรจะเป็นวิธีที่เหมาะสมในการเปรียบเทียบอัลกอริธึมการเลือกคุณลักษณะที่แตกต่างกันและเพื่อเลือกวิธีที่ดีที่สุดสำหรับปัญหา / ชุดข้อมูลที่กำหนด จะมีคำถามเพิ่มเติมอีกหรือไม่ว่ามีตัวชี้วัดใดบ้างที่ทราบประสิทธิภาพของอัลกอริธึมการเลือกคุณลักษณะหรือไม่

10 feature-selection performance model-selection

2

นักวิทยาศาสตร์คิดค่าพารามิเตอร์ Hidden Markov Model และทอพอโลยีที่ถูกต้องเพื่อใช้อย่างไร

ฉันเข้าใจว่า Hidden Markov Model ใช้ในลำดับจีโนมเช่นการค้นหายีนอย่างไร แต่ฉันไม่เข้าใจว่าจะเกิดอะไรขึ้นกับโมเดลของมาร์คอฟโดยเฉพาะ ฉันหมายความว่าควรมีโมเดลกี่รัฐ มีการเปลี่ยนที่เป็นไปได้กี่ครั้ง โมเดลควรมีการวนซ้ำหรือไม่? พวกเขาจะรู้ได้อย่างไรว่าแบบจำลองของพวกเขาดีที่สุด? พวกเขาลองจินตนาการว่าจะพูดถึง 10 แบบที่แตกต่างกันหรือไม่และเปรียบเทียบกับโมเดล 10 แบบนั้น

10 machine-learning model-selection hyperparameter markov

คำถามติดแท็ก model-selection