คำถามติดแท็ก train

การฝึกอบรม (หรือการประมาณค่า) ของแบบจำลองทางสถิติหรืออัลกอริทึม

5
ขนาดแบทช์ของ Tradeoff เทียบกับจำนวนการวนซ้ำเพื่อฝึกอบรมโครงข่ายประสาทเทียม
เมื่อฝึกฝนโครงข่ายประสาทเทียมการตั้งค่าต่างกันอย่างไร: ขนาดแบทช์และจำนวนการวนซ้ำเป็นaaabbb เทียบกับขนาดแบทช์เป็นและจำนวนการทำซ้ำเป็นcccddd ที่ ?ab=cdab=cd ab = cd หากต้องการตั้งเป็นอย่างอื่นสมมติว่าเราฝึกอบรมเครือข่ายประสาทเทียมด้วยตัวอย่างการฝึกอบรมจำนวนเท่ากันวิธีการกำหนดขนาดแบทช์ที่เหมาะสมและจำนวนการวนซ้ำที่เหมาะสม (โดยที่ขนาดแบทช์ * จำนวนการวนซ้ำ = จำนวนตัวอย่างการฝึกอบรมที่แสดงในเครือข่ายนิวรัลโดยมีตัวอย่างการฝึกอบรมเดียวกันอาจปรากฏขึ้นหลายครั้ง) ฉันทราบว่ายิ่งมีขนาดแบตช์สูงเท่าไหร่พื้นที่หน่วยความจำที่ต้องการก็จะมากขึ้นและบ่อยครั้งทำให้การคำนวณเร็วขึ้น แต่ในแง่ของประสิทธิภาพของเครือข่ายที่ผ่านการฝึกอบรมแล้วมันมีความแตกต่างอะไรบ้าง?

1
ประโยชน์ของการสุ่มแบบแบ่งชั้นและสุ่มตัวอย่างเพื่อสร้างข้อมูลการฝึกอบรมในการจำแนกประเภท
ฉันต้องการทราบว่ามีข้อได้เปรียบใด ๆ / บางส่วนของการใช้การสุ่มตัวอย่างแบบแบ่งชั้นแทนการสุ่มตัวอย่างแบบสุ่มหรือไม่เมื่อแยกชุดข้อมูลเดิมเข้ากับชุดการฝึกอบรมและการทดสอบสำหรับการจำแนก การสุ่มตัวอย่างแบบแบ่งชั้นจะทำให้มีอคติต่อลักษณนามมากกว่าการสุ่มตัวอย่างแบบสุ่มหรือไม่? แอพพลิเคชั่นที่ฉันต้องการใช้การสุ่มตัวอย่างแบบแบ่งชั้นเพื่อเตรียมข้อมูลเป็นตัวจําแนกประเภทลอเรนซ์ป่าซึ่งผ่านการฝึกอบรมเมื่อวันที่2323\frac{2}{3}ของชุดข้อมูลดั้งเดิม ก่อนตัวแยกประเภทยังมีขั้นตอนของการสร้างตัวอย่างสังเคราะห์ (SMOTE [1]) ซึ่งปรับขนาดของคลาสให้สมดุล [1] Chawla, Nitesh V. และอื่น ๆ " SMOTE: เทคนิคการสุ่มตัวอย่างแบบสังเคราะห์ส่วนน้อย " วารสารวิจัยปัญญาประดิษฐ์ 16 (2002): 321-357

3
การใส่ร้ายก่อนหรือหลังแยกออกเป็นรถไฟและทดสอบ?
ฉันมีชุดข้อมูลที่มี N ~ 5,000 และประมาณ 1/2 หายไปกับตัวแปรสำคัญอย่างน้อยหนึ่งตัว วิธีการวิเคราะห์หลักจะเป็นอันตรายตามสัดส่วนของคอคส์ ฉันวางแผนที่จะใช้การใส่หลายแบบ ฉันจะแยกเป็นชุดรถไฟและชุดทดสอบ ฉันควรแยกข้อมูลแล้วใส่ข้อมูลแยกต่างหากหรือใส่ร้ายแล้วแยก? ถ้ามันเป็นเรื่องสำคัญผมจะใช้ในPROC MISAS

2
Scikit วิธีที่ถูกต้องในการปรับเทียบตัวแยกประเภทด้วย CalibratedClassifierCV
Scikit มีCalibratedClassifierCVซึ่งช่วยให้เราสามารถสอบเทียบโมเดลของเราในคู่ X, y ที่เฉพาะเจาะจง มันยังระบุไว้อย่างชัดเจนว่าdata for fitting the classifier and for calibrating it must be disjoint. หากพวกเขาจะต้องแยกจากกันมันถูกต้องหรือไม่ที่จะฝึกตัวจําแนก model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) ฉันกลัวว่าด้วยการใช้ชุดฝึกอบรมชุดเดียวกันฉันกำลังฝ่าฝืนdisjoint dataกฎ ทางเลือกอื่นอาจมีชุดการตรวจสอบความถูกต้อง my_classifier.fit(X_train, y_train) model = CalibratedClassifierCV(my_classifier, cv='prefit') model.fit(X_valid, y_valid) ซึ่งมีข้อเสียคือการทิ้งข้อมูลไว้เพื่อการฝึกอบรมน้อยลง นอกจากนี้หากCalibratedClassifierCVควรพอดีกับรุ่นที่พอดีกับชุดการฝึกอบรมที่แตกต่างกันเหตุใดจึงเป็นตัวเลือกเริ่มต้นcv=3ซึ่งจะพอดีกับตัวประมาณการพื้นฐาน การตรวจสอบความถูกต้องไขว้จัดการกฎความไม่ลงรอยกันด้วยตัวเองหรือไม่? คำถาม: วิธีที่ถูกต้องในการใช้ CalibratedClassifierCV คืออะไร?

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
ผลลัพธ์ที่แตกต่างจาก RandomForest ผ่าน caret และแพ็คเกจ RandomForest พื้นฐาน
ฉันสับสนเล็กน้อย: ผลลัพธ์ของโมเดลที่ได้รับการฝึกอบรมผ่านคาเร็ตจะแตกต่างจากโมเดลในแพ็คเกจดั้งเดิมอย่างไร ฉันอ่านว่าจำเป็นต้องมีการประมวลผลล่วงหน้าก่อนการทำนายด้วย FinalModel ของ RandomForest พร้อมชุดคาเร็ตหรือไม่? แต่ฉันไม่ได้ใช้ preprocessing ใด ๆ ที่นี่ ฉันฝึกป่าสุ่มที่แตกต่างกันโดยใช้ชุดคาเร็ตและปรับแต่งค่า mtry ที่แตกต่างกัน > cvCtrl = trainControl(method = "repeatedcv",number = 10, repeats = 3, classProbs = TRUE, summaryFunction = twoClassSummary) > newGrid = expand.grid(mtry = c(2,4,8,15)) > classifierRandomForest = train(case_success ~ ., data = train_data, trControl = cvCtrl, …

3
การฝึกอบรมการทดสอบการตรวจสอบในการวิเคราะห์ปัญหาการอยู่รอด
ฉันดูหัวข้อต่างๆที่นี่ แต่ฉันไม่คิดว่าจะตอบคำถามที่แน่นอน ฉันมีชุดข้อมูลของนักเรียนประมาณ 50,000 คนและเวลาในการออกกลางคัน ฉันจะทำการลดความเสี่ยงตามสัดส่วนที่มีค่าความแปรปรวนจำนวนมาก ฉันกำลังจะทำการถดถอยโลจิสติกเมื่อออกกลางคัน / อยู่ต่อเป้าหมายหลักคือการคาดการณ์สำหรับนักเรียนกลุ่มใหม่ โดยทั่วไปแล้วฉันไม่มีความหรูหราของข้อมูลและทำตัวแบบที่เหมาะสมกับการลงโทษ แต่คราวนี้ฉันคิดว่าการแยกชุดฝึกอบรมและชุดข้อมูลทดสอบแล้วทำการเลือกตัวแปรในชุดฝึกอบรม จากนั้นใช้ชุดข้อมูลทดสอบสำหรับการประมาณค่าพารามิเตอร์และความสามารถในการทำนาย นี่เป็นกลยุทธ์ที่ดีใช่ไหม ถ้าไม่ดีกว่าอะไร ยินดีต้อนรับการอ้างอิง แต่ไม่จำเป็น

1
จะรู้ได้อย่างไรว่าเส้นโค้งการเรียนรู้จากตัวแบบ SVM ทนทุกข์จากความเอนเอียงหรือความแปรปรวน?
ฉันสร้างเส้นโค้งการเรียนรู้นี้และฉันต้องการที่จะรู้ว่ารุ่น SVM ของฉันมีปัญหาเรื่องอคติหรือความแปรปรวนหรือไม่? ฉันจะสรุปได้อย่างไรจากกราฟนี้

4
ตัวอย่าง / หนังสือ / แหล่งข้อมูลที่ดีเพื่อเรียนรู้เกี่ยวกับการเรียนรู้ด้วยเครื่องประยุกต์ (ไม่ใช่แค่ ML เท่านั้น)
ก่อนหน้านี้ฉันเคยเรียนหลักสูตร ML แต่ตอนนี้ฉันทำงานกับโครงการที่เกี่ยวข้องกับ ML ในงานของฉัน ฉันแน่ใจว่าสิ่งที่ฉันทำได้รับการวิจัย / จัดการกับก่อนหน้านี้ แต่ฉันไม่สามารถหาหัวข้อที่เฉพาะเจาะจง ตัวอย่างการเรียนรู้ของเครื่องทั้งหมดที่ฉันพบออนไลน์นั้นง่ายมาก (เช่นวิธีใช้โมเดล KMeans ใน Python และดูการคาดคะเน) ฉันกำลังมองหาแหล่งข้อมูลที่ดีเกี่ยวกับวิธีการใช้งานจริงเหล่านี้และอาจเป็นตัวอย่างรหัสของการใช้งานเครื่องเรียนรู้ขนาดใหญ่และการฝึกอบรมแบบจำลอง ฉันต้องการเรียนรู้เกี่ยวกับวิธีการดำเนินการอย่างมีประสิทธิภาพและสร้างข้อมูลใหม่ที่สามารถทำให้อัลกอริทึม ML มีประสิทธิภาพมากขึ้น

3
วิธีการเมื่อเรียนรู้จากชุดข้อมูลขนาดใหญ่?
โดยทั่วไปมีสองวิธีทั่วไปในการเรียนรู้กับชุดข้อมูลขนาดใหญ่ (เมื่อคุณเผชิญกับข้อ จำกัด ด้านเวลา / พื้นที่): การโกง :) - ใช้ชุดย่อยที่ "จัดการได้" เพื่อการฝึกอบรม การสูญเสียความถูกต้องอาจเล็กน้อยเนื่องจากกฎของผลตอบแทนลดลง - ประสิทธิภาพการทำนายของตัวแบบมักจะแบนนานก่อนที่ข้อมูลการฝึกอบรมทั้งหมดจะถูกรวมเข้าไป การคำนวณแบบขนาน - แบ่งปัญหาออกเป็นส่วนเล็ก ๆ และแก้ปัญหาแต่ละเรื่องด้วยเครื่อง / โปรเซสเซอร์ที่แยกต่างหาก คุณต้องใช้อัลกอริทึมรุ่นขนาน แต่ข่าวดีก็คือว่าอัลกอริทึมทั่วไปจำนวนมากนั้นขนานกันตามธรรมชาติ: เพื่อนบ้านที่ใกล้ที่สุดต้นไม้ตัดสินใจ ฯลฯ มีวิธีอื่นไหม มีกฎของหัวแม่มือเมื่อใช้แต่ละ? ข้อเสียของแต่ละวิธีคืออะไร?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.