คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

2
ทำไมขั้นตอนของฉันถึงเล็กลงเมื่อใช้ขนาดขั้นตอนคงที่ในการไล่ระดับสีแบบลาดชัน
สมมติว่าเรากำลังทำตัวอย่างของเล่นในการไล่ระดับสีที่ดีลดฟังก์ชันกำลังสองโดยใช้ขั้นตอนขนาดคงที่\( )xTAxxTAxx^TAxα=0.03α=0.03\alpha=0.03A=[10,2;2,3]A=[10,2;2,3]A=[10, 2; 2, 3] ถ้าเราพล็อตการติดตามของในการวนซ้ำแต่ละครั้งเราจะได้ตัวเลขดังต่อไปนี้ ทำไมคะแนนจึงมีความหนาแน่นสูงเมื่อเราใช้ขนาดขั้นตอนคงที่ โดยสังหรณ์ใจมันไม่ได้ดูเหมือนขนาดขั้นตอนคงที่ แต่ขนาดขั้นตอนลดลงxxx PS: รหัส R รวมถึงพล็อต A=rbind(c(10,2),c(2,3)) f <-function(x){ v=t(x) %*% A %*% x as.numeric(v) } gr <-function(x){ v = 2* A %*% x as.numeric(v) } x1=seq(-2,2,0.02) x2=seq(-2,2,0.02) df=expand.grid(x1=x1,x2=x2) contour(x1,x2,matrix(apply(df, 1, f),ncol=sqrt(nrow(df))), labcex = 1.5, levels=c(1,3,5,10,20,40)) grid() opt_v=0 alpha=3e-2 x_trace=c(-2,-2) x=c(-2,-2) while(abs(f(x)-opt_v)>1e-6){ x=x-alpha*gr(x) …

1
ข้อมูลที่มีมิติข้อมูลที่มีความสัมพันธ์สูงและคุณลักษณะยอดนิยม / การแปรสภาพที่ค้นพบ; การทดสอบสมมติฐานหลายรายการ?
ฉันมีชุดข้อมูลที่มีคุณลักษณะ / covariates ที่มีความสัมพันธ์กันประมาณ 5,000 รายการและการตอบกลับแบบไบนารี ข้อมูลถูกมอบให้ฉันฉันไม่ได้เก็บรวบรวม ฉันใช้ Lasso และเพิ่มการไล่ระดับสีเพื่อสร้างแบบจำลอง ฉันใช้การตรวจสอบข้ามแบบซ้อนซ้ำซ้อน ฉันรายงานว่าสัมประสิทธิ์ 40 ที่ใหญ่ที่สุด (สัมบูรณ์) ของ Lasso และ 40 คุณสมบัติที่สำคัญที่สุดในต้นไม้ที่ไล่ระดับสี (ไม่มีอะไรพิเศษเกี่ยวกับ 40 มันดูเหมือนจะเป็นข้อมูลที่สมเหตุสมผล) ฉันยังรายงานความแปรปรวนของปริมาณเหล่านี้ผ่านรอยพับและการวนซ้ำของ CV ฉันชอบที่จะพูดถึงคุณสมบัติ "สำคัญ" โดยไม่มีการพูดถึงค่า p หรือค่านิยมหรืออะไรก็ตาม แต่แทนที่จะคิดว่ากระบวนการนี้เป็นแบบ --- แม้ว่าจะไม่สมบูรณ์และเรียงลำดับแบบสุ่ม --- เข้าใจลึกลงไปในปรากฏการณ์บางอย่าง สมมติว่าฉันได้ทำทั้งหมดนี้อย่างถูกต้อง (เช่นดำเนินการตรวจสอบข้ามอย่างถูกต้องปรับขนาดสำหรับเชือก) วิธีนี้มีเหตุผล? มีปัญหากับตัวอย่างเช่นการทดสอบสมมติฐานหลายรายการการวิเคราะห์หลังเลิกเรียนการค้นพบที่ผิดพลาดหรือไม่? หรือปัญหาอื่น ๆ ? วัตถุประสงค์ ทำนายความน่าจะเป็นของเหตุการณ์ไม่พึงประสงค์ สำคัญที่สุดประมาณการความน่าจะเป็นได้อย่างแม่นยำ ผู้เยาว์เพิ่มเติม - เพื่อการมีสติตรวจสอบ แต่อาจเปิดเผยตัวพยากรณ์ใหม่ที่สามารถตรวจสอบเพิ่มเติมตรวจสอบค่าสัมประสิทธิ์และความสำคัญตามที่กล่าวไว้ข้างต้น ผู้บริโภค …

1
การวิเคราะห์เชิงหน้าที่และพื้นที่ฮิลแบร์ตมีประโยชน์ในการเรียนรู้ของเครื่องหรือไม่ ถ้าเป็นเช่นนั้นได้อย่างไร
ฉันสงสัยว่าช่องว่างของฮิลแบร์ตและการวิเคราะห์การทำงานมีประโยชน์ต่อการเรียนรู้ของเครื่องอย่างไร ฉันคิดว่าการเรียนรู้ของเครื่องเป็นการผสมผสานระหว่างสถิติวิทยาการคอมพิวเตอร์และการเพิ่มประสิทธิภาพ การวิเคราะห์การทำงานมีความสัมพันธ์กับสิ่งนั้นอย่างไร

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

4
ฉันจะตีความกราฟความอยู่รอดของโมเดลอันตราย Cox ได้อย่างไร
คุณจะตีความเส้นโค้งการอยู่รอดจากโมเดลอันตรายตามสัดส่วนของค็อกซ์ได้อย่างไร ในตัวอย่างของเล่นนี้สมมติว่าเรามีโมเดลอันตรายตามสัดส่วนในageตัวแปรในkidneyข้อมูลและสร้างเส้นโค้งการอยู่รอด library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() ตัวอย่างเช่น ณ เวลาคำสั่งใดเป็นจริง หรือทั้งสองอย่างผิดปกติ?200200200 คำแถลงที่ 1: เราจะเหลือวิชา 20% (เช่นถ้าเรามีคนโดยวันที่เราควรเหลืออีกประมาณ ) 100010001000200200200200200200 งบ 2: สำหรับคนที่ได้รับหนึ่งเขา / เธอมีมีโอกาสที่จะอยู่รอดได้ในวันที่20020%20%20\%200200200 ความพยายามของฉัน: ฉันไม่คิดว่าทั้งสองงบจะเหมือนกัน (แก้ไขฉันถ้าฉันผิด) เนื่องจากเราไม่ได้มีการสันนิษฐาน iid (เวลารอดสำหรับทุกคนไม่ได้มาจากการกระจายอย่างอิสระ) มันคล้ายกับการถดถอยโลจิสติกในคำถามของฉันที่นี่อัตราความเป็นอันตรายของแต่ละคนขึ้นอยู่กับสำหรับบุคคลนั้นβTxβTx\beta^Tx

4
การฝึกอบรมเครือข่ายประสาทเพื่อการถดถอยจะทำนายค่าเฉลี่ยเสมอ
ฉันกำลังฝึกอบรมเครือข่ายประสาทเทียมแบบง่ายสำหรับการถดถอยซึ่งงานนี้จะทำนายตำแหน่ง (x, y) ของกล่องในภาพเช่น: เอาต์พุตของเครือข่ายมีสองโหนดหนึ่งรายการสำหรับ x และอีกหนึ่งสำหรับ y ส่วนที่เหลือของเครือข่ายเป็นเครือข่ายประสาทเทียมมาตรฐาน การสูญเสียเป็นค่าเฉลี่ยความคลาดเคลื่อนกำลังสองระหว่างตำแหน่งที่ทำนายของกล่องและตำแหน่งจริงของพื้นดิน ฉันกำลังฝึกอบรมเกี่ยวกับ 10,000 ภาพเหล่านี้และการตรวจสอบในปี 2000 ปัญหาที่ฉันมีคือแม้ว่าหลังจากการฝึกอบรมที่สำคัญแล้วการสูญเสียไม่ลดลงจริงๆ หลังจากสังเกตเอาท์พุทของเครือข่ายฉันสังเกตว่าเครือข่ายมีแนวโน้มที่จะส่งออกค่าใกล้ศูนย์สำหรับทั้งสองเอาท์พุทโหนด ดังนั้นการทำนายตำแหน่งของกล่องจึงเป็นจุดศูนย์กลางของภาพเสมอ มีการเบี่ยงเบนบางอย่างในการคาดการณ์ แต่มักจะอยู่ที่ประมาณศูนย์ ด้านล่างแสดงให้เห็นถึงการสูญเสีย: ฉันใช้งานสิ่งนี้ได้หลายครั้งมากกว่าที่แสดงในกราฟนี้และการสูญเสียยังไม่ลดลง น่าสนใจที่นี่การสูญเสียเพิ่มขึ้น ณ จุดหนึ่ง ดังนั้นดูเหมือนว่าเครือข่ายจะทำนายค่าเฉลี่ยของข้อมูลการฝึกอบรมมากกว่าการเรียนรู้ที่เหมาะสม ความคิดเห็นใด ๆ เกี่ยวกับสาเหตุที่อาจเป็นเช่นนี้ ฉันใช้อดัมเป็นเครื่องมือเพิ่มประสิทธิภาพด้วยอัตราการเรียนรู้เริ่มต้นที่ 0.01 และการเปิดใช้งานใหม่ หากคุณมีความสนใจในบางรหัสของฉัน (Keras) มันเป็นด้านล่าง: # Create the model model = Sequential() model.add(Convolution2D(32, 5, 5, border_mode='same', subsample=(2, 2), activation='relu', input_shape=(3, image_width, …

1
ทำความเข้าใจกับโทโพโลยีของ LSTM
อย่างที่หลายคนมีฉันพบแหล่งข้อมูลที่นี่และที่นี่เพื่อเป็นประโยชน์อย่างมากสำหรับการทำความเข้าใจเซลล์ LSTM ฉันมั่นใจว่าฉันเข้าใจว่าการไหลของค่าและการปรับปรุงและฉันมั่นใจมากพอที่จะเพิ่ม "การเชื่อมต่อช่องมอง" ฯลฯ ในตัวอย่างของฉันฉันมีที่ในแต่ละครั้งขั้นตอนการป้อนข้อมูลเวกเตอร์ของความยาวiและเวกเตอร์การส่งออกของระยะเวลาที่oo < i สิ่งที่ไม่ได้กล่าวถึงในหน้านี้คือวิธีการจัดเรียงและฝึกอบรม ฉันมีคำถาม 2 ข้อ: ในข้อมูลการฝึกอบรมของฉันฉันมีเวกเตอร์อินพุต / เอาต์พุตจำนวนมากที่สอดคล้องกับหน่วยเวลาจำนวนมาก สมมติว่าฉันฝึก LSTM ด้วยข้อมูลทั้งหมด จากนั้นฉันจะเรียกใช้อินพุตที่กำหนดเองแบบยาว ๆ สิ่งที่ฉันหมายถึงคือถ้าฉันมีข้อมูลการฝึกอบรมสำหรับพูดทั้งหมดของปี 2558 และ 2559 ฉันจะสามารถเรียกใช้ข้อมูลผ่านเครือข่ายในปี 2560 ได้หรือไม่? หรืออาจ 2017 ถึง 2020 ตามที่ฉันได้อ่านมันรู้สึกเหมือนฉันมีเซลล์ LSTM หนึ่งเซลล์ต่อหน่วยเวลาดังนั้นถ้าฉันมีหน่วยเวลาหลายครั้งฉันก็มีเซลล์ LSTM ที่ถูกล่ามโซ่ไว้มากมาย เนื่องจากความยาวของสายโซ่นั้นขึ้นอยู่กับความยาวของข้อมูลที่ฉันต้องการเรียกใช้ผ่านเครือข่ายและนั่นเป็นเรื่องที่คาดเดาได้ยากฉันไม่สามารถเห็นได้ว่าฉันจะฝึกอบรมเรื่องนี้อย่างไรเว้นแต่ฉันจะฝึกเซลล์ LSTM เพียงเซลล์เดียว ครั้ง ดังนั้นดูเหมือนว่าฉันจะฝึกเซลล์ LSTM หนึ่งเซลล์จากนั้นnโยงมันเข้าด้วยกันเพื่อหารายการเวกเตอร์ความยาวที่กำหนดn? แม้ว่าเซลล์ LSTM หนึ่งเซลล์จะมีองค์ประกอบและฟังก์ชั่นจำนวนหนึ่ง แต่รู้สึกว่ามันไม่เพียงพอที่จะรวบรวมข้อมูลมากมายในบางสิ่งที่เล็กมาก? ขอบคุณ มีทรัพยากรอื่น ๆ …

2
การใช้การอนุมานสุ่มสโทคาสต์กับ Bayesian Mixture of Gaussian
ฉันกำลังพยายามใช้โมเดล Gaussian Mixture ด้วยการอนุมานแปรปรวนแบบสุ่มต่อจากบทความนี้ นี่คือ pgm ของส่วนผสมแบบเกาส์เซียน ตามที่กระดาษ, อัลกอริทึมเต็มรูปแบบของการอนุมานสุ่มแปรผันคือ: และฉันยังคงสับสนอย่างมากเกี่ยวกับวิธีการขยายสู่ GMM ก่อนอื่นฉันคิดว่าพารามิเตอร์ความแปรปรวนในท้องถิ่นเป็นเพียงและอื่น ๆ เป็นพารามิเตอร์ระดับโลกทั้งหมด โปรดแก้ไขฉันหากฉันผิด ขั้นตอนที่ 6 หมายถึงอะไร ฉันควรทำอย่างไรเพื่อให้บรรลุเป้าหมายนี้QZqzq_zas though Xi is replicated by N times คุณช่วยฉันด้วยเรื่องนี้ได้ไหม ขอบคุณล่วงหน้า!

2
จริง ๆ แล้วมันเป็นเรื่องที่ดีที่จะทำการเลือกคุณสมบัติที่ไม่มีผู้ดูแลก่อนที่จะทำการตรวจสอบข้าม?
ในองค์ประกอบของการเรียนรู้ทางสถิติฉันพบคำสั่งต่อไปนี้: มีคุณสมบัติหนึ่งประการ: ขั้นตอนการคัดกรองเบื้องต้นที่ไม่มีผู้ดูแลสามารถทำได้ก่อนที่จะปล่อยตัวอย่าง ตัวอย่างเช่นเราสามารถเลือกตัวทำนาย 1,000 รายการที่มีความแปรปรวนสูงสุดในตัวอย่าง 50 ทั้งหมดก่อนเริ่มการตรวจสอบความถูกต้องข้าม เนื่องจากตัวกรองนี้ไม่เกี่ยวข้องกับป้ายกำกับของชั้นเรียนจึงไม่ได้ให้ข้อได้เปรียบที่ไม่เป็นธรรม มันถูกต้องจริงเหรอ? ฉันหมายถึงโดยการกรองคุณลักษณะไว้ก่อนหน้านี้เราไม่ได้เลียนแบบข้อมูลการฝึกอบรม / สภาพแวดล้อมข้อมูลใหม่ - ดังนั้นเรื่องนี้ที่การกรองที่เราดำเนินการอยู่จะไม่ได้รับการดูแลหรือไม่? การทำกระบวนการpreprocessing ทั้งหมดในกระบวนการตรวจสอบข้ามจริง ๆ ดีกว่าหรือไม่ หากไม่ใช่กรณีดังกล่าวหมายความว่าการดำเนินการประมวลผลล่วงหน้าที่ไม่ได้รับการจัดการทั้งหมดสามารถทำได้ล่วงหน้ารวมถึงคุณสมบัติการทำให้เป็นมาตรฐาน / PCA เป็นต้น แต่ด้วยการทำสิ่งเหล่านี้ในชุดฝึกอบรมทั้งหมดเราจะรั่วข้อมูลบางส่วนไปยังชุดฝึกอบรม ฉันเห็นด้วยกับชุดข้อมูลที่ค่อนข้างคงที่ความแตกต่างเหล่านี้น่าจะเล็กมาก - แต่ไม่ได้หมายความว่ามันไม่มีอยู่ใช่ไหม? วิธีที่ถูกต้องในการคิดเกี่ยวกับเรื่องนี้คืออะไร?

2
เราควรทำประวัติย่อเสมอ
คำถามของฉัน: ฉันควรทำ CV สำหรับชุดข้อมูลที่ค่อนข้างใหญ่หรือไม่? ฉันมีชุดข้อมูลที่ค่อนข้างใหญ่และฉันจะใช้อัลกอริทึมการเรียนรู้ของเครื่องกับชุดข้อมูล เนื่องจากพีซีของฉันไม่เร็ว CV บางครั้งอาจใช้เวลานานเกินไป โดยเฉพาะ SVM ไม่สิ้นสุดเพราะมีพารามิเตอร์การปรับแต่งมากมาย ดังนั้นถ้าฉันทำ CV ฉันต้องเลือกข้อมูลที่ค่อนข้างเล็ก ในทางกลับกันชุดตรวจสอบควรมีขนาดใหญ่เช่นกันดังนั้นฉันคิดว่าเป็นความคิดที่ดีที่จะใช้ชุดตรวจสอบที่มีขนาดเท่ากัน (หรือใหญ่กว่า) ชุดฝึกอบรม (คือ CV แทนฉันใช้ชุดการตรวจสอบความถูกต้องขนาดใหญ่สำหรับการปรับพารามิเตอร์) ตอนนี้ฉันมีอย่างน้อยสองตัวเลือก ทำ CV ในชุดข้อมูลขนาดเล็ก ใช้ชุดฝึกอบรมที่มีขนาดค่อนข้างใหญ่และชุดการตรวจสอบโดยไม่มีประวัติย่อ ความคิดอื่น ๆ ความคิดที่ดีที่สุดคืออะไร? ความคิดเห็นทั้งภาคทฤษฎีและภาคปฏิบัติยินดีต้อนรับ

1
บางคนสามารถอธิบายได้ว่าฉันอายุ 5 ปีเกี่ยวกับปัญหานี้จากหนังสือ ESL ของ Hastie หรือไม่?
ฉันทำงานผ่านหนังสือ ESL ของ Hastie และฉันมีช่วงเวลาที่ยากลำบากสำหรับคำถาม 2.3 คำถามดังต่อไปนี้: เรากำลังพิจารณาการประมาณเพื่อนบ้านที่ใกล้ที่สุดที่จุดเริ่มต้นและระยะทางเฉลี่ยจากจุดกำเนิดไปยังจุดข้อมูลที่ใกล้เคียงที่สุดจะได้รับจากสมการนี้ ฉันไม่รู้ว่าจะเริ่มต้นอย่างไรในแง่ของการพยายามหามา ฉันรู้ว่าจุดข้อมูลส่วนใหญ่อยู่ใกล้กับขอบเขตของพื้นที่ตัวอย่างมากกว่าจุดข้อมูลอื่น ๆ (การสาปแช่งของมิติ) แต่ฉันมีปัญหาในการแปลสิ่งนี้เป็นความรู้สึกเชิงพีชคณิต / ความน่าจะเป็นเชิงเส้น ขอบคุณ!

6
ฉันต้องการเรียนรู้เกี่ยวกับทฤษฎีความน่าจะเป็นทฤษฎีการวัดและการเรียนรู้ของเครื่องจักรในที่สุด ฉันจะเริ่มที่ไหน [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน3 ปีที่ผ่านมา ฉันต้องการเรียนรู้เกี่ยวกับทฤษฎีความน่าจะเป็นทฤษฎีการวัดและการเรียนรู้ของเครื่องจักรในที่สุด เป้าหมายสูงสุดของฉันคือการใช้การเรียนรู้ของเครื่องในซอฟต์แวร์ ฉันศึกษาแคลคูลัสและความน่าจะเป็นพื้นฐานในวิทยาลัย แต่มันก็สวยมาก คุณรู้หลักสูตรออนไลน์หรือหนังสือบางเล่มที่ฉันสามารถใช้เพื่อเรียนรู้เกี่ยวกับวิชาเหล่านี้ ฉันพบแหล่งข้อมูลมากมายบนเว็บ แต่พวกเขาดูเหมือนจะกำหนดเป้าหมายไปยังผู้ชมที่มีความเชี่ยวชาญ ฉันรู้ว่ามันต้องใช้เวลาพอสมควร แต่ฉันจะเริ่มได้ที่ไหนถ้าฉันต้องการเรียนรู้ตั้งแต่ต้น?

1
ผู้เรียนพื้นฐานเชิงเส้นทำงานอย่างไรในการส่งเสริม และมันทำงานอย่างไรในห้องสมุด xgboost
ฉันรู้วิธีการใช้ฟังก์ชันวัตถุประสงค์เชิงเส้นตรงและการเพิ่มประสิทธิภาพเชิงเส้นใน XGBoost คำถามที่เป็นรูปธรรมของฉันคือ: เมื่ออัลกอริธึมที่เหมาะกับส่วนที่เหลือ (หรือการไล่ระดับสีลบ) คือการใช้คุณลักษณะหนึ่งอย่างในแต่ละขั้นตอน (เช่นรุ่น univariate) หรือคุณลักษณะทั้งหมด การอ้างอิงใด ๆ กับเอกสารเกี่ยวกับการเพิ่มประสิทธิภาพเชิงเส้นใน XGBoost จะได้รับการชื่นชม แก้ไข: เพิ่มการเชิงเส้นสามารถนำมาใช้ใน XGBoost โดยการตั้งค่าพารามิเตอร์ 'บูสเตอร์' เป็น 'gblinear' ดู: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/สำหรับข้อมูลที่เป็นประโยชน์เกี่ยวกับการเพิ่มประสิทธิภาพเชิงเส้น โปรดทราบว่าฉันไม่ได้พูดเกี่ยวกับฟังก์ชั่นวัตถุประสงค์ (ซึ่งอาจเป็นเชิงเส้น) แต่เกี่ยวกับการเพิ่มพวกเขาเอง ขอบคุณ!

1
Q-learning มีประสิทธิภาพเพียงใดเมื่อใช้ Neural Networks เมื่อมีเอาต์พุตหนึ่งหน่วยต่อการกระทำ
ข้อมูลประกอบ: ฉันใช้การประมาณค่า Q ของโครงข่ายใยประสาทเทียมในงานการเรียนรู้การเสริมแรงของฉัน วิธีการนั้นเหมือนกับที่อธิบายไว้ในคำถามนี้แต่คำถามนั้นแตกต่างกัน ในแนวทางนี้จำนวนผลลัพธ์คือจำนวนการกระทำที่เราสามารถทำได้ และในคำง่ายขั้นตอนต่อไปนี้: กระทำ A, สำรวจรางวัลขอ NN ที่จะคาดการณ์ค่า Q สำหรับการกระทำที่เป็นไปได้ทั้งหมดให้เลือกค่า Q สูงสุดคำนวณ Q R + max(new_state_Q)สำหรับการดำเนินการโดยเฉพาะอย่างยิ่ง รุ่น Fit บนคาดการณ์ค่า Q R + max(new_state_Q)ที่มีเพียงหนึ่งของพวกเขาถูกแทนที่ด้วย คำถาม:วิธีการนี้มีประสิทธิภาพเพียงใดหากจำนวนผลผลิตมีขนาดใหญ่ ความพยายาม:สมมติว่ามี 10 การกระทำที่เราสามารถทำได้ ในแต่ละขั้นตอนเราขอให้แบบจำลองทำนายค่า 10 ค่าตั้งแต่อายุยังน้อยของแบบจำลองการทำนายนี้เป็นความยุ่งเหยิงโดยรวม จากนั้นเราปรับเปลี่ยนค่า 1 ของผลลัพธ์และปรับโมเดลให้เหมาะสมกับค่าเหล่านี้ ฉันมีความคิดที่ตรงกันข้ามสองประการเกี่ยวกับวิธีการที่ดี \ เลวคือวิธีการนี้และไม่สามารถตัดสินใจได้ว่าวิธีใดที่ถูกต้อง: จากมุมมองหนึ่งเรากำลังฝึกอบรมแต่ละเซลล์ประสาท 9 ครั้งในข้อมูลสุ่มและเพียงครั้งเดียวในข้อมูลที่ใกล้เคียงกับมูลค่าที่แท้จริง หาก NN ทำนายค่า 5 สำหรับการดำเนินการ A ในสถานะ …

2
ทำนายความมั่นใจของโครงข่ายประสาทเทียม
สมมติว่าฉันต้องการฝึกโครงข่ายประสาทลึกเพื่อทำการจำแนกหรือการถดถอย แต่ฉันต้องการที่จะรู้ว่าจะมีความมั่นใจในการทำนายอย่างไร ฉันจะบรรลุสิ่งนี้ได้อย่างไร ความคิดของฉันคือการคำนวณเอนโทรปีของการข้ามสำหรับข้อมูลการฝึกอบรมทุกครั้งซึ่งขึ้นอยู่กับประสิทธิภาพการทำนายของมันในมาตรวัดประสาทข้างต้น จากนั้นฉันจะฝึกโครงข่ายประสาทที่สองสำหรับการถดถอยซึ่งจะใช้แต่ละ datum เป็นอินพุตและมันข้ามเอนโทรปีเป็นเอาท์พุท (หนึ่งโหนดเอาต์พุต) จากนั้นคุณจะใช้ทั้งสองเครือข่ายในการปฏิบัติ - หนึ่งสำหรับการคาดการณ์ของฉลาก / ค่าและอื่น ๆ สำหรับการทำนายความมั่นใจของเครือข่ายแรก (.... แต่ฉันจะต้องมีเครือข่ายที่สามเพื่อทำนายความมั่นใจของเครือข่ายที่สองและอื่น ๆ ... ?!) นี่เป็นแนวคิดที่ถูกต้องหรือไม่? ยิ่งกว่านั้นมันเป็นความคิดมาตรฐานที่ใช้กันทั่วไปหรือไม่? ถ้าไม่คุณจะแนะนำอะไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.