คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
Batch Normalization ใช้ค่าเฉลี่ยเคลื่อนที่อย่างไรและทำไมในการติดตามความแม่นยำของโมเดลในขณะที่รถไฟ?
ฉันกำลังอ่านกระดาษการทำแบตช์ให้เป็นมาตรฐาน (BN) (1) และไม่เข้าใจความจำเป็นในการใช้ค่าเฉลี่ยเคลื่อนที่เพื่อติดตามความแม่นยำของแบบจำลองและแม้ว่าฉันยอมรับว่ามันเป็นสิ่งที่ถูกต้องที่จะทำฉันไม่เข้าใจ พวกเขากำลังทำอะไรกันแน่ เพื่อความเข้าใจของฉัน (ซึ่งฉันผิด) กระดาษกล่าวว่าจะใช้สถิติประชากรมากกว่ามินิแบทช์สถิติเมื่อแบบจำลองเสร็จสิ้นการฝึกอบรม หลังจากการอภิปรายของการประมาณการที่ไม่เอนเอียง (ซึ่งดูเหมือนว่าจะเป็นวงสัมผัสกับฉันและไม่เข้าใจว่าทำไมมันถึงพูดถึงเรื่องนี้) พวกเขาไปและพูดว่า: ใช้ค่าเฉลี่ยเคลื่อนที่แทนเราติดตามความแม่นยำของแบบจำลองในขณะที่รถไฟ นั่นคือส่วนที่ทำให้ฉันสับสน เหตุใดพวกเขาจึงทำการย้ายค่าเฉลี่ยเพื่อประเมินความแม่นยำของโมเดลและชุดข้อมูลใด โดยทั่วไปแล้วสิ่งที่ผู้คนทำเพื่อประเมินลักษณะทั่วไปของแบบจำลองของพวกเขาพวกเขาเพียงแค่ติดตามข้อผิดพลาดในการตรวจสอบความถูกต้องของแบบจำลองของพวกเขา อย่างไรก็ตามดูเหมือนว่าการทำแบทช์ให้เป็นมาตรฐานนั้นกำลังทำสิ่งที่แตกต่างไปจากเดิมอย่างสิ้นเชิง ใครบางคนสามารถชี้แจงสิ่งที่และทำไมมันทำอะไรที่แตกต่างกันอย่างไร 1 : Ioffe S. และ Szegedy C. (2015), "Batch Normalization: เร่งการฝึกอบรมเครือข่ายลึกโดยการลดการเปลี่ยนแปลงภายใน Covariate Shift" การดำเนินการประชุมนานาชาติครั้งที่ 32 เกี่ยวกับการเรียนรู้ของเครื่องจักร Lille, France, 2015 วารสารการวิจัยการเรียนรู้ของเครื่องจักร W&CP เล่ม 37

2
เหตุใดฟังก์ชัน softmax จึงถูกใช้เพื่อคำนวณความน่าจะเป็นแม้ว่าเราจะสามารถหารแต่ละค่าด้วยผลรวมของเวกเตอร์ได้
การใช้ฟังก์ชั่น softmax บนเวกเตอร์จะผลิต "ความน่าจะเป็น" และค่าระหว่างและ1 000111 แต่เรายังสามารถแบ่งแต่ละค่าโดยรวมของเวกเตอร์และที่จะผลิตความน่าจะเป็นและค่าระหว่างและ1000111 ฉันอ่านคำตอบที่นี่แต่มันบอกว่าเหตุผลก็เพราะมันแตกต่างกันถึงแม้ว่าทั้งสองฟังก์ชั่นจะแตกต่างกัน

2
ความแตกต่างระหว่าง initializer scaling initializer และ xavier initializer คืออะไร
ในการใช้งานResNetของ Tensorflow ฉันพบว่าพวกเขาใช้ initializer scaling initializer ฉันยังพบว่า xavier initializer นั้นเป็นที่นิยม ฉันไม่มีประสบการณ์มากเกินไปเกี่ยวกับเรื่องนี้

9
Overfitting และ Underfitting
ฉันได้ทำการวิจัยบางอย่างเกี่ยวกับการให้น้ำหนักมากไปและ underfitting และฉันเข้าใจว่ามันคืออะไร แต่ฉันไม่สามารถหาสาเหตุได้ อะไรคือสาเหตุหลักของการทำ overfitting และ underfitting? ทำไมเราต้องเผชิญกับปัญหาทั้งสองนี้ในการฝึกอบรมนางแบบ?

3
ทำไม AUC = 1 ถึงแม้ตัวแยกประเภทได้แบ่งครึ่งตัวอย่างแล้ว?
ฉันใช้ตัวจําแนกซึ่งส่งกลับความน่าจะเป็น ในการคำนวณ AUC ฉันใช้ pROC R-package ความน่าจะเป็นผลลัพธ์จากลักษณนามคือ: probs=c(0.9865780, 0.9996340, 0.9516880, 0.9337157, 0.9778576, 0.8140116, 0.8971550, 0.8967585, 0.6322902, 0.7497237) probsแสดงความน่าจะเป็นที่อยู่ในระดับ '1' ดังที่แสดงลักษณนามได้จำแนกตัวอย่างทั้งหมดในคลาส '1' True label vector คือ: truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0) ดังที่แสดงลักษณนามได้จำแนก 5 ตัวอย่าง แต่ AUC คือ: pROC::auc(truel, probs) Area under the curve: 1 คุณช่วยอธิบายให้ฉันฟังหน่อยได้ไหมว่าทำไมมันถึงเกิดขึ้น?

4
ความแตกต่างระหว่างการเรียนรู้และการอนุมานคืออะไร?
เอกสารการเรียนรู้การเรียนรู้ด้วยเครื่องมักจะรักษาการเรียนรู้และการอนุมานว่าเป็นภารกิจสองอย่างที่แยกกัน แต่ก็ไม่ชัดเจนสำหรับฉันว่าความแตกต่างคืออะไร ในหนังสือเล่มนี้พวกเขาใช้สถิติแบบเบย์สำหรับงานทั้งสองประเภท แต่ไม่ได้ให้แรงจูงใจสำหรับความแตกต่างนั้น ฉันมีความคิดที่คลุมเครือหลายอย่างเกี่ยวกับสิ่งที่อาจเป็นเกี่ยวกับ แต่ฉันอยากจะเห็นคำจำกัดความที่มั่นคงและบางทีก็อาจเป็นการโต้แย้งหรือการขยายความคิดของฉัน: ความแตกต่างระหว่างการอนุมานค่าของตัวแปรแฝงสำหรับจุดข้อมูลที่แน่นอนและการเรียนรู้รูปแบบที่เหมาะสมสำหรับข้อมูล ความแตกต่างระหว่างการแยกความแปรปรวน (การอนุมาน) และการเรียนรู้การบุกรุกเพื่อที่จะสามารถแยกความแปรปรวน (โดยการเรียนรู้พลวัตของพื้นที่อินพุต / กระบวนการ / โลก) การเปรียบเทียบทางระบบประสาทอาจเป็น potentiation / depression ระยะสั้น (ร่องรอยความจำ) เทียบกับ potentiation / depression ระยะยาว

3
ในการเรียนรู้ของเครื่องทำไมตัวยกส่วนเกินจึงใช้แทนตัวห้อย?
ฉันสละแน่นอนแอนดรูอึ้งบนเครื่องการเรียนรู้ผ่าน Coursera สำหรับสมการตัวยกจะถูกใช้แทนตัวห้อย ตัวอย่างเช่นในสมการต่อไปนี้ใช้แทน : x ix( i )x(ผม)x^{(i)}xผมxผมx_i J( θ0, θ1) = 12 มΣi = 1ม.( ชมθ( x( i )) - y( i ))2J(θ0,θ1)=12ม.Σผม=1ม.(ชั่วโมงθ(x(ผม))-Y(ผม))2J(\theta_0, \theta_1) = \frac{1}{2m} \sum\limits_{i=1}^{m}{(h_\theta(x^{(i)}) - y^{(i)})^2} เห็นได้ชัดว่านี่เป็นเรื่องธรรมดา คำถามของฉันคือเหตุใดจึงใช้ตัวยกแทนตัวห้อย? Superscripts ถูกใช้แล้วสำหรับการยกกำลัง จริงอยู่ที่ฉันดูเหมือนจะสามารถแยกแยะความแตกต่างระหว่างกรณียกและยกกำลังใช้กรณีโดยให้ความสนใจกับวงเล็บอยู่หรือไม่ แต่มันก็ดูเหมือนจะทำให้เกิดความสับสน


5
เรายังต้องเลือกคุณสมบัติในขณะใช้อัลกอริทึม
ฉันมีคำถามหนึ่งข้อที่ต้องใช้วิธีการเลือกคุณลักษณะ (สุ่มป่าคุณลักษณะค่าความสำคัญหรือวิธีการเลือกคุณสมบัติแบบไม่รวมตัวแปร) ก่อนใช้อัลกอริทึมการเรียนรู้เชิงสถิติ เรารู้ว่าเพื่อหลีกเลี่ยงการ overfitting เราสามารถแนะนำการปรับความสม่ำเสมอในเวกเตอร์น้ำหนัก ดังนั้นถ้าฉันต้องการทำการถดถอยเชิงเส้นจากนั้นฉันสามารถแนะนำ L2 หรือ L1 หรือแม้แต่พารามิเตอร์การทำให้เป็นมาตรฐานสุทธิยืดหยุ่น ในการรับโซลูชันที่กระจัดกระจายการลงโทษ L1 จะช่วยในการเลือกคุณลักษณะ ถ้าอย่างนั้นก็ยังต้องเลือกคุณสมบัติก่อนใช้การถดถอยปกติของ L1 เช่น Lasso? ในทางเทคนิค Lasso ช่วยฉันลดฟีเจอร์ด้วยการลงโทษ L1 แล้วทำไมต้องเลือกฟีเจอร์ก่อนใช้งาน algo? ฉันอ่านบทความวิจัยที่บอกว่าการทำ Anova จากนั้น SVM ให้ประสิทธิภาพที่ดีกว่าการใช้ SVM เพียงอย่างเดียว ตอนนี้คำถามคือ: SVM ทำการทำให้เป็นมาตรฐานโดยใช้ L2 เป็นประจำ เพื่อให้ได้มาร์จิ้นที่มากที่สุดก็คือการลดขนาดของเวกเตอร์น้ำหนัก ดังนั้นมันจึงทำให้เป็นมาตรฐานในฟังก์ชันวัตถุประสงค์ ถ้าเช่นนั้นอัลกอริทึมทางเทคนิคเช่น SVM ไม่ควรกังวลเกี่ยวกับวิธีการเลือกคุณสมบัติหรือไม่ แต่รายงานยังคงกล่าวว่าการเลือกคุณลักษณะ Univariate ก่อน SVM ปกติจะมีประสิทธิภาพมากกว่า ใครที่มีความคิด

4
มีอัลกอริทึมคล้ายต้นไม้ตัดสินใจสำหรับการทำคลัสเตอร์แบบไม่ดูแลหรือไม่
ฉันมีชุดข้อมูลประกอบด้วย 5 คุณสมบัติ: A, B, C, D, E พวกเขาทั้งหมดเป็นค่าตัวเลข แทนที่จะทำการจัดกลุ่มตามความหนาแน่นสิ่งที่ฉันต้องการทำคือการจัดกลุ่มข้อมูลในลักษณะคล้ายต้นไม้ตัดสินใจ วิธีที่ฉันหมายถึงคือ: อัลกอริทึมอาจแบ่งข้อมูลออกเป็นกลุ่มเริ่มต้น X ตามคุณลักษณะ C เช่นกลุ่ม X อาจมีขนาดเล็ก C ขนาดกลาง C ขนาดใหญ่และค่า C ที่มีขนาดใหญ่มากเป็นต้นถัดไปภายใต้โหนดคลัสเตอร์ X แต่ละโหนดอัลกอริธึมเพิ่มเติม ข้อมูลในคลัสเตอร์ Y ตามคุณลักษณะ A อัลกอริทึมจะดำเนินต่อไปจนกว่าจะใช้คุณลักษณะทั้งหมด อัลกอริทึมที่ฉันอธิบายไว้ข้างต้นเป็นเหมือนอัลกอริธึมต้นไม้ตัดสินใจ แต่ฉันต้องการมันสำหรับการจัดกลุ่มแบบไม่ดูแลแทนการจัดกลุ่มแบบมีผู้ดูแล คำถามของฉันมีดังต่อไปนี้: อัลกอริทึมดังกล่าวมีอยู่แล้วหรือไม่? ชื่อที่ถูกต้องสำหรับอัลกอริทึมดังกล่าวคืออะไร มีแพ็คเกจ / ไลบรารี R / python ที่มีการใช้อัลกอริทึมชนิดนี้หรือไม่?

2
การเรียนรู้อย่างล้ำลึกอยู่ที่ไหนและเพราะเหตุใด
ด้วยการที่สื่อพูดคุยและโฆษณาเกี่ยวกับการเรียนรู้อย่างลึกซึ้งในทุกวันนี้ฉันได้อ่านสิ่งเบื้องต้นเกี่ยวกับมัน ฉันเพิ่งพบว่ามันเป็นเพียงวิธีการเรียนรู้ของเครื่องอีกวิธีหนึ่งในการเรียนรู้รูปแบบจากข้อมูล แต่คำถามของฉันคือ: ที่ไหนและทำไมวิธีการนี้ส่องแสง? ทำไมทุกคนพูดถึงมันตอนนี้? คือเอะอะทั้งหมดเกี่ยวกับอะไร?

3
การเรียนรู้ของเครื่องเพื่อทำนายความน่าจะเป็นในชั้นเรียน
ฉันกำลังมองหาตัวแยกประเภทที่เอาต์พุตความน่าจะเป็นซึ่งเป็นตัวอย่างของหนึ่งในสองคลาส ฉันรู้ว่าการถดถอยโลจิสติกและเบย์ไร้เดียงสา แต่คุณสามารถบอกฉันเกี่ยวกับคนอื่น ๆ ที่ทำงานในลักษณะเดียวกันได้หรือไม่? นั่นคือตัวแยกประเภทที่ไม่ได้คาดคะเนคลาสที่เป็นของตัวอย่าง แต่ความน่าจะเป็นที่ตัวอย่างนั้นเหมาะสมกับคลาสเฉพาะหรือไม่ คะแนนโบนัสสำหรับความคิดที่คุณสามารถแบ่งปันเกี่ยวกับข้อดีและข้อเสียของตัวแยกประเภทที่แตกต่างกันเหล่านี้ (รวมถึงการถดถอยโลจิสติกและ Bayes ไร้เดียงสา) ตัวอย่างเช่นมีการจัดหมวดหมู่หลายชั้นที่ดีกว่าบ้างไหม?

2
สมมติฐานที่หลากหลายในการเรียนรู้แบบกึ่งดูแลคืออะไร
ฉันพยายามที่จะเข้าใจว่าสมมติฐานที่หลากหลายมีความหมายอย่างไรในการเรียนรู้แบบกึ่งมีผู้สอน ทุกคนสามารถอธิบายด้วยวิธีง่าย ๆ ได้ไหม? ฉันไม่สามารถรับสัญชาตญาณที่อยู่เบื้องหลังได้ มันบอกว่าข้อมูลของคุณวางอยู่บนท่อร่วมมิติขนาดเล็กที่ฝังอยู่ในพื้นที่มิติที่สูงขึ้น ฉันไม่ได้รับสิ่งที่หมายถึง

2
การเรียนรู้การเสริมแรงที่เกิดขึ้นคืออะไร
ฉันเพิ่งเจอคำว่า "การเรียนรู้เสริมกำลังกำเริบ" ฉันเข้าใจว่า "เครือข่ายประสาทที่เกิดขึ้นอีก" คืออะไรและ "การเรียนรู้การเสริมแรง" คืออะไร แต่ไม่สามารถหาข้อมูลได้มากนักเกี่ยวกับสิ่งที่ มีคนอธิบายให้ฉันได้ไหมว่า "การเรียนรู้การเสริมแรงแบบเกิดซ้ำ" กับอะไรคือความแตกต่างระหว่าง "การเรียนรู้การเสริมแรงแบบกำเริบ" และสิ่งที่ปกติคือ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.