คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

3
นักสถิติหมายถึงอะไรเมื่อพวกเขาพูดว่าเราไม่เข้าใจจริงๆว่า LASSO (การทำให้เป็นมาตรฐาน) ทำงานอย่างไร?
ฉันเคยไปพูดคุยเกี่ยวกับสถิติไม่กี่เมื่อเร็ว ๆ นี้เกี่ยวกับ Lasso (normalization) และจุดที่ทำให้ขึ้นคือเราไม่เข้าใจว่าทำไม Lasso ทำงานหรือทำไมมันทำงานได้ดี ฉันสงสัยว่าข้อความนี้หมายถึงอะไร เห็นได้ชัดว่าฉันเข้าใจว่าทำไม Lasso จึงใช้งานทางเทคนิคโดยการป้องกันการ overfitting ด้วยการหดตัวของพารามิเตอร์ แต่ฉันสงสัยว่ามีความหมายลึกซึ้งกว่าหลังคำสั่งดังกล่าว ไม่มีใครมีความคิดใด ๆ ขอบคุณ!

1
การคำนวณอนุพันธ์ของฟังก์ชันเมทริกซ์นี้คืออะไร
ในหลักสูตรการเรียนรู้ด้วยเครื่องของ Andrew Ng เขาใช้สูตรนี้: ∇Atr(ABATC)=CAB+CTABT∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T และเขาพิสูจน์อย่างรวดเร็วซึ่งแสดงด้านล่าง: ∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = \nabla_{\circ} tr(f(\circ)A^TC) + \nabla_{\circ}tr(f(A)\circ^T C)\\ =(A^TC)^Tf'(\circ) + (\nabla_{\circ^T}tr(f(A)\circ^T C)^T \\ = C^TAB^T + (\nabla_{\circ^T}tr(\circ^T)Cf(A))^T \\ =C^TAB^T + ((Cf(A))^T)^T \\ = C^TAB^T + CAB หลักฐานดูเหมือนหนาแน่นมากโดยไม่มีความคิดเห็นใด ๆ และฉันมีปัญหาในการทำความเข้าใจ เกิดอะไรขึ้นจากความเสมอภาคที่สองถึงสาม

4
ความแตกต่างระหว่างโครงข่ายประสาทและการเรียนรู้อย่างลึกซึ้ง
ในแง่ของความแตกต่างระหว่างโครงข่ายประสาทและการเรียนรู้เชิงลึกเราสามารถแสดงรายการได้หลายรายการเช่นมีเลเยอร์เพิ่มขึ้นชุดข้อมูลขนาดใหญ่ฮาร์ดแวร์คอมพิวเตอร์ทรงพลังเพื่อให้การฝึกอบรมมีความซับซ้อน นอกจากนี้มีคำอธิบายรายละเอียดเพิ่มเติมเกี่ยวกับความแตกต่างระหว่าง NN และ DL หรือไม่?

2
โมเดลกราฟิกและเครื่องจักร Boltzmann เกี่ยวข้องกับคณิตศาสตร์หรือไม่?
ในขณะที่ฉันได้ทำการเขียนโปรแกรมด้วยเครื่องจักร Boltzmann ในระดับฟิสิกส์จริง ๆ แล้วฉันไม่คุ้นเคยกับลักษณะทางทฤษฎีของพวกเขา ในทางตรงกันข้ามฉันรู้ว่าเป็นจำนวนเงินที่เจียมเนื้อเจียมตัวเกี่ยวกับทฤษฎีของแบบจำลองกราฟิก (ประมาณสองสามบทแรกของหนังสือเล่ม Lauritzen ของกราฟิกรุ่น ) คำถาม:มีความสัมพันธ์ที่มีความหมายระหว่างโมเดลกราฟิกและเครื่องจักร Boltzmann หรือไม่? เครื่อง Boltzmann เป็นรูปแบบกราฟิกหรือไม่? เห็นได้ชัดว่าเครื่อง Boltzmann เป็นโครงข่ายประสาทประเภทหนึ่ง ฉันเคยได้ยินว่าเครือข่ายประสาทบางส่วนเกี่ยวข้องกับคณิตศาสตร์ในรูปแบบกราฟิกและบางเครือข่ายนั้นไม่ใช่ คำถามที่เกี่ยวข้องกับ CrossValidated ที่ไม่ตอบคำถามของฉัน: คล้ายกับคำถามก่อนหน้านี้ที่ถูกถามมาก่อน: อะไรคือความสัมพันธ์ระหว่างโมเดลลำดับชั้นเครือข่ายประสาทเทียมโมเดลกราฟิกเครือข่ายแบบเบย์? แต่มีความเฉพาะเจาะจงมากขึ้น ยิ่งกว่านั้นคำตอบที่ได้รับการยอมรับสำหรับคำถามนั้นไม่ได้ทำให้ฉันสับสน - แม้ว่าโหนดในการแสดงกราฟิกมาตรฐานของโครงข่ายประสาทเทียมไม่ได้เป็นตัวแทนของตัวแปรแบบสุ่มซึ่งไม่ได้หมายความว่าไม่มีตัวแทนดังกล่าวอยู่จริง โดยเฉพาะฉันคิดว่าโหนดในการแสดงกราฟิกทั่วไปของห่วงโซ่มาร์คอฟเป็นตัวแทนของชุดของสถานะที่เป็นไปได้มากกว่าตัวแปรสุ่มแต่ก็สามารถสร้างกราฟที่แสดงความสัมพันธ์แบบพึ่งพาเงื่อนไขระหว่างXiXiX_iXiXiX_iซึ่งแสดงให้เห็นว่าห่วงโซ่มาร์คอฟทุกอันที่จริงแล้วเป็นสนามสุ่มของมาร์คอฟ คำตอบยังบอกอีกว่าเครือข่ายประสาท (สันนิษฐานรวมถึงเครื่อง Boltzmann) เป็น "พินิจพิเคราะห์" แต่ไม่ได้เข้าไปดูรายละเอียดเพิ่มเติมเพื่ออธิบายสิ่งที่อ้างว่าหมายถึงและคำถามที่ตามมาอย่างชัดเจน จ่าหน้า ในทำนองเดียวกันคำตอบที่ได้รับการยอมรับเชื่อมโยงไปยังเว็บไซต์ของ Kevin Murphy (ฉันอ่านวิทยานิพนธ์ปริญญาเอกของเขาเมื่อเรียนรู้เกี่ยวกับเครือข่าย Bayesian) แต่เว็บไซต์นี้พูดถึงเครือข่าย Bayesian เท่านั้นและไม่ได้กล่าวถึงเครือข่ายประสาทเลย - แตกต่าง. คำถามอื่น ๆ นี้อาจคล้ายกับของฉันมากที่สุด: …

5
ทำไมคะแนน f เบต้ากำหนดเบต้าเช่นนั้น
นี่คือคะแนน F เบต้า: Fβ=(1+β2)⋅precision⋅recall(β2⋅precision)+recallFβ=(1+β2)⋅พีRอีคผมsผมโอn⋅Rอีคaล.ล.(β2⋅พีRอีคผมsผมโอn)+Rอีคaล.ล.F_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{(\beta^2 \cdot \mathrm{precision}) + \mathrm{recall}} วิกิพีเดียบทความระบุว่าF_FβFβF_\beta "measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision" ฉันไม่ได้รับความคิด ทำไมนิยามเช่นนั้น ฉันสามารถกำหนดแบบนี้:F βββ\betaFβFβF_\beta Fβ=(1+β)⋅precision⋅recall(β⋅precision)+recallFβ=(1+β)⋅พีRอีคผมsผมโอn⋅Rอีคaล.ล.(β⋅พีRอีคผมsผมโอn)+Rอีคaล.ล.F_\beta = (1 + \beta) \cdot \frac{\mathrm{precision} \cdot …

3
เป็นไปได้ไหมที่จะฝึกโครงข่ายประสาทเทียมเพื่อวาดภาพในบางสไตล์?
เป็นไปได้ไหมที่จะฝึกโครงข่ายประสาทเทียมเพื่อวาดภาพในบางสไตล์? (ดังนั้นจึงใช้รูปภาพและวาดใหม่ในสไตล์ที่ฝึกมา) มีเทคโนโลยีใดที่ได้รับการรับรองสำหรับสิ่งนั้นหรือไม่? ฉันรู้เกี่ยวกับอัลกอริทึม DeepArt มันเป็นการดีที่จะเติมภาพหลักด้วยรูปแบบบางอย่าง (ตัวอย่างเช่นรูปภาพ vangoghify) แต่ฉันกำลังมองหาบางอย่างที่แตกต่าง - ตัวอย่างเช่นทำให้การ์ตูนในสไตล์ที่แน่นอนจากแนวตั้งอินพุท

1
เครือข่ายประสาทมักใช้เวลาสักครู่เพื่อ“ เริ่มเล่น” ระหว่างการฝึกซ้อมหรือไม่?
ฉันพยายามที่จะฝึกอบรมเครือข่ายประสาทลึกเพื่อจัดหมวดหมู่โดยใช้การขยายพันธุ์กลับ โดยเฉพาะฉันใช้เครือข่ายประสาทเทียมสำหรับการจำแนกภาพโดยใช้ห้องสมุด Tensor Flow ในระหว่างการฝึกฉันพบกับพฤติกรรมแปลก ๆ และฉันแค่สงสัยว่ามันเป็นเรื่องปกติหรือว่าฉันอาจจะทำอะไรผิด ดังนั้นเครือข่ายประสาทเทียมของฉันมี 8 ชั้น (5 convolutional, 3 เชื่อมต่อเต็ม) น้ำหนักและอคติทั้งหมดจะเริ่มต้นด้วยตัวเลขสุ่มขนาดเล็ก จากนั้นฉันตั้งขนาดขั้นตอนและดำเนินการฝึกอบรมด้วยชุดเล็กโดยใช้ Adam Optimizer ของ Tensor Flow พฤติกรรมแปลก ๆ ที่ฉันกำลังพูดถึงคือประมาณ 10 ลูปแรกจากข้อมูลการฝึกอบรมของฉันการสูญเสียการฝึกอบรมโดยทั่วไปไม่ลดลง น้ำหนักกำลังได้รับการปรับปรุง แต่การสูญเสียการฝึกอบรมอยู่ที่ประมาณค่าเดียวกันบางครั้งจะเพิ่มขึ้นและบางครั้งจะลดลงระหว่างชุดมินิ มันคงอยู่แบบนี้ซักพักแล้วและฉันก็มักจะได้รับความประทับใจว่าการสูญเสียจะไม่ลดลง ทันใดนั้นการสูญเสียการฝึกอบรมก็ลดลงอย่างรวดเร็ว ตัวอย่างเช่นภายในประมาณ 10 ลูปผ่านข้อมูลการฝึกอบรมความแม่นยำในการฝึกอบรมจะอยู่ที่ประมาณ 20% ถึงประมาณ 80% จากนั้นเป็นต้นมาทุกอย่างก็จบลงอย่างบรรจบกัน สิ่งเดียวกันเกิดขึ้นทุกครั้งที่ฉันเรียกใช้ขั้นตอนการฝึกอบรมตั้งแต่เริ่มต้นและด้านล่างเป็นกราฟที่แสดงตัวอย่างการวิ่งหนึ่งครั้ง ดังนั้นสิ่งที่ฉันสงสัยคือว่านี่เป็นพฤติกรรมปกติด้วยการฝึกอบรมโครงข่ายประสาทเทียมลึกหรือไม่ หรือเป็นไปได้ว่ามีบางอย่างที่ฉันทำผิดซึ่งทำให้เกิดความล่าช้านี้ ขอบคุณมาก ๆ!

2
เมทริกซ์ความแปรปรวนร่วมผกผันกับเมทริกซ์ความแปรปรวนร่วมใน PCA
ใน PCA มันสร้างความแตกต่างหรือไม่ถ้าเราเลือกส่วนประกอบหลักของเมทริกซ์ความแปรปรวนร่วมผกผันหรือถ้าเราปล่อยค่าลักษณะเฉพาะความแปรปรวนร่วมของเมทริกซ์ความแปรปรวนร่วมที่สอดคล้องกับค่าลักษณะเฉพาะขนาดใหญ่ สิ่งนี้เกี่ยวข้องกับการสนทนาในโพสต์นี้

1
การป้องกันการสุ่มตัวอย่างสำคัญของ Pareto ทำให้ราบรื่น (PSIS-LOO) จากความล้มเหลว
เมื่อเร็ว ๆ นี้ฉันเริ่มใช้การสุ่มตัวอย่างความสำคัญแบบพาเรนต์แบบเรียบง่ายจาก Pareto การตรวจสอบความถูกต้องแบบ cross-one-out (PSIS-LOO) ที่อธิบายไว้ในเอกสารเหล่านี้: Vehtari, A. , & Gelman, A. (2015) การสุ่มตัวอย่างสำคัญของ Pareto ทำให้ราบรื่น พิมพ์ล่วงหน้า arXiv ( ลิงก์ ) Vehtari, A. , Gelman, A. , & Gabry, J. (2016) การประเมินรูปแบบเบย์ในทางปฏิบัติโดยใช้การตรวจสอบความถูกต้องแบบลาก่อนและ WAIC คำนำหน้า arXiv ( ลิงก์ ) สิ่งนี้แสดงให้เห็นถึงวิธีการที่น่าสนใจอย่างมากในการประเมินแบบจำลองนอกตัวอย่างเนื่องจากช่วยให้สามารถทำการ LOO-CV ด้วยการเรียกใช้ MCMC เดียวและถูกกล่าวหาว่าดีกว่าเกณฑ์ข้อมูลที่มีอยู่เช่น WAIC k^ผมk^ผม\hat{k}_ik^ผม≳ 0.7k^ผม≳0.7\hat{k}_i \gtrsim 0.7 …

3
กรณีการใช้ RBF SVM (เทียบกับการถดถอยโลจิสติกและฟอเรสต์แบบสุ่ม)
สนับสนุนเครื่องเวกเตอร์ที่มีเคอร์เนลฟังก์ชั่นพื้นฐานเป็นตัวจําแนกภายใต้การดูแลทั่วไป ในขณะที่ฉันรู้พื้นฐานทางทฤษฎีสำหรับ SVM เหล่านี้และจุดแข็งของพวกเขาฉันไม่ทราบถึงกรณีที่พวกเขาเป็นวิธีที่ต้องการ ดังนั้นจึงมีปัญหาหลายระดับที่ RBF SVMs เหนือกว่าเทคนิค ML อื่น ๆ หรือไม่? (ทั้งในแง่ของคะแนนหรืออื่น ๆ - เช่นความแข็งแกร่งความง่ายในการเริ่มต้นการตีความ ฯลฯ ) ฉันถามว่าเนื่องจากวิธีการเริ่มต้นของฉันอยู่ที่การถดถอยแบบโลจิสติกส์ (อาจมีการโต้ตอบ) ป่าสุ่มและเครือข่ายประสาท ไม่มีเพื่อนของฉันที่ทำ ML (บางคนเป็นผู้ชนะ Kaggle) เป็นผู้ใช้ SVM (แต่อาจเป็นสิ่งประดิษฐ์ของชุมชนของฉันหรือปัญหาที่พวกเขาทำ)

2
เหตุใด softmax จึงถูกใช้เพื่อแสดงการแจกแจงความน่าจะเป็น
ในวรรณคดีการเรียนรู้ของเครื่องเพื่อแสดงถึงการแจกแจงความน่าจะเป็นฟังก์ชัน softmax มักถูกใช้ มีเหตุผลสำหรับสิ่งนี้หรือไม่? เหตุใดจึงไม่ใช้ฟังก์ชันอื่น

1
PCA มีความหมายว่าอย่างไรในการรักษาระยะทางคู่ที่มีขนาดใหญ่เท่านั้น?
ขณะนี้ฉันกำลังอ่านเทคนิคการสร้างภาพข้อมูล t-SNE และได้มีการกล่าวว่าหนึ่งในข้อเสียของการใช้การวิเคราะห์องค์ประกอบหลัก (PCA) สำหรับการแสดงข้อมูลมิติสูงคือการรักษาระยะห่างระหว่างจุดสองจุดขนาดใหญ่เท่านั้น จุดความหมายที่อยู่ห่างกันในพื้นที่มิติสูงก็จะปรากฏห่างกันในพื้นที่ย่อยต่ำ แต่นอกเหนือจากนั้นระยะทางคู่อื่น ๆ ทั้งหมดจะได้รับการเมาขึ้น ใครช่วยให้ฉันเข้าใจว่าทำไมมันถึงเป็นเช่นนั้นและมันหมายถึงอะไร?

1
ทำความเข้าใจเกี่ยวกับการใช้ลอการิทึมในลอการิทึม TF-IDF
ฉันกำลังอ่าน: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าทำไมสูตรจึงสร้างในแบบที่มันเป็น ฉันเข้าใจอะไร: iDF ควรที่จะวัดระดับความบ่อยครั้งที่คำ S ปรากฏในเอกสารแต่ละฉบับลดลงตามมูลค่าเมื่อคำนั้นปรากฏบ่อยขึ้น จากมุมมองนั้น ฉันD F.( S) = # ของเอกสาร# ของเอกสารที่มี SผมDF(S)=# ของเอกสาร# ของเอกสารที่มี S iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}} นอกจากนี้ความถี่เทอมสามารถอธิบายได้อย่างถูกต้องว่า t f( S, D ) = # ของเหตุการณ์ S ในเอกสาร D # จำนวนการเกิดขึ้นสูงสุดสำหรับสตริง Q ใด ๆ ในเอกสาร D …

1
ป่าสุ่มเทียบ Adaboost
ในส่วนที่ 7 ของกระดาษป่าสุ่ม (Breiman, 1999) ผู้เขียนระบุการคาดเดาต่อไปนี้: "Adaboost เป็นป่าสุ่ม" มีใครพิสูจน์หรือหักล้างสิ่งนี้หรือไม่? สิ่งที่ทำเพื่อพิสูจน์หรือหักล้างโพสต์นี้ 1999?

2
pretraining คืออะไรและคุณจะฝึกฝนเครือข่ายประสาทเทียมอย่างไร
ฉันเข้าใจว่าการเตรียมการล่วงหน้านั้นใช้เพื่อหลีกเลี่ยงปัญหาบางอย่างด้วยการฝึกอบรมทั่วไป ถ้าฉันใช้ backpropagation ด้วยพูด autoencoder ฉันรู้ว่าฉันกำลังจะเจอปัญหาเวลาเพราะ backpropagation ช้าและฉันสามารถติดอยู่ใน optima ท้องถิ่นและไม่ได้เรียนรู้คุณสมบัติบางอย่าง สิ่งที่ฉันไม่เข้าใจคือวิธีที่เราฝึกฝนเครือข่ายและสิ่งที่เราทำเพื่อฝึกฝน ตัวอย่างเช่นหากเราได้รับเครื่อง Boltzmann ที่มีการ จำกัด จำนวนมากเราจะจัดการเครือข่ายนี้ได้อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.