คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

5
ภาษาการเขียนโปรแกรมใดที่คุณแนะนำให้สร้างต้นแบบปัญหาการเรียนรู้ของเครื่อง?
กำลังทำงานใน Octave แต่เนื่องจากความคืบหน้าของเอกสารไม่ดีช้ามาก ภาษาใดที่ง่ายต่อการเรียนรู้และใช้งานและมีเอกสารที่ดีในการแก้ปัญหาการเรียนรู้ของเครื่อง? ฉันกำลังมองหาต้นแบบบนชุดข้อมูลขนาดเล็ก (ตัวอย่างหลายพันตัวอย่าง) ดังนั้นความเร็วจึงไม่สำคัญ แก้ไข: ฉันกำลังพัฒนาเครื่องมือแนะนำ ดังนั้นฉันสนใจที่จะใช้ Regularized Linear Regression, Neural Nets, SVN หรือ Collaborative Filtering

2
การเชื่อมต่อระหว่างฟังก์ชั่น softmax ใน ML และการกระจาย Boltzmann ในอุณหพลศาสตร์มีความลึกเพียงใด
ฟังก์ชั่น softmax ที่ใช้กันทั่วไปในเครือข่ายประสาทเทียมเพื่อแปลงจำนวนจริงเป็นความน่าจะเป็นเป็นฟังก์ชันเดียวกับการแจกแจง Boltzmann การกระจายความน่าจะเป็นเหนือพลังงานสำหรับทั้งมวลของอนุภาคในสมดุลความร้อนที่อุณหภูมิ T ในอุณหพลศาสตร์ ฉันเห็นเหตุผลบางประการที่ชัดเจนว่าทำไมถึงเป็นจริง: ไม่ว่าหากค่าอินพุตเป็นลบ softmax จะส่งออกค่าบวกที่รวมเป็นหนึ่ง มันแตกต่างกันเสมอซึ่งเป็นประโยชน์สำหรับการ backpropagation มันมีพารามิเตอร์ 'อุณหภูมิ' ที่ควบคุมว่าเครือข่ายควรผ่อนปรนค่าขนาดเล็กได้อย่างไร (เมื่อ T มีขนาดใหญ่มากผลลัพธ์ทั้งหมดมีแนวโน้มเท่ากันเมื่อมีขนาดเล็กมากเฉพาะค่าที่เลือกอินพุตมากที่สุดเท่านั้น) ฟังก์ชั่น Boltzmann ใช้เป็น softmax เพียงอย่างเดียวสำหรับเหตุผลในทางปฏิบัติหรือมีการเชื่อมต่อกับอุณหพลศาสตร์ / ฟิสิกส์เชิงสถิติที่ลึกซึ้งขึ้นหรือไม่?

2
ทำไมเราไม่ใช้ค่าเฉลี่ยถ่วงน้ำหนักแทนค่าเฉลี่ยฮาร์มอนิก
ฉันสงสัยว่าอะไรคือคุณค่าที่แท้จริงของการใช้ค่าเฉลี่ยฮาร์มอนิก (ตัวอย่างเช่นการคำนวณค่า F- มาตรการ) ซึ่งต่างจากค่าเฉลี่ยเลขคณิตถ่วงน้ำหนักในการรวมความแม่นยำและการเรียกคืน? ฉันคิดว่าค่าเฉลี่ยเลขคณิตถ่วงน้ำหนักสามารถเล่นบทบาทของค่าเฉลี่ยฮาร์มอนิกได้หรือฉันขาดอะไรไป?

1
การเปลี่ยนแปลงความหนาแน่นของความน่าจะเป็นต่างกันเนื่องจากปัจจัยจาโคเบียน
ในการจดจำรูปแบบของอธิการและการเรียนรู้ของเครื่องจักรฉันอ่านสิ่งต่อไปนี้หลังจากความหนาแน่นของความน่าจะเป็นถูกนำมาใช้:p(x∈(a,b))=∫bap(x)dxp(x∈(a,b))=∫abp(x)dxp(x\in(a,b))=\int_a^bp(x)\textrm{d}x ภายใต้การเปลี่ยนแปลงของตัวแปรแบบไม่เชิงเส้นความหนาแน่นของความน่าจะเป็นจะเปลี่ยนไปจากฟังก์ชันแบบง่ายเนื่องจากปัจจัยจาโคเบียน ตัวอย่างเช่นถ้าเราพิจารณาการเปลี่ยนแปลงของตัวแปรแล้วฟังก์ชันจะกลายเป็น (y)) ตอนนี้ให้พิจารณาความหนาแน่นของความน่าจะเป็นที่สอดคล้องกับความหนาแน่น เทียบกับตัวแปรใหม่ซึ่ง suf fi ces แสดงถึงความจริงที่ว่าและมีความหนาแน่นต่างกัน การสังเกตการณ์ที่ตกอยู่ในช่วงจะเปลี่ยนเป็นค่าเล็ก ๆ ของ เป็นช่วงx=g(y)x=g(y)x = g(y)f(x)f(x)f(x)f~(y)=f(g(y))f~(y)=f(g(y))\tilde{f}(y) = f(g(y))px(x)px(x)p_x(x)พีY( y)พีY(Y)p_y(y)YYyพีx( x )พีx(x)p_x(x)พีY( y)พีY(Y)p_y(y)( x , x + δx )(x,x+δx)(x, x + \delta x)δxδx\delta x( y, y+ δY(Y,Y+δY(y, y + \delta y ) โดยที่ พีx( x ) δx≃py(y)δypx(x)δx≃py(y)δyp_x(x)\delta x \simeq p_y(y)δyและด้วยเหตุนี้py(y)=px(x)|dxdy|=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y) = …

1
XGBoost สามารถจัดการข้อมูลที่ขาดหายไปในขั้นตอนการพยากรณ์
เมื่อเร็ว ๆ นี้ฉันได้ตรวจสอบอัลกอริทึม XGBoost และฉันสังเกตเห็นว่าอัลกอริทึมนี้สามารถจัดการข้อมูลที่ขาดหายไป (โดยไม่ต้องใส่ข้อมูล) ในขั้นตอนการฝึกอบรม ฉันสงสัยว่า XGboost สามารถจัดการข้อมูลที่หายไป (โดยไม่ต้องใส่ข้อมูล) เมื่อใช้สำหรับการคาดการณ์การสังเกตใหม่หรือมีความจำเป็นในการใส่ข้อมูลที่ขาดหายไป ขอบคุณล่วงหน้า.

1
วิธีปรับน้ำหนักให้เป็นค่า Q ด้วยการประมาณฟังก์ชั่นเชิงเส้น
ในการเรียนรู้การเสริมแรงการประมาณฟังก์ชั่นเชิงเส้นมักใช้เมื่อมีพื้นที่ของรัฐขนาดใหญ่ (เมื่อค้นหาตารางจะไม่สามารถทำได้) รูปแบบของคุ้มค่ากับฟังก์ชั่นการประมาณเชิงเส้นจะถูกกำหนดโดยถาม-Q−Q- Q ( s , a ) = w1ฉ1( s , a ) + w2ฉ2( s , a ) + ⋯ ,Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots, ที่มีน้ำหนักและฉฉันเป็นคุณสมบัติWผมWผมw_iฉผมฉผมf_i คุณสมบัติที่กำหนดไว้ล่วงหน้าโดยผู้ใช้ คำถามของฉันคือน้ำหนักถูกกำหนดอย่างไร ฉันได้อ่าน / ดาวน์โหลดสไลด์การบรรยายบางอย่างเกี่ยวกับการเรียนรู้ด้วยฟังก์ชั่นการประมาณ ส่วนใหญ่มีสไลด์บนการถดถอยเชิงเส้นที่ตามมา เนื่องจากเป็นเพียงสไลด์จึงมีแนวโน้มที่จะไม่สมบูรณ์ ฉันสงสัยว่าการเชื่อมต่อ / ความสัมพันธ์ระหว่างสองหัวข้อคืออะไรถาม-Q-Q-

1
จะเข้าใจได้อย่างไรว่า MLE of Variance นั้นลำเอียงในการแจกแจงแบบเกาส์เซียน?
ฉันกำลังอ่าน PRML และฉันไม่เข้าใจภาพ คุณกรุณาให้คำแนะนำเพื่อเข้าใจภาพและทำไมความแปรปรวนของ MLE ในการแจกแจงแบบเกาส์ถึงมีอคติ? สูตร 1.55: สูตร 1.56 σ 2 M L E =1μMLE=1N∑n=1NxnμMLE=1N∑n=1Nxn \mu_{MLE}=\frac{1}{N} \sum_{n=1}^N x_n σ2MLE=1N∑n=1N(xn−μMLE)2σMLE2=1N∑n=1N(xn−μMLE)2 \sigma_{MLE}^2=\frac{1}{N}\sum_{n=1}^{N}(x_n-\mu_{MLE})^2


1
ความสัมพันธ์ระหว่าง Hessian Matrix และ Covariance Matrix
ในขณะที่ฉันกำลังศึกษาการประมาณความเป็นไปได้สูงสุดเพื่อทำการอนุมานในการประมาณความน่าจะเป็นสูงสุดเราจำเป็นต้องทราบความแปรปรวน หากต้องการทราบความแปรปรวนฉันต้องรู้ว่า Rao Lower Bound ของแครเมอร์ซึ่งดูเหมือนเมทริกซ์ของ Hessian ที่มีอนุพันธ์อันดับสองเกี่ยวกับความโค้ง ฉันสับสนในการกำหนดความสัมพันธ์ระหว่างเมทริกซ์ความแปรปรวนร่วมกับเมทริกซ์แบบเฮสเซียน หวังว่าจะได้ยินคำอธิบายบางอย่างเกี่ยวกับคำถาม ตัวอย่างง่ายๆจะได้รับการชื่นชม

3
จะสร้างเมทริกซ์ความสับสนสำหรับตัวแยกประเภทมัลติคลาสได้อย่างไร?
ฉันมีปัญหากับ 6 คลาส ดังนั้นฉันจึงสร้างตัวแยกประเภทมัลติคลาสดังนี้สำหรับแต่ละคลาสฉันมีลักษณนามลอจิสติกการถดถอยหนึ่งตัวโดยใช้ One vs. All ซึ่งหมายความว่าฉันมี 6 ลักษณนามที่แตกต่างกัน ฉันสามารถรายงานเมทริกซ์ความสับสนสำหรับตัวแยกประเภทแต่ละคนของฉัน แต่ฉันต้องการรายงานความสับสนของตัวแยกประเภททั้งหมดดังที่ฉันเห็นในตัวอย่างมากมายที่นี่ ฉันจะทำมันได้อย่างไร ฉันต้องเปลี่ยนกลยุทธ์การจัดหมวดหมู่ของฉันโดยใช้อัลกอริทึม One vs. One แทน One vs. All หรือไม่ เพราะในการฝึกอบรมความสับสนเหล่านี้รายงานกล่าวว่าผลบวกปลอมสำหรับแต่ละชั้นเรียน ตัวอย่างของเมทริกซ์ความสับสนหลายระดับ ฉันต้องการค้นหาจำนวนรายการที่ไม่ถูกจำแนก ในแถวแรกมี 137 ตัวอย่างของชั้นที่ 1 ที่ได้รับการจัดเป็นชั้นที่ 1 และ 13 ตัวอย่างของชั้นที่ 1 ที่ได้รับการจัดเป็นระดับ 2 วิธีรับหมายเลขนี้

1
วิธีใช้ตอการตัดสินใจในฐานะผู้เรียนที่อ่อนแอใน Adaboost
ฉันต้องการใช้ Adaboost โดยใช้ Decision Stump ถูกต้องหรือไม่ที่จะทำการตัดสินใจตอให้มากที่สุดเท่าที่คุณสมบัติของชุดข้อมูลของเราในแต่ละการซ้ำของ Adaboost ตัวอย่างเช่นถ้าฉันมีชุดข้อมูลที่มี 24 คุณลักษณะฉันควรมีตัวแยกประเภทตอการตัดสินใจ 24 ครั้งในการวนซ้ำแต่ละครั้งหรือไม่ หรือฉันควรเลือกคุณสมบัติบางอย่างแบบสุ่มและสร้างตัวจําแนกพวกมันแทนคุณสมบัติทั้งหมดหรือไม่

1
การกระจายบันทึกอย่างสม่ำเสมอหมายถึงอะไร
เมื่อมีคนบอกว่าข้อมูลถูกสุ่มตัวอย่างจากการกระจายอย่างสม่ำเสมอระหว่าง 128 ถึง 4,000 นั่นหมายความว่าอย่างไร มันแตกต่างจากการสุ่มตัวอย่างจากการแจกแจงแบบสม่ำเสมอหรือไม่? ดูกระดาษนี้: http://www.jmlr.org/papers/volume13/bergstra12a/bergstra12a.pdf ขอบคุณ!

5
วิธีการคำนวณความแม่นยำและการเรียกคืนในเมทริกซ์ความสับสน 3 x 3
Predicted class Cat Dog Rabbit Actual class Cat 5 3 0 Dog 2 3 1 Rabbit 0 2 11 ฉันจะคำนวณความแม่นยำและเรียกคืนได้อย่างไรจึงง่ายต่อการคำนวณคะแนน F1 เมทริกซ์ความสับสนปกติเป็นมิติ 2 x 2 อย่างไรก็ตามเมื่อมันกลายเป็น 3 x 3 ฉันไม่รู้วิธีคำนวณความแม่นยำและการเรียกคืน

4
การอนุมานที่ไม่มีความเป็นไปได้ - หมายความว่าอย่างไร
เมื่อเร็ว ๆ นี้ฉันได้ตระหนักถึงวิธีการ 'ไร้ความน่าจะเป็น' ซึ่งถูกรวบรวมในวรรณคดี อย่างไรก็ตามฉันไม่ชัดเจนเกี่ยวกับความหมายของวิธีการอนุมานหรือการเพิ่มประสิทธิภาพที่จะไม่มีโอกาสเกิดขึ้น ในการเรียนรู้ของเครื่องเป้าหมายมักจะเพิ่มความน่าจะเป็นของพารามิเตอร์บางอย่างให้เหมาะสมกับฟังก์ชั่นเช่นน้ำหนักบนเครือข่ายประสาท ดังนั้นอะไรคือปรัชญาของวิธีการที่ปราศจากโอกาสและทำไมเครือข่ายที่เป็นปฏิปักษ์เช่น GAN จึงอยู่ในหมวดหมู่นี้

5
การยืมข้อมูลหมายความว่าอย่างไร
ฉันมักจะพูดคุยเกี่ยวกับการยืมข้อมูลหรือการแบ่งปันข้อมูลในแบบจำลองลำดับชั้นแบบเบย์ ฉันดูเหมือนจะไม่ได้รับคำตอบที่ตรงเกี่ยวกับความหมายของสิ่งนี้จริง ๆ และถ้ามันเป็นเอกลักษณ์ของแบบจำลองลำดับชั้นแบบเบย์ ฉันได้รับแนวคิด: บางระดับในลำดับชั้นของคุณใช้พารามิเตอร์ร่วมกัน ฉันไม่รู้ว่านี่แปลว่า "การยืมข้อมูล" อย่างไร "การขอยืมข้อมูล" / "การแบ่งปันข้อมูล" เป็นคำที่ผู้คนอยากจะทิ้ง มีตัวอย่างของ posteriors แบบปิดที่แสดงปรากฏการณ์การแชร์นี้หรือไม่ การวิเคราะห์แบบเบย์นี้มีลักษณะเฉพาะหรือไม่? โดยทั่วไปเมื่อฉันเห็นตัวอย่างของ "การยืมข้อมูล" พวกเขาเป็นเพียงโมเดลผสม บางทีฉันอาจเรียนรู้โมเดลนี้ในแบบที่ล้าสมัย แต่ฉันไม่เห็นการแบ่งปันใด ๆ ฉันไม่สนใจที่จะเริ่มต้นการอภิปรายเชิงปรัชญาเกี่ยวกับวิธีการ ฉันแค่อยากรู้เกี่ยวกับการใช้คำนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.