คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

3
ฟอเรสต์แบบสุ่มสามารถนำมาใช้สำหรับการเลือกคุณสมบัติในการถดถอยเชิงเส้นหลายแบบได้หรือไม่?
เนื่องจาก RF สามารถจัดการแบบไม่เป็นเชิงเส้น แต่ไม่สามารถให้ค่าสัมประสิทธิ์ได้คุณควรใช้ฟอเรสต์แบบสุ่มเพื่อรวบรวมคุณลักษณะที่สำคัญที่สุดจากนั้นจึงเสียบคุณลักษณะเหล่านั้นเข้ากับแบบจำลองการถดถอยเชิงเส้นหลายแบบเพื่อให้ได้ค่าสัมประสิทธิ์

8
หนังสือสำหรับอ่านก่อนองค์ประกอบของการเรียนรู้ทางสถิติ?
จากโพสต์นี้ฉันต้องการแยกย่อยองค์ประกอบของการเรียนรู้ทางสถิติ โชคดีมีให้ฟรีและฉันเริ่มอ่านมัน ฉันไม่มีความรู้เพียงพอที่จะเข้าใจ คุณช่วยแนะนำหนังสือที่แนะนำหัวข้อในหนังสือได้ดีขึ้นหรือไม่? หวังว่าสิ่งที่จะให้ความรู้ที่จำเป็นในการเข้าใจมัน? ที่เกี่ยวข้อง: ภูมิหลังที่แข็งแกร่งในวิชาคณิตศาสตร์เป็นสิ่งจำเป็นสำหรับ ML หรือไม่?

3
การทำคลัสเตอร์กับ K-Means และ EM: พวกเขาเกี่ยวข้องกันอย่างไร
ฉันได้ศึกษาอัลกอริทึมสำหรับการจัดกลุ่มข้อมูล (การเรียนรู้ที่ไม่สำรอง): EM และ k-mean ฉันอ่านต่อไปนี้: k-mean คือตัวแปรของ EM โดยมีข้อสันนิษฐานว่ากระจุกดาวทรงกลม ใครสามารถอธิบายประโยคข้างต้นได้บ้าง ฉันไม่เข้าใจความหมายของทรงกลมและความสัมพันธ์ของ kmeans และ EM เนื่องจากมีความน่าจะเป็นที่ได้รับมอบหมาย นอกจากนี้ในสถานการณ์ใดควรใช้การจัดกลุ่ม k-mean หรือใช้การทำคลัสเตอร์ EM

4
เกณฑ์ความน่าจะเป็นการจำแนกประเภท
ฉันมีคำถามเกี่ยวกับการจำแนกประเภทโดยทั่วไป ให้ f เป็นตัวจําแนกซึ่งส่งออกชุดของความน่าจะเป็นที่ให้ข้อมูลบางตัว D โดยปกติเราจะบอกว่า: ดีถ้า P (c | D)> 0.5 เราจะกำหนด class 1 มิฉะนั้น 0 (ปล่อยให้นี่เป็นเลขฐานสอง การจำแนกประเภท). คำถามของฉันคือถ้าฉันพบว่าถ้าฉันจำแนกเป็น 1 ยังมีความน่าจะเป็นที่ใหญ่กว่า: เช่น 0.2 ตัวแยกประเภทจะทำงานได้ดีขึ้น การใช้เกณฑ์ใหม่นี้ถูกต้องตามกฎหมายหรือไม่เมื่อทำการจัดประเภท ฉันจะตีความความจำเป็นสำหรับการจำแนกประเภทที่ต่ำกว่าที่ถูกผูกไว้ในบริบทของข้อมูลที่เปล่งสัญญาณขนาดเล็ก แต่ยังคงมีความสำคัญสำหรับปัญหาการจำแนก ฉันรู้ว่านี่เป็นวิธีหนึ่งที่จะทำ แต่ถ้านี่ไม่ใช่การคิดที่ถูกต้องอะไรจะเป็นการแปลงข้อมูลบางอย่างซึ่งเน้นคุณลักษณะของแต่ละบุคคลในลักษณะที่คล้ายคลึงกัน

1
ขนาดของแบทช์ควรมีขนาดเท่าใดสำหรับการไล่ระดับสีแบบสุ่ม
ฉันเข้าใจว่าอาจใช้การไล่ระดับสีแบบสโตแคสติกเพื่อเพิ่มประสิทธิภาพโครงข่ายประสาทเทียมโดยใช้การทำ backpropagation โดยการอัพเดทแต่ละการวนซ้ำด้วยตัวอย่างชุดข้อมูลการฝึกอบรมที่แตกต่างกัน ขนาดของแบทช์ควรใหญ่แค่ไหน?

3
เครือข่ายแบบเรียกซ้ำ vs Recursive Neural: NLP ไหนดีกว่ากัน?
มีเครือข่ายประสาทที่เกิดขึ้นอีกและเครือข่ายประสาทแบบเรียกซ้ำ ทั้งสองมักจะแสดงโดยตัวย่อเดียวกัน: RNN ตามที่Wikipedia , Recurrent NN เป็นความจริงแล้ว Recursive NN แต่ฉันไม่เข้าใจคำอธิบายจริงๆ ยิ่งกว่านั้นฉันดูเหมือนจะไม่พบสิ่งที่ดีกว่า (พร้อมตัวอย่างหรือมากกว่านั้น) สำหรับการประมวลผลภาษาธรรมชาติ ความจริงก็คือถึงแม้ว่า Socher จะใช้ Recursive NN สำหรับ NLP ในการสอนของเขาแต่ฉันไม่พบการใช้งานที่ดีของเครือข่ายประสาทแบบเรียกซ้ำและเมื่อฉันค้นหาใน Google คำตอบส่วนใหญ่เกี่ยวกับ NN ที่เกิดขึ้นอีก นอกจากนั้นมี DNN อื่นที่ใช้กับ NLP ได้ดีกว่าหรือไม่นั้นขึ้นอยู่กับงาน NLP หรือไม่ ความเชื่อลึกหรือตาข่าย Autoencoders ซ้อนกัน? (ฉันดูเหมือนจะไม่พบการใช้งานใด ๆ ที่พิเศษสำหรับ ConvNets ใน NLP และการใช้งานส่วนใหญ่อยู่ในวิสัยทัศน์ของเครื่องในใจ) ในที่สุดฉันต้องการใช้งาน DNN สำหรับ C ++ (ดีกว่าถ้ามีการรองรับ GPU) …

1
ตัวชี้วัดประสิทธิภาพเพื่อประเมินการเรียนรู้ที่ไม่ได้รับการดูแล
ด้วยความเคารพต่อการเรียนรู้ที่ไม่ได้รับการดูแล (เช่นการจัดกลุ่ม) มีตัวชี้วัดใดเพื่อประเมินประสิทธิภาพหรือไม่

7
จะเริ่มต้นด้วยสถิติสำหรับนักพัฒนาที่มีประสบการณ์
ในช่วงครึ่งแรกของปี 2558 ฉันเรียนหลักสูตร Machine Learning (โดย Andrew Ng หลักสูตร GREAT) และเรียนรู้พื้นฐานของการเรียนรู้ของเครื่อง (การถดถอยเชิงเส้น, การถดถอยโลจิสติก, SVM, Neuronal Networks ... ) นอกจากนี้ฉันยังเป็นนักพัฒนาเป็นเวลา 10 ปีดังนั้นการเรียนรู้ภาษาการเขียนโปรแกรมใหม่จะไม่เป็นปัญหา เมื่อเร็ว ๆ นี้ฉันเริ่มเรียนรู้ R เพื่อที่จะใช้อัลกอริทึมการเรียนรู้ของเครื่อง อย่างไรก็ตามฉันได้ตระหนักว่าถ้าฉันต้องการเรียนรู้ต่อไปฉันจะต้องมีความรู้ด้านสถิติอย่างเป็นทางการมากขึ้นในปัจจุบันฉันมีความรู้นอกระบบ แต่มีข้อ จำกัด อย่างเช่นฉันไม่สามารถระบุได้ว่าแบบจำลองเชิงเส้นแบบใด จะดีกว่า (ปกติฉันมักจะใช้ R-Square สำหรับมัน แต่เห็นได้ชัดว่าไม่ใช่ความคิดที่ดีมาก) ดังนั้นสำหรับฉันดูเหมือนว่าจะค่อนข้างชัดเจนว่าฉันต้องเรียนรู้พื้นฐานของสถิติ (ฉันศึกษาว่าในสถาบันเดียว แต่ลืมไปแล้วส่วนใหญ่) ที่ฉันควรเรียนรู้โปรดทราบว่าฉันไม่ต้องการหลักสูตรที่ครบวงจรจริง ๆ เพียงบางอย่าง ภายในหนึ่งเดือนให้ฉันรู้มากพอฉันจะกระตือรือร้นและเรียนรู้เพิ่มเติม :) จนถึงตอนนี้ฉันได้อ่าน " สถิติไร้น้ำตา " แล้วมีคำแนะนำอื่น ๆ อีกไหม?

4
ความไม่สมดุลของคลาสในการเรียนรู้ของเครื่องภายใต้การควบคุม
นี่เป็นคำถามโดยทั่วไปไม่ใช่เฉพาะวิธีการหรือชุดข้อมูลใด ๆ เราจะจัดการกับปัญหาความไม่สมดุลของคลาสได้อย่างไรในการเรียนรู้ของเครื่องควบคุมโดยที่จำนวน 0 อยู่ที่ 90% และจำนวน 1 อยู่ที่ประมาณ 10% ในชุดข้อมูลของคุณเราจะฝึกอบรมตัวจําแนกอย่างเหมาะสมได้อย่างไร หนึ่งในวิธีที่ฉันติดตามคือการสุ่มตัวอย่างเพื่อทำให้ชุดข้อมูลมีความสมดุลจากนั้นทำการฝึกการจําแนก ฉันรู้สึกว่านี่เป็นการสุ่มมีกรอบใด ๆ ในการแก้ไขปัญหาเหล่านี้

3
ทำความเข้าใจกับ Naive Bayes
จากStatSoft, Inc. (2013), ตำราสถิติอิเล็กทรอนิกส์ , "Naive Bayes Classifier" : เพื่อแสดงแนวคิดของการจำแนกประเภทNaïve Bayes ให้พิจารณาตัวอย่างที่แสดงในภาพประกอบด้านบน ตามที่ระบุไว้วัตถุสามารถจัดเป็นสีเขียวหรือสีแดง งานของฉันคือการจำแนกกรณีใหม่เมื่อพวกเขามาถึงคือตัดสินใจว่าพวกเขาอยู่ในระดับใดบนพื้นฐานของวัตถุที่กำลังออกไป เนื่องจากมีวัตถุสีเขียวจำนวนมากเป็นสองเท่าของสีแดงจึงมีเหตุผลที่จะเชื่อว่ากรณีใหม่ (ซึ่งยังไม่ได้รับการสังเกต) จึงมีความเป็นไปได้ที่จะเป็นสมาชิก GREEN มากกว่าสองเท่า ในการวิเคราะห์แบบเบย์ความเชื่อนี้เรียกว่าความน่าจะเป็นก่อนหน้า ความน่าจะเป็นมาก่อนขึ้นอยู่กับประสบการณ์ก่อนหน้านี้ในกรณีนี้เปอร์เซ็นต์ของวัตถุสีเขียวและสีแดงและมักใช้เพื่อทำนายผลลัพธ์ก่อนที่จะเกิดขึ้นจริง ดังนั้นเราสามารถเขียน: เนื่องจากมีวัตถุทั้งหมด 60 ชิ้นซึ่ง 40 รายการเป็นสีเขียวและ 20 สีแดงความน่าจะเป็นก่อนหน้านี้สำหรับการเป็นสมาชิกชั้นเรียนคือ: ด้วยการกำหนดความน่าจะเป็นก่อนหน้าของเราตอนนี้เราพร้อมที่จะจำแนกวัตถุใหม่ (วงกลมสีขาว) เนื่องจากวัตถุมีการรวมกลุ่มกันเป็นอย่างดีจึงมีเหตุผลที่จะสมมติว่ามีวัตถุสีเขียว (หรือสีแดง) จำนวนมากในบริเวณใกล้เคียงของ X ยิ่งมีโอกาสมากขึ้นที่กรณีใหม่จะเป็นของสีนั้น ในการวัดความเป็นไปได้นี้เราจะวาดวงกลมรอบ X ซึ่งครอบคลุมจำนวน (เพื่อเลือกนิรนัย) ของคะแนนโดยไม่คำนึงถึงฉลากระดับของพวกเขา จากนั้นเราคำนวณจำนวนคะแนนในวงกลมที่อยู่ในป้ายกำกับของแต่ละชั้นเรียน จากนี้เราจะคำนวณความน่าจะเป็น: จากภาพประกอบด้านบนเป็นที่แน่ชัดว่าโอกาสของ X ที่ได้รับ GREEN นั้นน้อยกว่าความน่าจะเป็นของ X ที่ได้รับ …

2
ทำไม Convolutional Neural Networks ไม่ใช้ Support Vector Machine เพื่อจัดประเภท?
ในช่วงไม่กี่ปีที่ผ่านมา Convolutional Neural Networks (CNNs) ได้กลายเป็นสุดยอดของการรับรู้วัตถุในคอมพิวเตอร์วิสัยทัศน์ โดยทั่วไปแล้วซีเอ็นเอ็นประกอบด้วยหลายชั้น convolutional ตามมาด้วยสองชั้นเชื่อมต่ออย่างเต็มที่ สัญชาตญาณที่อยู่เบื้องหลังสิ่งนี้คือเลเยอร์ convolutional เรียนรู้การแสดงข้อมูลอินพุตที่ดีขึ้นและเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์จากนั้นเรียนรู้ที่จะจำแนกการแสดงนี้ตามชุดฉลาก อย่างไรก็ตามก่อนที่ CNNs จะเริ่มครอบครอง Support Vector Machines (SVMs) เป็นสิ่งที่ล้ำสมัย ดังนั้นจึงมีเหตุผลที่จะบอกว่า SVM ยังคงเป็นลักษณนามที่แข็งแกร่งกว่าเครือข่ายนิวรัลสองชั้นที่เชื่อมต่อเต็มที่ ดังนั้นฉันสงสัยว่าทำไม CNN ที่ล้ำสมัยมักใช้เลเยอร์ที่เชื่อมต่ออย่างเต็มที่เพื่อการจำแนกประเภทมากกว่า SVM ด้วยวิธีนี้คุณจะได้สิ่งที่ดีที่สุดทั้งสองโลก: การแสดงคุณสมบัติที่แข็งแกร่งและตัวจําแนกที่แข็งแกร่งมากกว่าการแสดงคุณสมบัติที่แข็งแกร่ง แต่เป็นตัวจําแนกที่อ่อนแอเท่านั้น ... ความคิดใด ๆ

3
จำนวนต้นไม้ที่เหมาะสมในป่าสุ่มขึ้นอยู่กับจำนวนผู้ทำนายหรือไม่?
ใครสามารถอธิบายได้ว่าทำไมเราต้องมีต้นไม้จำนวนมากในป่าสุ่มเมื่อจำนวนผู้ทำนายมีมาก เราจะกำหนดจำนวนต้นไม้ที่เหมาะสมได้อย่างไร?

1
ทำความเข้าใจกับ“ ค่าต่ำสุดในท้องถิ่นเกือบทั้งหมดมีค่าฟังก์ชั่นที่คล้ายกันมากกับค่าระดับโลก”
ในการโพสต์บล็อกล่าสุดโดย Rong Ge ได้มีการกล่าวว่า: เป็นที่เชื่อกันว่าสำหรับปัญหาต่าง ๆ รวมถึงการเรียนรู้อวนลึกสุดขั้นต่ำในท้องถิ่นเกือบทั้งหมดมีค่าฟังก์ชั่นที่คล้ายกันมากกับระดับโลกที่เหมาะสม ความเชื่อนี้มาจากไหน

1
ความแตกต่างระหว่าง GradientDescentOptimizer และ AdamOptimizer (TensorFlow)?
ผมเคยเขียนง่ายMLPในTensorFlowซึ่งจะสร้างแบบจำลองXOR ประตู ดังนั้นสำหรับ: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] มันควรผลิตดังต่อไปนี้: output_data = [[0.], [1.], [1.], [0.]] เครือข่ายมีเลเยอร์อินพุตเลเยอร์ที่ซ่อนอยู่และเลเยอร์เอาท์พุทที่มีเซลล์ประสาท 2, 5 และ 1 เซลล์ ขณะนี้ฉันมีเอนโทรปีของการข้ามต่อไปนี้: cross_entropy = -(n_output * tf.log(output) + (1 - n_output) * tf.log(1 - output)) ฉันได้ลองทางเลือกที่ง่ายกว่านี้แล้ว: cross_entropy = tf.square(n_output - output) ควบคู่ไปกับความพยายามอื่น ๆ อย่างไรก็ตามไม่ว่าสิ่งที่การตั้งค่าของฉันคือข้อผิดพลาดที่มีการGradientDescentOptimizerลดลงมากAdamOptimizerช้ากว่า ในความเป็นtf.train.AdamOptimizer(0.01)จริงให้ผลลัพธ์ที่ดีจริงๆหลังจากขั้นตอนการเรียนรู้ …

6
ทฤษฎีหลักในการเรียนรู้ของเครื่อง (Deep) คืออะไร
เมื่อไม่นานมานี้ Al Rahimi ได้พูดคุยที่เร้าใจมากใน NIPS 2017 เมื่อเปรียบเทียบการเรียนรู้ของเครื่องกับ Alchemy หนึ่งในข้ออ้างของเขาคือเราต้องกลับไปสู่การพัฒนาเชิงทฤษฎีเพื่อให้ทฤษฎีบทง่าย ๆ พิสูจน์ผลลัพธ์พื้นฐาน เมื่อเขาบอกว่าฉันเริ่มมองหาทฤษฎีบทหลักของ ML แต่ไม่สามารถหาการอ้างอิงที่ดีที่เข้าใจถึงผลลัพธ์หลักได้ ดังนั้นนี่คือคำถามของฉัน: อะไรคือทฤษฎีบททางคณิตศาสตร์หลักปัจจุบัน (ทฤษฎี) ใน ML / DL และพวกเขาพิสูจน์อะไร ฉันเดาว่างานของ Vapnik จะไปที่ไหนสักแห่งที่นี่ ปัญหาพิเศษที่เปิดกว้างทางทฤษฎีคืออะไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.