สถิติและข้อมูลขนาดใหญ่ machine-learning

2

จะจัดการกับความแตกต่างระหว่างการกระจายตัวของชุดทดสอบและชุดฝึกอบรมอย่างไร?

ฉันคิดว่าสมมติฐานพื้นฐานหนึ่งของการเรียนรู้ของเครื่องหรือการประมาณค่าพารามิเตอร์คือข้อมูลที่มองไม่เห็นมาจากการแจกแจงแบบเดียวกับชุดการฝึกอบรม อย่างไรก็ตามในบางกรณีการกระจายชุดทดสอบเกือบจะแตกต่างจากชุดฝึกอบรม พูดสำหรับปัญหาการจัดหมวดหมู่หลากหลายขนาดใหญ่ที่พยายามแบ่งคำอธิบายผลิตภัณฑ์ออกเป็นประมาณ 17,000 คลาส ชุดการฝึกอบรมจะมีนักบวชชั้นสูงอย่างมากบางชั้นอาจมีตัวอย่างการฝึกอบรมมากมาย แต่บางคนอาจมีเพียงไม่กี่คน สมมติว่าเราได้รับชุดทดสอบที่มีเลเบลคลาสที่ไม่รู้จักจากลูกค้า เราพยายามจัดประเภทผลิตภัณฑ์แต่ละชิ้นในชุดทดสอบเป็นหนึ่งใน 17,000 คลาสโดยใช้ตัวจําแนกที่ฝึกในชุดฝึกอบรม ชุดทดสอบอาจมีการแจกแจงแบบเบ้ แต่อาจแตกต่างจากชุดการฝึกอบรมเนื่องจากอาจเกี่ยวข้องกับธุรกิจที่แตกต่างกัน หากการแจกแจงสองระดับแตกต่างกันมากลักษณนามที่ผ่านการฝึกอบรมอาจทำงานได้ไม่ดีในชุดทดสอบ เรื่องนี้ดูเหมือนชัดเจนโดยเฉพาะกับตัวจําแนก Naive Bayes มีวิธีใดที่สามารถจัดการความแตกต่างระหว่างชุดการฝึกอบรมและชุดทดสอบที่กำหนดสำหรับตัวแยกประเภทความน่าจะเป็นหรือไม่ ฉันได้ยินเกี่ยวกับการที่ "transductive SVM" ทำสิ่งที่คล้ายกันใน SVM มีเทคนิคที่คล้ายกันในการเรียนรู้ลักษณนามที่มีประสิทธิภาพดีที่สุดในชุดการทดสอบที่กำหนดหรือไม่? จากนั้นเราสามารถฝึกตัวจําแนกใหม่สําหรับชุดการทดสอบที่แตกต่างกันตามที่ได้รับอนุญาตในสถานการณ์จริงนี้

23 machine-learning classification skewness unbalanced-classes multi-class

2

เทคนิคการเรียนรู้ของเครื่อง“ อัลกอริธึมการประมาณค่า” หรือไม่?

เมื่อเร็ว ๆ นี้มีคำถามที่คล้าย ML มากกว่าใน cstheory stackexchange และฉันโพสต์คำตอบแนะนำวิธีการของ Powell, การไล่ระดับสี, ขั้นตอนวิธีพันธุกรรมหรืออื่น ๆ"ขั้นตอนวิธีการประมาณ" ในความคิดเห็นมีคนบอกฉันว่าวิธีการเหล่านี้คือ "การวิเคราะห์พฤติกรรม" และไม่ใช่ "อัลกอริทึมการประมาณ" และบ่อยครั้งไม่ได้เข้าใกล้ทฤษฎีที่เหมาะสมที่สุด (เพราะพวกเขา "มักติดอยู่ในท้องถิ่นน้อยที่สุด") คนอื่นเห็นด้วยไหม นอกจากนี้ดูเหมือนว่าสำหรับฉันแล้วมีความรู้สึกว่าอัลกอริธึมฮิวริสติกสามารถรับประกันได้ว่าจะใกล้เคียงกับทฤษฎีที่เหมาะสมที่สุดหากตั้งค่าให้สำรวจพื้นที่ส่วนใหญ่ในการค้นหา (เช่นการตั้งค่าพารามิเตอร์ / ขนาดขั้นตอนเล็ก) จะเห็นว่าในกระดาษ ไม่มีใครรู้ว่าสิ่งนี้ได้รับการแสดงหรือพิสูจน์ในกระดาษ (ถ้าไม่ใช่สำหรับอัลกอริธึมขนาดใหญ่อาจเป็นคลาสเล็ก ๆ ที่พูดว่า NNs เป็นต้น)

23 machine-learning optimization approximation

3

ไซต์สำหรับการแข่งขันการสร้างแบบจำลองการทำนาย

ผมมีส่วนร่วมในการแข่งขันการสร้างแบบจำลองการคาดการณ์ในKaggle , TunedItและCrowdAnalytix ฉันพบว่าเว็บไซต์เหล่านี้เป็นวิธีที่ดีในการ "ออกกำลังกาย" เพื่อการเรียนรู้ทางสถิติ / เครื่อง มีเว็บไซต์อื่น ๆ ที่ฉันควรรู้หรือไม่? คุณรู้สึกอย่างไรเกี่ยวกับการแข่งขันที่โฮสต์ต้องการทำกำไรจากการส่งผลงานของคู่แข่ง? / แก้ไข: นี่คือรายการที่สมบูรณ์มากขึ้น: Kaggle TunedIt Clopinte KDD Cup Innocentive Crowdanalytix Topcoder

23 machine-learning predictive-models

5

ทางเลือกอื่นสำหรับต้นไม้ที่มีการจำแนกที่ดีกว่า (เช่น: CV)

ฉันกำลังมองหาทางเลือกในการจำแนกต้นไม้ซึ่งอาจให้พลังการทำนายที่ดีกว่า ข้อมูลที่ฉันจัดการมีปัจจัยสำหรับทั้งคำอธิบายและตัวแปรอธิบาย ฉันจำได้ว่าเคยเจอป่าสุ่มและเครือข่ายประสาทเทียมในบริบทนี้แม้ว่าจะไม่เคยลองมาก่อนมีผู้สมัครที่ดีอีกคนหนึ่งสำหรับงานสร้างแบบจำลอง (เช่นใน R หรือไม่)

23 r machine-learning classification cart

1

คำอธิบายของ min_child_weight ในอัลกอริทึม xgboost

นิยามของพารามิเตอร์ใน min_child_weight xgboost จะได้รับเป็น: ผลรวมขั้นต่ำของน้ำหนักอินสแตนซ์ (รัฐ) ที่จำเป็นในเด็ก หากขั้นตอนการแบ่งพาร์ติชันเป็นผลให้โหนดใบมีผลรวมของน้ำหนักอินสแตนซ์น้อยกว่า min_child_weight กระบวนการสร้างจะทำให้การแบ่งพาร์ติชันเพิ่มเติม ในโหมดการถดถอยเชิงเส้นสิ่งนี้จะสอดคล้องกับจำนวนอินสแตนซ์ขั้นต่ำที่จำเป็นในแต่ละโหนด ยิ่งอัลกอริธึมมีขนาดใหญ่ขึ้นเท่าใด ฉันได้อ่านสิ่งเล็ก ๆ น้อย ๆ บน xgboost รวมถึงกระดาษต้นฉบับ (ดูสูตร 8 และหนึ่งหลังจากสมการที่ 9) คำถามนี้และสิ่งต่าง ๆ ที่เกี่ยวข้องกับ xgboost ที่ปรากฏในหน้าแรก ๆ ของการค้นหา google ;) โดยพื้นฐานแล้วฉันยังไม่มีความสุขว่าทำไมเราถึงกำหนดข้อ จำกัด เกี่ยวกับผลรวมของรัฐ? ผมไม่คิดว่าเพียงนาทีจากกระดาษเดิมก็คือว่ามันเกี่ยวข้องกับการถ่วงน้ำหนัก quantile ส่วนร่าง (และ reformulation เป็นของสมการการสูญเสีย 3 Squared ถ่วงน้ำหนัก) ซึ่งมีชั่วโมงผมชั่วโมงผมh_iเป็นน้ำหนัก 'ของแต่ละกรณี คำถามเพิ่มเติมเกี่ยวข้องกับสาเหตุที่มันเป็นเพียงจำนวนอินสแตนซ์ในโหมดการถดถอยเชิงเส้น? ฉันเดาว่านี่เกี่ยวข้องกับอนุพันธ์อันดับสองของผลรวมของสมการกำลังสองหรือไม่?

23 machine-learning xgboost hessian

2

การส่งเสริมทำงานอย่างไร

วิธีที่ง่ายที่สุดในการเข้าใจการส่งเสริมคืออะไร ทำไมมันไม่เพิ่มตัวแยกประเภทที่อ่อนแอมาก ๆ "เป็นอนันต์" (ความสมบูรณ์แบบ)

23 machine-learning boosting

3

สถิติที่เพียงพอสำหรับคนธรรมดา

ใครช่วยอธิบายสถิติที่เพียงพอในศัพท์พื้นฐานได้ไหม? ฉันมาจากภูมิหลังทางวิศวกรรมและฉันได้ผ่านสิ่งต่างๆมากมาย แต่ไม่สามารถหาคำอธิบายที่เข้าใจง่าย

23 machine-learning mathematical-statistics intuition

1

backpropagation ไล่ระดับสีผ่านการเชื่อมต่อ ResNet

ฉันสงสัยเกี่ยวกับวิธีการไล่ระดับสีแบบกระจายกลับผ่านเครือข่ายประสาทโดยใช้โมดูล ResNet / การเชื่อมต่อข้าม ฉันเคยเห็นคำถามสองสามข้อเกี่ยวกับ ResNet (เช่นโครงข่ายประสาทเทียมที่มีการเชื่อมต่อแบบข้ามชั้น ) แต่คำถามนี้ถามเกี่ยวกับการแพร่กระจายของการไล่ระดับสีกลับระหว่างการฝึกอบรมโดยเฉพาะ สถาปัตยกรรมพื้นฐานอยู่ที่นี่: ฉันอ่านบทความนี้การศึกษาเครือข่ายที่เหลือเพื่อการจดจำรูปภาพและในส่วนที่ 2 พวกเขาพูดถึงว่าหนึ่งในเป้าหมายของ ResNet คือการอนุญาตเส้นทางที่สั้นลง / ชัดเจนขึ้นสำหรับการไล่ระดับสีเพื่อแพร่กระจายกลับไปยังชั้นฐาน ทุกคนสามารถอธิบายได้ว่าการไล่ระดับสีไหลผ่านเครือข่ายประเภทนี้อย่างไร ฉันไม่เข้าใจวิธีการดำเนินการเพิ่มและการขาดเลเยอร์ที่มีพารามิเตอร์หลังจากนั้นช่วยให้การแพร่กระจายของการไล่ระดับสีดีขึ้น มันมีบางอย่างเกี่ยวกับวิธีที่การไล่ระดับสีไม่เปลี่ยนแปลงเมื่อไหลผ่านโอเปอเรเตอร์ Add และมีการแจกจ่ายซ้ำโดยไม่มีการคูณ? นอกจากนี้ฉันสามารถเข้าใจได้ว่าปัญหาการไล่ระดับสีที่หายไปนั้นบรรเทาลงได้อย่างไรหากการไล่ระดับสีไม่จำเป็นต้องไหลผ่านชั้นน้ำหนัก แต่ถ้าไม่มีการไล่ระดับสีแบบไหลผ่านน้ำหนักแล้วพวกเขาจะได้รับการอัปเดตอย่างไร

22 machine-learning neural-networks conv-neural-network gradient-descent backpropagation

1

ทำไมฟังก์ชั่นต้นทุนของโครงข่ายประสาทเทียมจึงไม่นูน?

มีเธรดที่คล้ายกันที่นี่ ( ฟังก์ชั่นต้นทุนของเครือข่ายประสาทเทียมไม่ใช่แบบนูน? ) แต่ฉันไม่สามารถเข้าใจประเด็นในคำตอบที่นั่นและเหตุผลของฉันในการถามอีกครั้งโดยหวังว่าสิ่งนี้จะชี้แจงปัญหาบางอย่าง: ถ้าฉันใช้ผลรวมของฟังก์ชั่นค่าใช้จ่ายผลต่างยกกำลังสองในที่สุดฉันก็ปรับรูปแบบโดยที่คือค่าฉลากจริงในระหว่างการฝึก เฟสและเป็นค่าป้ายกำกับที่คาดการณ์ไว้ เนื่องจากนี่เป็นรูปสี่เหลี่ยมจัตุรัสจึงควรเป็นฟังก์ชันต้นทุนนูน แล้วอะไรคือสิ่งที่ทำให้นูนใน NN ไม่ได้? Y YΣNi=1(yi−yi^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2yyyy^y^\hat{y}

22 machine-learning neural-networks optimization loss-functions convex

3

Relu vs Sigmoid vs Softmax เป็นเซลล์ประสาทชั้นที่ซ่อนอยู่

ฉันกำลังเล่นกับ Neural Network ที่มีเลเยอร์ที่ซ่อนเพียงหนึ่งเดียวโดย Tensorflow และจากนั้นฉันลองเปิดใช้งานที่แตกต่างกันสำหรับเลเยอร์ที่ซ่อนอยู่: Relu sigmoid Softmax (ดีมักจะใช้ softmax ในเลเยอร์สุดท้าย .. ) Relu ให้ความแม่นยำและการตรวจสอบความถูกต้องของรถไฟที่ดีที่สุด ฉันไม่แน่ใจว่าจะอธิบายเรื่องนี้อย่างไร เรารู้ว่า Relu มีคุณสมบัติที่ดีเช่น sparsity เช่น no-gradient-vanishing เป็นต้น แต่ ถาม: เซลล์ประสาท Relu โดยทั่วไปนั้นดีกว่าเซลล์ประสาท sigmoid / softmax หรือไม่? เราควรใช้เซลล์ประสาท Relu ใน NN (หรือแม้แต่ CNN) เกือบทุกครั้งหรือไม่? ฉันคิดว่าเซลล์ประสาทที่ซับซ้อนมากขึ้นจะแนะนำผลลัพธ์ที่ดีกว่าอย่างน้อยก็ฝึกความแม่นยำถ้าเรากังวลเกี่ยวกับการมีน้ำหนักเกิน ขอบคุณ PS: โค้ดนั้นมาจาก "Udacity-Machine learning -assignment2" ซึ่งเป็นการรับรู้ของ notMNIST โดยใช้ …

22 machine-learning neural-networks conv-neural-network tensorflow sigmoid-curve

4

ชื่อของแผนภูมินี้แสดงอัตราบวกที่เป็นเท็จและจริงคืออะไรและสร้างขึ้นอย่างไร

ภาพด้านล่างแสดงเส้นโค้งต่อเนื่องของอัตราบวกเป็นบวกเทียบกับอัตราบวกจริง: อย่างไรก็ตามสิ่งที่ฉันไม่ได้รับทันทีคือวิธีคำนวณอัตราเหล่านี้ หากมีการใช้วิธีการกับชุดข้อมูลจะมีอัตรา FP ที่แน่นอนและอัตรา FN ที่แน่นอน ไม่ได้หมายความว่าแต่ละวิธีควรมีจุดเดียวมากกว่าเป็นเส้นโค้งใช่หรือไม่ แน่นอนว่ามีหลายวิธีในการกำหนดค่าวิธีการสร้างจุดที่แตกต่างกันหลายอย่าง แต่ก็ไม่ชัดเจนสำหรับฉันว่ามีอัตราความต่อเนื่องนี้หรือวิธีที่สร้างขึ้น

22 machine-learning data-visualization roc auc

1

การเลือกกฎการให้คะแนนที่เหมาะสม

ทรัพยากรส่วนใหญ่เกี่ยวกับกฎการให้คะแนนที่เหมาะสมพูดถึงจำนวนของกฎการให้คะแนนที่แตกต่างกันเช่นการสูญเสียบันทึกคะแนน Brier หรือการให้คะแนนทรงกลม อย่างไรก็ตามพวกเขามักไม่ค่อยให้คำแนะนำเกี่ยวกับความแตกต่างระหว่างพวกเขามากนัก (จัดแสดง A: Wikipedia ) การเลือกแบบจำลองที่เพิ่มคะแนนลอการิทึมให้สอดคล้องกับการเลือกแบบจำลองความน่าจะเป็นสูงสุดซึ่งดูเหมือนจะเป็นข้อโต้แย้งที่ดีสำหรับการใช้การให้คะแนนแบบลอการิทึม มีเหตุผลที่คล้ายกันสำหรับการให้คะแนน Brier หรือทรงกลมหรือกฎการให้คะแนนอื่น ๆ ? ทำไมบางคนถึงใช้หนึ่งในคะแนนมากกว่าลอการิทึม?

22 machine-learning classification model-selection theory scoring-rules

2

ขั้นตอนต่อไปหลังจาก“ การใช้เหตุผลแบบเบย์และการเรียนรู้ของเครื่อง”

ขณะนี้ฉันกำลังผ่าน "การใช้เหตุผลแบบเบย์และการเรียนรู้ของเครื่อง" โดย David Barber และเป็นหนังสือที่เขียนได้ดีและมีส่วนร่วมในการเรียนรู้พื้นฐาน ดังนั้นคำถามกับคนที่ทำสิ่งนี้ไปแล้ว หนังสือชุดต่อไปที่ฉันควรผ่านหลังจากที่ฉันมีความเชี่ยวชาญที่เหมาะสมกับแนวคิดส่วนใหญ่ใน Barber คืออะไร?

22 machine-learning bayesian references graphical-model

3

มันสำคัญหรือไม่ที่นักสถิติต้องเรียนรู้การเรียนรู้ของเครื่อง?

การเรียนรู้ของเครื่องเป็นเรื่องสำคัญสำหรับนักสถิติคนใดที่จะทำความคุ้นเคยหรือไม่? ดูเหมือนว่าการเรียนรู้ของเครื่องเป็นสถิติ ทำไมโปรแกรมวิชาสถิติ (ระดับปริญญาตรีและบัณฑิต) จึงไม่จำเป็นต้องเรียนรู้ด้วยเครื่อง?

22 machine-learning careers

2

เครื่อง Boltzmann ที่ถูก จำกัด เทียบกับเครือข่ายประสาทหลายชั้น

ฉันต้องการทดลองกับเครือข่ายประสาทเทียมสำหรับปัญหาการจำแนกประเภทที่ฉันกำลังเผชิญอยู่ ฉันพบเอกสารที่พูดถึง RBM แต่จากสิ่งที่ฉันเข้าใจได้พวกเขาไม่ต่างจากการมีเครือข่ายประสาทหลายชั้น ถูกต้องหรือไม่ ยิ่งไปกว่านั้นฉันทำงานกับ R และฉันไม่เห็นแพ็คเกจใด ๆ สำหรับ RBM ฉันพบเจอวรรณกรรมที่พูดถึงเครือข่ายการเรียนรู้ลึกซึ่งมี RBM แบบเรียงซ้อนโดยทั่วไป แต่ไม่แน่ใจว่ามันคุ้มค่ากับความพยายามที่จะนำไปใช้ในอาร์หรือเปล่าใครจะมีพอยน์เตอร์ได้บ้าง? ขอบคุณ

22 r machine-learning classification neural-networks

คำถามติดแท็ก machine-learning