คำถามติดแท็ก accuracy

3
ข้อดีของ AUC กับความแม่นยำมาตรฐาน
ฉันเริ่มมองเข้าไปในพื้นที่ภายใต้โค้ง (AUC) และสับสนเล็กน้อยเกี่ยวกับประโยชน์ของมัน เมื่ออธิบายให้ฉันฟังเป็นครั้งแรก AUC ดูเหมือนจะเป็นตัวชี้วัดประสิทธิภาพที่ยอดเยี่ยม แต่ในการวิจัยของฉันฉันพบว่าบางคนอ้างว่าข้อได้เปรียบของมันนั้นส่วนใหญ่อยู่ในเกณฑ์ที่ดีที่สุดสำหรับการจับโมเดล 'โชคดี' . ดังนั้นฉันควรหลีกเลี่ยงการใช้ AUC สำหรับตรวจสอบรุ่นหรือชุดค่าผสมจะดีที่สุดหรือไม่ ขอบคุณสำหรับความช่วยเหลือของคุณ

4
มันจะดีกว่าเสมอที่จะใช้ชุดข้อมูลทั้งหมดเพื่อฝึกอบรมตัวแบบสุดท้ายหรือไม่
เทคนิคทั่วไปหลังการฝึกอบรมการตรวจสอบและทดสอบรูปแบบการเรียนรู้ของการเรียนรู้ด้วยเครื่องคือการใช้ชุดข้อมูลที่สมบูรณ์รวมถึงชุดย่อยการทดสอบเพื่อฝึกอบรมรูปแบบสุดท้ายเพื่อปรับใช้บนเช่นผลิตภัณฑ์ คำถามของฉันคือ: การทำเช่นนั้นดีที่สุดเสมอหรือไม่? จะเป็นอย่างไรถ้าประสิทธิภาพลดลงจริง ตัวอย่างเช่นให้เราสมมติกรณีที่โมเดลทำคะแนนประมาณ 65% ในการจำแนกชุดย่อยการทดสอบ นี่อาจหมายความว่าทั้งโมเดลได้รับการฝึกฝนไม่เพียงพอหรือชุดย่อยทดสอบประกอบด้วยค่าผิดปกติ ในกรณีหลังการฝึกอบรมรุ่นสุดท้ายกับพวกเขาจะลดประสิทธิภาพและคุณจะพบว่าหลังจากการปรับใช้ ถามคำถามเริ่มต้นของฉันอีกครั้ง: หากคุณมีการสาธิตแบบครั้งเดียวเช่นการนำไปใช้กับอุปกรณ์อิเล็กทรอนิกส์แบบฝังตัวในการทดลองจรวดที่มีราคาแพงคุณจะเชื่อถือรูปแบบที่ได้รับการฝึกอบรมซ้ำกับชุดย่อยทดสอบในขั้นตอนสุดท้ายโดยไม่ต้องทำการทดสอบซ้ำ ทดสอบประสิทธิภาพใหม่แล้วหรือยัง?

3
คุณจัดการความคาดหวังในที่ทำงานได้อย่างไร
ด้วย hoopla รอบ ๆ วิทยาศาสตร์ข้อมูลการเรียนรู้ของเครื่องและเรื่องราวความสำเร็จทั้งหมดมีทั้งความชอบธรรมและเกินความคาดหวังจากนักวิทยาศาสตร์ข้อมูลและแบบจำลองการทำนายของพวกเขา คำถามของฉันเกี่ยวกับการฝึกฝนนักสถิติผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและนักวิทยาศาสตร์ด้านข้อมูล - คุณจะจัดการความคาดหวังจากนักธุรกิจใน บริษัท ของคุณได้อย่างไรโดยเฉพาะอย่างยิ่งเกี่ยวกับความแม่นยำในการทำนายของโมเดล หากต้องการแบบจำลองที่ดีที่สุดของคุณเท่านั้นที่สามารถบรรลุความแม่นยำ 90% และผู้บริหารระดับสูงคาดว่าจะไม่น้อยกว่า 99% คุณจะรับมือกับสถานการณ์เช่นนี้ได้อย่างไร

2
วิธีเพิ่มความแม่นยำของตัวจําแนก
ฉันใช้ตัวอย่าง OpenCV letter_recog.cpp เพื่อทดลองบนต้นไม้แบบสุ่มและตัวแยกประเภทอื่น ๆ ตัวอย่างนี้มีการใช้งานของตัวแยกประเภทหกตัว - ต้นไม้แบบสุ่ม, การส่งเสริม, MLP, kNN, ไร้เดียงสา Bayes และ SVM ชุดข้อมูลการรู้จำจดหมาย UCI ที่มีอินสแตนซ์ 20,000 ตัวและมีฟีเจอร์ 16 ตัวซึ่งฉันแบ่งครึ่งสำหรับการฝึกอบรมและการทดสอบ ฉันมีประสบการณ์กับ SVM ดังนั้นฉันจึงตั้งค่าข้อผิดพลาดการรู้จำเป็น 3.3% หลังจากการทดลองสิ่งที่ฉันได้รับคือ: การรับรู้จดหมาย UCI: RTrees - 5.3% เพิ่ม - 13% MLP - 7.9% kNN (k = 3) - 6.5% เบย์ - 11.5% SVM - 3.3% …

1
คะแนน LB ในการเรียนรู้ของเครื่องคืออะไร
ฉันกำลังอ่านบทความเกี่ยวกับบล็อก kaggle ผู้เขียนระบุว่า 'คะแนน LB' และ 'พอดีพอดี') ซ้ำเป็นตัวชี้วัดสำหรับประสิทธิภาพของการเรียนรู้ของเครื่อง (พร้อมกับคะแนนการตรวจสอบข้าม (CV)) จากการวิจัยเกี่ยวกับความหมายของ 'LB' ฉันใช้เวลาค่อนข้างนานฉันจึงตระหนักว่าโดยทั่วไปผู้คนมักจะอ้างถึงว่าเป็น LB โดยไม่มีพื้นฐานมาก ดังนั้นคำถามของฉันคือ 'LB' คืออะไร?

3
ความสัมพันธ์ระหว่าง KS, AUROC และ Gini
สถิติการตรวจสอบรูปแบบทั่วไปเช่นการทดสอบ Kolmogorov – Smirnov (KS), AUROCและค่าสัมประสิทธิ์จินีล้วนมีความสัมพันธ์กับหน้าที่ อย่างไรก็ตามคำถามของฉันเกี่ยวข้องกับการพิสูจน์ว่าสิ่งเหล่านี้เกี่ยวข้องกันอย่างไร ฉันอยากรู้ว่าใครสามารถช่วยฉันพิสูจน์ความสัมพันธ์เหล่านี้ได้ ฉันไม่สามารถหาอะไรออนไลน์ได้ แต่ฉันแค่สนใจอย่างแท้จริงว่าการพิสูจน์ทำงานอย่างไร ตัวอย่างเช่นฉันรู้ Gini = 2AUROC-1 แต่หลักฐานที่ดีที่สุดของฉันเกี่ยวข้องกับการชี้ไปที่กราฟ ฉันสนใจในการพิสูจน์อย่างเป็นทางการ ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชมอย่างมาก!

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.