คำถามติดแท็ก statistics

สถิติเป็นวิธีการทางวิทยาศาสตร์ในการอนุมานแบบอุปนัยและการทำนายโดยอาศัยแบบจำลองความน่าจะเป็นของข้อมูล โดยส่วนขยายจะครอบคลุมถึงการออกแบบการทดลองและการสำรวจเพื่อรวบรวมข้อมูลเพื่อจุดประสงค์นี้

4
GLM เป็นรูปแบบการเรียนรู้ทางสถิติหรือเครื่องหรือไม่
ฉันคิดว่าแบบจำลองเชิงเส้นทั่วไป (GLM) จะถือเป็นแบบจำลองทางสถิติ แต่เพื่อนคนหนึ่งบอกฉันว่าเอกสารบางประเภทจัดเป็นเทคนิคการเรียนรู้ของเครื่อง สิ่งใดเป็นจริง (หรือแม่นยำยิ่งขึ้น) คำอธิบายใด ๆ ที่จะได้รับการชื่นชม

3
ความสัมพันธ์ระหว่าง KS, AUROC และ Gini
สถิติการตรวจสอบรูปแบบทั่วไปเช่นการทดสอบ Kolmogorov – Smirnov (KS), AUROCและค่าสัมประสิทธิ์จินีล้วนมีความสัมพันธ์กับหน้าที่ อย่างไรก็ตามคำถามของฉันเกี่ยวข้องกับการพิสูจน์ว่าสิ่งเหล่านี้เกี่ยวข้องกันอย่างไร ฉันอยากรู้ว่าใครสามารถช่วยฉันพิสูจน์ความสัมพันธ์เหล่านี้ได้ ฉันไม่สามารถหาอะไรออนไลน์ได้ แต่ฉันแค่สนใจอย่างแท้จริงว่าการพิสูจน์ทำงานอย่างไร ตัวอย่างเช่นฉันรู้ Gini = 2AUROC-1 แต่หลักฐานที่ดีที่สุดของฉันเกี่ยวข้องกับการชี้ไปที่กราฟ ฉันสนใจในการพิสูจน์อย่างเป็นทางการ ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชมอย่างมาก!

3
ชุดข้อมูล / คำถามวิจัยทางวิทยาศาสตร์ข้อมูลสำหรับวิทยานิพนธ์ปริญญาโทวิทยาศาสตร์สาขาสถิติ
ฉันต้องการสำรวจ 'วิทยาศาสตร์ข้อมูล' คำดูเหมือนคลุมเครือเล็กน้อยสำหรับฉัน แต่ฉันคาดหวังว่าจะต้อง: การเรียนรู้ของเครื่อง (มากกว่าสถิติดั้งเดิม); ชุดข้อมูลขนาดใหญ่เพียงพอที่คุณต้องเรียกใช้การวิเคราะห์บนคลัสเตอร์ มีชุดข้อมูลและปัญหาอะไรบ้างที่สามารถเข้าถึงได้โดยนักสถิติที่มีพื้นฐานการเขียนโปรแกรมที่ฉันสามารถใช้เพื่อสำรวจสาขาวิทยาศาสตร์ข้อมูลได้ เพื่อให้แคบที่สุดเท่าที่จะทำได้ฉันต้องการเชื่อมโยงไปยังชุดข้อมูลเปิดและชุดข้อมูลที่ใช้งานได้ดีและปัญหาตัวอย่าง

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
สเกลเทคนิคทางสถิติต่างๆ (การถดถอย PCA และอื่น ๆ ) มีขนาดตัวอย่างและมิติอย่างไร
มีตารางทั่วไปของเทคนิคทางสถิติที่อธิบายวิธีการวัดด้วยขนาดตัวอย่างและมิติหรือไม่ ตัวอย่างเช่นเพื่อนของฉันบอกฉันเมื่อวันก่อนว่าเวลาการคำนวณของการเรียงลำดับข้อมูลขนาดมิติหนึ่งไปอย่างรวดเร็วเป็น n * log (n) ตัวอย่างเช่นถ้าเราถอยหลัง y เทียบกับ X โดยที่ X เป็นตัวแปร d-dimension มันจะเป็น O (n ^ 2 * d) หรือไม่? มันจะขยายขนาดได้อย่างไรถ้าฉันต้องการหาวิธีแก้ปัญหาด้วยวิธี Gauss-Markov ที่แน่นอนเทียบกับกำลังสองน้อยที่สุดด้วยวิธีนิวตัน? หรือเพียงแค่หาวิธีแก้ปัญหาเทียบกับการใช้การทดสอบนัยสำคัญ? ฉันเดาว่าฉันต้องการแหล่งคำตอบที่ดีกว่า (เช่นกระดาษที่สรุปการปรับขนาดของเทคนิคทางสถิติต่าง ๆ ) มากกว่าคำตอบที่ดีที่นี่ เช่นพูดรายการที่มีการปรับสเกลของการถดถอยหลายครั้งการถดถอยโลจิสติก PCA การถดถอยอันตรายตามสัดส่วนของคอกซ์ K-หมายถึงการจัดกลุ่มเป็นต้น

3
สถิติ + วิทยาการคอมพิวเตอร์ = วิทยาศาสตร์ข้อมูล? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัพเดตคำถามเพื่อให้เป็นหัวข้อสำหรับ Data Science Stack Exchange ปิดให้บริการใน5 ปีที่ผ่านมา ฉันต้องการที่จะกลายเป็นนักวิทยาศาสตร์ข้อมูล ฉันศึกษาสถิติประยุกต์(วิทยาศาสตร์คณิตศาสตร์ประกันภัย) ดังนั้นฉันจึงมีภูมิหลังทางสถิติที่ยอดเยี่ยม (การถดถอยกระบวนการสโตแคสติกอนุกรมเวลาการพูดถึงเพียงไม่กี่อย่าง) แต่ตอนนี้ฉันกำลังจะเรียนปริญญาโทด้านวิทยาการคอมพิวเตอร์ในระบบอัจฉริยะ นี่คือแผนการศึกษาของฉัน: การเรียนรู้ของเครื่อง การเรียนรู้ของเครื่องจักรขั้นสูง การขุดข้อมูล ตรรกะคลุมเครือ ระบบการแนะนำ ระบบข้อมูลแบบกระจาย Cloud Computing การค้นพบความรู้ ระบบธุรกิจอัจฉริยะ การดึงข้อมูล การขุดข้อความ ในตอนท้ายด้วยความรู้ทางสถิติและวิทยาศาสตร์คอมพิวเตอร์ทั้งหมดของฉันฉันสามารถเรียกตัวเองว่าเป็นนักวิทยาศาสตร์ด้านข้อมูลได้หรือไม่? หรือฉันผิด ขอบคุณสำหรับคำตอบ

3
จะจัดกลุ่มค่าที่เหมือนกันและนับความถี่ใน Python อย่างไร
มือใหม่ในการวิเคราะห์ด้วย Python ดังนั้นโปรดใช้ความสุภาพ :-) ฉันไม่สามารถหาคำตอบสำหรับคำถามนี้ได้ - ขออภัยหากมีคำตอบอยู่แล้วในรูปแบบอื่น ฉันมีชุดข้อมูลการทำธุรกรรมสำหรับร้านค้าปลีก ตัวแปรพร้อมคำอธิบายคือ: section: ส่วนของร้านค้า, str; prod_name: ชื่อผลิตภัณฑ์, str; ใบเสร็จรับเงิน: จำนวนของใบแจ้งหนี้, int; แคชเชียร์จำนวนแคชเชียร์ int ค่าใช้จ่าย: ค่าใช้จ่ายของรายการลอย; วันที่ในรูปแบบ MM / DD / YY, str; เวลาในรูปแบบ HH: MM: SS, a str; ใบเสร็จรับเงินมีมูลค่าเท่ากันสำหรับผลิตภัณฑ์ทั้งหมดที่ซื้อในการทำธุรกรรมเดียวดังนั้นจึงสามารถใช้เพื่อกำหนดจำนวนการซื้อโดยเฉลี่ยในการทำธุรกรรมครั้งเดียว วิธีที่ดีที่สุดที่จะไปเกี่ยวกับเรื่องนี้คืออะไร? โดยพื้นฐานแล้วฉันต้องการใช้groupby()จัดกลุ่มตัวแปรใบเสร็จตามเหตุการณ์ที่เกิดขึ้นของตัวเองเพื่อให้สามารถสร้างฮิสโตแกรมได้ การทำงานกับข้อมูลใน DataFrame แพนด้า แก้ไข: นี่คือตัวอย่างข้อมูลบางส่วนที่มีส่วนหัว (prod_name เป็นเลขฐานสิบหก): section,prod_name,receipt,cashier,cost,date,time electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20 womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46 womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47 menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20 …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.