วิทยาศาสตร์ข้อมูล statistics

4

GLM เป็นรูปแบบการเรียนรู้ทางสถิติหรือเครื่องหรือไม่

ฉันคิดว่าแบบจำลองเชิงเส้นทั่วไป (GLM) จะถือเป็นแบบจำลองทางสถิติ แต่เพื่อนคนหนึ่งบอกฉันว่าเอกสารบางประเภทจัดเป็นเทคนิคการเรียนรู้ของเครื่อง สิ่งใดเป็นจริง (หรือแม่นยำยิ่งขึ้น) คำอธิบายใด ๆ ที่จะได้รับการชื่นชม

11 machine-learning statistics glm

3

ความสัมพันธ์ระหว่าง KS, AUROC และ Gini

สถิติการตรวจสอบรูปแบบทั่วไปเช่นการทดสอบ Kolmogorov – Smirnov (KS), AUROCและค่าสัมประสิทธิ์จินีล้วนมีความสัมพันธ์กับหน้าที่ อย่างไรก็ตามคำถามของฉันเกี่ยวข้องกับการพิสูจน์ว่าสิ่งเหล่านี้เกี่ยวข้องกันอย่างไร ฉันอยากรู้ว่าใครสามารถช่วยฉันพิสูจน์ความสัมพันธ์เหล่านี้ได้ ฉันไม่สามารถหาอะไรออนไลน์ได้ แต่ฉันแค่สนใจอย่างแท้จริงว่าการพิสูจน์ทำงานอย่างไร ตัวอย่างเช่นฉันรู้ Gini = 2AUROC-1 แต่หลักฐานที่ดีที่สุดของฉันเกี่ยวข้องกับการชี้ไปที่กราฟ ฉันสนใจในการพิสูจน์อย่างเป็นทางการ ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชมอย่างมาก!

11 data-mining statistics predictive-modeling accuracy

3

ชุดข้อมูล / คำถามวิจัยทางวิทยาศาสตร์ข้อมูลสำหรับวิทยานิพนธ์ปริญญาโทวิทยาศาสตร์สาขาสถิติ

ฉันต้องการสำรวจ 'วิทยาศาสตร์ข้อมูล' คำดูเหมือนคลุมเครือเล็กน้อยสำหรับฉัน แต่ฉันคาดหวังว่าจะต้อง: การเรียนรู้ของเครื่อง (มากกว่าสถิติดั้งเดิม); ชุดข้อมูลขนาดใหญ่เพียงพอที่คุณต้องเรียกใช้การวิเคราะห์บนคลัสเตอร์ มีชุดข้อมูลและปัญหาอะไรบ้างที่สามารถเข้าถึงได้โดยนักสถิติที่มีพื้นฐานการเขียนโปรแกรมที่ฉันสามารถใช้เพื่อสำรวจสาขาวิทยาศาสตร์ข้อมูลได้ เพื่อให้แคบที่สุดเท่าที่จะทำได้ฉันต้องการเชื่อมโยงไปยังชุดข้อมูลเปิดและชุดข้อมูลที่ใช้งานได้ดีและปัญหาตัวอย่าง

11 statistics education knowledge-base definitions

3

ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]

ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

สเกลเทคนิคทางสถิติต่างๆ (การถดถอย PCA และอื่น ๆ ) มีขนาดตัวอย่างและมิติอย่างไร

มีตารางทั่วไปของเทคนิคทางสถิติที่อธิบายวิธีการวัดด้วยขนาดตัวอย่างและมิติหรือไม่ ตัวอย่างเช่นเพื่อนของฉันบอกฉันเมื่อวันก่อนว่าเวลาการคำนวณของการเรียงลำดับข้อมูลขนาดมิติหนึ่งไปอย่างรวดเร็วเป็น n * log (n) ตัวอย่างเช่นถ้าเราถอยหลัง y เทียบกับ X โดยที่ X เป็นตัวแปร d-dimension มันจะเป็น O (n ^ 2 * d) หรือไม่? มันจะขยายขนาดได้อย่างไรถ้าฉันต้องการหาวิธีแก้ปัญหาด้วยวิธี Gauss-Markov ที่แน่นอนเทียบกับกำลังสองน้อยที่สุดด้วยวิธีนิวตัน? หรือเพียงแค่หาวิธีแก้ปัญหาเทียบกับการใช้การทดสอบนัยสำคัญ? ฉันเดาว่าฉันต้องการแหล่งคำตอบที่ดีกว่า (เช่นกระดาษที่สรุปการปรับขนาดของเทคนิคทางสถิติต่าง ๆ ) มากกว่าคำตอบที่ดีที่นี่ เช่นพูดรายการที่มีการปรับสเกลของการถดถอยหลายครั้งการถดถอยโลจิสติก PCA การถดถอยอันตรายตามสัดส่วนของคอกซ์ K-หมายถึงการจัดกลุ่มเป็นต้น

10 bigdata statistics efficiency scalability

3

สถิติ + วิทยาการคอมพิวเตอร์ = วิทยาศาสตร์ข้อมูล? [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัพเดตคำถามเพื่อให้เป็นหัวข้อสำหรับ Data Science Stack Exchange ปิดให้บริการใน5 ปีที่ผ่านมา ฉันต้องการที่จะกลายเป็นนักวิทยาศาสตร์ข้อมูล ฉันศึกษาสถิติประยุกต์(วิทยาศาสตร์คณิตศาสตร์ประกันภัย) ดังนั้นฉันจึงมีภูมิหลังทางสถิติที่ยอดเยี่ยม (การถดถอยกระบวนการสโตแคสติกอนุกรมเวลาการพูดถึงเพียงไม่กี่อย่าง) แต่ตอนนี้ฉันกำลังจะเรียนปริญญาโทด้านวิทยาการคอมพิวเตอร์ในระบบอัจฉริยะ นี่คือแผนการศึกษาของฉัน: การเรียนรู้ของเครื่อง การเรียนรู้ของเครื่องจักรขั้นสูง การขุดข้อมูล ตรรกะคลุมเครือ ระบบการแนะนำ ระบบข้อมูลแบบกระจาย Cloud Computing การค้นพบความรู้ ระบบธุรกิจอัจฉริยะ การดึงข้อมูล การขุดข้อความ ในตอนท้ายด้วยความรู้ทางสถิติและวิทยาศาสตร์คอมพิวเตอร์ทั้งหมดของฉันฉันสามารถเรียกตัวเองว่าเป็นนักวิทยาศาสตร์ด้านข้อมูลได้หรือไม่? หรือฉันผิด ขอบคุณสำหรับคำตอบ

10 machine-learning statistics career

3

จะจัดกลุ่มค่าที่เหมือนกันและนับความถี่ใน Python อย่างไร

มือใหม่ในการวิเคราะห์ด้วย Python ดังนั้นโปรดใช้ความสุภาพ :-) ฉันไม่สามารถหาคำตอบสำหรับคำถามนี้ได้ - ขออภัยหากมีคำตอบอยู่แล้วในรูปแบบอื่น ฉันมีชุดข้อมูลการทำธุรกรรมสำหรับร้านค้าปลีก ตัวแปรพร้อมคำอธิบายคือ: section: ส่วนของร้านค้า, str; prod_name: ชื่อผลิตภัณฑ์, str; ใบเสร็จรับเงิน: จำนวนของใบแจ้งหนี้, int; แคชเชียร์จำนวนแคชเชียร์ int ค่าใช้จ่าย: ค่าใช้จ่ายของรายการลอย; วันที่ในรูปแบบ MM / DD / YY, str; เวลาในรูปแบบ HH: MM: SS, a str; ใบเสร็จรับเงินมีมูลค่าเท่ากันสำหรับผลิตภัณฑ์ทั้งหมดที่ซื้อในการทำธุรกรรมเดียวดังนั้นจึงสามารถใช้เพื่อกำหนดจำนวนการซื้อโดยเฉลี่ยในการทำธุรกรรมครั้งเดียว วิธีที่ดีที่สุดที่จะไปเกี่ยวกับเรื่องนี้คืออะไร? โดยพื้นฐานแล้วฉันต้องการใช้groupby()จัดกลุ่มตัวแปรใบเสร็จตามเหตุการณ์ที่เกิดขึ้นของตัวเองเพื่อให้สามารถสร้างฮิสโตแกรมได้ การทำงานกับข้อมูลใน DataFrame แพนด้า แก้ไข: นี่คือตัวอย่างข้อมูลบางส่วนที่มีส่วนหัว (prod_name เป็นเลขฐานสิบหก): section,prod_name,receipt,cashier,cost,date,time electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20 womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46 womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47 menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20 …

10 python statistics pandas ipython

คำถามติดแท็ก statistics