คำถามติดแท็ก statistics

พิจารณาว่าจะถามคำถามของคุณได้ดีกว่าหรือไม่ที่ https://stats.stackexchange.com สถิติคือการศึกษาทางคณิตศาสตร์โดยใช้ความน่าจะเป็นในการสรุปลักษณะของประชากรจากกลุ่มตัวอย่างหรือการสังเกตจำนวน จำกัด

8
Python เร็วและเบากว่า C ++ หรือไม่? [ปิด]
ตามที่กล่าวมาในปัจจุบันคำถามนี้ไม่เหมาะสำหรับรูปแบบถาม & ตอบของเรา เราคาดหวังว่าคำตอบจะได้รับการสนับสนุนจากข้อเท็จจริงการอ้างอิงหรือความเชี่ยวชาญ แต่คำถามนี้อาจก่อให้เกิดการถกเถียงโต้แย้งการสำรวจความคิดเห็นหรือการอภิปรายเพิ่มเติม หากคุณรู้สึกว่าคำถามนี้สามารถปรับปรุงได้และอาจเปิดขึ้นมาใหม่ได้โปรดไปที่ศูนย์ช่วยเหลือเพื่อรับคำแนะนำ ปิดให้บริการใน8 ปีที่ผ่านมา ฉันคิดเสมอว่าข้อดีของ Python คือความสามารถในการอ่านโค้ดและความเร็วในการพัฒนา แต่การใช้เวลาและหน่วยความจำไม่ดีเท่า C ++ สถิติเหล่านี้ทำให้ฉันประทับใจอย่างมาก ประสบการณ์ของคุณบอกอะไรคุณเกี่ยวกับเวลา Python เทียบกับ C ++ และการใช้หน่วยความจำ

13
Git คอมมิตสถิติใดที่ดึงได้ง่าย
ก่อนหน้านี้ฉันมีความสุขกับความสามารถของ TortoiseSvn ในการสร้างสถิติการคอมมิตอย่างง่ายสำหรับที่เก็บ SVN ที่กำหนด ฉันสงสัยว่ามีอะไรบ้างใน Git และสนใจเป็นพิเศษใน: จำนวนคอมมิตต่อผู้ใช้ จำนวนบรรทัดที่เปลี่ยนแปลงต่อผู้ใช้ กิจกรรมในช่วงเวลาหนึ่ง (เช่นการเปลี่ยนแปลงรายสัปดาห์รวม) ความคิดใด ๆ ?


3
มีห้องสมุดคณิตศาสตร์ / สถิติที่ดีสำหรับ Scala หรือไม่? [ปิด]
ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ขณะนี้ยังไม่ยอมรับคำตอบ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน2 ปีที่ผ่านมา ปรับปรุงคำถามนี้ ฉันกำลังมองหาไลบรารีโอเพนซอร์สที่ดีสำหรับ scala สำหรับคณิตศาสตร์และสถิติ หวังว่าจะเป็นเช่น Apache Math หรือ Colt แต่นำไปใช้ใน Scala ใครช่วยชี้ทิศทางที่ถูกต้องให้ฉันได้ไหม
89 scala  math  statistics 

15
วิธีคำนวณค่าเบี่ยงเบนมาตรฐานที่กำลังทำงานอยู่อย่างมีประสิทธิภาพ?
ฉันมีรายการตัวเลขมากมายเช่น: [0] (0.01, 0.01, 0.02, 0.04, 0.03) [1] (0.00, 0.02, 0.02, 0.03, 0.02) [2] (0.01, 0.02, 0.02, 0.03, 0.02) ... [n] (0.01, 0.00, 0.01, 0.05, 0.03) สิ่งที่ฉันต้องการทำคือคำนวณค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานอย่างมีประสิทธิภาพที่ดัชนีแต่ละรายการในองค์ประกอบอาร์เรย์ทั้งหมด ในการหาค่าเฉลี่ยฉันได้วนลูปผ่านอาร์เรย์และรวมค่าในดัชนีที่กำหนดของรายการ ในตอนท้ายฉันหารค่าแต่ละค่าใน "รายการค่าเฉลี่ย" ด้วยn(ฉันกำลังทำงานกับประชากรไม่ใช่ตัวอย่างจากประชากร) ในการหาค่าเบี่ยงเบนมาตรฐานฉันวนซ้ำอีกครั้งตอนนี้ฉันมีค่าเฉลี่ยที่คำนวณแล้ว ฉันต้องการหลีกเลี่ยงการผ่านอาร์เรย์สองครั้งหนึ่งครั้งสำหรับค่าเฉลี่ยและหนึ่งครั้งสำหรับ SD (หลังจากที่ฉันมีค่าเฉลี่ย) มีวิธีที่มีประสิทธิภาพในการคำนวณทั้งสองค่าโดยผ่านอาร์เรย์เพียงครั้งเดียวหรือไม่? โค้ดใด ๆ ในภาษาที่ตีความ (เช่น Perl หรือ Python) หรือรหัสเทียมก็ใช้ได้

9
Quantile-Quantile Plot โดยใช้ SciPy
คุณจะสร้าง qq-plot โดยใช้ Python ได้อย่างไร สมมติว่าคุณมีชุดการวัดจำนวนมากและกำลังใช้ฟังก์ชันการลงจุดที่รับค่า XY เป็นอินพุต ฟังก์ชันควรลงจุดควอนไทล์ของการวัดเทียบกับควอนไทล์ที่สอดคล้องกันของการแจกแจงบางส่วน (ปกติสม่ำเสมอ ... ) พล็อตผลลัพธ์ช่วยให้เราสามารถประเมินในการวัดของเราเป็นไปตามการแจกแจงที่สันนิษฐานหรือไม่ http://en.wikipedia.org/wiki/Quantile-quantile_plot ทั้ง R และ Matlab มีฟังก์ชันสำเร็จรูปสำหรับสิ่งนี้ แต่ฉันสงสัยว่าวิธีการที่สะอาดที่สุดสำหรับการนำไปใช้ใน Python คืออะไร

13
อัลกอริทึม "ออนไลน์" (ตัววนซ้ำ) สำหรับการประมาณค่ามัธยฐานทางสถิติโหมดความเบ้ความเคอร์โทซิส?
มีอัลกอริทึมในการประมาณค่ามัธยฐานโหมดความเบ้และ / หรือ kurtosis ของชุดค่า แต่ไม่จำเป็นต้องจัดเก็บค่าทั้งหมดในหน่วยความจำในครั้งเดียว? ฉันต้องการคำนวณสถิติพื้นฐาน: ค่าเฉลี่ย: ค่าเฉลี่ยเลขคณิต ความแปรปรวน: ค่าเฉลี่ยของการเบี่ยงเบนกำลังสองจากค่าเฉลี่ย ค่าเบี่ยงเบนมาตรฐาน: รากที่สองของความแปรปรวน มัธยฐาน: ค่าที่แยกตัวเลขครึ่งหนึ่งที่ใหญ่กว่าออกจากครึ่งที่เล็กกว่า โหมด: ค่าที่พบบ่อยที่สุดในชุด ความเบ้: tl; ดร เคอร์โทซิส: tl; ดร สูตรพื้นฐานสำหรับการคำนวณสิ่งเหล่านี้คือเลขคณิตระดับประถมศึกษาและฉันก็รู้ดี มีไลบรารีสถิติมากมายที่ใช้งานได้เช่นกัน ปัญหาของฉันคือค่าจำนวนมาก (หลายพันล้าน) ในชุดที่ฉันจัดการ: การทำงานใน Python ฉันไม่สามารถสร้างรายการหรือแฮชด้วยองค์ประกอบหลายพันล้านรายการได้ แม้ว่าฉันจะเขียนสิ่งนี้ใน C แต่อาร์เรย์พันล้านองค์ประกอบก็ไม่สามารถใช้งานได้จริง ข้อมูลไม่ถูกจัดเรียง มันผลิตขึ้นแบบสุ่มทันทีโดยกระบวนการอื่น ๆ ขนาดของแต่ละชุดมีความผันแปรสูงและจะไม่ทราบขนาดล่วงหน้า ฉันได้หาวิธีจัดการค่าเฉลี่ยและความแปรปรวนได้ค่อนข้างดีแล้วโดยจะวนซ้ำตามแต่ละค่าในเซตตามลำดับใด ๆ (จริงๆแล้วในกรณีของฉันฉันจะเรียงลำดับตามลำดับที่สร้างขึ้น) นี่คืออัลกอริทึมที่ฉันใช้http://en.wikipedia.org/wiki/Algorithms_for_calculating_variance#On-line_algorithm : เริ่มต้นตัวแปรสามตัว: count, sum และ sum_of_squares สำหรับแต่ละค่า: จำนวนที่เพิ่มขึ้น …

1
ฉันจะใช้คำสั่ง `td 'จากแพ็คเกจ` tempdisagg` เพื่อแยกข้อมูลรายเดือนเป็นความถี่ข้อมูลรายวันได้อย่างไร
ฉันมีข้อมูลความถี่รายเดือนซึ่งฉันพยายามแยกเป็นข้อมูลความถี่รายวัน ดังนั้นฉันใช้tdคำสั่งจากtempdisaggแพคเกจใน R โดยใช้รหัสด้านล่าง: dat=ts(data[,2]) result=td(dat~1, conversion = "average", to = "day", method = "chow-lin-maxlog") จากนั้นฉันได้รับข้อความแสดงข้อผิดพลาดต่อไปนี้: Error in td(dat ~ 1, conversion = "average", to = "day", method = "chow-lin-maxlog") : 'to' argument: unknown character string ข้อมูลที่ฉันใช้datมีดังนี้: > dput(head(dat)) c(82.47703009, 84.63094431, 70.00659987, 78.81135651, 74.749746,82.95638213) ดังนั้นแม้ว่าข้อมูลนี้datจะอยู่ในความถี่รายเดือน แต่จุดเริ่มต้นและจุดสิ้นสุดยังไม่สะท้อนถึงสิ่งนี้ อันที่จริงแล้ววันที่เริ่มต้นคือ 1/1997 และวันที่สิ้นสุดคือ 9/2019 …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.