คำถามติดแท็ก statistics

พิจารณาว่าจะถามคำถามของคุณได้ดีกว่าหรือไม่ที่ https://stats.stackexchange.com สถิติคือการศึกษาทางคณิตศาสตร์โดยใช้ความน่าจะเป็นในการสรุปลักษณะของประชากรจากกลุ่มตัวอย่างหรือการสังเกตจำนวน จำกัด

2
จะหยุดการดำเนินการนอนหลับรอ X วินาทีใน R ได้อย่างไร
คุณหยุดสคริปต์ R ชั่วคราวตามจำนวนวินาทีหรือมิลลิวินาทีที่ระบุได้อย่างไร ในหลายภาษามีsleepฟังก์ชัน แต่?sleepอ้างถึงชุดข้อมูล และ?pauseและ?waitไม่อยู่ จุดประสงค์คือสำหรับภาพเคลื่อนไหวที่ตั้งเวลาเอง โซลูชันที่ต้องการใช้งานได้โดยไม่ต้องขอข้อมูลจากผู้ใช้
130 r  animation  statistics 


18
สถิติ: การรวมกันใน Python
ฉันจำเป็นต้องคำนวณ combinatorials (nCr) ในหลาม แต่ไม่สามารถหาฟังก์ชั่นที่จะทำในmath, numpyหรือstat ห้องสมุด สิ่งที่คล้ายกับฟังก์ชันประเภท: comb = calculate_combinations(n, r) ฉันต้องการจำนวนชุดค่าผสมที่เป็นไปได้ไม่ใช่ชุดค่าผสมที่แท้จริงดังนั้นitertools.combinationsฉันจึงไม่สนใจ สุดท้ายนี้ฉันต้องการหลีกเลี่ยงการใช้แฟกทอเรียลเนื่องจากตัวเลขที่ฉันจะคำนวณชุดค่าผสมอาจมีขนาดใหญ่เกินไปและแฟกทอเรียลก็จะมหึมา ดูเหมือนจะเป็นคำถามที่ตอบง่ายจริงๆ แต่ฉันกำลังจมอยู่กับคำถามเกี่ยวกับการสร้างชุดค่าผสมที่แท้จริงทั้งหมดซึ่งไม่ใช่สิ่งที่ฉันต้องการ

12
ขั้นตอนวิธีค่ามัธยฐานแบบโรลลิ่งใน C
ฉันกำลังทำงานกับอัลกอริทึมเพื่อใช้ตัวกรองค่ามัธยฐานแบบกลิ้ง (คล้ายกับตัวกรองค่าเฉลี่ยแบบกลิ้ง) ใน C. จากการค้นหาวรรณกรรมของฉันดูเหมือนว่าจะมีสองวิธีที่มีประสิทธิภาพพอสมควร อันดับแรกคือการจัดเรียงหน้าต่างเริ่มต้นของค่าจากนั้นทำการค้นหาแบบไบนารีเพื่อแทรกค่าใหม่และลบค่าที่มีอยู่ออกในการวนซ้ำแต่ละครั้ง ประการที่สอง (จาก Hardle and Steiger, 1995, JRSS-C, Algorithm 296) สร้างโครงสร้างฮีปแบบปลายคู่โดยมี Maxheap ที่ปลายด้านหนึ่งมินฮ็อปอีกด้านหนึ่งและค่ามัธยฐานอยู่ตรงกลาง สิ่งนี้ให้ผลอัลกอริทึมเวลาเชิงเส้นแทนที่จะเป็นหนึ่งที่เป็น O (n log n) นี่คือปัญหาของฉัน: การนำแบบเดิมมาใช้นั้นทำได้ แต่ฉันต้องเรียกใช้สิ่งนี้กับอนุกรมเวลานับล้านดังนั้นประสิทธิภาพจึงมีความสำคัญมาก ข้อหลังนี้พิสูจน์ได้ยากมากที่จะนำไปใช้ ฉันพบรหัสในไฟล์ Trunmed.c ของรหัสสำหรับแพ็คเกจสถิติของ R แต่มันค่อนข้างจะอ่านไม่ออก มีใครรู้จักการใช้งาน C ที่เขียนมาอย่างดีสำหรับอัลกอริธึมค่ามัธยฐานการหมุนเวลาเชิงเส้นหรือไม่? แก้ไข: ลิงก์ไปยังโค้ด Trunmed.c http://google.com/codesearch/p?hl=th&sa=N&cd=1&ct=rc#mYw3h_Lb_e0/R-2.2.0/src/library/stats/src/Trunmed.c
114 c  algorithm  r  statistics  median 

4
คำนวณช่วงความเชื่อมั่นจากข้อมูลตัวอย่าง
ฉันมีข้อมูลตัวอย่างที่ฉันต้องการคำนวณช่วงความเชื่อมั่นโดยสมมติว่าเป็นการแจกแจงปกติ ฉันพบและติดตั้งแพ็คเกจ numpy และ scipy แล้วและได้รับ numpy เพื่อส่งกลับค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน (numpy.mean (data) โดยมีข้อมูลเป็นรายการ) คำแนะนำใด ๆ ในการรับช่วงความมั่นใจตัวอย่างจะได้รับการชื่นชมมาก

9
ค่าเฉลี่ยทางเรขาคณิต: มีในตัวหรือไม่?
ฉันพยายามหาค่าเฉลี่ยเรขาคณิตในตัว แต่ทำไม่ได้ (เห็นได้ชัดว่าบิวท์อินจะไม่ช่วยฉันตลอดเวลาในขณะที่ทำงานในเชลล์และฉันไม่สงสัยว่ามีความแม่นยำแตกต่างกันสำหรับสคริปต์ฉันพยายามใช้บิวท์อินให้บ่อยที่สุดโดยที่ (สะสม) การเพิ่มประสิทธิภาพมักจะเห็นได้ชัดเจน ในกรณีที่ไม่มี (ซึ่งฉันสงสัยว่าเป็นเช่นนั้น) นี่เป็นของฉัน gm_mean = function(a){prod(a)^(1/length(a))}

6
สถิติเบราว์เซอร์บน JavaScript ถูกปิดใช้งาน [ปิด]
ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ขณะนี้ยังไม่ยอมรับคำตอบ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน3 ปีที่ผ่านมา ปรับปรุงคำถามนี้ ฉันมีปัญหาในการรวบรวมสถิติที่เปิดเผยต่อสาธารณะเกี่ยวกับเปอร์เซ็นต์ของผู้ใช้เว็บที่ปิดใช้งาน JavaScript Yahoo ได้เผยแพร่ข้อมูลจากปี 2010และR. Reid เผยแพร่ข้อมูลจากปี 2009 (เลือกจากเว็บไซต์ที่เขาเข้าถึงได้) สิ่งที่ค้นพบจาก Yahoo ค่อนข้างน่าสนใจในเวลานั้น: เราใช้บันทึกการเข้าถึงและข้อมูลบีคอนรวมกัน (ก่อนหน้านี้รวมอยู่ในหน้านี้) และกรองคำขออัตโนมัติทั้งหมดออกไปโดยปล่อยให้เรามีคำขอชุดหนึ่งที่เราสามารถยืนยันได้ว่าถูกส่งโดยผู้ใช้จริง ข้อมูลนี้ซึ่งไม่ระบุชื่อโดยสิ้นเชิงทำให้เราสามารถบ่งชี้รูปแบบการจราจรในหลายประเทศได้เป็นอย่างดี หลังจากประมวลผลตัวเลขแล้วเราพบว่ามีอัตราคำขอที่ปิดใช้งาน JavaScript ที่สอดคล้องกันซึ่งวนเวียนอยู่ที่ประมาณ 1% ของการเข้าชมจริงโดยอัตราสูงสุดคือประมาณ 2 เปอร์เซ็นต์ในสหรัฐอเมริกาและต่ำสุดประมาณ 0.25 เปอร์เซ็นต์ในบราซิล ประเทศอื่น ๆ ทั้งหมดที่ทดสอบพบว่ามีตัวเลขใกล้เคียง 1.3 เปอร์เซ็นต์ นี่คือสิ่งที่ฉันหาได้จนถึงตอนนี้ แต่เนื่องจากข้อมูลนี้เริ่มเก่าแล้วฉันจึงสงสัยว่าวันนี้เปอร์เซ็นต์เป็นอย่างไร ฉันยังดูStatcounterซึ่งดูเหมือนว่าจะเป็น บริษัท เดียวที่ยังคงเผยแพร่สถิติเบราว์เซอร์อย่างเปิดเผย แต่จะไม่เผยแพร่ข้อมูลเกี่ยวกับ JavaScript ฉันรู้ว่าW3schools ยังเผยแพร่สถิติด้วยเช่นกัน แต่เนื่องจากเป้าหมายมุ่งเป้าไปที่นักพัฒนาข้อมูลนี้จึงมีความเอนเอียงอย่างมากดังนั้นจึงไม่น่าสนใจสำหรับฉัน …

5
วิธีใช้ฟังก์ชัน 'กวาด'
เมื่อฉันดูที่มาของแพ็คเกจ R ฉันเห็นฟังก์ชันที่sweepใช้บ่อยมาก บางครั้งจะใช้เมื่อฟังก์ชันที่ง่ายกว่านั้นมีผลเพียงพอ (เช่นapply) ในบางครั้งก็เป็นไปไม่ได้ที่จะรู้ว่ากำลังทำอะไรอยู่โดยไม่ต้องใช้เวลาพอสมควรในการก้าวผ่านบล็อกโค้ดที่อยู่ในนั้น ความจริงที่ว่าฉันสามารถสร้างsweepเอฟเฟกต์ซ้ำได้โดยใช้ฟังก์ชันที่ง่ายกว่านั้นแสดงว่าฉันไม่เข้าใจsweepกรณีการใช้งานหลักของฉันและการที่ฟังก์ชันนี้ถูกใช้บ่อยครั้งแสดงให้เห็นว่ามันมีประโยชน์มากทีเดียว บริบท: sweepเป็นฟังก์ชันในไลบรารีมาตรฐานของ R ข้อโต้แย้งคือ: sweep(x, MARGIN, STATS, FUN="-", check.margin=T, ...) # x is the data # STATS refers to the summary statistics which you wish to 'sweep out' # FUN is the function used to carry out the sweep, "-" is the default …
101 r  statistics 

11
วิธีลบค่าผิดปกติออกจากชุดข้อมูล
ฉันมีข้อมูลหลายตัวแปรเกี่ยวกับความงามเทียบกับวัย อายุมีตั้งแต่ 20-40 ช่วง 2 (20, 22, 24 .... 40) และสำหรับการบันทึกข้อมูลแต่ละครั้งจะได้รับอายุและคะแนนความงามตั้งแต่ 1-5 เมื่อฉันทำบ็อกซ์พล็อตของข้อมูลนี้ (อายุในแกน X, การให้คะแนนความงามในแกน Y) มีค่าผิดปกติบางอย่างที่พล็อตอยู่นอกหนวดของแต่ละกล่อง ฉันต้องการลบค่าผิดปกติเหล่านี้ออกจากกรอบข้อมูล แต่ฉันไม่แน่ใจว่า R คำนวณค่าผิดปกติสำหรับพล็อตกล่องอย่างไร ด้านล่างนี้คือตัวอย่างลักษณะข้อมูลของฉัน
101 r  statistics  outliers 


4
ตารางความถี่สำหรับตัวแปรเดียว
คำถามสุดท้ายของแพนด้ามือใหม่สำหรับวันนี้: ฉันจะสร้างตารางสำหรับซีรีส์เดี่ยวได้อย่างไร ตัวอย่างเช่น: my_series = pandas.Series([1,2,2,3,3,3]) pandas.magical_frequency_function( my_series ) >> { 1 : 1, 2 : 2, 3 : 3 } googling จำนวนมากทำให้ฉันไปที่ Series.describe () และ pandas.crosstabs แต่สิ่งเหล่านี้ไม่ได้ทำในสิ่งที่ฉันต้องการ: ตัวแปรเดียวนับตามหมวดหมู่ โอ้และคงจะดีถ้ามันใช้งานได้กับประเภทข้อมูลที่แตกต่างกันเช่นสตริง ints ฯลฯ

6
เหตุใดซีรีย์ Fibonacci จึงใช้ในการวางแผนโป๊กเกอร์แบบ Agile? [ปิด]
ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ขณะนี้ยังไม่ยอมรับคำตอบ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน6 ปีที่ผ่านมา ปรับปรุงคำถามนี้ เมื่อประมาณขนาดสัมพัทธ์ของเรื่องราวของผู้ใช้ในการพัฒนาซอฟต์แวร์แบบ Agile สมาชิกในทีมควรจะประมาณขนาดของเรื่องราวของผู้ใช้เป็น 1, 2, 3, 5, 8, 13, ... ดังนั้นค่าโดยประมาณควรคล้ายกับอนุกรมฟีโบนักชี แต่ฉันสงสัยว่าทำไม? คำอธิบายของhttp://en.wikipedia.org/wiki/Planning_pokerใน Wikipedia มีประโยคลึกลับ: เหตุผลในการใช้ลำดับฟีโบนักชีคือเพื่อสะท้อนถึงความไม่แน่นอนโดยธรรมชาติในการประมาณสิ่งของที่มีขนาดใหญ่ขึ้น แต่ทำไมรายการขนาดใหญ่จึงมีความไม่แน่นอนโดยกำเนิด? ความไม่แน่นอนจะสูงขึ้นไม่ใช่หรือถ้าเราทำการวัดน้อยลงหมายความว่าถ้ามีคนประมาณเรื่องเดียวกันน้อยลง? และแม้ว่าความไม่แน่นอนจะสูงขึ้นในเรื่องราวที่ใหญ่กว่าเหตุใดจึงหมายความถึงการใช้ลำดับฟีโบนักชี มีเหตุผลทางคณิตศาสตร์หรือสถิติหรือไม่? มิฉะนั้นการใช้ชุด Fibonacci สำหรับการประมาณค่าจะรู้สึกเหมือนวิทยาศาสตร์ของ CargoCult สำหรับฉัน

11
ฉันจะคำนวณ r-squared โดยใช้ Python และ Numpy ได้อย่างไร
ฉันใช้ Python และ Numpy เพื่อคำนวณพหุนามที่เหมาะสมที่สุดของการศึกษาระดับปริญญาโดยพลการ ฉันส่งรายการค่า x ค่า y และระดับของพหุนามที่ฉันต้องการให้พอดี (เชิงเส้นกำลังสอง ฯลฯ ) สิ่งนี้ได้ผลมาก แต่ฉันก็ต้องการคำนวณ r (สัมประสิทธิ์สหสัมพันธ์) และ r-squared (สัมประสิทธิ์การกำหนด) ฉันกำลังเปรียบเทียบผลลัพธ์ของฉันกับความสามารถของเส้นแนวโน้มที่เหมาะสมที่สุดของ Excel และค่า r-squared ที่คำนวณ เมื่อใช้สิ่งนี้ฉันรู้ว่าฉันกำลังคำนวณ r-squared อย่างถูกต้องสำหรับ linear best-fit (องศาเท่ากับ 1) อย่างไรก็ตามฟังก์ชันของฉันใช้ไม่ได้กับพหุนามที่มีระดับมากกว่า 1 Excel สามารถทำได้ ฉันจะคำนวณ r-squared สำหรับพหุนามลำดับสูงกว่าโดยใช้ Numpy ได้อย่างไร นี่คือหน้าที่ของฉัน: import numpy # Polynomial Regression def polyfit(x, y, …

9
คำนวณค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานจากเวกเตอร์ของตัวอย่างใน C ++ โดยใช้ Boost
มีวิธีคำนวณค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานสำหรับเวกเตอร์ที่มีตัวอย่างโดยใช้Boostหรือไม่? หรือฉันต้องสร้างตัวสะสมและป้อนเวกเตอร์เข้าไป

8
วิธีการคำนวณความน่าจะเป็นในการแจกแจงปกติโดยให้ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน?
วิธีการคำนวณความน่าจะเป็นในการแจกแจงปกติค่าเฉลี่ยที่กำหนด std ใน Python ฉันสามารถเขียนโค้ดฟังก์ชันของตัวเองอย่างชัดเจนได้ตลอดเวลาตามคำจำกัดความเช่นเดียวกับ OP ในคำถามนี้: การคำนวณความน่าจะเป็นของตัวแปรสุ่มในการกระจายใน Python เพียงแค่สงสัยว่ามีการเรียกใช้ฟังก์ชันไลบรารีจะช่วยให้คุณทำสิ่งนี้ได้หรือไม่ ในจินตนาการของฉันมันต้องการสิ่งนี้: nd = NormalDistribution(mu=100, std=12) p = nd.prob(98) มีคำถามที่คล้ายกันใน Perl: ฉันจะคำนวณความน่าจะเป็น ณ จุดหนึ่งที่แจกแจงปกติใน Perl ได้อย่างไร . แต่ฉันไม่เห็นหนึ่งใน Python Numpyมีrandom.normalฟังก์ชัน แต่เหมือนกับการสุ่มตัวอย่างไม่ใช่สิ่งที่ฉันต้องการ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.