คำถามติดแท็ก computational-statistics

อ้างถึงอินเทอร์เฟซของสถิติและการคำนวณ การใช้อัลกอริทึมและซอฟต์แวร์เพื่อจุดประสงค์ทางสถิติ

21
จูเลียมีความหวังใด ๆ หรือไม่ที่จะติดอยู่ในชุมชนทางสถิติ?
ฉันเพิ่งอ่านโพสต์จาก R-บล็อกที่เชื่อมโยงกับการโพสต์บล็อกนี้จากจอห์นไมลส์สีขาวเกี่ยวกับภาษาใหม่ที่เรียกว่าจูเลีย จูเลียใช้ประโยชน์จากคอมไพเลอร์ทันเวลาที่ให้เวลาการรันที่รวดเร็วและทำให้มันมีความเร็วเท่ากันกับ C / C ++ ( ลำดับเดียวกันไม่เร็วเท่ากัน) นอกจากนี้ยังใช้กลไกการวนลูปดั้งเดิมที่พวกเราที่เริ่มเขียนโปรแกรมเกี่ยวกับภาษาดั้งเดิมคุ้นเคยกับแทนที่จะใช้คำสั่ง R และการดำเนินการเวกเตอร์ R จะไม่หายไปด้วยวิธีการใด ๆ แม้จะมีการกำหนดเวลาที่ยอดเยี่ยมเช่นนี้จากจูเลียก็ตาม มีการสนับสนุนอย่างกว้างขวางในอุตสาหกรรมและแพ็คเกจที่ยอดเยี่ยมมากมายที่จะทำอะไรก็ได้ ความสนใจของฉันคือ Bayesian ในธรรมชาติซึ่งมักจะเป็นไปไม่ได้ที่ vectorizing แน่นอนว่างานอนุกรมต้องทำโดยใช้ลูปและเกี่ยวข้องกับการคำนวณหนักในแต่ละการทำซ้ำ R อาจช้ามากในงานวนลูปอนุกรมเหล่านี้และ C / ++ ไม่ใช่การเดินในสวนเพื่อเขียน จูเลียดูเหมือนเป็นทางเลือกที่ยอดเยี่ยมสำหรับการเขียนใน C / ++ แต่มันยังอยู่ในช่วงเริ่มต้นและขาดฟังก์ชั่นมากมายที่ฉันชอบเกี่ยวกับอาร์มันน่าจะเหมาะที่จะเรียนรู้ว่าจูเลียเป็นสถิติทางคอมพิวเตอร์ จากชุมชนสถิติและผู้คนเริ่มเขียนแพ็คเกจที่เป็นประโยชน์สำหรับมัน คำถามของฉันเป็นไปตาม: จูเลียจำเป็นต้องมีฟีเจอร์อะไรเพื่อให้มีเสน่ห์ที่ทำให้ R เป็นภาษาของสถิติอย่างแท้จริง? อะไรคือข้อดีและข้อเสียของการเรียนรู้ Julia ในการทำงานหนักเชิงคำนวณเทียบกับการเรียนรู้ภาษาระดับต่ำเช่น C / ++?

9
ฉันควรใช้อัลกอริทึมใดในการตรวจจับความผิดปกติในอนุกรมเวลา
พื้นหลัง ฉันทำงานในศูนย์ปฏิบัติการเครือข่ายเราตรวจสอบระบบคอมพิวเตอร์และประสิทธิภาพของระบบ หนึ่งในตัวชี้วัดหลักในการตรวจสอบคือจำนวนผู้เยี่ยมชม \ ลูกค้าที่เชื่อมต่อกับเซิร์ฟเวอร์ของเราในปัจจุบัน เพื่อให้มองเห็นได้เรา (ทีม Ops) รวบรวมตัวชี้วัดเช่นข้อมูลอนุกรมเวลาและวาดกราฟ กราไฟต์ช่วยให้เราสามารถทำมันได้มี API ที่สวยงามซึ่งฉันใช้ในการสร้างระบบการแจ้งเตือนเพื่อแจ้งทีมของเราหากมีการลดลงอย่างกะทันหัน (ส่วนใหญ่) และการเปลี่ยนแปลงอื่น ๆ เกิดขึ้น สำหรับตอนนี้ฉันได้ตั้งค่าสแตติกแบบคงที่ตามค่าเฉลี่ยของ AVG แต่มันใช้งานไม่ได้ดี (มีจำนวนบวกเท็จ) เนื่องจากการโหลดที่แตกต่างกันในระหว่างวันและสัปดาห์ (ปัจจัยด้านฤดูกาล) ดูเหมือนว่านี้: ข้อมูลจริง (ตัวอย่างสำหรับหนึ่งตัวชี้วัด, ช่วงเวลา 15 นาที, หมายเลขแรกคือจำนวนผู้ใช้, การประทับครั้งที่สอง): [{"target": "metric_name", "datapoints": [[175562.0, 1431803460], [176125.0, 1431803520], [176125.0, 1431803580], [175710.0, 1431803640], [175710.0, 1431803700], [175733.0, 1431803760], [175733.0, 1431803820], [175839.0, 1431803880], [175839.0, …

8
Excel เป็นโต๊ะทำงานสถิติ
ดูเหมือนว่าผู้คนจำนวนมาก (รวมถึงฉัน) ต้องการทำการวิเคราะห์ข้อมูลเชิงสำรวจใน Excel ข้อ จำกัด บางประการเช่นจำนวนแถวที่อนุญาตในสเปรดชีตเป็นความเจ็บปวด แต่ในกรณีส่วนใหญ่ไม่สามารถใช้ Excel เพื่อเล่นข้อมูลได้ อย่างไรก็ตามบทความของ McCullough และ Heiserนั้นกรีดร้องว่าคุณจะได้รับผลที่ผิด - และอาจไหม้อยู่ในนรกได้เช่นกัน - ถ้าคุณพยายามใช้ Excel กระดาษนี้ถูกต้องหรือมันลำเอียง? ผู้เขียนทำเสียงเหมือนพวกเขาเกลียดชัง Microsoft

6
ขั้นตอนวิธีใดที่ใช้ในการถดถอยเชิงเส้น
ฉันมักจะได้ยินเกี่ยวกับ "กำลังสองน้อยที่สุดธรรมดา" นั่นเป็นอัลกอริทึมที่ใช้กันอย่างแพร่หลายที่สุดสำหรับการถดถอยเชิงเส้นหรือไม่? มีเหตุผลที่จะใช้อันอื่นหรือไม่?

7
แนวคิดสถิติเพื่ออธิบายว่าทำไมคุณถึงมีโอกาสน้อยที่จะพลิกจำนวนหัวเท่ากันกับก้อยเมื่อจำนวนการโยนเพิ่มขึ้น
ฉันทำงานเกี่ยวกับการเรียนรู้ความน่าจะเป็นและสถิติโดยการอ่านหนังสือสองสามเล่มและเขียนรหัสบางส่วนและในขณะที่การจำลองเหรียญพลิกฉันสังเกตเห็นบางสิ่งบางอย่างที่ทำให้ฉันเป็นตัวนับสัญชาตญาณไร้เดียงสาเล็กน้อย หากคุณพลิกเหรียญที่ยุติธรรมครั้งอัตราส่วนของหัวต่อหางจะแปรเปลี่ยนเป็น 1 เมื่อเพิ่มขึ้นตามที่คุณคาดหวัง แต่ในทางกลับกันเมื่อเพิ่มขึ้นปรากฏว่าคุณมีโอกาสน้อยที่จะพลิกจำนวนหัวเท่ากันเป็นหางดังนั้นจะได้อัตราส่วน1 ที่แน่นอนn nnnnnnnnnn ตัวอย่างเช่น (ผลงานบางส่วนจากโปรแกรมของฉัน) For 100 flips, it took 27 experiments until we got an exact match (50 HEADS, 50 TAILS) For 500 flips, it took 27 experiments until we got an exact match (250 HEADS, 250 TAILS) For 1000 flips, it took 11 experiments …

12
เครื่องมือบรรทัดคำสั่งเพื่อคำนวณสถิติพื้นฐานสำหรับกระแสค่า [ปิด]
มีเครื่องมือบรรทัดคำสั่งใดบ้างที่ยอมรับการไหลของตัวเลข (ในรูปแบบ ascii) จากอินพุตมาตรฐานและให้สถิติเชิงพรรณนาพื้นฐานสำหรับโฟลว์นี้เช่น min, max, average, median, RMS, quantiles และอื่น ๆ ? เอาต์พุตยินดีที่จะแยกวิเคราะห์โดยคำสั่งถัดไปในห่วงโซ่บรรทัดคำสั่ง สภาพแวดล้อมการทำงานคือ Linux แต่มีตัวเลือกอื่น ๆ ยินดีต้อนรับ

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
วิธีการจัดให้มีการกระจายแบบไม่ต่อเนื่องเพื่อนับข้อมูล?
ฉันมีฮิสโตแกรมข้อมูลการนับต่อไปนี้ และฉันต้องการให้การกระจายแบบไม่ต่อเนื่องกับมัน ฉันไม่แน่ใจว่าฉันควรทำอย่างไร ฉันควรเพิ่มการแจกแจงแบบแยกส่วนก่อนพูดการแจกแจงลบแบบทวินามบนฮิสโตแกรมเพื่อให้ฉันได้รับพารามิเตอร์การกระจายแบบไม่ต่อเนื่องแล้วเรียกใช้การทดสอบ Kolmogorov – Smirnov เพื่อตรวจสอบค่า p? ฉันไม่แน่ใจว่าวิธีนี้ถูกต้องหรือไม่ มีวิธีการทั่วไปในการจัดการปัญหาเช่นนี้หรือไม่? นี่คือตารางความถี่ของข้อมูลการนับ ในปัญหาของฉันฉันมุ่งเน้นเฉพาะการนับที่ไม่ใช่ศูนย์ Counts: 1 2 3 4 5 6 7 9 10 Frequency: 3875 2454 921 192 37 11 1 1 2 UPDATE:ฉันต้องการถาม: ฉันใช้ฟังก์ชัน fitdistr ใน R เพื่อรับพารามิเตอร์สำหรับการปรับข้อมูลให้เหมาะสม fitdistr(abc[abc != 0], "Poisson") lambda 1.68147852 (0.01497921) จากนั้นฉันพล็อตฟังก์ชันความน่าจะเป็นแบบมวลของการแจกแจงแบบปัวซองที่อยู่ด้านบนของฮิสโตแกรม อย่างไรก็ตามดูเหมือนว่าการกระจาย Poisson ล้มเหลวในการสร้างแบบจำลองข้อมูลการนับ …

1
วิธีการเปรียบเทียบแบบใดที่จะใช้สำหรับโมเดล lmer: lsmeans หรือ glht
ฉันกำลังวิเคราะห์ชุดข้อมูลโดยใช้โมเดลเอฟเฟกต์ผสมกับเอฟเฟ็กต์คงที่หนึ่งรายการ (เงื่อนไข) และเอฟเฟกต์แบบสุ่มสองรายการ (ผู้เข้าร่วมเนื่องจากการออกแบบภายในและคู่ของเรื่อง) รูปแบบที่ถูกสร้างขึ้นด้วยแพคเกจ:lme4exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp) ต่อไปฉันทำการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลนี้เทียบกับโมเดลโดยไม่มีผลกระทบคงที่ (เงื่อนไข) และมีความแตกต่างอย่างมีนัยสำคัญ ชุดข้อมูลของฉันมี 3 เงื่อนไขดังนั้นฉันจึงต้องการเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าจะใช้วิธีใด ฉันพบคำถามที่คล้ายกันจำนวนหนึ่งใน CrossValidated และฟอรัมอื่น ๆ แต่ฉันยังสับสนอยู่ จากสิ่งที่ฉันเห็นผู้คนแนะนำให้ใช้ 1.lsmeansแพคเกจ - lsmeans(exp.model,pairwise~condition)ซึ่งทำให้ผมส่งออกต่อไปนี้: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts …

2
การใช้ตัวเลขสุ่มในการคำนวณทางสถิติมีความสำคัญอะไรบ้าง?
เครื่องกำเนิดเลขสุ่ม (RNG) มีความสำคัญอย่างไรในสถิติการคำนวณ ฉันเข้าใจว่าการสุ่มนั้นมีความสำคัญเมื่อเลือกตัวอย่างสำหรับการทดสอบทางสถิติจำนวนมากเพื่อหลีกเลี่ยงอคติต่อสมมติฐานใด ๆ แต่มีพื้นที่อื่น ๆ ของสถิติการคำนวณที่เครื่องกำเนิดเลขสุ่มมีความสำคัญหรือไม่

1
โคตรการไล่ระดับสีแบบสุ่มสามารถประหยัดเวลาได้อย่างไรเมื่อเปรียบเทียบกับการไล่ระดับสีแบบมาตรฐาน
Standard Gradient Descent จะคำนวณการไล่ระดับสีสำหรับชุดข้อมูลการฝึกอบรมทั้งหมด for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad สำหรับจำนวน epoch ที่กำหนดไว้ล่วงหน้าเราจะคำนวณเวกเตอร์ไล่ระดับ weights_grad ของฟังก์ชันการสูญเสียสำหรับชุดข้อมูลทั้งหมด wrt พารามิเตอร์เวกเตอร์พารามิเตอร์ของเรา ความแตกต่างของการไล่ระดับสีแบบสุ่มสุ่มทำการปรับปรุงพารามิเตอร์สำหรับแต่ละตัวอย่างการฝึกอบรม x (i) และเลเบล y (i) for i in range(nb_epochs): np.random.shuffle(data) for example in data: params_grad = evaluate_gradient(loss_function, example, params) params = params …

2
ABC และ MCMC ต่างกันอย่างไรในแอปพลิเคชันของพวกเขา
เพื่อความเข้าใจของฉันการคำนวณแบบเบย์โดยประมาณ (ABC) และมาร์คอฟเชนมอนติคาร์โล (MCMC) มีจุดมุ่งหมายที่คล้ายกันมาก ด้านล่างฉันอธิบายความเข้าใจของฉันเกี่ยวกับวิธีการเหล่านี้และฉันเข้าใจความแตกต่างในการนำไปใช้กับข้อมูลในชีวิตจริงได้อย่างไร การคำนวณแบบเบย์โดยประมาณ เอบีซีประกอบด้วยที่สุ่มตัวอย่างพารามิเตอร์จากก่อนผ่านตัวเลขการจำลองการคำนวณสถิติx ฉันซึ่งเป็นเมื่อเทียบกับบางสังเกตx o ข s จากอัลกอริธึมการปฏิเสธx iถูกเก็บไว้หรือปฏิเสธ รายการสะสมx ฉัน s ทำให้การกระจายหลังθθ\thetaxixix_ixobsxobsx_{obs}xixix_ixixix_i มาร์คอฟเชนมอนติคาร์โล MCMC ประกอบด้วยที่สุ่มตัวอย่างกระจายก่อนของพารามิเตอร์θใช้ตัวอย่างแรกθ 1คำนวณP ( x o b s | θ 1 ) P ( θ 1 )แล้วข้าม (ตามกฎบางอย่าง) ไปยังค่าใหม่θ 2ซึ่งP ( x o b s | θ 2 )คำนวณP ( θ …

3
คุณบางคนใช้สเปรดชีตของ Google เอกสารเพื่อดำเนินการและแบ่งปันผลงานทางสถิติของคุณกับผู้อื่นหรือไม่?
ฉันรู้ว่าพวกคุณส่วนใหญ่อาจรู้สึกว่า Google เอกสารยังคงเป็นเครื่องมือดั้งเดิม ไม่ใช่ Matlab หรือ R และไม่ใช่แม้แต่ Excel กระนั้นฉันก็รู้สึกงุนงงกับพลังของซอฟต์แวร์ที่ทำงานบนเว็บที่เพิ่งใช้ความสามารถในการทำงานของเบราว์เซอร์ Mike Lawrence ซึ่งทำงานอยู่ในฟอรัมนี้ได้แบ่งปันสเปรดชีตกับเราโดยใช้ Google เอกสารซึ่งทำสิ่งที่น่าสนใจ โดยส่วนตัวแล้วฉันได้จำลองกรอบการทดสอบสมมติฐานอย่างละเอียด (รวมถึงการทดสอบแบบพารามิเตอร์และแบบไม่อิงพารามิเตอร์) ที่ทำใน Excel ใน Google เอกสาร ฉันสนใจถ้ามีใครในพวกคุณลองใช้ Google เอกสารและผลักมันให้ถึงขีด จำกัด ในแอปพลิเคชันที่น่าสนใจ ฉันสนใจที่จะรับฟังข้อบกพร่องหรือข้อบกพร่องที่คุณพบใน Google เอกสารด้วย ฉันกำลังตั้งคำถามนี้ว่า "สำหรับวิกิชุมชน" แสดงว่าไม่มีคำตอบที่ดีที่สุดสำหรับเรื่องนี้ เป็นการสำรวจมากกว่าสิ่งใด

9
หนังสือเล่มใดที่ให้ภาพรวมของสถิติการคำนวณตามที่ใช้กับวิทยาศาสตร์คอมพิวเตอร์
ในฐานะวิศวกรซอฟต์แวร์ฉันสนใจในหัวข้อต่าง ๆ เช่นอัลกอริธึมเชิงสถิติการขุดข้อมูลการเรียนรู้เครื่องเครือข่ายแบบเบย์อัลกอริธึมการจำแนกเครือข่ายนิวรัลเครือข่ายมาร์คอฟวิธีการของมอนติคาร์โลและการสร้างตัวเลขสุ่ม โดยส่วนตัวฉันไม่ได้มีความสุขที่ได้ทำงานด้วยเทคนิคเหล่านี้ แต่ฉันต้องทำงานกับซอฟต์แวร์ที่อยู่ภายใต้ประทุนใช้พวกเขาและต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับพวกเขาในระดับสูง ฉันกำลังมองหาหนังสือที่ครอบคลุมความกว้างมาก - ไม่จำเป็นต้องเจาะลึก ฉันคิดว่าฉันสามารถเรียนรู้มากมายเกี่ยวกับการพัฒนาซอฟต์แวร์หากฉันสามารถเข้าใจรากฐานทางคณิตศาสตร์ที่อยู่เบื้องหลังอัลกอริทึมและเทคนิคที่ใช้ ชุมชนการวิเคราะห์เชิงสถิติสามารถแนะนำหนังสือที่ฉันสามารถใช้เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการใช้องค์ประกอบทางสถิติต่าง ๆ ในซอฟต์แวร์ได้หรือไม่

4
การอัพเดตการถดถอยเชิงเส้นอย่างมีประสิทธิภาพเมื่อเพิ่มการสังเกตและ / หรือตัวทำนายใน R
ฉันสนใจที่จะหาวิธีใน R เพื่ออัปเดตโมเดลเชิงเส้นอย่างมีประสิทธิภาพเมื่อมีการเพิ่มการสังเกตหรือตัวทำนาย biglm มีความสามารถในการอัปเดตเมื่อเพิ่มการสังเกต แต่ข้อมูลของฉันมีขนาดเล็กพอที่จะอยู่ในหน่วยความจำ (แม้ว่าฉันจะมีอินสแตนซ์จำนวนมากที่ต้องอัปเดต) มีวิธีการทำเช่นนี้ด้วยมือเปล่าเช่นเพื่ออัปเดตการแยกตัวประกอบ QR (ดู "การอัปเดตการแยกตัวประกอบ QR และปัญหากำลังสองน้อยที่สุด" โดย Hammarling และ Lucas) แต่ฉันหวังว่าจะมีการใช้งานอยู่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.