สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
สถานการณ์ในชีวิตจริงประเภทใดที่เราสามารถใช้อัลกอริธึมแบบหลายแขนโจรได้?
โจรหลายแขนทำงานได้ดีในสถานการณ์ที่คุณมีทางเลือกและคุณไม่แน่ใจว่าสิ่งใดจะเพิ่มความเป็นอยู่ที่ดีที่สุดของคุณ คุณสามารถใช้อัลกอริทึมสำหรับสถานการณ์ชีวิตจริงบางอย่าง เป็นตัวอย่างการเรียนรู้อาจเป็นสาขาที่ดี: หากเด็กกำลังเรียนรู้ช่างไม้และเขาไม่ดีที่มันอัลกอริทึมจะบอกเขา / เธอว่าเขา / เธออาจต้องดำเนินการต่อไป หากเขา / เธอทำได้ดีอัลกอริทึมจะบอกให้เขา / เธอเรียนรู้ฟิลด์นั้นต่อไป การออกเดทเป็นฟิลด์ที่ดีเช่นกัน: คุณเป็นผู้ชายที่พยายามอย่างมากในการตามหาผู้หญิง อย่างไรก็ตามความพยายามของคุณจะไม่ได้รับการยืนยันอย่างแน่นอน อัลกอริทึมควร "เล็กน้อย" (หรืออย่างยิ่ง) ทำให้คุณขยับเขยื้อนต่อไป สถานการณ์ในชีวิตจริงอื่น ๆ ที่เราสามารถใช้อัลกอริทึมโจรหลายแขนสำหรับ? PS: หากคำถามกว้างเกินไปโปรดแสดงความคิดเห็น หากมีฉันทามติฉันจะลบคำถามของฉัน

1
โคตรการไล่ระดับสีแบบสุ่มสามารถประหยัดเวลาได้อย่างไรเมื่อเปรียบเทียบกับการไล่ระดับสีแบบมาตรฐาน
Standard Gradient Descent จะคำนวณการไล่ระดับสีสำหรับชุดข้อมูลการฝึกอบรมทั้งหมด for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad สำหรับจำนวน epoch ที่กำหนดไว้ล่วงหน้าเราจะคำนวณเวกเตอร์ไล่ระดับ weights_grad ของฟังก์ชันการสูญเสียสำหรับชุดข้อมูลทั้งหมด wrt พารามิเตอร์เวกเตอร์พารามิเตอร์ของเรา ความแตกต่างของการไล่ระดับสีแบบสุ่มสุ่มทำการปรับปรุงพารามิเตอร์สำหรับแต่ละตัวอย่างการฝึกอบรม x (i) และเลเบล y (i) for i in range(nb_epochs): np.random.shuffle(data) for example in data: params_grad = evaluate_gradient(loss_function, example, params) params = params …

2
การพูดว่าเหตุการณ์“ เกิดขึ้นในที่สุด” หมายความว่าอะไร?
พิจารณาการเดินสุ่ม 1 มิติบนจำนวนเต็มZZ\mathbb{Z}ด้วยสถานะเริ่มต้นx∈Zx∈Zx\in\mathbb{Z} : Sn=x+∑i=1nξiSn=x+∑i=1nξi\begin{equation} S_n=x+\sum^n_{i=1}\xi_i \end{equation} ที่เพิ่มขึ้นทีละมี IID ดังกล่าวว่า{2}ξiξi\xi_iP{ξi=1}=P{ξi=−1}=12P{ξi=1}=P{ξi=−1}=12P\{\xi_i=1\}=P\{\xi_i=-1\}=\frac{1}{2} หนึ่งสามารถพิสูจน์ได้ว่า (1) Px{Sn reaches +1 eventually}=1Px{Sn reaches +1 eventually}=1\begin{equation} P^x{\{S_n \text{ reaches +1 eventually}\}} = 1 \end{equation} โดยตัวห้อยหมายถึงตำแหน่งเริ่มต้น Letเป็นครั้งแรกที่ทางรัฐ+1ในคำอื่น ๆ\} หนึ่งสามารถพิสูจน์ได้ว่า (2)ττ\tau+1+1+1τ:=τ(1):=min{n≥0:Sn=1}τ:=τ(1):=min{n≥0:Sn=1}\tau:=\tau(1):=\min\{n\geq0:S_n=1\} Eτ=+∞Eτ=+∞\begin{equation} E\tau = +\infty \end{equation} พิสูจน์ทั้งสองสามารถพบได้ในhttp://galton.uchicago.edu/~lalley/Courses/312/RW.pdf ผ่านการอ่านบทความฉันจะเข้าใจทั้งสองพิสูจน์ อย่างไรก็ตามคำถามของฉันคือสิ่งที่ความหมายของ "ในที่สุด" ในคำสั่งแรกเช่นเดียวกับโดยทั่วไป หากสิ่งที่เกิดขึ้น "ในที่สุด" มันไม่จำเป็นต้องเกิดขึ้นในเวลา จำกัด มันได้หรือไม่ ถ้าเป็นเช่นนั้นอะไรคือความแตกต่างระหว่างสิ่งที่ไม่เกิดขึ้นกับสิ่งที่ไม่เกิดขึ้น "ในที่สุด"? ข้อความบางข้อ …

2
พวกเราเป็นผู้ใช้ชีวิตประจำวันเพียงแค่บอกเป็นนัย / ไม่เต็มใจเบย์หรือไม่?
สำหรับปัญหาการอนุมานที่กำหนดเรารู้ว่าวิธีการแบบเบย์มักจะแตกต่างกันทั้งในรูปแบบและผลที่ได้จากวิธี fequentist ผู้ใช้บ่อย (มักจะรวมถึงฉัน) มักจะชี้ให้เห็นว่าวิธีการของพวกเขาไม่จำเป็นต้องมีก่อนและด้วยเหตุนี้ "ข้อมูลที่ขับเคลื่อน" มากกว่า "การตัดสินใจที่ขับเคลื่อน" แน่นอนว่า Bayesian สามารถชี้ไปที่นักบวชที่ไม่ให้ข้อมูลหรือใช้ประโยชน์ได้เพียงแค่ใช้การกระจายก่อนหน้านี้จริงๆ ความกังวลของฉันโดยเฉพาะอย่างยิ่งหลังจากที่รู้สึกถึงความอับอายขายหน้าในความเป็นกลางของฉันนั่นอาจเป็นวิธีการ "วัตถุประสงค์" ของฉันที่อ้างว่าเป็นสูตรในกรอบของ Bayesian แม้ว่าจะมีรูปแบบข้อมูลและรูปแบบแปลก ๆ ในกรณีนั้นฉันเพิ่งรู้ตัวถึงความอลหม่านก่อนหน้านี้อย่างมีความสุขและแบบจำลองวิธีการที่ใช้บ่อยของฉันบอกเป็นนัย ๆ ? ถ้าชาวเบย์ชี้ให้เห็นการกำหนดเช่นนี้ฉันคิดว่าปฏิกิริยาแรกของฉันคือการพูดว่า "ก็ดีที่คุณสามารถทำได้ แต่นั่นไม่ใช่วิธีที่ฉันคิดเกี่ยวกับปัญหา!" อย่างไรก็ตามใครสนใจว่าฉันคิดอย่างไรหรือฉันกำหนดมันอย่างไร หากกระบวนการของฉันมีค่าทางสถิติ / เชิงคณิตศาสตร์เทียบเท่ากับแบบจำลอง Bayesian บางรุ่นฉันก็จะอนุมาน Bayesian โดยไม่เจตนา ( โดยไม่เจตนา !) คำถามจริงด้านล่าง การตระหนักถึงสิ่งนี้ได้ทำลายสิ่งล่อใจใด ๆ แต่ผมไม่แน่ใจว่าถ้าเป็นความจริงที่ว่ากระบวนทัศน์แบบเบย์สามารถรองรับขั้นตอนการ frequentist ทั้งหมด (อีกครั้งให้คชกรรมเลือกที่เหมาะสมน่าจะเป็นก่อน) ฉันรู้ว่าการสนทนาเป็นเท็จ ฉันถามสิ่งนี้เพราะฉันเพิ่งโพสต์คำถามเกี่ยวกับการอนุมานตามเงื่อนไขซึ่งนำฉันไปสู่บทความต่อไปนี้: ที่นี่ (ดู 3.9.5,3.9.6) พวกเขาชี้ให้เห็นผลลัพธ์ที่เป็นที่รู้จักกันดีของบาซึว่าสามารถมีได้มากกว่าหนึ่งสถิติขึ้นทะเบียนขอร้องคำถามที่ "ส่วนย่อยที่เกี่ยวข้อง" มีความเกี่ยวข้องมากที่สุด ยิ่งแย่ไปกว่านั้นพวกเขาแสดงตัวอย่างที่สองถึงแม้ว่าคุณจะมีสถิติพิเศษที่ไม่ซ้ำกัน …

1
การเขียนสมการทางคณิตศาสตร์สำหรับแบบจำลองเอฟเฟกต์หลายระดับ
คำถาม CV ฉันกำลังพยายามให้รายละเอียดทางคณิตศาสตร์ที่ละเอียดและรัดกุมกับโมเดลเอฟเฟกต์ผสม ฉันใช้lme4แพ็กเกจใน R การแสดงทางคณิตศาสตร์ที่ถูกต้องสำหรับโมเดลของฉันคืออะไร ข้อมูลคำถามวิทยาศาสตร์และรหัส R ชุดข้อมูลของฉันประกอบด้วยสปีชีส์ในภูมิภาคต่างๆ ฉันกำลังทดสอบว่าความชุกของเผ่าพันธุ์เปลี่ยนแปลงในเวลาที่นำไปสู่การสูญพันธุ์หรือไม่ (การสูญพันธุ์ไม่จำเป็นต้องเป็นการถาวรมันสามารถเรียกคืน) หรือตามการล่าอาณานิคม lmer(prevalence ~ time + time:type + (1 + time + type:time | reg) + (1 + time + type:time | reg:spp)) ความชุกเป็นสัดส่วนของชั้นที่ถูกสปีชีส์ครอบครองในภูมิภาคหนึ่งปี เวลาเป็นตัวแปรต่อเนื่องที่บ่งบอกเวลาในการสูญพันธุ์หรือการล่าอาณานิคม มันเป็นบวกเสมอ Typeเป็นตัวแปรเด็ดขาดที่มีสองระดับ สองระดับนี้คือ "-" และ "+" เมื่อประเภทคือ - มันคือการตั้งอาณานิคม (ระดับเริ่มต้น) เมื่อชนิดคือ + จะเป็นการสูญพันธุ์ Regเป็นตัวแปรเด็ดขาดที่มีเก้าระดับซึ่งบ่งชี้ภูมิภาค Sppเป็นตัวแปรเด็ดขาด …

2
การสุ่มตัวอย่างจากการกระจายที่ไม่เหมาะสม (ใช้ MCMC และอื่น ๆ )
คำถามพื้นฐานของฉันคือคุณจะตัวอย่างจากการกระจายที่ไม่เหมาะสมอย่างไร มันทำให้รู้สึกถึงตัวอย่างจากการกระจายที่ไม่เหมาะสมหรือไม่ ความคิดเห็นของซีอานที่นี่เป็นประเภทที่อยู่คำถาม แต่ฉันกำลังมองหารายละเอียดเพิ่มเติมเกี่ยวกับเรื่องนี้ เฉพาะกับ MCMC: ในการพูดคุยเกี่ยวกับ MCMC และการอ่านเอกสารผู้เขียนเน้นที่การได้รับการแจกแจงหลังที่เหมาะสม มีกระดาษที่มีชื่อเสียงGeyer (1992)ที่ผู้เขียนลืมตรวจสอบว่าหลังของพวกเขาถูกต้องหรือไม่ (เป็นกระดาษที่ยอดเยี่ยม) แต่สมมติว่าเรามีความเป็นไปได้ที่และการแจกแจงก่อนหน้าที่ไม่เหมาะสมในθเช่นนั้นผลลัพธ์หลังนั้นไม่เหมาะสมเช่นกันและ MCMC ใช้เพื่อสุ่มตัวอย่างจากการแจกแจง ในกรณีนี้ตัวอย่างบ่งชี้อะไร มีข้อมูลที่เป็นประโยชน์ในตัวอย่างนี้หรือไม่? ฉันรู้ว่าลูกโซ่มาร์คอฟที่นี่นั้นเป็นทั้งชั่วคราวหรือเป็นโมฆะซ้ำ จะมีสิ่งใดที่ได้ผลดีหากเป็นโมฆะซ้ำหรือไม่?ฉ( x | θ )ฉ(x|θ)f(x|\theta)θθ\theta ในที่สุดในคำตอบของนีลจีที่นี่เขาพูดถึง โดยทั่วไปคุณสามารถสุ่มตัวอย่าง (ใช้ MCMC) จากด้านหลังแม้ว่ามันจะไม่เหมาะสมก็ตาม เขากล่าวถึงการสุ่มตัวอย่างดังกล่าวเป็นเรื่องปกติในการเรียนรู้อย่างลึกซึ้ง หากเป็นจริงสิ่งนี้จะสมเหตุสมผลได้อย่างไร

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
ABC และ MCMC ต่างกันอย่างไรในแอปพลิเคชันของพวกเขา
เพื่อความเข้าใจของฉันการคำนวณแบบเบย์โดยประมาณ (ABC) และมาร์คอฟเชนมอนติคาร์โล (MCMC) มีจุดมุ่งหมายที่คล้ายกันมาก ด้านล่างฉันอธิบายความเข้าใจของฉันเกี่ยวกับวิธีการเหล่านี้และฉันเข้าใจความแตกต่างในการนำไปใช้กับข้อมูลในชีวิตจริงได้อย่างไร การคำนวณแบบเบย์โดยประมาณ เอบีซีประกอบด้วยที่สุ่มตัวอย่างพารามิเตอร์จากก่อนผ่านตัวเลขการจำลองการคำนวณสถิติx ฉันซึ่งเป็นเมื่อเทียบกับบางสังเกตx o ข s จากอัลกอริธึมการปฏิเสธx iถูกเก็บไว้หรือปฏิเสธ รายการสะสมx ฉัน s ทำให้การกระจายหลังθθ\thetaxixix_ixobsxobsx_{obs}xixix_ixixix_i มาร์คอฟเชนมอนติคาร์โล MCMC ประกอบด้วยที่สุ่มตัวอย่างกระจายก่อนของพารามิเตอร์θใช้ตัวอย่างแรกθ 1คำนวณP ( x o b s | θ 1 ) P ( θ 1 )แล้วข้าม (ตามกฎบางอย่าง) ไปยังค่าใหม่θ 2ซึ่งP ( x o b s | θ 2 )คำนวณP ( θ …

2
จำนวนครั้งที่คาดว่าจะหมุนตายจนกว่าแต่ละด้านจะปรากฏขึ้น 3 ครั้ง
จำนวนครั้งที่คาดว่าคุณจะต้องกลิ้งตายจนกว่าแต่ละด้านจะปรากฏ 3 ครั้งคืออะไร? คำถามนี้ถูกถามในโรงเรียนประถมในนิวซีแลนด์และแก้ไขด้วยการจำลองสถานการณ์ โซลูชันการวิเคราะห์สำหรับปัญหานี้คืออะไร

2
ทำไมการกระจายด้านหลังในการอนุมานแบบเบย์มักจะดื้อดึง?
ฉันมีปัญหาในการทำความเข้าใจว่าเหตุใดการอนุมานแบบเบย์นำไปสู่ปัญหาที่ยากลำบาก ปัญหามักได้รับการอธิบายเช่นนี้: สิ่งที่ฉันไม่เข้าใจคือสาเหตุที่อินทิกรัลนี้ต้องถูกประเมินในตอนแรกดูเหมือนว่าสำหรับฉันที่ผลลัพธ์ของอินทิกรัลนั้นเป็นแค่ค่าคงที่การทำให้เป็นมาตรฐาน (ตามที่ชุดข้อมูล D มอบให้) เหตุใดจึงไม่สามารถคำนวณการกระจายหลังเป็นตัวเศษทางด้านขวาแล้วอนุมานค่าคงที่การทำให้เป็นมาตรฐานนี้โดยกำหนดให้อินทิกรัลเหนือการแจกแจงหลังต้องเป็น 1? ฉันกำลังคิดถึงอะไร ขอบคุณ!

2
ข้อผิดพลาดนอกกระเป๋าทำให้ CV ไม่จำเป็นในป่าสุ่ม?
ฉันค่อนข้างใหม่สำหรับป่าสุ่ม ในอดีตฉันมักจะเปรียบเทียบความถูกต้องของการพอดีกับการทดสอบเทียบกับการพอดีกับรถไฟเพื่อตรวจจับการ overfitting ใด ๆ แต่ฉันเพิ่งอ่านที่นี่ว่า: "ในฟอเรสต์แบบสุ่มไม่จำเป็นต้องมีการตรวจสอบความถูกต้องไขว้หรือชุดการทดสอบแยกต่างหากเพื่อรับการประมาณค่าที่ผิดพลาดของข้อผิดพลาดของชุดการทดสอบ วรรคเล็ก ๆ ข้างต้นสามารถพบได้ภายใต้ออกจากกระเป๋า (OOB) ข้อผิดพลาดประมาณการมาตรา แนวคิดเรื่อง Out of Bag Error นี้ใหม่สำหรับฉันอย่างสมบูรณ์และสิ่งที่สับสนเล็กน้อยคือข้อผิดพลาด OOB ในแบบจำลองของฉันคือ 35% (หรือความแม่นยำ 65%) แต่ถ้าฉันใช้การตรวจสอบความถูกต้องข้ามกับข้อมูลของฉัน วิธีการ) และเปรียบเทียบทั้งพอดีกับการทดสอบเทียบกับพอดีกับรถไฟฉันได้รับความแม่นยำ 65% และความแม่นยำ 96% ตามลำดับ จากประสบการณ์ของฉันนี่ถือเป็นการ overfitting แต่ OOB ถือข้อผิดพลาด 35% เช่นเดียวกับข้อผิดพลาดการทดสอบพอดีของฉัน ฉันกำลัง overfitting หรือไม่ ฉันควรจะใช้การตรวจสอบความถูกต้องข้ามเพื่อตรวจสอบการกำหนดราคาสูงเกินไปในป่าที่มีการสุ่มหรือไม่? ในระยะสั้นฉันไม่แน่ใจว่าฉันควรเชื่อถือ OOB เพื่อรับข้อผิดพลาดที่เป็นกลางของข้อผิดพลาดของชุดทดสอบเมื่อฉันพอดีกับรถไฟแสดงให้เห็นว่าฉันกำลังล้น!

2
การคาดการณ์จากรุ่น BSTS (ใน R) ล้มเหลวอย่างสมบูรณ์
หลังจากอ่านโพสต์บล็อกนี้เกี่ยวกับแบบจำลองอนุกรมเวลาของ Bayesian ฉันต้องการดูการใช้สิ่งนี้ในบริบทของปัญหาที่ฉันเคยใช้ ARIMA สำหรับ ฉันมีข้อมูลบางส่วนที่มีส่วนประกอบตามฤดูกาลที่ทราบ (แต่มีเสียงดัง) มีองค์ประกอบประจำปีรายเดือนและรายสัปดาห์สำหรับเรื่องนี้และยังมีผลกระทบบางอย่างเนื่องจากวันพิเศษ (เช่นวันหยุดราชการหรือวันหยุดทางศาสนา) ฉันใช้bstsแพคเกจเพื่อใช้งานและเท่าที่ฉันสามารถบอกได้ว่าฉันไม่ได้ทำอะไรผิดพลาดถึงแม้ว่าส่วนประกอบและการคาดการณ์จะไม่ดูอย่างที่ฉันคาดไว้ ไม่ชัดเจนสำหรับฉันหากการนำไปใช้ของฉันผิดไม่สมบูรณ์หรือมีปัญหาอื่น ซีรี่ส์เต็มเวลามีลักษณะดังนี้: ฉันสามารถฝึกโมเดลในส่วนย่อยของข้อมูลและโมเดลโดยทั่วไปจะดูดีในแง่ของความพอดี (พล็อตต่ำกว่า) รหัสที่ฉันใช้ในการทำสิ่งนี้อยู่ที่นี่: library(bsts) predict_length = 90 training_cut_date <- '2015-05-01' test_cut_date <- as.Date(training_cut_date) + predict_length df = read.csv('input.tsv', sep ='\t') df$date <- as.Date(as.character(df$date),format="%Y-%m-%d") df_train = df[df$date < training_cut_date,] yts <- xts(log10(df_train$count), order.by=df_train$date) ss <- AddLocalLinearTrend(list(), yts) ss <- …
15 r  time-series  bayesian  mcmc  bsts 

1
คำถามสัมภาษณ์ที่ดีสำหรับผู้สมัครขั้นตอนวิธีเชิงสถิติคืออะไร?
ฉันกำลังสัมภาษณ์ผู้คนถึงตำแหน่งนักพัฒนาอัลกอริทึม / นักวิจัยในด้านสถิติ / การเรียนรู้ของเครื่องจักร / บริบทการขุดข้อมูล ฉันกำลังมองหาคำถามที่จะถามเพื่อพิจารณาเป็นพิเศษความคุ้นเคยความเข้าใจและความลื่นไหลของผู้สมัครกับทฤษฎีพื้นฐานเช่นคุณสมบัติพื้นฐานของความคาดหวังและความแปรปรวนการแจกแจงทั่วไปบางอย่าง ฯลฯ คำถามไปที่ปัจจุบันของฉันคือ: "มีปริมาณที่ไม่รู้จักซึ่งเราอยากจะประเมินด้วยเหตุนี้เรามีตัวประมาณY 1 , Y 2 , … , Y nซึ่งได้รับXนั้นไม่เอนเอียงและเป็นอิสระและ แต่ละคนมีความแปรปรวนที่รู้จักกันσ 2 ฉันแตกต่างกันไปสำหรับแต่ละคนค้นหาตัวประมาณที่เหมาะสมที่สุดY = f ( Y 1 , … , Y n )ซึ่งไม่เอนเอียงและมีความแปรปรวนน้อยที่สุด "XXXY1, วาย2, … , YnY1,Y2,...,YnY_1, Y_2, \ldots, Y_nXXXσ2ผมσผม2\sigma_i^2Y= f( Y1, … , Yn)Y=ฉ(Y1,...,Yn)Y=f(Y_1,\ldots, Y_n) ฉันคาดหวังว่าผู้สมัครที่จริงจังในการจัดการกับมันได้อย่างง่ายดาย (ให้เวลาในการคำนวณการคำนวณ) …

3
การประมาณความน่าจะเป็นในกระบวนการของ Bernoulli โดยการสุ่มตัวอย่างจนถึง 10 ความล้มเหลว: มันมีอคติหรือไม่
สมมติว่าเรามีกระบวนการ Bernoulli ที่มีความน่าจะเป็นล้มเหลวqqq (ซึ่งจะเล็กพูด ) จากที่เราสุ่มตัวอย่างจนกว่าเราจะพบความล้มเหลวดังนั้นเราจึงประเมินความน่าจะเป็นของความล้มเหลวเนื่องจากโดยที่คือจำนวนตัวอย่างq≤0.01q≤0.01q \leq 0.01101010q^:=10/Nq^:=10/N\hat{q}:=10/NNNN คำถาม : อะไรคือประมาณการลำเอียงของ ? และถ้าเป็นเช่นนั้นมีวิธีแก้ไขหรือไม่?q^q^\hat{q}qqq ฉันกังวลว่าการยืนยันตัวอย่างสุดท้ายคือความเอนเอียงที่ล้มเหลวในการประมาณการ

5
การเปลี่ยนแปลงทางสถิติในสองรูปแบบที่มีคุณสมบัติตามสูตร 1
ฉันเพิ่งอ่านบทความ BBC นี้เกี่ยวกับรูปแบบที่เหมาะสมในสูตร 1 ผู้จัดงานต้องการทำให้การคาดการณ์มีคุณสมบัติน้อยลงเช่นเพื่อเพิ่มความแปรปรวนทางสถิติในผลลัพธ์ การรวบรวมรายละเอียดที่ไม่เกี่ยวข้องในตอนนี้ผู้ขับขี่ได้รับการจัดอันดับจากรอบที่ดีที่สุดจากสองรอบ นายฌองท็อดท์หัวหน้า F1 คนหนึ่งเสนอว่าการจัดอันดับผู้ขับขี่โดยเฉลี่ยสองรอบจะเพิ่มความแปรปรวนทางสถิติเนื่องจากไดรเวอร์อาจมีความผิดพลาดเป็นสองเท่า แหล่งข้อมูลอื่นแย้งว่าค่าเฉลี่ยใด ๆ ย่อมลดความผันแปรทางสถิติ เราสามารถพูดได้ว่าใครถูกภายใต้สมมติฐานที่สมเหตุสมผล? ฉันคิดว่ามันเดือดลงกับความแปรปรวนแบบสัมพัทธ์ของค่าเฉลี่ย( x , y)ค่าเฉลี่ย(x,Y)\text{mean}(x,y)เทียบกับโดยที่และเป็นตัวแปรสุ่มที่เป็นตัวแทนของสองรอบตัก?x yขั้นต่ำ( x , y)นาที(x,Y)\text{min}(x,y)xxxYYy
15 variance 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.