คำถามติดแท็ก binomial

การแจกแจงทวินามให้ความถี่ของ "ความสำเร็จ" ในจำนวน "การทดลอง" ที่เป็นอิสระ ใช้แท็กนี้สำหรับคำถามเกี่ยวกับข้อมูลที่อาจแจกแจงแบบทวินามหรือคำถามเกี่ยวกับทฤษฎีการกระจายตัวนี้

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

11
เครื่องมือพัฒนาสมอง: จะสร้างจำนวนเต็ม 7 จำนวนด้วยความน่าจะเป็นที่เท่าเทียมกันโดยใช้เหรียญลำเอียงที่มี pr (หัว) = p อย่างไร
นี่เป็นคำถามที่ฉันพบในGlassdoor : เราสร้างจำนวนเต็ม 7 ตัวที่มีความน่าจะเป็นเท่ากันในการใช้เหรียญที่มีอย่างไรP r ( หัวหน้า) = p ∈ ( 0 , 1 )Pr(Head)=p∈(0,1)\mathbb{Pr}(\text{Head}) = p\in(0,1) โดยทั่วไปคุณมีเหรียญที่อาจจะใช่หรือไม่ยุติธรรมและนี่เป็นกระบวนการสร้างเลขสุ่มเพียงตัวเดียวที่คุณมีดังนั้นเกิดขึ้นกับตัวสร้างตัวเลขสุ่มที่แสดงจำนวนเต็มตั้งแต่ 1 ถึง 7 โดยที่ความน่าจะเป็นที่จะได้จำนวนเต็มแต่ละตัว คือ 1/7 ประสิทธิภาพของกระบวนการสร้างข้อมูล

8
จะบอกความน่าจะเป็นของความล้มเหลวได้อย่างไรถ้าไม่มีความล้มเหลว?
ฉันสงสัยว่ามีวิธีที่จะบอกความน่าจะเป็นของสิ่งที่ล้มเหลว (ผลิตภัณฑ์) ถ้าเรามีผลิตภัณฑ์ 100,000 รายการในเขตข้อมูลเป็นเวลา 1 ปีและไม่มีความล้มเหลวหรือไม่? ความน่าจะเป็นที่ผลิตภัณฑ์หนึ่งใน 10,000 รายการที่ขายไปนั้นล้มเหลวคืออะไร

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
ข้อผิดพลาดมาตรฐานสำหรับค่าเฉลี่ยของตัวอย่างของตัวแปรสุ่มแบบทวินาม
สมมติว่าผมใช้การทดสอบที่สามารถมีผล 2 และฉันสมมติว่าพื้นฐานการกระจาย "ความจริง" ของ 2 ผลคือการกระจายทวินามกับพารามิเตอร์และ :P)p B ฉันn o m ฉันa l ( n , p )nnnpppBinomial(n,p)Binomial(n,p){\rm Binomial}(n, p) ฉันสามารถคำนวณข้อผิดพลาดมาตรฐานจากรูปแบบของความแปรปรวนของ : ที่1-P ดังนั้น{} สำหรับข้อผิดพลาดมาตรฐานที่ฉันได้รับ:แต่ผมเคยเห็นบางที่{n}} ฉันทำผิดอะไร? Bฉันnomฉันal(n,p)SEX=σXn√SEX=σXnSE_X = \frac{\sigma_X}{\sqrt{n}}Binomial(n,p)Binomial(n,p){\rm Binomial}(n, p)σ2X=npqσX2=npq \sigma^{2}_{X} = npqq=1−pq=1−pq = 1-pσX=npq−−−√σX=npq\sigma_X=\sqrt{npq}SEX=pq−−√SEX=pqSE_X=\sqrt{pq}SEX=pqn−−√SEX=pqnSE_X = \sqrt{\frac{pq}{n}}

2
ช่วงความเชื่อมั่นสำหรับการสุ่มตัวอย่าง Bernoulli
ฉันมีตัวอย่างแบบสุ่มของตัวแปรสุ่มของ Bernoulliโดยที่คือ iidrv และและเป็นพารามิเตอร์ที่ไม่รู้จักX1...XNX1...XNX_1 ... X_NXiXiX_iP(Xi=1)=pP(Xi=1)=pP(X_i = 1) = pppp เห็นได้ชัดว่าหนึ่งสามารถหาประมาณการสำหรับ : Npppp^:=(X1+⋯+XN)/Np^:=(X1+⋯+XN)/N\hat{p}:=(X_1+\dots+X_N)/N คำถามของฉันคือฉันจะสร้างช่วงความมั่นใจสำหรับอย่างไรppp

9
ฉันจะจำลองผลรวมของตัวแปรสุ่มของเบอร์นูลลี่อย่างมีประสิทธิภาพได้อย่างไร
ฉันกำลังสร้างแบบจำลองตัวแปรสุ่ม ( ) ซึ่งเป็นผลรวมของตัวแปรสุ่ม Bernoulli อิสระบางตัว ( ) บาง ~ 15-40k แต่ละคนมีโอกาสประสบความสำเร็จที่แตกต่างกัน ( ) อย่างเป็นทางการที่และ\ Pr (x_i = 0) = 1 p_iYYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i ฉันสนใจที่จะตอบคำถามอย่างรวดเร็วเช่นPr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k) (โดยที่ได้รับkkk ) ขณะนี้ฉันใช้การจำลองแบบสุ่มเพื่อตอบคำถามดังกล่าว ผมสุ่มวาดแต่ละXiXiX_iตามมันpipip_iแล้วรวมทั้งหมดXiXiX_iค่าที่จะได้รับY'Y′Y′Y'ฉันทำซ้ำขั้นตอนนี้ไม่กี่พันครั้งและกลับส่วนครั้งที่Pr(Y′≤k)Pr(Y′≤k)\Pr(Y'\leq k)k) เห็นได้ชัดว่านี่ไม่ถูกต้องทั้งหมด (แม้ว่าความแม่นยำจะเพิ่มขึ้นอย่างมากเมื่อจำนวนการจำลองเพิ่มขึ้น) นอกจากนี้ดูเหมือนว่าฉันมีข้อมูลเพียงพอเกี่ยวกับการแจกจ่ายเพื่อหลีกเลี่ยงการจำลองการใช้งาน คุณคิดวิธีที่สมเหตุสมผลในการรับความน่าจะเป็นPr(Y≤k)Pr(Y≤k)\Pr(Y\leq k)หรือไม่? PS ฉันใช้ Perl &amp; R แก้ไข ฉันคิดว่าอาจจำเป็นต้องมีคำอธิบายเพิ่มเติม ฉันจะอธิบายการตั้งค่าของปัญหาของฉันในไม่ช้า รับเป็นจีโนมวงกลมที่มีเส้นรอบวงcและชุดของnช่วงแมปกับมัน ยกตัวอย่างเช่นและc=3*10^9 ranges={[100,200],[50,1000],[3*10^9-1,1000],...}หมายเหตุช่วงทั้งหมดถูกปิด (รวมปลายทั้งสอง) โปรดทราบว่าเราจัดการเฉพาะจำนวนเต็ม (หน่วยทั้งหมด) ฉันกำลังมองหาภูมิภาคบนวงกลมที่มีการซ่อนเร้นโดยnช่วงที่กำหนด ดังนั้นเพื่อทดสอบว่าช่วงความยาวxที่กำหนดบนวงกลมนั้นมีการปกปิดหรือไม่ฉันทดสอบสมมติฐานที่nช่วงนั้นมีการแมปแบบสุ่ม …

2
การตีความเอาท์พุทของ R สำหรับการถดถอยแบบทวินาม
ฉันค่อนข้างใหม่กับการทดสอบข้อมูลทวินาม แต่จำเป็นต้องทำและตอนนี้ฉันไม่แน่ใจว่าจะตีความผลลัพธ์ได้อย่างไร ตัวแปร y คือตัวแปรตอบสนองเป็นแบบทวินามและปัจจัยที่อธิบายได้นั้นมีความต่อเนื่อง นี่คือสิ่งที่ฉันได้รับเมื่อสรุปผลลัพธ์: glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q Median 3Q Max -1.213 -1.044 -1.023 1.312 1.344 Coefficients: Estimate Std. Error z value Pr(&gt;|z|) (Intercept) -0.3877697 0.0282178 -13.742 &lt; 2e-16 *** leaves.presence 0.0008166 0.0002472 3.303 0.000956 *** --- …

6
ทดสอบว่าการแจกแจงทวินามสองรายการนั้นแตกต่างกันหรือไม่
ฉันมีข้อมูลสามกลุ่มแต่ละกลุ่มมีการแจกแจงทวินาม (เช่นแต่ละกลุ่มมีองค์ประกอบที่ประสบความสำเร็จหรือล้มเหลว) ฉันไม่มีความน่าจะเป็นที่คาดการณ์ไว้ของความสำเร็จ แต่สามารถพึ่งพาอัตราความสำเร็จของแต่ละคนเป็นเพียงการประมาณอัตราความสำเร็จที่แท้จริง ฉันเพิ่งพบคำถามนี้ซึ่งใกล้ แต่ดูเหมือนจะไม่จัดการกับสถานการณ์นี้ เพื่อให้การทดสอบง่ายขึ้นสมมติว่าฉันมี 2 กลุ่ม (3 สามารถขยายได้จากกรณีพื้นฐานนี้) การทดลองกลุ่ม 1: = 2455n1n1n_1 การทดลองกลุ่ม 2: = 2730n2n2n_2 ความสำเร็จของกลุ่ม 1: = 1556k1k1k_1 ความสำเร็จของกลุ่ม 2: = 1671k2k2k_2 ฉันไม่ได้มีโอกาสประสบความสำเร็จที่คาดหวังเพียงสิ่งที่ฉันรู้จากตัวอย่าง ดังนั้นอัตราความสำเร็จโดยนัยของฉันสำหรับทั้งสองกลุ่มคือ: อัตราความสำเร็จของกลุ่ม 1: = 1556/2455 = 63.4%พี1พี1p_1 อัตราความสำเร็จของกลุ่ม 2: = 1671/2730 = 61.2%พี2พี2p_2 อัตราความสำเร็จของตัวอย่างแต่ละตัวอย่างค่อนข้างใกล้เคียง อย่างไรก็ตามขนาดตัวอย่างของฉันก็ค่อนข้างใหญ่เช่นกัน ถ้าฉันตรวจสอบ CDF ของการแจกแจงทวินามเพื่อดูว่ามันแตกต่างจากครั้งแรก (โดยที่ฉันสมมติว่าอันแรกคือการทดสอบว่าง) ฉันได้รับความน่าจะเป็นที่น้อยมากที่สามารถทำได้ครั้งที่สอง ใน Excel: …

2
ช่วงความเชื่อมั่นประมาณค่าทวินามของ 0 หรือ 1
อะไรคือวิธีที่ดีที่สุดในการคำนวณช่วงความเชื่อมั่นของการทดลองทวินามหากประมาณการของคุณคือ (หรือในทำนองเดียวกัน ) และขนาดของกลุ่มตัวอย่างมีขนาดค่อนข้างเล็กเช่น ?p = 1 n = 25p=0p=0p=0p=1p=1p=1n=25n=25n=25

5
การแจกแจงความน่าจะเป็นสำหรับความน่าจะเป็นที่ต่างกัน
ถ้าฉันต้องการได้ความน่าจะเป็น 9 ครั้งในการทดลอง 16 ครั้งต่อการทดลองแต่ละครั้งมีความน่าจะเป็น 0.6 ฉันสามารถใช้การแจกแจงทวินาม ฉันจะใช้อะไรได้ถ้าการทดลอง 16 ครั้งแต่ละครั้งมีความน่าจะเป็นที่แตกต่างกัน

11
ทำไมการสร้างบิตสุ่ม 8 ชุดใน (0, 255)
ฉันกำลังสร้างบิตสุ่ม 8 บิต (ทั้ง 0 หรือ 1) และต่อกันเข้าด้วยกันเพื่อสร้างหมายเลข 8 บิต การจำลองแบบหลามอย่างง่ายทำให้ได้การแจกแจงแบบสม่ำเสมอบนชุดแยก [0, 255] ฉันพยายามหาเหตุผลว่าทำไมเรื่องนี้ถึงสมเหตุสมผลในหัวของฉัน ถ้าฉันเปรียบเทียบสิ่งนี้กับการโยนเหรียญ 8 เหรียญค่าที่คาดหวังจะไม่อยู่ที่ประมาณ 4 หัว / 4 ก้อยหรือไม่ ดังนั้นสำหรับฉันแล้วมันก็สมเหตุสมผลแล้วที่ผลลัพธ์ของฉันควรสะท้อนถึงจุดที่อยู่ตรงกลางของช่วง กล่าวอีกนัยหนึ่งเหตุใดลำดับของเลขศูนย์ 8 หรือ 8 อันดูเหมือนจะเท่ากันอย่างน่าจะเป็นลำดับที่ 4 และ 4 หรือ 5 และ 3 เป็นต้น สิ่งที่ฉันหายไปที่นี่?

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer &amp; Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
การถดถอยโลจิสติก: Bernoulli กับตัวแปรตอบสนองแบบทวินาม
ฉันต้องการทำการถดถอยโลจิสติกด้วยการตอบสนองทวินามต่อไปนี้และด้วยX1X1X_1และX2X2X_2เป็นตัวทำนายของฉัน ฉันสามารถนำเสนอข้อมูลเดียวกับการตอบสนองของ Bernoulli ในรูปแบบต่อไปนี้ ผลลัพธ์การถดถอยโลจิสติกสำหรับชุดข้อมูล 2 ชุดนี้ส่วนใหญ่จะเหมือนกัน ส่วนเบี่ยงเบนความเบี่ยงเบนและ AIC นั้นแตกต่างกัน (ความแตกต่างระหว่างการเบี่ยงเบนแบบ null และการเบี่ยงเบนที่เหลืออยู่เหมือนกันในทั้งสองกรณี - 0.228) ต่อไปนี้คือผลลัพธ์การถดถอยจาก R ชุดข้อมูลเรียกว่า binom.data และ bern.data นี่คือเอาต์พุตทวินาม Call: glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, family = binomial, data = binom.data) Deviance Residuals: [1] 0 0 0 Coefficients: Estimate Std. Error z …

4
การวิเคราะห์ความแปรปรวนของข้อมูลทวินาม
ฉันกำลังวิเคราะห์ชุดข้อมูลการทดลอง ข้อมูลประกอบด้วยเวกเตอร์คู่ของประเภทการรักษาและผลลัพธ์ทวินาม: Treatment Outcome A 1 B 0 C 0 D 1 A 0 ... ในคอลัมน์ผลลัพธ์ 1 หมายถึงความสำเร็จและ 0 หมายถึงความล้มเหลว ฉันต้องการทราบว่าการรักษาแตกต่างกันอย่างมีนัยสำคัญผลลัพธ์ มีการรักษา 4 แบบที่แตกต่างกันในแต่ละการทดลองซ้ำหลายครั้ง (2000 ครั้งต่อการรักษาแต่ละครั้ง) คำถามของฉันคือฉันสามารถวิเคราะห์ผลลัพธ์ไบนารีโดยใช้ ANOVA ได้หรือไม่ หรือฉันควรใช้การทดสอบไคสแควร์เพื่อตรวจสอบข้อมูลทวินาม? ดูเหมือนว่าไคสแควร์จะถือว่าสัดส่วนจะแบ่งเท่า ๆ กันซึ่งไม่ใช่กรณี อีกแนวคิดหนึ่งคือการสรุปข้อมูลโดยใช้สัดส่วนของความสำเร็จต่อความล้มเหลวสำหรับการรักษาแต่ละครั้งและจากนั้นใช้การทดสอบสัดส่วน ฉันอยากรู้อยากเห็นคำแนะนำของคุณสำหรับการทดสอบที่เหมาะสมสำหรับการทดลองความสำเร็จ / ล้มเหลวแบบทวินามเหล่านี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.