คำถามติดแท็ก binomial

การแจกแจงทวินามให้ความถี่ของ "ความสำเร็จ" ในจำนวน "การทดลอง" ที่เป็นอิสระ ใช้แท็กนี้สำหรับคำถามเกี่ยวกับข้อมูลที่อาจแจกแจงแบบทวินามหรือคำถามเกี่ยวกับทฤษฎีการกระจายตัวนี้

2
เหตุใด SAS PROC GLIMMIX จึงให้ความชันแบบสุ่มที่แตกต่างกันมากกว่า glmer (lme4) สำหรับ binomial glmm
ฉันเป็นผู้ใช้ที่คุ้นเคยกับ R มากขึ้นและพยายามประเมินความลาดแบบสุ่ม (ค่าสัมประสิทธิ์การเลือก) ประมาณ 35 คนตลอด 5 ปีสำหรับตัวแปรที่อยู่อาศัยสี่ตัว ตัวแปรการตอบสนองคือที่อยู่อาศัย "ที่ใช้" (1) หรือ "พร้อมใช้งาน" (0) ที่อยู่อาศัย ("ใช้" ด้านล่าง) ฉันใช้คอมพิวเตอร์ Windows 64 บิต ในรุ่น R 3.1.0 ฉันใช้ข้อมูลและการแสดงออกด้านล่าง PS, TH, RS และ HW เป็นเอฟเฟกต์คงที่ (มาตรฐานระยะทางที่วัดได้กับประเภทที่อยู่อาศัย) lme4 V 1.1-7 str(dat) 'data.frame': 359756 obs. of 7 variables: $ use : num 1 1 1 …

2
ทำไมชุดการกระจายสินค้านี้
เรากำลังตรวจสอบการทดสอบทางสถิติแบบเบย์และพบกับปรากฏการณ์แปลก ๆ (สำหรับฉันอย่างน้อยที่สุด) พิจารณากรณีต่อไปนี้: เราสนใจที่จะวัดว่าประชากร A หรือ B ใดที่มีอัตราการแปลงสูงกว่า สำหรับการตรวจสอบสติเราตั้งค่านั่นคือความน่าจะเป็นของการแปลงเท่ากันทั้งสองกลุ่ม เราสร้างข้อมูลเทียมโดยใช้แบบจำลองทวินามเช่นpA=pBpA=pBp_A = p_BnA∼Binomial(N,pA)nA∼Binomial(N,pA)n_A \sim \text{Binomial}(N, p_A) จากนั้นเราพยายามประเมินโดยใช้แบบจำลองเบต้า - ทวินามแบบเบย์เพื่อให้เราได้รับสำหรับแต่ละอัตราการแปลงเช่นpA,pBpA,pBp_A, p_BPA∼Beta(1+nA,N−nA+1)PA∼Beta(1+nA,N−nA+1)P_A \sim \text{Beta}(1 + n_A, N - n_A +1 ) สถิติการทดสอบของเราคำนวณโดยการคำนวณผ่านทาง monte carloS=P(PA>PB|N,nA,nB)S=P(PA>PB|N,nA,nB)S = P(P_A > P_B\; |\; N, n_A, n_B) สิ่งที่ทำให้ผมประหลาดใจคือว่าถ้าแล้ว(0,1)} ความคิดของฉันคือว่ามันจะอยู่กึ่งกลางประมาณ 0.5 และยังมาบรรจบกันถึง 0.5 เป็นขนาดตัวอย่าง, , เติบโต pA=pBpA=pBp_A = …

3
เหตุผลที่เข้าใจได้ง่ายว่าเหตุใดข้อมูลฟิชเชอร์ของ Binomial จึงแปรผกผันกับ
มันสับสน / พัดใจของฉันที่มีความแปรปรวนทวินามสัดส่วนกับP) เท่าข้อมูลฟิชเชอร์เป็นสัดส่วนกับ(1-P)} อะไรคือสาเหตุของสิ่งนี้? ทำไมข้อมูลฟิชเชอร์ที่ลดลง ? นั่นคือเหตุผลว่าทำไมการอนุมานที่ยากที่สุดที่ ?1p(1−p)p(1−p)p(1-p) p=0.5p=0.51p(1−p)1p(1−p)\frac{1}{p(1-p)}p=0.5p=0.5p=0.5p=0.5p=0.5p=0.5 บริบท: ฉันกำลังทำงานกับเครื่องคิดเลขขนาดตัวอย่างและสูตรสำหรับขนาดตัวอย่างที่ต้องการเป็นปัจจัยที่เพิ่มขึ้นของซึ่งเป็นผลมาจากการประมาณค่าความแปรปรวนในการหาค่าp ( 1 - p )NNNp(1−p)p(1−p)p(1-p)

1
ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom
หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
แบบลำดับชั้น Bayesian (?)
โปรดขออภัยการใช้ศัพท์แสงเชิงสถิติของฉันด้วย :) ฉันพบคำถามสองสามข้อเกี่ยวกับการโฆษณาและอัตราการคลิกผ่าน แต่พวกเขาไม่ได้ช่วยฉันมากกับความเข้าใจของฉันเกี่ยวกับสถานการณ์ลำดับชั้นของฉัน มีคำถามที่เกี่ยวข้องการเป็นตัวแทนที่เท่าเทียมกันของโมเดล Bayesian ลำดับชั้นเดียวกันหรือไม่ แต่ฉันไม่แน่ใจว่าจริง ๆ แล้วพวกเขามีปัญหาที่คล้ายกัน อีกคำถามที่Priors สำหรับแบบจำลองแบบทวินามแบบเบย์แบบลำดับชั้นจะมีรายละเอียดเกี่ยวกับ hyperpriors แต่ฉันไม่สามารถแมปคำตอบของพวกเขากับปัญหาของฉันได้ ฉันมีโฆษณาสองรายการออนไลน์สำหรับผลิตภัณฑ์ใหม่ ฉันปล่อยให้โฆษณาทำงานสองสามวัน ณ จุดนี้มีคนคลิกโฆษณาเพื่อดูว่าใครได้รับคลิกมากที่สุด หลังจากเตะออกไปหมดแล้ว แต่คลิกที่มีการคลิกมากที่สุดฉันปล่อยให้มันวิ่งไปอีกสองสามวันเพื่อดูว่าผู้คนซื้อจริงแค่ไหนหลังจากคลิกโฆษณา ณ จุดนี้ฉันรู้ว่ามันเป็นความคิดที่ดีที่จะเรียกใช้โฆษณาในครั้งแรก สถิติของฉันดังมากเพราะฉันไม่มีข้อมูลมากมายเนื่องจากฉันขายสินค้าเพียงไม่กี่รายการทุกวัน ดังนั้นจึงเป็นเรื่องยากที่จะประเมินจำนวนผู้ที่ซื้อบางอย่างหลังจากเห็นโฆษณา การคลิกเพียงครั้งเดียวจะส่งผลให้เกิดการซื้อ โดยทั่วไปฉันต้องทราบว่าฉันเสียเงินกับโฆษณาแต่ละรายการเร็วที่สุดเท่าที่จะเป็นไปได้โดยการปรับสถิติกลุ่มโฆษณาแต่ละรายการให้ราบรื่นด้วยสถิติทั่วโลกสำหรับโฆษณาทั้งหมด หากฉันรอจนกระทั่งโฆษณาทุกรายการเห็นการซื้อมากพอฉันจะพังเพราะใช้เวลานานเกินไป: การทดสอบ 10 โฆษณาที่ฉันต้องใช้จ่ายมากขึ้น 10 เท่าเพื่อให้สถิติสำหรับโฆษณาแต่ละรายการมีความน่าเชื่อถือมากพอ ตามเวลาที่ฉันอาจจะสูญเสียเงิน หากฉันซื้อสินค้าโดยเฉลี่ยมากกว่าโฆษณาทั้งหมดฉันจะไม่สามารถเริ่มโฆษณาที่ไม่ได้ผลเช่นกัน ฉันสามารถใช้อัตราการซื้อทั่วโลก (การกระจายย่อย N $ ได้หรือไม่ นั่นหมายความว่ายิ่งฉันมีข้อมูลสำหรับโฆษณาแต่ละรายการมากเท่าไหร่สถิติของโฆษณานั้นก็จะยิ่งมากขึ้นเท่านั้น หากยังไม่มีใครคลิกโฆษณาฉันคิดว่าค่าเฉลี่ยทั่วโลกเหมาะสมperclick)anduseitasapriorforperclick)anduseitasapriorfor per click) and use it as a prior for …

4
เครื่องมือประมาณการสำหรับการแจกแจงแบบทวินาม
เราจะกำหนดตัวประมาณสำหรับข้อมูลที่มาจากการแจกแจงทวินามได้อย่างไร สำหรับเบอนูลลี่ฉันสามารถคิดถึงตัวประมาณค่าพารามิเตอร์ p แต่สำหรับทวินามฉันไม่สามารถดูพารามิเตอร์ที่จะประมาณได้เมื่อเรามีการแจกแจงคุณสมบัติ ปรับปรุง: โดยตัวประมาณฉันหมายถึงฟังก์ชันของข้อมูลที่สังเกตได้ ตัวประมาณจะใช้ในการประมาณค่าพารามิเตอร์ของการแจกแจงที่สร้างข้อมูล

3
ตาย 100 ม้วนหน้าไม่ปรากฏมากกว่า 20 ครั้ง
ฉันกำลังพยายามปิดหัวปัญหานี้ ดายถูกรีด 100 ครั้ง ความน่าจะเป็นที่ไม่ปรากฏใบหน้าเกิน 20 ครั้งเป็นเท่าไหร่? ความคิดแรกของฉันคือการใช้การแจกแจงแบบทวินาม P (x) = 1 - 6 cmf (100, 1/6, 20) แต่สิ่งนี้ผิดอย่างเห็นได้ชัดเนื่องจากเรานับบางกรณีมากกว่าหนึ่งครั้ง ความคิดที่สองของฉันคือการแจกแจงม้วนที่เป็นไปได้ทั้งหมด x1 + x2 + x3 + x4 + x5 + x6 = 100 เช่นนั้น xi <= 20 และรวมผลรวมของ multinomials แต่มันดูเหมือนเข้มข้นเกินไป วิธีแก้ปัญหาโดยประมาณนั้นจะได้ผลกับฉันเช่นกัน

3
เห็นภาพการกระจายตัวแบบทวินามทวิภาค
คำถาม:การกระจายตัวแบบทวินามแบบไบวาเรียมีลักษณะอย่างไรในอวกาศ 3 มิติ ด้านล่างเป็นฟังก์ชั่นเฉพาะที่ฉันต้องการเห็นภาพสำหรับค่าต่างๆของพารามิเตอร์ คือ , หน้า1และหน้า 2nnnp1p1p_{1}p2p2p_{2} f(x1,x2)=n!x1!x2!px11px22,x1+x2=n,p1+p2=1.f(x1,x2)=n!x1!x2!p1x1p2x2,x1+x2=n,p1+p2=1.f(x_{1},x_{2}) = \frac{n!}{x_{1}!x_{2}!}p_{1}^{x_{1}}p_{2}^{x_{2}}, \qquad x_{1}+x_{2}=n, \quad p_{1}+p_{2}=1. สังเกตว่ามีข้อ จำกัด สองประการ และP 1 + P 2 = 1 นอกจากนี้nเป็นจำนวนเต็มบวกพูด, 5x1+x2=nx1+x2=nx_{1}+x_{2}=np1+p2=1p1+p2=1p_{1}+p_{2}=1nnn555 มีความพยายามสองครั้งในการพล็อตฟังก์ชันโดยใช้ LaTeX (TikZ / PGFPLOTS) ในการทำเช่นนี้ฉันจะได้รับกราฟด้านล่างสำหรับค่าต่อไปนี้: , p 1 = 0.1และp 2 = 0.9และ, n = 5 , p 1 = 0.4และp 2 …

1
การใช้ยาเกินขนาดและความไม่แน่นอนในการถดถอยแบบทวินาม / ปัวซอง
ฉันทำการถดถอยแบบปัวซงใน SAS และพบว่าค่าเพียร์สันไค - สแควร์หารด้วยองศาอิสระมีค่าประมาณ 5 แสดงว่ามีการกระจายตัวมากเกินไป ดังนั้นฉันพอดีกับโมเดลทวินามลบกับ proc genmod และพบว่าค่าเพียร์สันไค - สแควร์หารด้วยองศาอิสระเท่ากับ 0.80 ตอนนี้มีการพิจารณาว่ามีการด้อยค่าหรือไม่ ถ้าเป็นเช่นนั้นเราจะจัดการกับเรื่องนี้อย่างไร? ฉันได้อ่านมากมายเกี่ยวกับการกระจายเกินปกติและเชื่อว่าฉันรู้วิธีจัดการเรื่องนี้ แต่ข้อมูลเกี่ยวกับวิธีจัดการหรือตัดสินว่ามีการด้อยโอกาสน้อยหรือไม่ ใครช่วยได้บ้าง ขอบคุณ

1
เนื่องจากการแจกแจงเบต้ามีความคล้ายคลึงกันในรูปแบบทวินามทำไมเราจึงต้องการการกระจายเบต้า
ปรากฏว่าการแจกแจงทวินามนั้นคล้ายคลึงกันมากในรูปแบบของการแจกแจงแบบเบต้าและฉันสามารถกำหนดค่าคงที่อีกครั้งใน pdf ทั้งสองเพื่อให้พวกเขามีลักษณะเดียวกัน แล้วทำไมเราถึงต้องมีการแจกแจงเบต้า มันมีวัตถุประสงค์เฉพาะหรือไม่? ขอบคุณ!

1
การประมาณความน่าจะเป็นของความสำเร็จโดยอ้างอิงจากประชากร
สมมติว่าคุณมีสถานการณ์ต่อไปนี้: คุณสังเกตผู้เล่นโบว์ลิ่ง 1,000 คนซึ่งแต่ละคนเล่นเกมค่อนข้างน้อย (พูด 1 ถึง 20) คุณจดบันทึกเปอร์เซ็นต์การนัดหยุดงานสำหรับผู้เล่นแต่ละคนที่มีต่อจำนวนเกมที่ผู้เล่นแต่ละคนเล่น ผู้เล่นโบว์ลิ่งใหม่เข้ามาและเล่น 10 เกมและได้รับ 3 นัด การแจกแจงตามจำนวนนัดสำหรับผู้เล่นใด ๆ ถือว่าเป็นทวินาม ฉันต้องการประเมินความน่าจะเป็น "จริง" ของความสำเร็จสำหรับผู้เล่นรายนั้น โปรดรับทราบสิ่งต่อไปนี้: นี่ไม่ใช่สถานการณ์จริงหรือเป็นปัญหาของโรงเรียน แต่เป็นปัญหาที่คิดด้วยตนเอง ฉันเป็นนักเรียนที่มีการศึกษาสถิติน้อยกว่าหลักสูตรสถิติ 101 ฉันรู้เพียงเล็กน้อยเกี่ยวกับการอนุมานเช่นการประมาณความเป็นไปได้สูงสุด ... ดังนั้นอย่าลังเลที่จะบอกพื้นที่ในสถิติที่ฉันควรอ่าน ปัญหาของฉันอาจขาดข้อมูลหรือถ้ามันจะเป็นประโยชน์สำหรับการพูดการกระจายความน่าจะเป็นของความสำเร็จให้เป็นปกติประมาณโปรดบอกฉัน ขอบคุณมาก

3
ฉันควรใช้ cdf ทวินามหรือ cdf ปกติเมื่อพลิกเหรียญ?
เหรียญจะต้องมีการทดสอบเพื่อความเป็นธรรม 30 หัวขึ้นหลัง 50 พลิก สมมติว่าเหรียญมีความยุติธรรมความน่าจะเป็นที่คุณจะได้รับอย่างน้อย 30 หัวใน 50 ครั้งคือเท่าไหร่? วิธีที่ถูกต้องในการทำปัญหาตามครูของฉันคือทำ normalcdf(min = .6, max = ∞, p = .5, σ = sqrt(.5 * .5 / 50) = 0.0786 อย่างไรก็ตามฉันใช้ฟังก์ชันการแจกแจงสะสมแบบทวินามเช่นนี้ 1 - binomcdf(n = 50, p = .5, x = 29) = 0.1013 ฉันเชื่อว่าเกณฑ์สำหรับการแจกแจงทวินามเป็นที่พึงพอใจ: แต่ละเหตุการณ์มีความเป็นอิสระมีเพียงสองผลลัพธ์ที่เป็นไปได้ (หัวกับก้อย) ความน่าจะเป็นคงที่สำหรับคำถาม (0.5) และจำนวนการทดลองถูกกำหนดไว้ที่ 50 …

2
ทำไมการทดสอบของ McNemar จึงใช้ไคสแควร์ไม่ใช่การแจกแจงแบบปกติ?
ฉันเพิ่งสังเกตเห็นว่าการทดสอบที่ไม่แม่นยำของ McNemar ใช้การแจกแจงแบบ asymptotic ของไคสแควร์อย่างไร แต่เนื่องจากการทดสอบที่แน่นอน (สำหรับตารางกรณีสองกรณี) นั้นขึ้นอยู่กับการแจกแจงทวินามทำไมจึงไม่เป็นเรื่องปกติที่จะแนะนำการประมาณแบบปกติในการแจกแจงทวินาม ขอบคุณ

6
อาร์กิวเมนต์ทางสถิติสำหรับสาเหตุที่ 10,000 หัวจากการโยน 20,000 ครั้งจะแนะนำข้อมูลที่ไม่ถูกต้อง
สมมติว่าเรามีการโยนเหรียญที่ยุติธรรมซ้ำแล้วซ้ำเล่าและเรารู้ว่าจำนวนหัวและก้อยควรจะเท่ากัน เมื่อเราเห็นผลลัพธ์เช่น 10 หัวและ 10 ก้อยรวมเป็น 20 โยนเราเชื่อว่าผลลัพธ์และมีแนวโน้มที่จะเชื่อว่าเหรียญมีความยุติธรรม เมื่อคุณเห็นผลลัพธ์เช่น 10,000 หัวและ 10,000 ก้อยต่อการโยนรวม 20,000 ครั้งฉันจะถามความถูกต้องของผลลัพธ์ (ผู้ทดลองทำการปลอมข้อมูล) เพราะฉันรู้ว่ามันไม่น่าจะเป็นไปได้มากกว่าที่จะพูด 10093 หัวและหาง 9907 อะไรคือข้อโต้แย้งทางสถิติที่อยู่เบื้องหลังสัญชาตญาณของฉัน

6
การปฏิบัติต่อข้อมูลมาตราส่วน n-point Likert เป็นการทดลอง n จากกระบวนการทวินามหรือไม่?
ฉันไม่เคยชอบวิธีที่ผู้คนมักวิเคราะห์ข้อมูลจากเครื่องชั่ง Likert ราวกับว่าข้อผิดพลาดนั้นเกิดขึ้นอย่างต่อเนื่อง & Gaussian เมื่อมีการคาดการณ์ที่สมเหตุสมผลว่าสมมติฐานเหล่านี้ถูกละเมิดอย่างน้อยที่สุดก็สุดขั้ว คุณคิดอย่างไรกับทางเลือกต่อไปนี้: หากการตอบสนองใช้ค่าในสเกล point ให้ขยายข้อมูลนั้นไปยัง trials ซึ่งมีค่า 1 และที่มีค่า 0 ดังนั้นเราจะทำการตอบสนองบนสเกล Likert เสมือนว่ามัน เป็นการรวมตัวกันอย่างเปิดเผยของชุดการทดลองแบบทวินาม (อันที่จริงจากมุมมองด้านความรู้ความเข้าใจทางวิทยาศาสตร์นี่เป็นแบบจำลองที่น่าสนใจสำหรับกลไกที่เกี่ยวข้องกับการตัดสินใจแบบนี้) ด้วยข้อมูลที่ขยายคุณสามารถใช้โมเดลเอฟเฟกต์แบบผสมระบุผู้ตอบเป็นเอฟเฟกต์แบบสุ่ม (เช่นคำถามเป็นเอฟเฟกต์แบบสุ่มหากคุณมีคำถามหลายข้อ) และใช้ฟังก์ชันลิงค์ทวินามเพื่อระบุการแจกแจงข้อผิดพลาดkkknnnnnnkkkn−kn−kn-k ทุกคนสามารถเห็นการละเมิดข้อสันนิษฐานหรือแง่มุมที่เป็นอันตรายอื่น ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.