คำถามติดแท็ก negative-binomial

การแจกแจงแบบไม่ต่อเนื่องและไม่แปรตามจำนวน Bernoulli(p) การทดลองสำเร็จจนกระทั่งจำนวนความล้มเหลวที่ระบุเกิดขึ้น

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
Negative-binomial GLM เทียบกับการเปลี่ยนแปลงการบันทึกสำหรับข้อมูลนับ: เพิ่มอัตราความผิดพลาด Type I
คุณบางคนอาจจะอ่านบทความนี้ดี: O'Hara RB, Kotze DJ (2010) อย่าบันทึกข้อมูลการนับการแปลง วิธีการทางนิเวศวิทยาและวิวัฒนาการ 1: 118–122 Klick ในสาขาการวิจัยของฉัน (นิเวศน์วิทยา) เรากำลังจัดการกับการทดลองที่ทำซ้ำแบบไม่ดีและ GLM ไม่ได้ใช้กันอย่างแพร่หลาย ดังนั้นฉันจึงทำการจำลองที่คล้ายกันกับ O'Hara & Kotze (2010) แต่เลียนแบบข้อมูลนิเวศน์วิทยา พลังงานจำลอง : ฉันจำลองข้อมูลจากการออกแบบแบบแฟกทอเรียลด้วยกลุ่มควบคุมหนึ่งกลุ่ม ( ) และกลุ่มการรักษา 5 กลุ่ม ( ) ความอุดมสมบูรณ์ในการรักษา 1 เหมือนกับการควบคุม ( ) ความอุดมสมบูรณ์ในการรักษา 2-5 คือครึ่งหนึ่งของความอุดมสมบูรณ์ในการควบคุม ( \ mu_ {2-5} = 0.5 \ mu_c ) สำหรับแบบจำลองฉันเปลี่ยนขนาดตัวอย่าง …

2
การกระจายตัวที่อธิบายความแตกต่างระหว่างตัวแปรกระจายแบบทวินามลบ
การกระจาย Skellamอธิบายความแตกต่างระหว่างสองตัวแปรที่มีการแจกแจงปัวส์ซอง มีการแจกแจงแบบเดียวกันที่อธิบายความแตกต่างระหว่างตัวแปรที่ตามหลังการแจกแจงทวินามลบหรือไม่ ข้อมูลของฉันผลิตโดยกระบวนการปัวซง แต่รวมถึงเสียงรบกวนในปริมาณที่เหมาะสม ดังนั้นการสร้างแบบจำลองข้อมูลด้วยการแจกแจงลบทวินาม (NB) จึงทำงานได้ดี ถ้าฉันต้องการจำลองความแตกต่างระหว่างชุดข้อมูล NB สองชุดตัวเลือกของฉันคืออะไร หากช่วยได้ให้ถือว่าวิธีการและความแปรปรวนที่คล้ายกันสำหรับทั้งสองชุด

3
ฉันจะจำลองการพลิกจนกว่าจะประสบความสำเร็จ N ได้อย่างไร
คุณและฉันตัดสินใจที่จะเล่นเกมที่เราผลัดกันพลิกเหรียญ ผู้เล่นคนแรกที่พลิก 10 หัวรวมเป็นผู้ชนะในเกม โดยธรรมชาติมีข้อโต้แย้งว่าใครควรไปก่อน แบบจำลองของเกมนี้แสดงให้เห็นว่าผู้เล่นที่จะโยนครั้งแรกชนะ 6% มากกว่าผู้เล่นที่พลิกที่สอง (ผู้เล่นคนแรกชนะประมาณ 53% ของเวลา) ฉันสนใจในการสร้างแบบจำลองการวิเคราะห์นี้ นี่ไม่ใช่ตัวแปรสุ่มแบบทวินามเนื่องจากไม่มีการทดลองจำนวนคงที่ (พลิกจนกว่าจะมีใครได้รับ 10 หัว) ฉันจะทำแบบนี้ได้อย่างไร มันคือการกระจายตัวแบบทวินามลบหรือไม่ เพื่อที่จะสามารถสร้างผลลัพธ์ของฉันใหม่นี่คือรหัสหลามของฉัน: import numpy as np from numba import jit @jit def sim(N): P1_wins = 0 P2_wins = 0 for i in range(N): P1_heads = 0 P2_heads = 0 while True: P1_heads += …

2
ปัญหาการประมาณค่าที่เป็นไปไม่ได้?
คำถาม ความแปรปรวนของการแจกแจงแบบทวินามลบ (NB) นั้นมากกว่าค่าเฉลี่ยเสมอ เมื่อค่าเฉลี่ยของตัวอย่างมากกว่าความแปรปรวนให้พยายามปรับพารามิเตอร์ของ NB ให้มีความเป็นไปได้สูงสุดหรือประมาณช่วงเวลาที่จะล้มเหลว (ไม่มีวิธีแก้ปัญหาด้วยพารามิเตอร์ จำกัด ) อย่างไรก็ตามเป็นไปได้ว่าตัวอย่างที่นำมาจากการแจกแจงแบบ NB มีความหมายมากกว่าความแปรปรวน นี่คือตัวอย่างที่ทำซ้ำได้ใน R set.seed(167) x = rnbinom(100, size=3.2, prob=.8); mean(x) # 0.82 var(x) # 0.8157576 มีความน่าจะเป็นที่ไม่เป็นศูนย์ที่ NB จะสร้างตัวอย่างซึ่งไม่สามารถประมาณค่าพารามิเตอร์ได้ (โดยความน่าจะเป็นสูงสุดและวิธีการโมเมนต์) สามารถประมาณค่าที่เหมาะสมสำหรับตัวอย่างนี้ได้หรือไม่? ทฤษฎีการประมาณค่าพูดว่าอย่างไรเมื่อตัวประมาณไม่ได้ถูกกำหนดไว้สำหรับตัวอย่างทั้งหมด? เกี่ยวกับคำตอบ คำตอบของ @MarkRobinson และ @Yves ทำให้ฉันรู้ว่า parametrization เป็นปัญหาหลัก ความหนาแน่นของความน่าจะเป็นของ NB มักจะถูกเขียนเป็น P(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!}(1-p)^rp^k หรือ …

2
วิธีการจัดให้มีการกระจายแบบไม่ต่อเนื่องเพื่อนับข้อมูล?
ฉันมีฮิสโตแกรมข้อมูลการนับต่อไปนี้ และฉันต้องการให้การกระจายแบบไม่ต่อเนื่องกับมัน ฉันไม่แน่ใจว่าฉันควรทำอย่างไร ฉันควรเพิ่มการแจกแจงแบบแยกส่วนก่อนพูดการแจกแจงลบแบบทวินามบนฮิสโตแกรมเพื่อให้ฉันได้รับพารามิเตอร์การกระจายแบบไม่ต่อเนื่องแล้วเรียกใช้การทดสอบ Kolmogorov – Smirnov เพื่อตรวจสอบค่า p? ฉันไม่แน่ใจว่าวิธีนี้ถูกต้องหรือไม่ มีวิธีการทั่วไปในการจัดการปัญหาเช่นนี้หรือไม่? นี่คือตารางความถี่ของข้อมูลการนับ ในปัญหาของฉันฉันมุ่งเน้นเฉพาะการนับที่ไม่ใช่ศูนย์ Counts: 1 2 3 4 5 6 7 9 10 Frequency: 3875 2454 921 192 37 11 1 1 2 UPDATE:ฉันต้องการถาม: ฉันใช้ฟังก์ชัน fitdistr ใน R เพื่อรับพารามิเตอร์สำหรับการปรับข้อมูลให้เหมาะสม fitdistr(abc[abc != 0], "Poisson") lambda 1.68147852 (0.01497921) จากนั้นฉันพล็อตฟังก์ชันความน่าจะเป็นแบบมวลของการแจกแจงแบบปัวซองที่อยู่ด้านบนของฮิสโตแกรม อย่างไรก็ตามดูเหมือนว่าการกระจาย Poisson ล้มเหลวในการสร้างแบบจำลองข้อมูลการนับ …

3
แบบจำลองผลกระทบผสมทวินามลบที่ไม่พองศูนย์ใน R
มีแพ็คเกจดังกล่าวที่ให้การประมาณค่าแบบจำลองผลกระทบผสมทวินามลบศูนย์ใน R หรือไม่? โดยที่ฉันหมายถึง: Zero-inflation ที่คุณสามารถระบุรูปแบบทวินามสำหรับศูนย์เงินเฟ้อเช่นในฟังก์ชัน zeroinfl ในแพ็คเกจ pscl: zeroinfl (y ~ X | Z, dist = "negbin") โดยที่ Z คือสูตรสำหรับตัวแบบเงินเฟ้อศูนย์ การแจกแจงทวินามลบสำหรับส่วนการนับของโมเดล เอฟเฟกต์สุ่มที่ระบุคล้ายกับฟังก์ชัน lmer ของแพ็คเกจ lme4 ฉันเข้าใจว่า glmmADMB สามารถทำสิ่งนั้นได้ทั้งหมดยกเว้นสูตรสำหรับอัตราเงินเฟ้อที่เป็นศูนย์ไม่สามารถระบุได้ (เป็นเพียงการสกัดกั้นนั่นคือ Z คือเพียง 1) แต่มีแพ็คเกจอื่นที่สามารถทำได้ทั้งหมดหรือไม่ ฉันจะขอบคุณมากสำหรับความช่วยเหลือของคุณ!

4
กำหนดกรอบการแจกแจงทวินามลบสำหรับการหาลำดับดีเอ็นเอ
การแจกแจงแบบทวินามลบได้กลายเป็นแบบจำลองที่ได้รับความนิยมสำหรับข้อมูลนับ (โดยเฉพาะจำนวนลำดับที่คาดหวังของการอ่านลำดับภายในภูมิภาคที่กำหนดของจีโนมจากการทดลองที่กำหนด) ในชีวสารสนเทศศาสตร์ คำอธิบายแตกต่างกันไป: บางคนอธิบายว่ามันเป็นสิ่งที่ใช้งานได้เหมือนการแจกแจงปัวซอง แต่มีพารามิเตอร์เพิ่มเติมทำให้มีอิสระมากขึ้นในการจำลองการแจกแจงที่แท้จริงด้วยความแปรปรวนไม่จำเป็นต้องเท่ากับค่าเฉลี่ย บางคนอธิบายว่ามันเป็นน้ำหนักแบบผสมของการแจกแจงปัวซง (ด้วยการแจกแจงแบบแกมม่าผสมกับพารามิเตอร์ปัวซอง) มีวิธีใดที่จะทำให้เหตุผลเหล่านี้เข้ากับนิยามดั้งเดิมของการแจกแจงแบบทวินามลบเพื่อจำลองจำนวนความสำเร็จของการทดลองของเบอร์นูลลีก่อนที่จะเห็นความล้มเหลวจำนวนหนึ่ง? หรือฉันควรคิดว่ามันเป็นเรื่องบังเอิญที่มีความสุขที่การกระจายน้ำหนักแบบปัวซองด้วยการแจกแจงการผสมแกมมามีฟังก์ชันความน่าจะเป็นเช่นเดียวกับทวินามลบ

3
ปัวซองกำลังจะยกกำลังเป็นแกมม่าปัวซองคืออะไร?
กระจาย Poisson สามารถวัดเหตุการณ์ต่อหน่วยเวลาและพารามิเตอร์เป็นλλλ\lambdaการแจกแจงเอ็กซ์โพเนนเชียลวัดเวลาจนถึงเหตุการณ์ถัดไปด้วยพารามิเตอร์1λ1λ\frac{1}{\lambda}λ หนึ่งสามารถแปลงการแจกแจงแบบหนึ่งให้เป็นแบบอื่นได้ขึ้นอยู่กับว่ามันง่ายกว่าในการจำลองเหตุการณ์หรือเวลา ตอนนี้ Gamma-Poisson เป็น Poisson แบบ "ยืด" ที่มีความแปรปรวนมากขึ้น การแจกแจงแบบ Weibull เป็นเลขชี้กำลัง "ยืด" ที่มีความแปรปรวนมากขึ้น แต่ทั้งสองจะสามารถแปลงเป็นกันและกันได้อย่างง่ายดายในลักษณะเดียวกันปัวซองสามารถแปลงเป็นเลขชี้กำลัง? หรือมีการกระจายอื่น ๆ ที่เหมาะสมกว่าที่จะใช้ร่วมกับการกระจายแกมม่า - ปัวซอง? แกมม่าปัวซองเรียกอีกอย่างว่าการกระจายตัวแบบทวินามเชิงลบหรือ NBD

4
กลยุทธ์สำหรับการตัดสินใจรูปแบบที่เหมาะสมสำหรับการนับข้อมูล
กลยุทธ์ที่เหมาะสมในการตัดสินใจเลือกรุ่นใดที่จะใช้กับข้อมูลนับ ฉันมีข้อมูลนับที่ฉันต้องการสร้างแบบจำลองเป็นแบบหลายระดับและแนะนำให้ฉัน (บนเว็บไซต์นี้) ว่าวิธีที่ดีที่สุดในการทำเช่นนี้คือผ่านบั๊กหรือ MCMCglmm อย่างไรก็ตามฉันยังคงพยายามที่จะเรียนรู้เกี่ยวกับสถิติแบบเบย์และฉันคิดว่าฉันควรพยายามใส่ข้อมูลของฉันให้เป็นแบบจำลองเชิงเส้นแบบทั่วไปและไม่สนใจโครงสร้างซ้อนของข้อมูล ข้อมูลประมาณ 70% เป็น 0 และอัตราส่วนของความแปรปรวนต่อค่าเฉลี่ยคือ 33 ดังนั้นข้อมูลจึงกระจายตัวค่อนข้างมาก หลังจากลองใช้ตัวเลือกที่แตกต่างกันจำนวนมาก (รวมทั้งปัวซอง, รูปแบบลบ, แบบกึ่งและกึ่งศูนย์) ฉันเห็นความสอดคล้องกันน้อยมากในผลลัพธ์ (การเปลี่ยนแปลงจากทุกอย่างมีความหมาย ฉันจะตัดสินใจเกี่ยวกับรูปแบบประเภทใดให้เลือกโดยพิจารณาจากอัตราเงินเฟ้อ 0 และการกระจายตัวมากเกินไป ตัวอย่างเช่นฉันจะอนุมานได้ว่า quasi-poisson นั้นเหมาะสมกว่าเชิงลบแบบทวินาม (หรือในทางกลับกัน) และฉันจะรู้ได้อย่างไรว่าการใช้อย่างใดอย่างหนึ่งได้จัดการอย่างเพียงพอ (หรือไม่) ด้วยค่าศูนย์ส่วนเกิน? ในทำนองเดียวกันฉันจะประเมินได้อย่างไรว่าไม่มีการกระจายตัวมากเกินไปหากใช้ตัวแบบที่ไม่มีการขยายเกินศูนย์? หรือฉันควรจะตัดสินใจอย่างไรระหว่างปัวซงที่มีค่าเป็นศูนย์ที่สูงขึ้นและทวินามลบที่สูงเกินจริง

2
เมื่อมีคนบอกว่าส่วนเบี่ยงเบน / df ที่เหลือควร ~ 1 สำหรับโมเดลปัวซองค่าประมาณเป็นอย่างไร
ฉันมักจะเห็นคำแนะนำสำหรับการตรวจสอบว่าแบบจำลองของปัวซองนั้นเต็มไปด้วยการแยกส่วนเบี่ยงเบนที่เหลือด้วยองศาอิสระหรือไม่ อัตราส่วนผลลัพธ์ควรเป็น "ประมาณ 1" คำถามคือช่วงที่เรากำลังพูดถึงสำหรับ "โดยประมาณ" - อัตราส่วนที่ควรตั้งปิดสัญญาณเตือนเพื่อพิจารณารูปแบบรูปแบบทางเลือกคืออะไร?

2
จำนวนครั้งที่คาดว่าจะหมุนตายจนกว่าแต่ละด้านจะปรากฏขึ้น 3 ครั้ง
จำนวนครั้งที่คาดว่าคุณจะต้องกลิ้งตายจนกว่าแต่ละด้านจะปรากฏ 3 ครั้งคืออะไร? คำถามนี้ถูกถามในโรงเรียนประถมในนิวซีแลนด์และแก้ไขด้วยการจำลองสถานการณ์ โซลูชันการวิเคราะห์สำหรับปัญหานี้คืออะไร

2
การตีความอัตราส่วนอัตราอุบัติการณ์
ดังนั้นฉันต้องการใส่แบบจำลองเอฟเฟกต์ลบ - ทวินามแบบสุ่ม สำหรับรูปแบบดังกล่าว STATA สามารถสร้างค่าสัมประสิทธิ์แบบทวีคูณ ตามไฟล์ความช่วยเหลือสัมประสิทธิ์ดังกล่าวสามารถตีความได้ว่าเป็นอัตราส่วนอัตราอุบัติการณ์ น่าเสียดายที่ฉันไม่ใช่เจ้าของภาษาและฉันก็ไม่เข้าใจว่าอัตราอุบัติการณ์มีเท่าไรหรือแปลได้อย่างไร ดังนั้นคำถามของฉันคือฉันจะตีความอัตราส่วนอัตราอุบัติการณ์ได้อย่างไร เช่น: ถ้าแบบจำลองให้อัตราส่วนอัตราอุบัติการณ์ที่. 7 กับฉันหนึ่งค่า นั่นหมายความว่าจำนวนของการสังเกตที่คาดหวัง (จำนวน) ใน var ขึ้นอยู่กับ เปลี่ยนแปลงโดย. 7 หาก var อิสระเปลี่ยนไปหนึ่งหน่วย? ใครช่วยได้บ้าง

1
การตีความเอาต์พุต. L & .Q จาก GLM ทวินามลบที่มีข้อมูลหมวดหมู่
ฉันเพิ่งวิ่ง GLM ลบแบบทวินามและนี่คือผลลัพธ์: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 14.720 < 2e-16 *** method.L -0.6828 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.