คำถามติดแท็ก poisson-distribution

การกระจายแบบไม่ต่อเนื่องที่กำหนดไว้ในจำนวนเต็มไม่เป็นลบที่มีคุณสมบัติที่ค่าเฉลี่ยเท่ากับความแปรปรวน

5
การถดถอยปัวซองด้วยข้อมูลขนาดใหญ่: การเปลี่ยนหน่วยการวัดเป็นความผิดหรือไม่?
เนื่องจากแฟกทอเรียลในการแจกแจงปัวส์ซองมันไม่น่าเป็นไปได้ที่จะประเมินโมเดลปัวซอง (ตัวอย่างเช่นการใช้โอกาสสูงสุด) เมื่อการสังเกตมีขนาดใหญ่ ตัวอย่างเช่นถ้าฉันพยายามประเมินแบบจำลองเพื่ออธิบายจำนวนการฆ่าตัวตายในปีที่กำหนด (มีข้อมูลรายปีเท่านั้น) และพูดว่ามีการฆ่าตัวตายหลายพันคนทุกปีมันผิดหรือไม่ที่จะแสดงการฆ่าตัวตายเป็นร้อย ๆ ดังนั้น 2998 จะเป็น 29.98 ~ = 30? กล่าวอีกนัยหนึ่งการเปลี่ยนหน่วยการวัดเพื่อให้สามารถจัดการข้อมูลได้เป็นความผิดหรือไม่?

2
เป็นไปได้อย่างไรที่ Poisson GLM ยอมรับหมายเลขที่ไม่ใช่จำนวนเต็ม?
ฉันตกตะลึงกับความจริงที่ว่า Poisson GLM ยอมรับตัวเลขที่ไม่ใช่จำนวนเต็ม! ดู: ข้อมูล (เนื้อหาของdata.txt): 1 2001 0.25 1 1 2002 0.5 1 1 2003 1 1 2 2001 0.25 1 2 2002 0.5 1 2 2003 1 1 สคริปต์ R: t <- read.table("data.txt") names(t) <- c('site', 'year', 'count', 'weight') tm <- glm(count ~ 0 + as.factor(site) + …

3
ทำไมไม่ทำงาน CLT สำหรับ
ดังนั้นเราจึงรู้ว่าผลรวมของnnn poissons กับพารามิเตอร์λλ\lambdaเป็นตัวเอง Poisson กับ nnλn\lambda λ ดังนั้นสมมุติฐานหนึ่งอาจจะใช้x ~ P o ฉันs s o n ( λ = 1 )x∼poisson(λ=1)x \sim poisson(\lambda = 1) และบอกว่ามันเป็นจริงΣ n 1 x ฉัน ~ P o ฉันs s o n ( λ = 1 )∑n1xi∼poisson(λ=1)\sum_1^n x_i \sim poisson(\lambda = 1) ที่แต่ละx ฉันxix_iคือ: x ฉัน …

4
กำหนดกรอบการแจกแจงทวินามลบสำหรับการหาลำดับดีเอ็นเอ
การแจกแจงแบบทวินามลบได้กลายเป็นแบบจำลองที่ได้รับความนิยมสำหรับข้อมูลนับ (โดยเฉพาะจำนวนลำดับที่คาดหวังของการอ่านลำดับภายในภูมิภาคที่กำหนดของจีโนมจากการทดลองที่กำหนด) ในชีวสารสนเทศศาสตร์ คำอธิบายแตกต่างกันไป: บางคนอธิบายว่ามันเป็นสิ่งที่ใช้งานได้เหมือนการแจกแจงปัวซอง แต่มีพารามิเตอร์เพิ่มเติมทำให้มีอิสระมากขึ้นในการจำลองการแจกแจงที่แท้จริงด้วยความแปรปรวนไม่จำเป็นต้องเท่ากับค่าเฉลี่ย บางคนอธิบายว่ามันเป็นน้ำหนักแบบผสมของการแจกแจงปัวซง (ด้วยการแจกแจงแบบแกมม่าผสมกับพารามิเตอร์ปัวซอง) มีวิธีใดที่จะทำให้เหตุผลเหล่านี้เข้ากับนิยามดั้งเดิมของการแจกแจงแบบทวินามลบเพื่อจำลองจำนวนความสำเร็จของการทดลองของเบอร์นูลลีก่อนที่จะเห็นความล้มเหลวจำนวนหนึ่ง? หรือฉันควรคิดว่ามันเป็นเรื่องบังเอิญที่มีความสุขที่การกระจายน้ำหนักแบบปัวซองด้วยการแจกแจงการผสมแกมมามีฟังก์ชันความน่าจะเป็นเช่นเดียวกับทวินามลบ

3
ปัวซองกำลังจะยกกำลังเป็นแกมม่าปัวซองคืออะไร?
กระจาย Poisson สามารถวัดเหตุการณ์ต่อหน่วยเวลาและพารามิเตอร์เป็นλλλ\lambdaการแจกแจงเอ็กซ์โพเนนเชียลวัดเวลาจนถึงเหตุการณ์ถัดไปด้วยพารามิเตอร์1λ1λ\frac{1}{\lambda}λ หนึ่งสามารถแปลงการแจกแจงแบบหนึ่งให้เป็นแบบอื่นได้ขึ้นอยู่กับว่ามันง่ายกว่าในการจำลองเหตุการณ์หรือเวลา ตอนนี้ Gamma-Poisson เป็น Poisson แบบ "ยืด" ที่มีความแปรปรวนมากขึ้น การแจกแจงแบบ Weibull เป็นเลขชี้กำลัง "ยืด" ที่มีความแปรปรวนมากขึ้น แต่ทั้งสองจะสามารถแปลงเป็นกันและกันได้อย่างง่ายดายในลักษณะเดียวกันปัวซองสามารถแปลงเป็นเลขชี้กำลัง? หรือมีการกระจายอื่น ๆ ที่เหมาะสมกว่าที่จะใช้ร่วมกับการกระจายแกมม่า - ปัวซอง? แกมม่าปัวซองเรียกอีกอย่างว่าการกระจายตัวแบบทวินามเชิงลบหรือ NBD

4
กลยุทธ์สำหรับการตัดสินใจรูปแบบที่เหมาะสมสำหรับการนับข้อมูล
กลยุทธ์ที่เหมาะสมในการตัดสินใจเลือกรุ่นใดที่จะใช้กับข้อมูลนับ ฉันมีข้อมูลนับที่ฉันต้องการสร้างแบบจำลองเป็นแบบหลายระดับและแนะนำให้ฉัน (บนเว็บไซต์นี้) ว่าวิธีที่ดีที่สุดในการทำเช่นนี้คือผ่านบั๊กหรือ MCMCglmm อย่างไรก็ตามฉันยังคงพยายามที่จะเรียนรู้เกี่ยวกับสถิติแบบเบย์และฉันคิดว่าฉันควรพยายามใส่ข้อมูลของฉันให้เป็นแบบจำลองเชิงเส้นแบบทั่วไปและไม่สนใจโครงสร้างซ้อนของข้อมูล ข้อมูลประมาณ 70% เป็น 0 และอัตราส่วนของความแปรปรวนต่อค่าเฉลี่ยคือ 33 ดังนั้นข้อมูลจึงกระจายตัวค่อนข้างมาก หลังจากลองใช้ตัวเลือกที่แตกต่างกันจำนวนมาก (รวมทั้งปัวซอง, รูปแบบลบ, แบบกึ่งและกึ่งศูนย์) ฉันเห็นความสอดคล้องกันน้อยมากในผลลัพธ์ (การเปลี่ยนแปลงจากทุกอย่างมีความหมาย ฉันจะตัดสินใจเกี่ยวกับรูปแบบประเภทใดให้เลือกโดยพิจารณาจากอัตราเงินเฟ้อ 0 และการกระจายตัวมากเกินไป ตัวอย่างเช่นฉันจะอนุมานได้ว่า quasi-poisson นั้นเหมาะสมกว่าเชิงลบแบบทวินาม (หรือในทางกลับกัน) และฉันจะรู้ได้อย่างไรว่าการใช้อย่างใดอย่างหนึ่งได้จัดการอย่างเพียงพอ (หรือไม่) ด้วยค่าศูนย์ส่วนเกิน? ในทำนองเดียวกันฉันจะประเมินได้อย่างไรว่าไม่มีการกระจายตัวมากเกินไปหากใช้ตัวแบบที่ไม่มีการขยายเกินศูนย์? หรือฉันควรจะตัดสินใจอย่างไรระหว่างปัวซงที่มีค่าเป็นศูนย์ที่สูงขึ้นและทวินามลบที่สูงเกินจริง

2
เมื่อมีคนบอกว่าส่วนเบี่ยงเบน / df ที่เหลือควร ~ 1 สำหรับโมเดลปัวซองค่าประมาณเป็นอย่างไร
ฉันมักจะเห็นคำแนะนำสำหรับการตรวจสอบว่าแบบจำลองของปัวซองนั้นเต็มไปด้วยการแยกส่วนเบี่ยงเบนที่เหลือด้วยองศาอิสระหรือไม่ อัตราส่วนผลลัพธ์ควรเป็น "ประมาณ 1" คำถามคือช่วงที่เรากำลังพูดถึงสำหรับ "โดยประมาณ" - อัตราส่วนที่ควรตั้งปิดสัญญาณเตือนเพื่อพิจารณารูปแบบรูปแบบทางเลือกคืออะไร?

4
อุบัติเหตุเครื่องบินชนกันเป็นจำนวนเท่าใด?
คำถามเดิม (7/25/14): การเสนอราคานี้จากสื่อข่าวทำให้รู้สึกหรือมีวิธีการทางสถิติที่ดีขึ้นในการดูน้ำท่วมของอุบัติเหตุเครื่องบินเมื่อเร็ว ๆ นี้? อย่างไรก็ตามบาร์เน็ตต์ยังให้ความสนใจกับทฤษฎีของการแจกแจงปัวซงซึ่งก็หมายความว่าช่วงเวลาสั้น ๆ ระหว่างการเกิดปัญหานั้นมีแนวโน้มที่จะเป็นไปได้มากกว่าระยะยาว "สมมติว่ามีอุบัติเหตุร้ายแรงถึงหนึ่งครั้งต่อปีโดยเฉลี่ยหมายความว่าโอกาสที่จะเกิดอุบัติเหตุในวันใดวันหนึ่งเป็นหนึ่งใน 365" บาร์เน็ตต์กล่าว "หากเกิดความผิดพลาดในวันที่ 1 สิงหาคมโอกาสที่ความผิดพลาดครั้งต่อไปจะเกิดขึ้นหนึ่งวันต่อมาในวันที่ 2 สิงหาคมคือ 1/365 แต่โอกาสที่ความผิดพลาดครั้งต่อไปจะเกิดขึ้นในวันที่ 3 สิงหาคมคือ (364/365) x (1/365) เนื่องจากข้อผิดพลาดครั้งถัดไปเกิดขึ้นในวันที่ 3 สิงหาคมเฉพาะในกรณีที่ไม่มีข้อผิดพลาดในวันที่ 2 สิงหาคมเท่านั้น " “ ดูเหมือนว่าจะใช้งานง่าย แต่ข้อสรุปดังต่อไปนี้อย่างไม่ลดละจากกฎความน่าจะเป็น” บาร์เน็ตต์กล่าว ที่มา: http://www.bbc.com/news/magazine-28481060 ความชัดเจน (7/27/14): สิ่งที่เคาน์เตอร์หยั่งรู้ (สำหรับฉัน) กำลังบอกว่าเหตุการณ์ที่หายากมักจะเกิดขึ้นในเวลาใกล้เคียง ฉันคิดว่าเหตุการณ์ที่เกิดขึ้นได้ยากจะไม่เกิดขึ้นในเวลาอันใกล้ ทุกคนสามารถชี้ให้ฉันเห็นการแจกแจงเชิงทฤษฎีหรือเชิงประจักษ์ของเวลาระหว่างเหตุการณ์ภายใต้สมมติฐานของการแจกแจงปัวซอง? (นั่นคือฮิสโตแกรมที่แกน y เป็นความถี่หรือความน่าจะเป็นและแกน x เป็นเวลาระหว่างเหตุการณ์ที่เกิดขึ้น 2 ครั้งติดต่อกันซึ่งแบ่งออกเป็นวันสัปดาห์เดือนหรือปีหรือสิ่งที่คล้ายกัน) ขอบคุณ …

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
วิธีประมาณกระบวนการปัวซองโดยใช้ R (หรือ: วิธีการใช้แพคเกจ NHPoisson?)
ฉันมีฐานข้อมูลของเหตุการณ์ (เช่นตัวแปรของวันที่) และ covariates ที่เกี่ยวข้อง เหตุการณ์ถูกสร้างขึ้นโดยกระบวนการปัวซองที่ไม่อยู่กับที่ซึ่งพารามิเตอร์เป็นฟังก์ชันที่ไม่รู้จัก (แต่อาจเป็นเชิงเส้น) ของ covariates บางตัว ฉันคิดว่าแพ็คเกจ NHPoisson มีไว้เพื่อจุดประสงค์นี้เท่านั้น แต่หลังจากการวิจัยไม่ประสบความสำเร็จ 15 ชั่วโมงฉันก็ยังไม่รู้ว่าจะใช้อย่างไร Heck ฉันลองอ่านหนังสืออ้างอิงทั้งสองเล่ม: Coles, S. (2001) บทนำสู่การสร้างแบบจำลองทางสถิติของค่าที่สูงที่สุด สปริงเกอร์ Casella, G. และ Berger, RL, (2002) อนุมานทางสถิติ. บรูคส์ / โคล ตัวอย่างเดียวในเอกสารประกอบของ fitPP.fun ดูเหมือนจะไม่เหมาะกับการตั้งค่าของฉัน ฉันไม่มีคุณค่ามากนัก! ฉันเพิ่งมีเหตุการณ์ที่เปลือยเปล่า ทุกคนได้โปรดช่วยฉันด้วยตัวอย่างง่ายๆของการกระชับกระบวนการ Poisson กับพารามิเตอร์กับตัวแปรร่วมเดียวและสมมติฐานที่ ? ฉันสนใจในการประมาณและ\ฉันให้ชุดข้อมูลสองคอลัมน์พร้อมเวลาของเหตุการณ์ (สมมติว่าวัดเป็นวินาทีหลังจากเวลาโดยพลการ ) และอีกคอลัมน์หนึ่งที่มีค่าของ covariate ?X λ = …

11
ตัวอย่างของกระบวนการที่ไม่ใช่ปัวซอง
ฉันกำลังมองหาตัวอย่างที่ดีของสถานการณ์ที่ไม่เหมาะสมกับแบบจำลองด้วยการแจกแจงปัวซงเพื่อช่วยฉันอธิบายการแจกแจงปัวซองให้กับนักเรียน หนึ่งมักใช้จำนวนลูกค้าที่มาถึงร้านในช่วงเวลาเป็นตัวอย่างที่สามารถสร้างแบบจำลองโดยการกระจายปัวซอง ฉันกำลังมองหาตัวอย่างที่คล้ายกันในหลอดเลือดดำที่คล้ายกันนั่นคือสถานการณ์ที่ถือได้ว่าเป็นกระบวนการนับเชิงบวกในเวลาต่อเนื่องซึ่งไม่ชัดเจนปัวซอง สถานการณ์ควรเป็นเรื่องง่ายและตรงไปตรงมาที่สุดเพื่อให้นักเรียนเข้าใจและจดจำได้ง่าย

2
เหตุใดการกระจายแบบปัวซงจึงถูกเลือกให้เป็นแบบจำลองกระบวนการมาถึงในปัญหาเชิงทฤษฎีแถวคอย?
เมื่อเราพิจารณาสถานการณ์สมมติทางทฤษฎีที่บุคคลเข้ามาที่โหนดการให้บริการและการจัดคิวมักจะใช้กระบวนการปัวซองเพื่อทำแบบจำลองเวลาที่มาถึง สถานการณ์เหล่านี้เกิดขึ้นในปัญหาการกำหนดเส้นทางเครือข่าย ฉันขอขอบคุณคำอธิบายที่เข้าใจง่ายว่าทำไมกระบวนการปัวซองจึงเหมาะสมที่สุดในการจำลองแบบขาเข้า

2
การสร้างแบบจำลองการกระจายปัวซองด้วยการกระจายเกินพิกัด
ฉันมีชุดข้อมูลที่ฉันคาดว่าจะติดตามการกระจายของปัวซอง แต่มันมีการกระจายตัวเกินประมาณ 3 เท่า ในปัจจุบันฉันกำลังสร้างแบบจำลองการกระจายเกินปกตินี้โดยใช้โค้ดต่อไปนี้ในอาร์ ## assuming a median value of 1500 med = 1500 rawdist = rpois(1000000,med) oDdist = rawDist + ((rawDist-med)*3) สายตาสิ่งนี้ดูเหมือนจะสอดคล้องกับข้อมูลเชิงประจักษ์ของฉันได้เป็นอย่างดี ถ้าฉันมีความสุขกับแบบที่มีเหตุผลใด ๆ ที่ฉันควรจะทำบางสิ่งบางอย่างที่ซับซ้อนมากขึ้นเช่นการใช้การแจกแจงแบบทวินามลบตามที่อธิบายไว้ที่นี่ ? (ถ้าเป็นเช่นนั้นพอยน์เตอร์หรือลิงก์ในการทำเช่นนั้นจะได้รับการชื่นชมมาก) โอ้และฉันรู้ว่าสิ่งนี้สร้างการกระจายแบบขรุขระเล็กน้อย (เนื่องจากการคูณด้วยสาม) แต่นั่นไม่ควรสำคัญสำหรับแอปพลิเคชันของฉัน อัปเดต: เพื่อประโยชน์ของผู้อื่นที่ค้นหาและพบคำถามนี้ต่อไปนี้เป็นฟังก์ชั่น R ที่ใช้ง่ายในการสร้างแบบจำลองปัวซองที่ใช้โอเวอร์เซ็ตโดยใช้การแจกแจงแบบทวินามลบ ตั้งค่า d เป็นอัตราส่วนค่าเฉลี่ย / ความแปรปรวนที่ต้องการ: rpois.od<-function (n, lambda,d=1) { if (d==1) rpois(n, lambda) else …

7
เข้าใจโดยสัญชาตญาณว่าเหตุใดการแจกแจงปัวซงเป็นกรณี จำกัด ของการแจกแจงทวินาม
ใน "การวิเคราะห์ข้อมูล" โดย DS Sivia มีการสืบทอดของการแจกแจงปัวซงจากการแจกแจงทวินาม พวกเขาอ้างว่าการแจกแจงปัวซงเป็นกรณี จำกัด ของการแจกแจงทวินามเมื่อM→∞M→∞M\rightarrow\inftyโดยที่MMMคือจำนวนการทดลอง คำถามที่ 1: การโต้แย้งนั้นจะเข้าใจได้อย่างไรอย่างสังหรณ์ใจ? คำถามที่ 2: ทำไมขีด จำกัดขนาดใหญ่MMMถึงเท่ากับM NM!N!(M−N)!M!N!(M−N)!\frac{M!}{N!(M-N)!}ที่Nคือจำนวนความสำเร็จในการทดลองM? (ขั้นตอนนี้ใช้ในการสืบทอด)MNN!MNN!\frac{M^{N}}{N!}NNNMMM

2
ทำไมความน่าจะเป็นศูนย์สำหรับค่าที่กำหนดจากการแจกแจงแบบปกติคืออะไร?
ฉันสังเกตว่าในการแจกแจงแบบปกติความน่าจะเป็นเท่ากับศูนย์ในขณะที่การแจกแจงปัวซองนั้นจะไม่เท่ากับศูนย์เมื่อเป็นจำนวนเต็มที่ไม่เป็นลบcP( x = c )P(x=c)P(x=c)คcc คำถามของฉันคือความน่าจะเป็นของค่าคงที่ใด ๆ ในการแจกแจงแบบปกติเท่ากับศูนย์หรือไม่เพราะมันหมายถึงพื้นที่ภายใต้โค้งใด ๆ หรือเป็นเพียงกฎที่จะจดจำเท่านั้น?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.