คำถามติดแท็ก distributions

การแจกแจงเป็นการอธิบายทางคณิตศาสตร์ของความน่าจะเป็นหรือความถี่

3
ปัญหาในเชิงลึกที่ร้ายแรงของความน่าจะเป็นสำหรับการพลิกเหรียญ
ให้บอกว่าฉันทำ 10,000 flips เหรียญ ฉันต้องการทราบความน่าจะเป็นของการพลิกหลายครั้งเพื่อให้ได้ 4 หัวติดต่อกันหรือมากกว่าติดต่อกัน การนับจะทำหน้าที่ดังต่อไปนี้คุณจะนับหนึ่งรอบการพลิกต่อเนื่องที่เป็นแค่หัว (4 หัวหรือมากกว่า) เมื่อก้อยกระทบและแตกแนวของหัวการนับจะเริ่มอีกครั้งจากการโยนครั้งต่อไป นี่จะทำซ้ำ 10,000 ครั้ง ฉันต้องการทราบความน่าจะเป็นไม่ใช่เพียง 4 หัวขึ้นไปในแถว แต่ 6 หรือมากกว่าและ 10 หรือมากกว่า หากต้องการให้ชัดเจนหากมีริ้ว 9 หัวมันจะนับเป็น 1 ริ้ว 4 หรือมากกว่า (และ / หรือ 6 หรือมากกว่า) ไม่ใช่ 2 เส้นแยกกัน ตัวอย่างเช่นหากเหรียญมาถึง THTHTHTHHHHHH /// THAHTHT .... การนับจะเป็น 13 และเริ่มต้นอีกครั้งบนก้อยถัดไป สมมุติว่าข้อมูลออกมาเอียงไปทางขวาอย่างมาก หมายความว่าเฉลี่ย 40 พลิกโดยเฉลี่ยเพื่อให้ได้แนว 4 …

3
ผลรวมถ่วงน้ำหนักของตัวแปรสุ่ม Poisson อิสระสองตัว
การใช้วิกิพีเดียฉันพบวิธีคำนวณความน่าจะเป็นของมวลฟังก์ชันที่เกิดจากผลรวมของตัวแปรสุ่มปัวซองสองตัว อย่างไรก็ตามฉันคิดว่าวิธีการที่ฉันมีผิด ให้เป็นตัวแปรสุ่มปัวซองสองตัวที่มีค่าเฉลี่ยและโดยที่และเป็นค่าคงที่จากนั้นฟังก์ชันสร้างความน่าจะเป็นของจะถูกกำหนดโดย ตอนนี้การใช้ความจริงที่ว่าฟังก์ชันสร้างความน่าจะเป็นสำหรับตัวแปรสุ่มของปัวซองคือเราสามารถเขียนฟังก์ชันสร้างความน่าจะเป็นของ ผลรวมของตัวแปรสุ่ม Poisson อิสระสองตัว X1,X2X1,X2X_1, X_2λ1,λ2λ1,λ2\lambda_1, \lambda_2S2=a1X1+a2X2S2=a1X1+a2X2S_2 = a_1 X_1+a_2 X_2a1a1a_1a2a2a_2S2S2S_2G X ฉัน (z)= e λ ฉัน ( z - 1 ) G S 2 ( z )GS2(z)=E(zS2)=E(za1X1+a2X2)GX1(za1)GX2(za2).GS2(z)=E⁡(zS2)=E⁡(za1X1+a2X2)GX1(za1)GX2(za2). G_{S_2}(z) = \operatorname{E}(z^{S_2})= \operatorname{E}(z^{a_1 X_1+a_2 X_2}) G_{X_1}(z^{a_1})G_{X_2}(z^{a_2}). GXi(z)=eλi(z−1)GXi(z)=eλi(z−1)G_{X_i}(z) = \textrm{e}^{\lambda_i(z - 1)} S2G S 2 (z)Pr(S2=k)= G ( k …

2
ความแตกต่างของตัวแปรสุ่มแกมมา
รับตัวแปรสุ่มอิสระสองตัวและการกระจายความแตกต่างคือคืออะไร?Y ∼ G a m m a ( α Y , β Y ) D = X - YX∼Gamma(αX,βX)X∼Gamma(αX,βX)X\sim \mathrm{Gamma}(\alpha_X,\beta_X)Y∼Gamma(αY,βY)Y∼Gamma(αY,βY)Y\sim \mathrm{Gamma}(\alpha_Y,\beta_Y)D=X−YD=X−YD=X-Y หากผลลัพธ์ไม่เป็นที่รู้จักฉันจะไปหาผลลัพธ์ได้อย่างไร

2
ค่าที่คาดหวังของตัวแปรสุ่มแบบเกาส์แปลงด้วยฟังก์ชันโลจิสติก
ทั้งฟังก์ชั่นโลจิสติกและส่วนเบี่ยงเบนมาตรฐานมักจะแสดง\ฉันจะใช้และสำหรับค่าเบี่ยงเบนมาตรฐานσσ\sigmaσ(x)=1/(1+exp(−x))σ(x)=1/(1+exp⁡(−x))\sigma(x) = 1/(1+\exp(-x))sss ฉันมีเซลล์ประสาทลอจิสติกพร้อมอินพุตสุ่มที่มีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานฉันรู้ ฉันหวังว่าความแตกต่างจากค่าเฉลี่ยนั้นสามารถประมาณได้ดีจากเสียงเกาส์เซียนบางส่วน ดังนั้นที่มีการละเมิดเล็กน้อยของสัญกรณ์สมมติมันผลิต2)) ค่าที่คาดหวังของคืออะไร ค่าเบี่ยงเบนมาตรฐานอาจจะมีขนาดใหญ่หรือเล็กเมื่อเทียบกับหรือ1การประมาณรูปแบบปิดที่ดีสำหรับค่าที่คาดหวังจะเกือบดีเท่ากับโซลูชันแบบปิดμμ\musssσ(μ+N(0,s2))=σ(N(μ,s2))σ(μ+N(0,s2))=σ(N(μ,s2))\sigma(\mu + N(0,s^2))=\sigma(N(\mu,s^2))σ(N(μ,s2))σ(N(μ,s2))\sigma(N(\mu,s^2))sssμμ\mu111 ฉันไม่คิดว่ามีโซลูชันแบบปิดอยู่ สิ่งนี้สามารถถูกมองได้ว่าเป็นรูปแบบสังวัตนาและฟังก์ชันลักษณะเฉพาะสำหรับความหนาแน่นของโลจิสติกส์นั้นเป็นที่รู้จัก ( ) แต่ฉันไม่แน่ใจว่าจะช่วยได้มากแค่ไหน เครื่องคิดเลขสัญลักษณ์ผกผันก็ไม่สามารถที่จะยอมรับความหนาแน่นที่ของการบิดของความหนาแน่นของการกระจายโลจิสติกและการกระจายปกติมาตรฐานซึ่งแสดงให้เห็น แต่ไม่ได้พิสูจน์ว่าไม่มีหนึ่งประถมง่าย หลักฐานเพิ่มเติมจากสถานการณ์: ในเอกสารบางฉบับเกี่ยวกับการเพิ่มสัญญาณรบกวนแบบเกาส์ไปยังเครือข่ายประสาทด้วยเซลล์ประสาทลอจิสติกเอกสารไม่ได้ให้การแสดงออกในรูปแบบปิดเช่นกันπt csch πtπt csch πt\pi t ~\text{csch} ~\pi t000 คำถามนี้เกิดขึ้นในการพยายามทำความเข้าใจข้อผิดพลาดในการประมาณค่าเฉลี่ยฟิลด์ในเครื่อง Boltzman

1
การแจกแจงระยะยาวของเหตุการณ์เวลา
สมมติว่าคุณมีบันทึกของเว็บเซิร์ฟเวอร์ ในบันทึกเหล่านี้คุณมีสิ่งอันดับ: user1, timestamp1 user1, timestamp2 user1, timestamp3 user2, timestamp4 user1, timestamp5 ... เวลาประทับเหล่านี้แสดงเช่นการคลิกของผู้ใช้ ตอนนี้user1จะเข้าชมเว็บไซต์หลายครั้ง (เซสชัน) ในระหว่างเดือนและคุณจะมีจำนวนคลิกจากผู้ใช้แต่ละคนในแต่ละเซสชัน (หากว่าเมื่อผู้ใช้เยี่ยมชมเว็บไซต์ของคุณเขาจะคลิกหลายหน้า) สมมติว่าคุณต้องการแบ่งการคลิกเหล่านี้ในเซสชันที่สร้างพวกเขา แต่คุณไม่มีแหล่งข้อมูลเพิ่มเติมใด ๆ เพียงรายการของการประทับเวลา หากคุณคำนวณการแจกแจงช่วงเวลาระหว่างการคลิกสองครั้งที่ตามมาจากผู้ใช้เดียวกันคุณจะได้รับการแจกแจงแบบยาว โดยสังเขปคุณจะมองหา "พารามิเตอร์ที่ถูกตัด" เช่น N วินาทีซึ่งถ้าเป็นtimestamp_{i+1} - timestamp{i} > Nเช่นนั้นคุณtimestamp_{i+1}จะเป็นจุดเริ่มต้นของเซสชันใหม่ ปัญหาคือว่าการกระจายตัวนี้ในความเป็นจริงเป็นการผสมผสานของตัวแปรสองตัว: X = "ช่วงเวลาระหว่างการคลิกสองครั้งที่เกิดขึ้นในเซสชันเดียวกัน" และ Y = "ช่วงเวลาระหว่างการคลิกครั้งสุดท้ายของเซสชันก่อนหน้าและครั้งแรกของใหม่" คำถามคือวิธีประมาณ N นี้ที่หารการแจกแจงสองแบบ (โดยมีการทับซ้อนกันเล็กน้อย) เพียงแค่ดูการระเบิดของการคลิก

3
ผลรวมของตัวแปรสุ่มแบบทวินามและปัวซอง
หากเรามีตัวแปรสุ่มอิสระสองตัวและฟังก์ชันมวลความน่าจะเป็นของคืออะไร?X 2 ∼ P o ฉันs ( λ ) X 1 + X 2X1∼Binom(n,p)X1∼Binom(n,p)X_1 \sim \mathrm{Binom}(n,p)X2∼Pois(λ)X2∼Pois(λ)X_2 \sim \mathrm{Pois}(\lambda)X1+X2X1+X2X_1 + X_2 NBนี่ไม่ใช่การบ้านสำหรับฉัน

2
เหตุใดการแจกแจงจึงมีความสำคัญ
นี่อาจเป็นไปได้ว่าเป็นคำถามที่งี่เง่าที่สุดที่เคยถามในฟอรัมนี้ แต่หลังจากได้รับเสียงและคำตอบที่มีความหมายกับคำถามก่อนหน้านี้ฉันคิดว่าฉันจะทำให้โชคดีขึ้นอีกครั้ง ฉันสับสนมากในบางครั้งเกี่ยวกับความสำคัญของการแจกแจงเชิงสถิติโดยเฉพาะอย่างยิ่งเมื่อพวกเขาเกี่ยวข้องกับผลตอบแทนของสินทรัพย์และโดยเฉพาะอย่างยิ่งในการจัดสรรสินทรัพย์ คำถามที่เฉพาะเจาะจงของฉันคือ: สมมติว่าฉันมีข้อมูลผลตอบแทนรายเดือน S&P เป็นเวลา 20 ปีทำไมฉันต้องสมมติการกระจายบางประเภท (เช่นเที่ยวบินปกติ / เที่ยวบิน Johnson / Levy เป็นต้น) สำหรับการตัดสินใจจัดสรรสินทรัพย์เมื่อฉันสามารถ เพิ่งตัดสินใจจัดสรรสินทรัพย์ตามข้อมูลย้อนหลังที่ฉันมีกับฉัน

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
ฉันจะสร้างตัวเลขตามการแจกแจงโซลิตันได้อย่างไร
การแจกแจงโซลิตันเป็นการแจกแจงความน่าจะเป็นแบบแยกส่วนเหนือชุด{ 1 , … , N}{1,...,ยังไม่มีข้อความ}\{1,\dots, N\}ด้วยฟังก์ชันมวลความน่าจะเป็น p ( 1 ) = 1ยังไม่มีข้อความ,p ( k ) = 1k ( k - 1 )สำหรับ k ∈ { 2 , … , N}พี(1)=1ยังไม่มีข้อความ,พี(k)=1k(k-1)สำหรับ k∈{2,...,ยังไม่มีข้อความ} p(1)=\frac{1}{N},\qquad p(k)=\frac{1}{k(k-1)}\quad\text{for }k\in\{2,\dots, N\} ฉันต้องการใช้มันเป็นส่วนหนึ่งของการใช้งานรหัส LTโดยเฉพาะอย่างยิ่งใน Python ที่มีตัวสร้างตัวเลขสุ่มแบบสม่ำเสมอให้บริการ

2
การกระจายเชิงสถิติของลำดับสูงสุดของบรรทัดฐานแบบสุ่ม IID
สูงสุด( X1, X2, . . . , Xn)สูงสุด(X1,X2,...,Xn)\max( X_1,X_2,...,X_n) nnn∞∞\inftyσ2σ2\sigma^2 นี่เป็นปัญหาที่รู้จักกันดีด้วยหลักฐานอันชาญฉลาดและวิธีแก้ปัญหาที่ดี แต่ฉันขุดมาแล้วไม่พบอะไรเลย

2
kurtosis ขนาดมหึมา?
ฉันกำลังทำสถิติเชิงพรรณนาของผลตอบแทนรายวันจากดัชนีหุ้น คือถ้าและP 2เป็นระดับของดัชนีในวันที่ 1 และวันที่ 2 ตามลำดับจากนั้นl o g e ( P 2P1P1P_1P2P2P_2คือผลตอบแทนที่ฉันใช้ (มาตรฐานสมบูรณ์ในวรรณกรรม)loge(P2P1)loge(P2P1)log_e (\frac{P_2}{P_1}) ดังนั้นความโด่งจึงมีมากในบางส่วนของสิ่งเหล่านี้ ฉันกำลังดูข้อมูลรายวันประมาณ 15 ปี (ประมาณการสังเกตอนุกรมเวลา)260∗15260∗15260 * 15 means sds mins maxs skews kurts ARGENTINA -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532 AUSTRIA 0.00003 0.00640 -0.03845 0.04621 0.19614 2.36104 CZECH.REPUBLIC 0.00008 0.00800 -0.08289 0.05236 -0.16920 5.73205 FINLAND …


2
เมื่อใดจึงจะใช้การกระจายของนักเรียนหรือปกติในการถดถอยเชิงเส้น
ฉันกำลังดูปัญหาและในการทดสอบสัมประสิทธิ์บางครั้งฉันเห็นคนที่ใช้การแจกแจงของนักเรียนและบางครั้งฉันเห็นการแจกแจงแบบปกติ กฎคืออะไร?

1
จะเปลี่ยนฟังก์ชั่นให้เป็นความหนาแน่นของความน่าจะเป็นในขณะที่รักษารูปร่างของฟังก์ชันได้อย่างไร?
ฉันมีชุดของฟังก์ชั่นแต่ละคนควรจะเป็นตัวแทนของความหนาแน่นของตัวแปรสุ่มในตัวแทน แต่ละฟังก์ชั่นยังมีโดเมนซึ่งอธิบายถึงค่าของตัวแปรสุ่มที่ถูกต้อง ตอนนี้ถ้าฉันจำคลาสสถิติของฉันได้อย่างถูกต้องถ้าฉันนำส่วนใดส่วนหนึ่งของฟังก์ชั่นข้ามค่าที่อธิบายโดยโดเมนของฟังก์ชั่นที่ฉันควรได้รับค่า 1.0 สิ่งนี้ไม่ได้เกิดขึ้น มีเทคนิคการทำให้เป็นมาตรฐานที่สามารถเปลี่ยนฟังก์ชั่นให้เป็นความหนาแน่นของความน่าจะเป็นที่แท้จริง แต่ยังคงรักษารูปร่างของฟังก์ชันหรือไม่ ฟังก์ชั่นทั้งหมดอยู่ในรูปแบบโดยที่คือตัวแปรสุ่มและยังคงค่าคงที่xa,b,cabx+cabx+c\frac{a}{bx}+cxxxa,b,ca,b,ca,b,c

2
ฉันสามารถทดสอบความถูกต้องของข้อมูลที่กำหนดไว้ก่อนหน้าได้หรือไม่
ปัญหา ฉันกำลังเขียนฟังก์ชั่น R ที่ดำเนินการวิเคราะห์แบบเบย์เพื่อประเมินความหนาแน่นหลังที่ได้รับข้อมูลก่อนหน้านี้และข้อมูล ฉันต้องการให้ฟังก์ชันส่งคำเตือนหากผู้ใช้จำเป็นต้องพิจารณาใหม่ก่อน ในคำถามนี้ฉันสนใจที่จะเรียนรู้วิธีการประเมินก่อน คำถามก่อนหน้านี้ครอบคลุมกลศาสตร์ของการระบุนักบวชที่รู้แจ้ง ( ที่นี่และที่นี่ ) กรณีต่อไปนี้อาจต้องการให้ประเมินก่อนหน้า: ข้อมูลแสดงให้เห็นถึงกรณีที่รุนแรงที่ไม่ได้คิดเมื่อระบุก่อน ข้อผิดพลาดในข้อมูล (เช่นถ้าข้อมูลอยู่ในหน่วยของกรัมเมื่อก่อนอยู่ในหน่วยกิโลกรัม) ผิดก่อนถูกเลือกจากชุดของนักบวชที่มีอยู่เพราะข้อผิดพลาดในรหัส ในกรณีแรกนักบวชมักจะยังคงแพร่กระจายเพียงพอที่ข้อมูลมักจะครอบงำพวกเขาเว้นแต่ค่าข้อมูลจะอยู่ในช่วงที่ไม่ได้รับการสนับสนุน (เช่น <0 สำหรับ logN หรือ Gamma) อีกกรณีหนึ่งคือข้อบกพร่องหรือข้อผิดพลาด คำถาม มีปัญหาใด ๆ เกี่ยวกับความถูกต้องของการใช้ข้อมูลเพื่อประเมินก่อนหรือไม่? การทดสอบใดที่เหมาะสมที่สุดสำหรับปัญหานี้หรือไม่? ตัวอย่าง ต่อไปนี้เป็นชุดข้อมูลสองชุดที่จับคู่กันไม่ดีกับก่อนหน้านี้เนื่องจากมาจากกลุ่มประชากรที่มี (สีแดง) หรือN (8,0.5) (สีน้ำเงิน)logN(0,1)logN(0,1)logN(0,1)N(0,5)N(0,5)N(0,5)N(8,0.5)N(8,0.5)N(8,0.5) ข้อมูลสีน้ำเงินอาจเป็นการรวมกันของข้อมูลก่อนหน้า + ที่ถูกต้องในขณะที่ข้อมูลสีแดงจะต้องมีการแจกแจงก่อนหน้าซึ่งได้รับการสนับสนุนสำหรับค่าลบ set.seed(1) x<- seq(0.01,15,by=0.1) plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='') points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.