คำถามติดแท็ก distributions

การแจกแจงเป็นการอธิบายทางคณิตศาสตร์ของความน่าจะเป็นหรือความถี่

1
การกระจายผลิตภัณฑ์โดยประมาณของ N iid ปกติ? กรณีพิเศษμ≈0
รับ iid X n ≈ N ( μ X , σ 2 X ) , และμ X ≈ 0 , ค้นหา:ยังไม่มีข้อความ≥ 30N≥30N\geq30Xn≈ N( μX, σ2X)Xn≈N(μX,σX2)X_n\approx\mathcal{N}(\mu_X,\sigma_X^2)μX≈ 0μX≈0\mu_X \approx 0 การประมาณการแจกแจงแบบฟอร์มปิดที่แม่นยำของ Yยังไม่มีข้อความ= ∏1ยังไม่มีข้อความXnYN=∏1NXnY_N=\prod\limits_{1}^{N}{X_n} asymptotic ( exponential ?) การประมาณของผลิตภัณฑ์เดียวกัน นี้เป็นกรณีพิเศษของขึ้นคำถามทั่วไปμX≈ 0μX≈0\mu_X \approx 0

2
วิธีค้นหาเมื่อคือฟังก์ชันความหนาแน่นของความน่าจะเป็น
ฉันจะแก้ปัญหานี้ได้อย่างไร ฉันต้องการสมการระดับกลาง บางทีคำตอบคือ(x)−tf(x)−tf(x)-tf(x) ddt[∫∞txf(x)dx]ddt[∫t∞xf(x)dx] \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] f(x)f(x)f(x)เป็นฟังก์ชันความหนาแน่นของความน่าจะเป็น กล่าวคือและ\ lim \ limit_ {x \ to \ infty} F (x) = 1limx→∞f(x)=0limx→∞f(x)=0\lim\limits_{x \to \infty} f(x) = 0limx→∞F(x)=1limx→∞F(x)=1\lim\limits_{x \to \infty} F(x) = 1 แหล่งที่มา: http://www.actuaries.jp/lib/collection/books/H22/H22A.pdf p.40 ลองใช้สมการกลางด้านล่าง: ddt[∫∞txf(x)dx]=ddt[[xF(x)]∞t−∫∞tF(x)dx]??ddt[∫t∞xf(x)dx]=ddt[[xF(x)]t∞−∫t∞F(x)dx]?? \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] = \frac{d}{dt} \left [\left [xF(x) …

1
จะอ่านผลการทดสอบของ Dunn ได้อย่างไร?
ฉันจะอ่านผลลัพธ์จากการ ทดสอบของ Dunn ได้อย่างไร โดยเฉพาะค่าในตารางด้านล่างบอกอะไรฉัน ฉันมีข้อมูลที่ไม่ใช่พารามิเตอร์ใน 4 กลุ่มและฉันทำการทดสอบ Kruskal-Wallis ก่อนเพื่อยืนยันว่าการแจกแจงของกลุ่มแตกต่างจากชุดข้อมูลอื่นและชุดข้อมูลรวม จากนั้นฉันใช้การทดสอบของ Dunn เพื่อดูว่ากลุ่มใดแตกต่างกันซึ่งไม่ได้เป็นกลุ่ม library(dunn.test) dunn.test(data, g=area, kw=TRUE) Kruskal-Wallis rank sum test data: x and area Kruskal-Wallis chi-squared = 1730.4401, df = 3, p-value = 0 Comparison of x by area (No adjustment) Row Mean-| Col Mean | A B C …

4
อัตราส่วนของการแจกแจงอิสระให้การกระจายแบบปกติคืออะไร?
อัตราส่วนของการแจกแจงปกติสองแบบอิสระให้การแจกแจงแบบโคชี การแจกแจงแบบ t เป็นการแจกแจงแบบปกติหารด้วยการแจกแจงแบบไคสแควร์อิสระ อัตราส่วนของการแจกแจงแบบไคสแควร์อิสระสองตัวนั้นให้การกระจายแบบ F ฉันกำลังมองหาอัตราส่วนของการแจกแจงแบบต่อเนื่องอิสระที่ให้ตัวแปรสุ่มแบบกระจายที่มีค่าเฉลี่ยและความแปรปรวน ?μμ\muσ2σ2\sigma^2 อาจมีคำตอบที่เป็นไปได้จำนวนมาก คุณสามารถให้คำตอบที่เป็นไปได้เหล่านี้ให้ฉันได้ไหม ฉันจะซาบซึ้งเป็นพิเศษหากทั้งสองการแจกแจงอิสระซึ่งการคำนวณอัตราส่วนนั้นเหมือนกันหรืออย่างน้อยก็มีความแปรปรวนที่คล้ายกัน

3
วิธีทำให้ข้อมูลของการแจกจ่ายที่ไม่รู้จักเป็นมาตรฐาน
ฉันพยายามค้นหาการกระจายลักษณะเฉพาะที่เหมาะสมที่สุดของข้อมูลการวัดซ้ำประเภทหนึ่ง โดยพื้นฐานแล้วในสาขาธรณีวิทยาของฉันเรามักจะใช้การตรวจสอบด้วยรังสีของแร่ธาตุจากตัวอย่าง (ก้อนหิน) เพื่อหาว่านานแค่ไหนที่มีเหตุการณ์เกิดขึ้น (หินเย็นลงต่ำกว่าอุณหภูมิที่กำหนด) โดยทั่วไปการวัดหลาย ๆ (3-10) จะทำจากตัวอย่างแต่ละตัวอย่าง จากนั้นค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานσจะถูกนำ นี่คือธรณีวิทยาดังนั้นอายุการระบายความร้อนของตัวอย่างสามารถปรับได้ตั้งแต่10 5ถึง10 9ปีขึ้นอยู่กับสถานการณ์μμ\muσσ\sigma10510510^510910910^9 อย่างไรก็ตามฉันมีเหตุผลที่เชื่อได้ว่าการวัดไม่ใช่ Gaussian: 'Outliers' ไม่ว่าจะเป็นการประกาศโดยพลการหรือผ่านเกณฑ์บางอย่างเช่นเกณฑ์ของ Peirce [Ross, 2003]หรือการทดสอบ Q ของ Dixon [Dean and Dixon, 1951]นั้นค่อนข้างยุติธรรม ทั่วไป (พูด 1 ใน 30) และสิ่งเหล่านี้เกือบจะเก่ากว่าทุกครั้งซึ่งบ่งชี้ว่าการวัดเหล่านี้มีลักษณะเอียงไปทางขวา มีเหตุผลที่เข้าใจกันดีเกี่ยวกับสิ่งสกปรกที่เกี่ยวกับแร่วิทยา μμ\muσσ\sigma ฉันสงสัยว่าวิธีที่ดีที่สุดในการทำเช่นนี้คืออะไร ถึงตอนนี้ฉันมีฐานข้อมูลประมาณ 600 ตัวอย่างและ 2-10 (หรือมากกว่านั้น) ทำซ้ำการวัดต่อตัวอย่าง ฉันได้ลองทำตัวอย่างให้เป็นมาตรฐานโดยการหารค่าเฉลี่ยหรือค่ามัธยฐานแล้วดูที่ฮิสโตแกรมของข้อมูลที่ทำให้เป็นมาตรฐาน สิ่งนี้สร้างผลลัพธ์ที่สมเหตุสมผลและดูเหมือนว่าบ่งชี้ว่าข้อมูลนั้นเป็นลักษณะเฉพาะของ Laplacian: อย่างไรก็ตามฉันไม่แน่ใจว่านี่เป็นวิธีการที่เหมาะสมหรือไม่หรือมีข้อแม้ที่ฉันไม่ทราบว่าอาจทำให้เกิดผลลัพธ์ของฉันดังนั้นพวกเขาจึงมีลักษณะเช่นนี้ ใครบ้างมีประสบการณ์กับสิ่งนี้และรู้วิธีปฏิบัติที่ดีที่สุด?

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
ดีกว่าหรือไม่ที่จะเลือกการแจกแจงตามทฤษฎีความเหมาะสมหรืออย่างอื่น?
นี่คือคำถามเกี่ยวกับปรัชญา แต่ฉันสนใจว่าคนอื่น ๆ มีประสบการณ์มากขึ้นคิดอย่างไรเกี่ยวกับการเลือกการกระจาย ในบางกรณีดูเหมือนชัดเจนว่าทฤษฎีอาจทำงานได้ดีที่สุด (ความยาวหางของหนูจะกระจายตามปกติ) ในหลายกรณีอาจไม่มีทฤษฎีที่จะอธิบายชุดข้อมูลดังนั้นคุณเพียงใช้สิ่งที่เหมาะกับสิ่งที่คุณมีค่อนข้างดีโดยไม่คำนึงถึงสิ่งที่มันถูกพัฒนาขึ้นเพื่ออธิบาย? ฉันสามารถจินตนาการถึงข้อผิดพลาดบางอย่างของการไปกับสิ่งเหล่านี้และแน่นอนว่าดูเหมือนว่าจะมีปัญหาที่บางทีคุณควรใช้การกระจายเชิงประจักษ์ถ้าคุณไม่มีความคิด ดังนั้นฉันเดาสิ่งที่ฉันถามจริง ๆ : มีใครบางคนมีวิธีติดต่อกัน / คิดเกี่ยวกับปัญหานี้หรือไม่? และมีทรัพยากรใดบ้างที่คุณสามารถแนะนำได้ว่าให้การปฏิบัติที่ดีต่อสิ่งนี้?


2
อัตราส่วนของผลรวมของปกติต่อผลรวมของลูกบาศก์ของ Normal
โปรดช่วยฉันค้นหาการ จำกัด การกระจาย (ดัง ) ของสิ่งต่อไปนี้: ที่จะ IID(0,1)n→∞n→∞n \rightarrow \inftyUn=X1+X2+…+XnX31+X32+…X3n,Un=X1+X2+…+XnX13+X23+…Xn3, U_n = \frac{X_1 + X_2 + \ldots + X_n}{X_1^3 + X_2^3 + \ldots X_n^3},XiXiX_iN(0,1)N(0,1)N(0,1)

2
จะประเมินควอไทล์ที่สามของข้อมูลที่ถูกรวมเป็นอย่างไร
มีเคล็ดลับทางเทคนิคในการกำหนดควอไทล์ที่สามหรือไม่ถ้ามันเป็นช่วงเวลาเปิดซึ่งมีจำนวนมากกว่าหนึ่งในสี่ของประชากร (ดังนั้นฉันจึงไม่สามารถปิดช่วงเวลาและใช้สูตรมาตรฐานได้) แก้ไข ในกรณีที่ฉันเข้าใจผิดบางสิ่งฉันจะให้บริบทเต็มรูปแบบไม่มากก็น้อย ฉันมีข้อมูลที่จัดเรียงในตารางที่มีสองคอลัมน์และพูดว่า 6 แถว ด้วยแต่ละคอลัมน์จะสอดคล้องกับช่วงเวลา (ในคอลัมน์แรก) และปริมาณของประชากรที่ "เป็น" กับช่วงเวลานั้น ช่วงเวลาสุดท้ายเปิดและมีประชากรมากกว่า 25% ช่วงเวลาทั้งหมด (ยกเว้นช่วงสุดท้าย) มีช่วงเดียวกัน ข้อมูลตัวอย่าง (แสดงเพื่อการนำเสนอ): Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞) Column 2: 51, 65, 68, 82, 78, 182 คอลัมน์แรกจะถูกตีความเป็นช่วงระดับรายได้ ที่สองคือการตีความว่าเป็นจำนวนพนักงานที่มีรายได้เป็นช่วงเวลา สูตรมาตรฐานที่ฉันคิดคือ{3}}Q3=xQ3+3N4−∑k−1i=1ninQ3rQ3Q3=xQ3+3N4−∑i=1k−1ninQ3rQ3\mathbb{Q}_{3}=x_{Q_{3}}+ \frac{\frac{3N}{4}- \sum_{i=1}^{k-1}n_{i}}{n_{Q_{3}}}r_{Q_{3}}

2
กำหนดการกระจายความน่าจะเป็นโดยอัตโนมัติเมื่อได้รับชุดข้อมูล
รับชุดข้อมูล: x <- c(4.9958942,5.9730174,9.8642732,11.5609671,10.1178216,6.6279774,9.2441754,9.9419299,13.4710469,6.0601435,8.2095239,7.9456672,12.7039825,7.4197810,9.5928275,8.2267352,2.8314614,11.5653497,6.0828073,11.3926117,10.5403929,14.9751607,11.7647580,8.2867261,10.0291522,7.7132033,6.3337642,14.6066222,11.3436587,11.2717791,10.8818323,8.0320657,6.7354041,9.1871676,13.4381778,7.4353197,8.9210043,10.2010750,11.9442048,11.0081195,4.3369520,13.2562675,15.9945674,8.7528248,14.4948086,14.3577443,6.7438382,9.1434984,15.4599419,13.1424011,7.0481925,7.4823108,10.5743730,6.4166006,11.8225244,8.9388744,10.3698150,10.3965596,13.5226492,16.0069239,6.1139247,11.0838351,9.1659242,7.9896031,10.7282936,14.2666492,13.6478802,10.6248561,15.3834373,11.5096033,14.5806570,10.7648690,5.3407430,7.7535042,7.1942866,9.8867927,12.7413156,10.8127809,8.1726772,8.3965665) .. ฉันต้องการตรวจสอบการแจกแจงความน่าจะเป็นที่เหมาะสมที่สุด (แกมม่า, เบตา, ปกติ, เลขชี้กำลัง, ปัวซอง, ไค - สแควร์, ฯลฯ ) ด้วยการประมาณค่าพารามิเตอร์ ฉันได้รับทราบถึงคำถามในลิงก์ต่อไปนี้ซึ่งมีวิธีแก้ไขปัญหาโดยใช้ R: /programming/2661402/given-a-set-of-random-numbers-drawn-from-a- Continuous-univariate-distribution-f ทางออกที่ดีที่สุดที่เสนอคือ: > library(MASS) > fitdistr(x, 't')$loglik #$ > fitdistr(x, 'normal')$loglik #$ > fitdistr(x, 'logistic')$loglik #$ > fitdistr(x, 'weibull')$loglik #$ > fitdistr(x, 'gamma')$loglik #$ > fitdistr(x, 'lognormal')$loglik #$ > fitdistr(x, …

1
การสลายตัวของการแจกแจงแบบปกติ
มีการแจกแจงเชิงบวกอย่างเดียวหรือไม่ว่าความแตกต่างของตัวอย่างอิสระสองรายการจากการแจกแจงนี้กระจายตามปกติหรือไม่? ถ้าเป็นเช่นนั้นจะมีรูปแบบที่เรียบง่ายหรือไม่?

1
การประมาณการแจกแจงจากข้อมูล
ฉันมีตัวอย่างของข้อมูลที่สร้างขึ้นRโดยrnorm(50,0,1)ดังนั้นข้อมูลที่เห็นได้ชัดก็คือการแจกแจงแบบปกติ อย่างไรก็ตามRไม่ "รู้" ข้อมูลการแจกจ่ายนี้เกี่ยวกับข้อมูล มีวิธีการRที่สามารถประมาณการกระจายตัวอย่างของฉันมาจากไหน? ถ้าไม่ฉันจะใช้shapiro.testฟังก์ชั่นและดำเนินการต่อ
12 r  distributions 

3
การกระจายตัวของควอดเรนจ์ k-dimension บวกกับเมทริกซ์ความแปรปรวนร่วม parametrizable คืออะไร?
ต่อไปนี้zzk 's คำถามในการแก้ปัญหาของเขาด้วยการจำลองเชิงลบผมสงสัยว่าสิ่งที่เป็นครอบครัว parametrized ของการกระจายในด้าน k มิติบวกซึ่งแปรปรวนเมทริกซ์สามารถตั้งค่า ΣRk+R+k\mathbb{R}_+^kΣΣ\Sigma ตามที่หารือกับzzkเริ่มต้นจากการกระจายในและใช้การแปลงเชิงเส้นไม่ทำงาน X⟶ Σ 1 / 2 (X-μ)+μRk+R+k\mathbb{R}_+^kX⟶Σ1/2(X−μ)+μX⟶Σ1/2(X−μ)+μX \longrightarrow\Sigma^{1/2} (X-\mu) + \mu


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.