คำถามติดแท็ก distributions

การแจกแจงเป็นการอธิบายทางคณิตศาสตร์ของความน่าจะเป็นหรือความถี่

4
การวัดความเหมือนหรือระยะห่างระหว่างเมทริกซ์ความแปรปรวนร่วมสองตัว
มีการวัดความคล้ายคลึงกันหรือระยะห่างระหว่างเมทริกซ์ความแปรปรวนร่วมแบบสมมาตรสองแบบหรือไม่ (ทั้งสองมีขนาดเท่ากัน)? ฉันกำลังคิดว่านี่ของ analogues กับ KL divergence ของการแจกแจงความน่าจะเป็นสองอันหรือระยะทางแบบยุคลิดระหว่างเวกเตอร์ยกเว้นการใช้กับเมทริกซ์ ฉันคิดว่าจะมีการวัดความคล้ายคลึงกันค่อนข้างน้อย เป็นการดีที่ฉันต้องการทดสอบสมมติฐานว่างว่าเมทริกซ์ความแปรปรวนร่วมสองตัวนั้นเหมือนกัน

7
วิธีสร้างตัวเลขตามการแจกแจงแบบไม่ต่อเนื่องโดยอำเภอใจ?
ฉันจะสร้างตัวเลขตามการแจกแจงแบบไม่ต่อเนื่องตามอำเภอใจได้อย่างไร? ตัวอย่างเช่นฉันมีชุดตัวเลขที่ฉันต้องการสร้าง สมมติว่าพวกเขามีป้ายกำกับตั้งแต่ 1-3 ดังนี้ 1: 4%, 2: 50%, 3: 46% โดยทั่วไปร้อยละเป็นความน่าจะเป็นที่พวกเขาจะปรากฏในผลลัพธ์จากการสร้างตัวเลขสุ่ม ฉันมีตัวสร้างตัวเลขแบบสุ่มที่จะสร้างการกระจายแบบสม่ำเสมอในช่วงเวลา [0, 1] มีวิธีการทำเช่นนี้หรือไม่? ไม่มีขอบเขตเกี่ยวกับองค์ประกอบที่ฉันมีได้ แต่% จะรวมกันได้มากถึง 100%

3
มีฟังก์ชั่นเริ่มต้นสำหรับการกระจายแบบไม่ต่อเนื่องใน R หรือไม่?
การแจกแจงมาตรฐานส่วนใหญ่ใน R มีตระกูลคำสั่ง - pdf / pmf, cdf / cmf, quantile, deviates แบบสุ่ม (ตัวอย่างเช่น dnorm, pnorm, qnorm, rnorm) ฉันรู้ว่ามันง่ายพอที่จะใช้ประโยชน์จากคำสั่งมาตรฐานในการทำซ้ำฟังก์ชั่นเหล่านี้สำหรับการแจกแจงแบบไม่ต่อเนื่องกัน แต่มีฟังก์ชั่นตระกูลในตัวที่ต้องการสำหรับการสร้างแบบจำลองการกระจายชุดแบบไม่ต่อเนื่องใน R

6
ในแง่ของคนธรรมดาอะไรคือความแตกต่างระหว่างแบบจำลองและการแจกแจง?
คำตอบ (คำจำกัดความ) ที่กำหนดไว้ใน Wikipedia นั้นค่อนข้างเป็นความลับเล็กน้อยสำหรับผู้ที่ไม่คุ้นเคยกับคณิตศาสตร์ / สถิติที่สูงขึ้น ในแง่คณิตศาสตร์แบบจำลองทางสถิติมักจะคิดว่าเป็นคู่ ( ) โดยที่คือชุดของการสังเกตที่เป็นไปได้เช่นพื้นที่ตัวอย่างและคือชุดของการแจกแจงความน่าจะเป็น ในSS,PS,PS, \mathcal{P}SSSPP\mathcal{P}SSS ในความน่าจะเป็นและสถิติการกระจายความน่าจะเป็นจะกำหนดความน่าจะเป็นให้แต่ละชุดย่อยที่วัดได้ของผลลัพธ์ที่เป็นไปได้ของการทดลองแบบสุ่มการสำรวจหรือขั้นตอนของการอนุมานทางสถิติ พบตัวอย่างที่มีพื้นที่ตัวอย่างไม่ใช่ตัวเลขซึ่งการแจกแจงจะเป็นการแจกแจงเชิงหมวดหมู่ ฉันเป็นนักเรียนมัธยมปลายที่สนใจงานด้านนี้มากเป็นงานอดิเรกและกำลังดิ้นรนกับความแตกต่างระหว่างสิ่งที่เป็นstatistical modelและprobability distribution ความเข้าใจที่เป็นอยู่ในปัจจุบันและพื้นฐานมากของฉันคือ: ตัวแบบเชิงสถิติคือความพยายามทางคณิตศาสตร์เพื่อประมาณการกระจายตัวที่วัด การแจกแจงความน่าจะเป็นคำอธิบายที่วัดได้จากการทดสอบที่กำหนดความน่าจะเป็นให้กับผลลัพธ์ที่เป็นไปได้ของเหตุการณ์สุ่ม ความสับสนจะเพิ่มขึ้นอีกโดยแนวโน้มในวรรณคดีเพื่อดูคำว่า "การกระจาย" และ "แบบจำลอง" ใช้แทนกันได้ - หรืออย่างน้อยในสถานการณ์ที่คล้ายกันมาก (เช่นการแจกแจงทวินามเทียบกับแบบจำลองทวินาม) ใครบางคนสามารถยืนยัน / แก้ไขคำจำกัดความของฉันและอาจเสนอวิธีการที่เป็นทางการมากขึ้น

2
เหตุใด RSS จึงกระจายไคสแควร์ถึง np
ฉันต้องการที่จะเข้าใจว่าทำไมภายใต้รูปแบบ OLS ที่ RSS (ผลรวมที่เหลือของสี่เหลี่ยม) มีการกระจาย ( Pเป็นจำนวนของพารามิเตอร์ในรูปแบบที่nจำนวนสังเกต)χ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn ฉันขอโทษที่ถามคำถามพื้นฐาน แต่ดูเหมือนว่าฉันจะไม่สามารถหาคำตอบออนไลน์ได้ (หรือในตำราเรียนที่เน้นการประยุกต์ใช้มากขึ้น)

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
อัลฟาในการแจกแจงดิริชเลตคืออะไร?
ฉันค่อนข้างใหม่กับสถิติแบบเบย์และฉันได้พบกับการวัดความสัมพันธ์ที่ถูกต้องคือSparCCที่ใช้กระบวนการ Dirichlet ในส่วนหลังของอัลกอริทึม ฉันได้ลองใช้อัลกอริทึมทีละขั้นตอนเพื่อเข้าใจสิ่งที่เกิดขึ้นจริง ๆ แต่ฉันไม่แน่ใจว่าสิ่งที่alphaพารามิเตอร์เวกเตอร์ในการแจกแจง Dirichlet และวิธีการปกติalphaเวกเตอร์พารามิเตอร์? การดำเนินการอยู่ในPythonการใช้NumPy: https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html เอกสารบอกว่า: alpha: array พารามิเตอร์ของการแจกแจง (k มิติสำหรับตัวอย่างของมิติ k) คำถามของฉัน: การalphasกระจายมีผลกระทบอย่างไร?; การเป็นalphasปกติได้อย่างไร?; และ จะเกิดอะไรขึ้นเมื่อalphasไม่ใช่จำนวนเต็ม? import numpy as np import pandas as pd import matplotlib.pyplot as plt # Reproducibility np.random.seed(0) # Integer values for alphas alphas = np.arange(10) # array([0, 1, 2, 3, …

7
การทดสอบสมมติฐานการกระจาย - มีจุดประสงค์อะไรถ้าคุณไม่สามารถ“ ยอมรับ” สมมติฐานว่างของคุณได้?
การทดสอบสมมติฐานต่าง ๆ เช่นการทดสอบ GOF, Kolmogorov-Smirnov, Anderson-Darling ฯลฯ ตามรูปแบบพื้นฐานนี้:χ2χ2\chi^{2} H0H0H_0 : ข้อมูลเป็นไปตามการแจกแจงที่กำหนด H1H1H_1 : ข้อมูลไม่เป็นไปตามการแจกแจงที่กำหนด โดยทั่วไปคนหนึ่งประเมินการอ้างสิทธิ์ว่าข้อมูลที่ให้มาบางส่วนมีการแจกแจงที่ให้มาบางส่วนและหากมีใครปฏิเสธข้อมูลนั้นไม่เหมาะสมสำหรับการแจกแจงที่กำหนดในระดับ αH0H0H_0αα\alpha แต่ถ้าเราไม่ปฏิเสธล่ะ ฉันได้รับเสมอสอนว่าหนึ่งไม่สามารถ "ยอมรับ"ดังนั้นโดยทั่วไปเราไม่ได้มีหลักฐานที่จะปฏิเสธH_0นั่นคือไม่มีหลักฐานว่าเราปฏิเสธว่าข้อมูลเป็นไปตามการกระจายที่กำหนดH 0 H 0H0H0H_0H0H0H_0H0H0H_0 ดังนั้นคำถามของฉันคืออะไรคือจุดของการทดสอบดังกล่าวถ้าเราไม่สามารถสรุปได้ว่าข้อมูลตามการกระจายที่กำหนดหรือไม่

5
คำอธิบายอย่างง่ายของการลู่เข้าในการกระจายและการลู่เข้าในความน่าจะเป็น
อะไรคือความแตกต่างระหว่างสัญชาตญาณแบบสุ่มที่มาบรรจบกันของความน่าจะเป็นกับความแปรปรวนแบบสุ่มในการแจกแจง ฉันได้อ่านคำจำกัดความและสมการทางคณิตศาสตร์มากมาย แต่นั่นไม่ได้ช่วยจริงๆ (โปรดทราบว่าฉันเป็นนักศึกษาระดับปริญญาตรีสาขาเศรษฐศาสตร์กำลังศึกษา) ตัวแปรสุ่มสามารถรวมกันเป็นตัวเลขเดียวได้อย่างไร แต่ยังมาบรรจบกับการแจกแจงได้อย่างไร

2
การแจกจ่าย
เมื่อวันก่อนฉันวิ่งผ่านความหนาแน่นนี้ มีใครบางคนตั้งชื่อนี้หรือไม่? ฉ( x ) = บันทึก( 1 + x- 2) / 2 πฉ(x)=เข้าสู่ระบบ⁡(1+x-2)/2πf(x) = \log(1 + x^{-2}) / 2\pi ความหนาแน่นไม่ จำกัด ที่จุดกำเนิดและมันยังมีหางที่เป็นไขมัน ฉันเห็นว่ามันใช้เป็นการกระจายก่อนหน้านี้ในบริบทที่คาดว่าการสังเกตจำนวนมากจะเล็กแม้ว่าค่าขนาดใหญ่ก็คาดหวังเช่นกัน

5
การถดถอยเชิงเส้นใช้การกระจายแบบปกติอย่างไร
ในการถดถอยเชิงเส้นแต่ละค่าที่ทำนายไว้จะถูกเลือกจากการแจกแจงปกติของค่าที่เป็นไปได้ ดูด้านล่าง แต่ทำไมค่าคาดการณ์แต่ละค่าที่สันนิษฐานว่ามาจากการแจกแจงแบบปกติ การถดถอยเชิงเส้นใช้สมมติฐานนี้อย่างไร เกิดอะไรขึ้นถ้าค่าที่เป็นไปได้ไม่ได้กระจายตามปกติ?

2
ช่วยฉันเข้าใจฟังก์ชัน quantile (inverse CDF)
ฉันกำลังอ่านเกี่ยวกับฟังก์ชั่นควอไทล์ แต่มันไม่ชัดเจนสำหรับฉัน คุณสามารถให้คำอธิบายที่เข้าใจง่ายกว่าคำอธิบายด้านล่างได้ไหม? เนื่องจาก cdfเป็นฟังก์ชันที่เพิ่มขึ้นแบบ monotonically จึงมีค่าผกผัน ให้เราแสดงถึงนี้โดย1} ถ้าเป็น cdf ของดังนั้นคือค่าของเช่นนั้น ; นี้เรียกว่า quantile ของFค่าคือค่ามัธยฐานของการแจกแจงโดยมีค่าความน่าจะเป็นครึ่งทางด้านซ้ายและครึ่งทางด้านขวา ค่า และเป็นควอไทล์ส่วนบนและล่างF - 1 F X F - 1 ( α ) x α P ( X ≤ x α ) = α α F F - 1 ( 0.5 ) F - 1 ( …

6
เทคนิคการสร้างภาพข้อมูลที่ดีในการเปรียบเทียบการกระจายคืออะไร
ฉันกำลังเขียนวิทยานิพนธ์ระดับปริญญาเอกของฉันและฉันก็รู้ว่าฉันอาศัยอยู่มากเกินไปในกล่องแปลงเพื่อเปรียบเทียบการแจกแจง คุณมีทางเลือกอื่นใดในการทำภารกิจนี้ให้สำเร็จ ฉันต้องการถามว่าคุณรู้จักแหล่งข้อมูลอื่น ๆ ในฐานะแกลเลอรี R หรือไม่ซึ่งฉันสามารถสร้างแรงบันดาลใจให้ตัวเองด้วยแนวคิดที่แตกต่างกันในการสร้างภาพข้อมูล

3
ทำไมการทดสอบ Kolmogorov-Smirnov ถึงใช้งานได้?
ในการอ่านเกี่ยวกับการทดสอบ KS 2 ตัวอย่างผมเข้าใจว่าสิ่งที่ทำแต่ผมไม่เข้าใจว่าทำไมมันทำงาน กล่าวอีกนัยหนึ่งฉันสามารถทำตามทุกขั้นตอนเพื่อคำนวณฟังก์ชันการกระจายเชิงประจักษ์ค้นหาความแตกต่างสูงสุดระหว่างทั้งสองเพื่อค้นหา D-statistic คำนวณค่าวิกฤตเปลี่ยนค่า D-statistic เป็น p-value เป็นต้น แต่ฉันไม่รู้ว่าทำไมสิ่งนี้จริง ๆ บอกอะไรฉันเกี่ยวกับการแจกแจงสองอย่าง บางคนอาจบอกฉันได้อย่างง่ายดายว่าฉันต้องกระโดดข้ามลาและนับว่ามันวิ่งเร็วแค่ไหนและถ้าความเร็วน้อยกว่า 2 กม. / ชม. ฉันก็ปฏิเสธสมมติฐานว่าง แน่ใจว่าฉันสามารถทำสิ่งที่คุณบอกให้ฉันทำ แต่สิ่งใดที่เกี่ยวข้องกับสมมติฐานว่าง? เหตุใดการทดสอบ KS 2 ตัวอย่างทำงาน การคำนวณความแตกต่างสูงสุดระหว่าง ECDF นั้นเกี่ยวข้องกับการแจกแจงสองแบบที่แตกต่างกันอย่างไร ความช่วยเหลือใด ๆ ที่ชื่นชม ฉันไม่ใช่นักสถิติดังนั้นให้สมมติว่าฉันเป็นคนงี่เง่าถ้าเป็นไปได้

3
Bayesians เปรียบเทียบการแจกแจงอย่างไร
ดังนั้นฉันคิดว่าฉันมีความเข้าใจที่ดีเกี่ยวกับพื้นฐานของความน่าจะเป็นที่พบบ่อยและการวิเคราะห์ทางสถิติ (และสามารถใช้งานได้ไม่ดี) ในโลกที่พบบ่อยมันสมเหตุสมผลที่จะถามคำถามเช่น "คือการกระจายนี้แตกต่างจากการแจกแจงนั้น" เนื่องจากการแจกแจงจะถือว่าเป็นจริงวัตถุประสงค์และไม่เปลี่ยนแปลง (สำหรับสถานการณ์ที่กำหนดอย่างน้อย) และเพื่อให้เราสามารถคิด ดูว่ามีโอกาสมากน้อยเพียงใดที่ตัวอย่างหนึ่งจะถูกดึงมาจากการแจกแจงที่มีรูปร่างเหมือนตัวอย่างอื่น ในมุมมองโลก Bayesian เราสนใจเฉพาะสิ่งที่เราคาดหวังที่จะเห็นได้รับประสบการณ์ที่ผ่านมาของฉัน (ฉันยังคงคลุมเครือเล็กน้อยในส่วนนี้ แต่ฉันเข้าใจแนวคิดของการปรับปรุง Bayesian) หากเป็นเช่นนั้น Bayesian จะพูดว่า "ชุดข้อมูลนี้แตกต่างจากชุดข้อมูลนั้นได้อย่างไร" สำหรับจุดประสงค์ของคำถามนี้ฉันไม่สนใจนัยสำคัญทางสถิติหรือวิธีการหาปริมาณที่แตกต่างกัน ฉันสนใจเท่าเทียมกันในการแจกแจงพารามิเตอร์และไม่ใช่พารามิเตอร์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.