สถิติและข้อมูลขนาดใหญ่ variance

3

ความแปรปรวนของการประเมินการตรวจสอบความถูกต้องข้าม

TL, DR:ดูเหมือนว่าตรงกันข้ามกับคำแนะนำซ้ำ ๆ การตรวจสอบความถูกต้องแบบข้ามครั้งเดียว (LOO-CV) - นั่นคือKKK -fold CV กับKKK (จำนวนเท่า) เท่ากับยังไม่มีข้อความยังไม่มีข้อความN (จำนวนเท่า)ของการสังเกตการฝึกอบรม) - ให้ค่าประมาณของข้อผิดพลาดในการวางนัยทั่วไปซึ่งเป็นตัวแปรที่น้อยที่สุดสำหรับใด ๆKKKไม่ใช่ตัวแปรมากที่สุดโดยสมมติว่ามีความมั่นคงในรูปแบบ / อัลกอริทึมชุดข้อมูลหรือทั้งสองอย่าง ถูกต้องเนื่องจากฉันไม่เข้าใจเงื่อนไขความมั่นคงนี้จริงๆ) บางคนสามารถอธิบายได้อย่างชัดเจนว่าเงื่อนไขความมั่นคงนี้คืออะไร? มันเป็นความจริงหรือไม่ที่การถดถอยเชิงเส้นเป็นหนึ่งในอัลกอริทึม "เสถียร" ซึ่งหมายความว่าในบริบทนั้น LOO-CV เป็นทางเลือกที่ดีที่สุดของ CV อย่างเคร่งครัดเท่าที่ความลำเอียงและความแปรปรวนของความคลาดเคลื่อนของการประมาณ ภูมิปัญญาดั้งเดิมคือทางเลือกของKKKในKKK -fold CV ตามการแลกเปลี่ยนความแปรปรวนแบบอคติเช่นค่าที่ต่ำกว่าของKKK (ใกล้ถึง 2) นำไปสู่การประมาณการข้อผิดพลาดของการวางนัยทั่วไปที่มีอคติในแง่ร้ายมากขึ้น ของKKK (ใกล้ยังไม่มีข้อความยังไม่มีข้อความN ) นำไปสู่การประมาณการที่มีอคติน้อยกว่า แต่มีความแปรปรวนมากขึ้น คำอธิบายทั่วไปสำหรับปรากฏการณ์ของความแปรปรวนที่เพิ่มขึ้นด้วยKKKอาจได้รับความเด่นชัดที่สุดในองค์ประกอบของการเรียนรู้ทางสถิติ (หัวข้อ 7.10.1): ด้วย K = N ตัวประมาณค่าการตรวจสอบความถูกต้องไขว้กันนั้นมีความเป็นกลางโดยประมาณสำหรับข้อผิดพลาดการคาดการณ์ที่แท้จริง (คาดว่า) แต่อาจมีความแปรปรวนสูงเนื่องจาก N …

37 regression machine-learning variance cross-validation predictive-models

3

ความแปรปรวนของค่าสัมประสิทธิ์การถดถอยในการถดถอยเชิงเส้นอย่างง่าย

ในการถดถอยเชิงเส้นอย่างง่ายเรามีที่2) ฉันได้รับตัวประมาณ: ที่และเป็นวิธีการที่เป็นตัวอย่างของและy ที่y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy ตอนนี้ผมต้องการที่จะหาแปรปรวนของ\ฉันได้รับสิ่งต่อไปนี้: β^1β^1\hat\beta_1Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 .Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 . \text{Var}(\hat{\beta_1}) = \frac{\sigma^2(1 - \frac{1}{n})}{\sum_i (x_i - \bar{x})^2}\ . รากศัพท์มีดังต่อไปนี้: Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E⎡⎣⎢⎢⎢⎢⎢⎢⎛⎝⎜⎜⎜⎜⎜∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]=0⎞⎠⎟⎟⎟⎟⎟2⎤⎦⎥⎥⎥⎥⎥⎥=1(∑i(xi−x¯)2)2E⎡⎣(∑i(xi−x¯)(ui−∑jujn))2⎤⎦=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] , since ui 's are iid=1(∑i(xi−x¯)2)2∑i(xi−x¯)2E(ui−∑jujn)2=1(∑i(xi−x¯)2)2∑i(xi−x¯)2⎛⎝E(u2i)−2×E(ui×(∑jujn))+E(∑jujn)2⎞⎠=1(∑i(xi−x¯)2)2∑i(xi−x¯)2(σ2−2nσ2+σ2n)=σ2∑i(xi−x¯)2(1−1n)Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E[(∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]⏟=0)2]=1(∑i(xi−x¯)2)2E[(∑i(xi−x¯)(ui−∑jujn))2]=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] …

37 regression mathematical-statistics variance linear-model regression-coefficients

6

ทำไมตัวหารของตัวประมาณความแปรปรวนร่วมไม่ควรเป็น n-2 แทนที่จะเป็น n-1

ตัวหารของตัวประมาณค่าความแปรปรวน (ไม่เอนเอียง) คือเนื่องจากมีการสังเกตและมีการประมาณเพียงหนึ่งพารามิเตอร์เท่านั้นn−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} ในทำนองเดียวกันฉันสงสัยว่าทำไมตัวหารความแปรปรวนร่วมไม่ควรเป็นเมื่อมีการประมาณสองพารามิเตอร์?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

36 self-study variance covariance descriptive-statistics unbiased-estimator

4

การแจกแจงจะมีค่าเฉลี่ยและความแปรปรวนไม่สิ้นสุดได้อย่างไร

มันจะได้รับการชื่นชมถ้าตัวอย่างต่อไปนี้จะได้รับ: การแจกแจงที่มีค่าเฉลี่ยไม่สิ้นสุดและความแปรปรวนแบบไม่สิ้นสุด การแจกแจงที่มีค่าเฉลี่ยไม่สิ้นสุดและความแปรปรวนแน่นอน การกระจายที่มีค่าเฉลี่ย จำกัด และความแปรปรวนอนันต์ การแจกแจงที่มีค่าเฉลี่ยและความแปรปรวนแน่นอน มันมาจากฉันเห็นคำศัพท์ที่ไม่คุ้นเคยเหล่านี้ (ค่าเฉลี่ยอนันต์, ความแปรปรวนอนันต์) ที่ใช้ในบทความที่ฉันอ่านอ่านและอ่านหัวข้อบนฟอรัม / เว็บไซต์ Wilmottและไม่พบคำอธิบายที่ชัดเจนเพียงพอ ฉันยังไม่พบคำอธิบายใด ๆ ในหนังสือเรียนของฉันเอง

35 distributions variance mean

5

ทำไมการเพิ่มขนาดตัวอย่างจึงทำให้ความแปรปรวน (การสุ่มตัวอย่าง) ต่ำลง?

ภาพใหญ่: ฉันพยายามที่จะเข้าใจว่าการเพิ่มขนาดตัวอย่างเพิ่มพลังของการทดสอบอย่างไร สไลด์อาจารย์ของฉันอธิบายสิ่งนี้ด้วยภาพของการแจกแจงปกติ 2 อันหนึ่งอันสำหรับสมมติฐานว่างและอีกอันสำหรับสมมุติฐานทางเลือกและเกณฑ์การตัดสินใจคระหว่างพวกเขา พวกเขายืนยันว่าการเพิ่มขนาดตัวอย่างจะลดความแปรปรวนและทำให้เกิดความรุนแรงสูงขึ้นลดพื้นที่ที่ใช้ร่วมกันภายใต้ส่วนโค้งและความน่าจะเป็นของข้อผิดพลาดประเภท II ภาพเล็ก: ฉันไม่เข้าใจว่าขนาดตัวอย่างที่ใหญ่กว่าจะลดความแปรปรวนได้อย่างไร ฉันสมมติว่าคุณคำนวณความแปรปรวนตัวอย่างและใช้มันเป็นพารามิเตอร์ในการแจกแจงแบบปกติ ฉันเหนื่อย: googlingแต่คำตอบที่ยอมรับมากที่สุดมี 0 upvotes หรือเป็นเพียงตัวอย่าง การคิด : ตามกฎของตัวเลขขนาดใหญ่ทุกค่าในที่สุดควรทำให้มีเสถียรภาพรอบค่าที่เป็นไปได้ตามการแจกแจงปกติที่เราสมมติ และความแปรปรวนจึงควรมาบรรจบกับความแปรปรวนของการกระจายตัวปกติที่เราสมมุติ แต่ความแปรปรวนของการแจกแจงแบบปกตินั้นคืออะไรและมันคือค่าต่ำสุดนั่นคือเราจะแน่ใจได้ว่าความแปรปรวนตัวอย่างของเราลดลงหรือไม่

35 variance sampling power

3

เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R

เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

4

(เพราะเหตุใด) โมเดลที่ติดตั้งมากเกินไปมักจะมีค่าสัมประสิทธิ์จำนวนมากหรือไม่

ฉันจินตนาการว่าสัมประสิทธิ์ของตัวแปรที่ใหญ่กว่าคือยิ่งความสามารถในการรุ่นนั้นต้อง "แกว่ง" ในมิตินั้นให้โอกาสเพิ่มขึ้นเพื่อให้พอดีกับเสียง แม้ว่าฉันคิดว่าฉันมีความรู้สึกที่สมเหตุสมผลของความสัมพันธ์ระหว่างความแปรปรวนในแบบจำลองและค่าสัมประสิทธิ์ขนาดใหญ่ แต่ฉันไม่มีความรู้สึกที่ดีเท่ากับว่าทำไมพวกเขาถึงเกิดขึ้นในแบบจำลองที่พอดี มันไม่ถูกต้องหรือไม่ที่จะบอกว่าพวกเขาเป็นอาการของการบรรจุเกินและการหดตัวของสัมประสิทธิ์เป็นเทคนิคที่ใช้ในการลดความแปรปรวนในแบบจำลองหรือไม่? การทำให้เป็นมาตรฐานผ่านการหดตัวของสัมประสิทธิ์ดูเหมือนว่าจะทำงานบนหลักการที่ว่าค่าสัมประสิทธิ์ขนาดใหญ่เป็นผลมาจากตัวแบบที่มีการ overfitted แต่บางทีฉันอาจตีความแรงจูงใจที่อยู่เบื้องหลังเทคนิค สัญชาตญาณของฉันที่ค่าสัมประสิทธิ์ขนาดใหญ่มักจะมีอาการของการสะสมมากเกินไปมาจากตัวอย่างต่อไปนี้: สมมติว่าเราต้องการให้พอดีกับจุดที่ทุกคนนั่งอยู่บนแกน x เราสามารถสร้างพหุนามที่มีการแก้ปัญหาเป็นจุดเหล่านี้:(x-x_n) สมมติว่าจุดที่เราอยู่ที่xเทคนิคนี้ให้ค่าสัมประสิทธิ์ทั้งหมด> = 10 (ยกเว้นหนึ่งค่าสัมประสิทธิ์) เมื่อเราเพิ่มคะแนนมากขึ้น (และเพิ่มระดับพหุนาม) ขนาดของสัมประสิทธิ์เหล่านี้จะเพิ่มขึ้นอย่างรวดเร็วF ( x ) = ( x - x 1 ) ( x - x 2 ) . . . ( x - x n - 1 ) ( x - …

33 regression variance linear-model bias regularization

4

ความแตกต่างระหว่างความแปรปรวน จำกัด และความแปรปรวนอนันต์คืออะไร

ความแตกต่างระหว่างผลต่างอันตะ จำกัด และความไม่สิ้นสุดคืออะไร? ความรู้สถิติของฉันค่อนข้างพื้นฐาน Wikipedia / Google ไม่ได้ช่วยอะไรมากที่นี่

33 variance intuition partial-moments

2

ความแปรปรวนของฟังก์ชันหนึ่งตัวแปรสุ่ม

ให้บอกว่าเรามีตัวแปรสุ่มมีความแปรปรวนและค่าเฉลี่ยที่รู้จัก คำถามคืออะไรความแปรปรวนของสำหรับบางฟังก์ชั่นที่กำหนด วิธีทั่วไปเท่านั้นที่ฉันรู้คือวิธีเดลต้า แต่ให้เพียงประมาณ ตอนนี้ฉันสนใจในแต่มันก็ดีที่จะรู้วิธีการทั่วไปบางอย่างXXXฉ( X)ฉ(X)f(X)ฉ( x ) = x--√ฉ(x)=xf(x)=\sqrt{x} แก้ไข 29.12.2010 ฉันได้ทำการคำนวณโดยใช้ซีรี่ส์ Taylor แต่ฉันไม่แน่ใจว่ามันถูกต้องหรือไม่ดังนั้นฉันจึงดีใจถ้ามีคนยืนยันได้ ก่อนอื่นเราต้องประมาณE[ f( X) ]E[ฉ(X)]E[f(X)] E[ f( X) ] ≈ E[ f( μ ) + f'( μ ) ( X- μ ) + 12⋅ f''( μ ) ( X- μ )2] = f(μ)+12⋅f′′(μ)⋅Var[X]E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f″(μ)(X−μ)2]=f(μ)+12⋅f″(μ)⋅Var[X]E[f(X)] \approx E[f(\mu)+f'(\mu)(X-\mu)+\frac{1}{2}\cdot f''(\mu)(X-\mu)^2]=f(\mu)+\frac{1}{2}\cdot …

33 variance random-variable delta-method

3

วิธีคำนวณความแปรปรวนแบบรวมรวมของกลุ่มตั้งแต่สองกลุ่มขึ้นไปที่ได้รับผลต่างกลุ่มที่รู้จักค่าเฉลี่ยและขนาดตัวอย่าง

สมมติว่ามีองค์ประกอบแบ่งออกเป็นสองกลุ่ม (และ ) ความแปรปรวนของกลุ่มแรกคือและความแปรปรวนของกลุ่มที่สองคือ\องค์ประกอบที่ตัวเองจะถือว่าเป็นที่ไม่รู้จัก แต่ฉันรู้ว่าหมายถึงและ\m+nม.+nm+nmม.mnnnσ2mσม.2\sigma_m^2σ2nσn2\sigma^2_nμmμม.\mu_mμnμn\mu_n มีวิธีคำนวณความแปรปรวนรวมหรือไม่σ2(m+n)σ(ม.+n)2\sigma^2_{(m+n)} ความแปรปรวนไม่ได้จะต้องมีความเป็นกลางเพื่อให้เป็นตัวหารและไม่ได้n-1)(m+n)(ม.+n)(m+n)(m+n−1)(ม.+n-1)(m+n-1)

32 variance pooling

1

ความแปรปรวนกับผลรวมของค่าที่คาดการณ์จากตัวแบบเอฟเฟกต์แบบผสมบนชุดเวลา

ฉันมีรูปแบบเอฟเฟกต์แบบผสม (อันที่จริงแล้วเป็นโมเดลผสมแบบผสมทั่วไป) ที่ให้การคาดการณ์สำหรับไทม์ ในการต่อต้านความสัมพันธ์อัตโนมัติฉันใช้โมเดล corCAR1 เนื่องจากข้อเท็จจริงที่ว่าฉันมีข้อมูลขาดหายไป ข้อมูลควรจะให้โหลดทั้งหมดแก่ฉันดังนั้นฉันต้องรวมช่วงเวลาการทำนายทั้งหมด แต่ฉันควรจะได้รับการประมาณข้อผิดพลาดมาตรฐานของการโหลดทั้งหมดด้วย หากการคาดคะเนทั้งหมดเป็นอิสระสิ่งนี้สามารถแก้ไขได้อย่างง่ายดายโดย: VR ( Σni = 1E[ Xผม] ) = ∑ni = 1VR ( E[ Xผม] )VaR(Σผม=1nE[Xผม])=Σผม=1nVaR(E[Xผม])Var(\sum^{n}_{i=1}E[X_i]) = \sum^{n}_{i=1}Var(E[X_i]) กับVR ( E[ Xผม] ) = SE( E[ Xผม] )2VaR(E[Xผม])=SE(E[Xผม])2Var(E[X_i]) = SE(E[X_i])^2 ปัญหาคือค่าที่คาดการณ์มาจากแบบจำลองและข้อมูลดั้งเดิมมีความสัมพันธ์อัตโนมัติ ปัญหาทั้งหมดนำไปสู่คำถามต่อไปนี้: ฉันถูกต้องในการสมมติว่า SE ในการทำนายที่คำนวณได้สามารถตีความได้ว่าเป็นรากของความแปรปรวนตามมูลค่าที่คาดหวังของการทำนายนั้นหรือไม่ ฉันมีแนวโน้มที่จะ interprete การทำนายเป็น "การคาดการณ์ความหมาย" และรวมชุดของวิธีการทั้งหมด ฉันจะรวมความสัมพันธ์อัตโนมัติในปัญหานี้ได้อย่างไรหรือฉันสามารถสรุปได้อย่างปลอดภัยว่าจะไม่มีผลต่อผลลัพธ์มากเกินไป นี่เป็นตัวอย่างใน …

32 mixed-model variance random-variable

2

ความแปรปรวนของผลผลิตของตัวแปรตาม

สูตรสำหรับความแปรปรวนของผลิตภัณฑ์ของตัวแปรตามคืออะไร ในกรณีของตัวแปรอิสระสูตรนั้นง่าย: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 แต่สูตรสำหรับตัวแปรที่เกี่ยวข้องคืออะไร โดยวิธีการฉันจะค้นหาความสัมพันธ์ตามข้อมูลทางสถิติได้อย่างไร

31 correlation variance

5

วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง

ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

6

ทดสอบความแปรปรวนแน่นอน?

เป็นไปได้หรือไม่ที่จะทดสอบความละเอียด (หรือการมีอยู่) ของความแปรปรวนของตัวแปรสุ่มที่ให้กับกลุ่มตัวอย่าง? ในฐานะที่เป็นโมฆะ {ความแปรปรวนที่มีอยู่และ จำกัด } หรือ {การแปรปรวนไม่มีอยู่ / ไม่มีที่สิ้นสุด} จะยอมรับได้ เชิงปรัชญา (และการคำนวณ) สิ่งนี้ดูแปลกมากเพราะไม่ควรมีความแตกต่างระหว่างประชากรที่ไม่มีความแปรปรวนอัน จำกัด และอีกอันที่มีความแปรปรวนขนาดใหญ่มาก (พูด> ) ดังนั้นฉันจึงไม่หวังว่าปัญหานี้ แก้ไข104001040010^{400} วิธีการหนึ่งที่แนะนำให้ฉันคือทฤษฎีบทขีด จำกัด กลาง: สมมติว่ากลุ่มตัวอย่างเป็น iid และประชากรมีค่าเฉลี่ยที่ จำกัด ใครสามารถตรวจสอบได้ว่าค่าเฉลี่ยตัวอย่างมีข้อผิดพลาดมาตรฐานที่เหมาะสมกับการเพิ่มขนาดตัวอย่างหรือไม่ ฉันไม่แน่ใจว่าฉันเชื่อว่าวิธีการนี้จะได้ผล (โดยเฉพาะฉันไม่เห็นวิธีที่จะทำให้เป็นการทดสอบที่เหมาะสม)

29 hypothesis-testing variance central-limit-theorem

4

เราวัดความไม่สม่ำเสมอของการแจกแจงได้อย่างไร

ฉันกำลังพยายามหาตัวชี้วัดสำหรับการวัดความไม่สม่ำเสมอของการแจกแจงสำหรับการทดลองที่ฉันใช้อยู่ ฉันมีตัวแปรสุ่มที่ควรกระจายอย่างสม่ำเสมอในกรณีส่วนใหญ่และฉันต้องการระบุตัวอย่างของชุดข้อมูลที่และตัวแปรไม่กระจายอย่างสม่ำเสมอภายในระยะขอบ ตัวอย่างของชุดข้อมูลสามชุดแต่ละชุดมีการวัด 10 ค่าซึ่งแสดงความถี่ของการเกิดสิ่งที่ฉันวัดได้อาจเป็นดังนี้: a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%] b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%] c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform d: [98% 97% 99% 98% 98% 96% 99% 96% …

28 distributions variance random-variable uniform

คำถามติดแท็ก variance