คำถามติดแท็ก confidence-interval

ช่วงความมั่นใจคือช่วงเวลาที่ครอบคลุมพารามิเตอร์ที่ไม่รู้จักด้วยความมั่นใจ ช่วงความเชื่อมั่นเป็นแนวคิดที่ใช้บ่อย พวกเขามักจะสับสนกับช่วงเวลาที่น่าเชื่อถือซึ่งเป็นแบบอะนาล็อกเบย์ (1α)%

2
จะคำนวณช่วงความเชื่อมั่นของสัมประสิทธิ์การถดถอยใน PLS ได้อย่างไร?
แบบจำลองพื้นฐานของPLSคือ matrixและ vectorกำหนดสัมพันธ์กับ ที่คือเวลาแฝงเมทริกซ์และเป็นคำที่มีเสียงรบกวน (sssumingอยู่กึ่งกลาง)X n y X = T P ′ + E , y = T q ′ + f , T n × k E , f X , yn × mn×mn \times mXXXnnnYyyX=TP′+E,X=TP′+E,X = T P' + E, y=Tq′+f,y=Tq′+f,y = T q' + f,TTTn×kn×kn \times kE,fE,fE, …

2
การรับและตีความช่วงความเชื่อมั่นที่บูตสแตรปจากข้อมูลลำดับชั้น
ฉันสนใจที่จะรับช่วงความมั่นใจในการบูตที่มีปริมาณ X เมื่อปริมาณนี้วัดได้ 10 ครั้งในแต่ละ 10 คน วิธีหนึ่งคือการได้รับค่าเฉลี่ยต่อบุคคลจากนั้น bootstrap หมายถึง (เช่น resample วิธีที่มีการเปลี่ยน) อีกวิธีคือทำตามขั้นตอนต่อไปนี้ของขั้นตอน bootstrapping: ในแต่ละบุคคลให้ทดลองการสังเกตซ้ำของบุคคลที่ 10 ด้วยการแทนที่จากนั้นคำนวณค่าเฉลี่ยใหม่สำหรับบุคคลนั้นและคำนวณค่าเฉลี่ยกลุ่มใหม่ ในวิธีการนี้แต่ละบุคคลที่สังเกตเห็นในชุดข้อมูลดั้งเดิมจะมีส่วนร่วมกับค่าเฉลี่ยของกลุ่มในการวนซ้ำของโพรซีเดอร์บูตสแตรปทุกครั้ง ในที่สุดวิธีที่สามคือการรวมสองวิธีข้างต้น: resample บุคคลแล้ว resample ภายในบุคคลเหล่านั้น วิธีนี้แตกต่างจากวิธีการก่อนหน้านี้ที่อนุญาตให้บุคคลเดียวกันมีส่วนร่วมคูณกับค่าเฉลี่ยของกลุ่มในการทำซ้ำแต่ละครั้งเนื่องจากการบริจาคแต่ละครั้งถูกสร้างขึ้นผ่านขั้นตอนการสุ่มตัวอย่างอิสระการมีส่วนร่วมเหล่านี้อาจแตกต่างกันเล็กน้อย ในทางปฏิบัติฉันพบว่าวิธีการเหล่านี้ให้ผลการประมาณที่แตกต่างกันสำหรับช่วงความมั่นใจ (เช่นชุดข้อมูลหนึ่งฉันพบว่าวิธีที่สามให้ช่วงความเชื่อมั่นที่มากกว่าช่วงสองวิธีแรก) ดังนั้นฉันสงสัยว่าแต่ละสิ่งอาจเป็นอย่างไร ตีความเพื่อเป็นตัวแทน

1
วิธีการคำนวณช่วงความมั่นใจ 95% สำหรับสมการที่ไม่ใช่เชิงเส้น?
ฉันมีสมการในการทำนายน้ำหนักของ manatees จากอายุของพวกเขาในวัน (dias ในโปรตุเกส): R <- function(a, b, c, dias) c + a*(1 - exp(-b*dias)) ฉันสร้างแบบจำลองมันใน R โดยใช้ nls () และได้กราฟิกนี้: ตอนนี้ฉันต้องการคำนวณช่วงความมั่นใจ 95% และพล็อตมันในกราฟิก ฉันใช้ขีด จำกัด ล่างและสูงกว่าสำหรับแต่ละตัวแปร a, b และ c ดังนี้: lower a = a - 1.96*(standard error of a) higher a = a + 1.96*(standard error of …

3
การคำนวณ“ ความน่าจะเป็นของการครอบคลุมจริง” นั้นเหมือนกับการคำนวณ“ ช่วงเวลาที่น่าเชื่อถือ” หรือไม่
ฉันอ่านตำราสถิติระดับเริ่มต้น ในบทที่เกี่ยวกับการประมาณค่าความน่าจะเป็นสูงสุดของสัดส่วนความสำเร็จของข้อมูลที่มีการแจกแจงแบบทวินามมันเป็นสูตรสำหรับการคำนวณช่วงความเชื่อมั่น พิจารณาความน่าจะเป็นที่ครอบคลุมจริงของมันนั่นคือความน่าจะเป็นที่วิธีการสร้างช่วงเวลาที่จับค่าพารามิเตอร์ที่แท้จริง นี่อาจจะน้อยกว่าค่าเล็กน้อย และดำเนินต่อไปพร้อมกับข้อเสนอแนะในการสร้างทางเลือก "ช่วงความมั่นใจ" ซึ่งน่าจะมีความน่าจะเป็นที่ครอบคลุม ฉันเผชิญหน้ากับความคิดของความน่าจะเป็นที่ครอบคลุมและตามจริงเป็นครั้งแรก ทำทางของฉันผ่านคำถามเก่า ๆ ที่นี่ฉันคิดว่าฉันเข้าใจมัน: มีแนวคิดที่แตกต่างกันสองอย่างที่เราเรียกว่าความน่าจะเป็นสิ่งแรกที่เป็นไปได้ที่จะเป็นไปได้ว่าเหตุการณ์ที่ยังไม่เกิดขึ้นจะให้ผลลัพธ์ที่กำหนด เป็นไปได้อย่างไรที่ตัวแทนของผู้สังเกตการณ์คาดเดาผลของเหตุการณ์ที่เกิดขึ้นแล้วนั้นเป็นจริง ดูเหมือนว่าช่วงความเชื่อมั่นจะวัดความน่าจะเป็นประเภทแรกเท่านั้นและสิ่งที่เรียกว่า "ช่วงเวลาที่น่าเชื่อถือ" วัดความน่าจะเป็นประเภทที่สอง ฉันสรุปโดยสรุปว่าความมั่นใจเป็นช่วงเวลาที่คำนวณ "ความน่าจะเป็นความครอบคลุมเล็กน้อย" และช่วงเวลาที่น่าเชื่อถือคือช่วงเวลาที่ครอบคลุม "ความน่าจะเป็นความคุ้มครองตามจริง" แต่บางทีฉันอาจตีความหนังสือผิดไป (ไม่ชัดเจนเลยว่าวิธีการคำนวณที่แตกต่างกันนั้นมีให้สำหรับช่วงความมั่นใจและช่วงเวลาที่น่าเชื่อถือหรือช่วงความเชื่อมั่นสองประเภท) หรือแหล่งข้อมูลอื่นที่ฉันเคยมา ความเข้าใจปัจจุบันของฉัน โดยเฉพาะความคิดเห็นที่ฉันได้จากคำถามอื่น ช่วงความเชื่อมั่นสำหรับผู้ถี่ประจำเชื่อถือได้สำหรับ Bayesian ทำให้ฉันสงสัยในข้อสรุปของฉันเนื่องจากหนังสือเล่มนี้ไม่ได้อธิบายวิธีการแบบเบย์ในบทนั้น ดังนั้นโปรดอธิบายหากความเข้าใจของฉันถูกต้องหรือถ้าฉันทำผิดพลาดทางตรรกะ

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
การคำนวณช่วงเวลาการทำนายเมื่อใช้การตรวจสอบความถูกต้องข้าม
การประมาณค่าเบี่ยงเบนมาตรฐานคำนวณโดย: sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√.sN=1N∑i=1N(xi−x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) สำหรับการทำนายความถูกต้องตัวอย่างจากการตรวจสอบความถูกต้องไขว้ 10 เท่า ฉันกังวลว่าความแม่นยำในการทำนายที่คำนวณระหว่างแต่ละครั้งนั้นขึ้นอยู่กับชุดการฝึกอบรมที่ทับซ้อนกันอย่างมาก (แม้ว่าชุดการทำนายจะเป็นอิสระ) แหล่งข้อมูลใด ๆ ที่กล่าวถึงนี้จะเป็นประโยชน์อย่างมาก

2
หมายถึงข้อผิดพลาดมาตรฐาน 2.04? วิธีการที่แตกต่างกันอย่างมีนัยสำคัญเมื่อช่วงความเชื่อมั่นที่ทับซ้อนกันกันอย่างแพร่หลาย?
ภาพด้านล่างเป็นจากบทความนี้ในวิทยาศาสตร์ทางจิตวิทยา เพื่อนร่วมงานชี้ให้เห็นสิ่งผิดปกติสองอย่างเกี่ยวกับเรื่องนี้: ตามคำบรรยายภาพแถบข้อผิดพลาดแสดง "ข้อผิดพลาดมาตรฐาน± 2.04, ช่วงความมั่นใจ 95%" ฉันเคยเห็นเพียง± 1.96 SE ใช้สำหรับ 95% CI และฉันไม่พบอะไรเกี่ยวกับ 2.04 SE ที่ถูกใช้เพื่อวัตถุประสงค์ใด ๆ 2.04 SE มีความหมายที่ยอมรับบ้างไหม? ข้อความระบุว่าการเปรียบเทียบแบบคู่ตามแผนพบว่ามีความแตกต่างอย่างมีนัยสำคัญสำหรับขนาดเฉลี่ยเริ่มต้นในข้อผิดพลาดเทียบกับการทดลองที่คาดการณ์ได้ถูกต้อง (t (30) = 2.51, p <.01) และข้อผิดพลาดเทียบกับ <.01) (การทดสอบ F ของรถโดยสารก็มีนัยสำคัญเช่นกันที่ p <.05) อย่างไรก็ตามกราฟแสดงแถบข้อผิดพลาดสำหรับทั้งสามเงื่อนไขซ้อนกันอย่างมาก หากช่วงเวลา± 2.04 SE ทับกันค่าจะแตกต่างอย่างมีนัยสำคัญที่ p <.05 อย่างไร การทับซ้อนมีขนาดใหญ่พอที่ฉันสมมติว่าช่วงเวลา± 1.96 SE ยังทับซ้อนกัน

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
ช่วงความเชื่อมั่นสำหรับความแตกต่างของวิธีการในการถดถอย
สมมติว่าฉันมีรูปแบบการถดถอยแบบสมการกำลังสอง โดยมีข้อผิดพลาดเป็นไปตามสมมติฐานปกติ (อิสระปกติเป็นอิสระจากค่า ) ให้เป็นค่าประมาณกำลังสองน้อยที่สุดY=β0+β1X+β2X2+ϵY=β0+β1X+β2X2+ϵ Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \epsilon ϵϵ\epsilonXXXb0,b1,b2b0,b1,b2b_0, b_1, b_2 ฉันมีค่าใหม่สองค่าและและฉันสนใจที่จะรับช่วงความมั่นใจสำหรับ2)XXXx1x1x_1x2x2x_2v=E(Y|X=x2)−E(Y|X=x1)=β1(x2−x1)+β2(x22−x21)v=E(Y|X=x2)−E(Y|X=x1)=β1(x2−x1)+β2(x22−x12)v = E(Y|X = x_2) - E(Y|X=x_1) = \beta_1 (x_2 - x_1) + \beta_2 (x_2^2 - x_1^2) การประมาณจุดคือและ (แก้ไขฉันถ้าฉันผิด) ฉันสามารถประมาณความแปรปรวนโดยโดยใช้การประมาณค่าความแปรปรวนและความแปรปรวนร่วมของค่าสัมประสิทธิ์ที่ได้รับจากซอฟต์แวร์v^=b1(x2−x1)+b2(x22−x21)v^=b1(x2−x1)+b2(x22−x12)\hat{v} = b_1 (x_2 - x_1) + b_2 (x_2^2 - x_1^2)s^2= (x2-x1)2วาร์(ข1) …

2
เราสามารถปฏิเสธสมมติฐานว่างที่มีช่วงความมั่นใจที่เกิดจากการสุ่มตัวอย่างมากกว่าสมมติฐานว่างได้หรือไม่?
ฉันได้รับการสอนว่าเราสามารถสร้างการประมาณค่าพารามิเตอร์ในรูปแบบของช่วงความมั่นใจหลังจากการสุ่มตัวอย่างจากประชากร ตัวอย่างเช่นช่วงความเชื่อมั่น 95% ที่ไม่มีการละเมิดสมมติฐานควรมีอัตราความสำเร็จ 95% ของการบรรจุสิ่งที่พารามิเตอร์จริงที่เราประเมินอยู่ในประชากร กล่าวคือ สร้างการประมาณจุดจากตัวอย่าง สร้างช่วงของค่าที่ในทางทฤษฎีมีโอกาส 95% ในการเก็บค่าจริงที่เราพยายามประเมิน อย่างไรก็ตามเมื่อหัวข้อได้เปลี่ยนเป็นการทดสอบสมมติฐานขั้นตอนต่าง ๆ ได้อธิบายไว้ดังต่อไปนี้: สมมติว่าพารามิเตอร์บางตัวเป็นสมมติฐานว่าง สร้างการแจกแจงความน่าจะเป็นของความน่าจะเป็นที่จะได้รับการประเมินจุดต่าง ๆ เนื่องจากสมมติฐานว่างนี้เป็นจริง ปฏิเสธสมมติฐานว่างถ้าจุดประเมินที่เราได้รับนั้นจะเกิดขึ้นน้อยกว่า 5% ของเวลาถ้าสมมุติฐานว่างเป็นจริง คำถามของฉันคือ: จำเป็นหรือไม่ที่จะต้องสร้างช่วงความเชื่อมั่นของเราโดยใช้สมมติฐานว่างเพื่อปฏิเสธค่าว่าง? ทำไมไม่เพียงแค่ทำขั้นตอนแรกและรับค่าประมาณของพารามิเตอร์จริง (ไม่ได้ใช้ค่าที่เราตั้งสมมติฐานไว้ในการคำนวณช่วงความเชื่อมั่น) แล้วปฏิเสธสมมติฐานว่างถ้ามันไม่ได้อยู่ในช่วงนี้? ดูเหมือนว่าจะมีเหตุผลเทียบเท่ากับฉันอย่างสังหรณ์ใจ แต่ฉันกลัวว่าฉันขาดอะไรบางอย่างที่เป็นพื้นฐานเพราะอาจมีเหตุผลที่สอนวิธีนี้

1
เหตุใดช่วงเวลาที่น่าเชื่อถือของเบย์ในการถดถอยพหุนามนี้จึงเอนเอียงในขณะที่ช่วงความเชื่อมั่นนั้นถูกต้อง
พิจารณาพล็อตด้านล่างที่ฉันจำลองข้อมูลดังนี้ เราดูผลลัพธ์แบบไบนารีซึ่งความน่าจะเป็นที่แท้จริงที่จะเป็น 1 ถูกระบุด้วยเส้นสีดำ ความสัมพันธ์การทำงานระหว่าง covariateและคือพหุนามลำดับที่ 3 ที่มีลิงค์โลจิสติก (ดังนั้นจึงไม่ใช่เชิงเส้นในสองทาง)Yo b sYโอขsy_{obs}xxxp (Yo b s= 1 | x )พี(Yโอขs=1|x)p(y_{obs}=1 | x) เส้นสีเขียวคือการถดถอยโลจิสติก GLM โดยที่ถูกนำมาใช้เป็นพหุนามลำดับที่ 3 เส้นสีเขียวประคือช่วงความมั่นใจ 95% รอบการคาดการณ์โดยที่สัมประสิทธิ์การถดถอยที่พอดี ฉันใช้และสำหรับสิ่งนี้xxxp (Yo b s= 1 | x ,β^)พี(Yโอขs=1|x,β^)p(y_{obs}=1 | x, \hat{\beta})β^β^\hat{\beta}R glmpredict.glm บรรทัด pruple เป็นค่าเฉลี่ยของช่วงหลังที่น่าเชื่อถือ 95% สำหรับของแบบจำลองการถดถอยโลจิสติกแบบเบย์โดยใช้เครื่องแบบก่อนหน้า ฉันใช้แพคเกจพร้อมฟังก์ชั่นสำหรับสิ่งนี้ (การตั้งค่าให้ความรู้เบื้องต้นที่ไม่เหมือนกันมาก่อน)p (Yo b s= 1 …

2
หากฉันต้องการมีโอกาส 95% ที่วัตถุน้อยกว่า 1% ผิดฉันต้องมีตัวอย่างจำนวนเท่าใด
ฉันต้องแน่ใจว่าแผนผังเว็บไซต์ XML ของฉันมีขยะน้อยกว่า (ลิงก์เสีย) รายการ URL นั้นอยู่ในหลักแสนและแม้ว่าจะเป็นไปได้ที่จะทดสอบพวกเขาทั้งหมด 1 ต่อ 1 ฉันไม่ต้องการด้วยเหตุผลหลายประการ:1 %1%1\% 1 - Saved bandwidth 2 - Faster traffic for real clients 3 - Less noise in visitor statistics (because my test would count as a visit) 5 - I could go on... ดังนั้นฉันคิดว่าการสุ่มเซตย่อยเพียงพอแล้วปัญหาคือฉันไม่รู้ความน่าจะเป็น มีฟังก์ชั่นง่าย ๆ ที่ฉันสามารถใช้ได้หรือไม่? หากช่วยได้เราสามารถสมมติให้มีข้อมูลเบื้องต้นเกี่ยวกับความน่าจะเป็นของลิงก์ที่จะใช้งานไม่ได้ สมมติว่าข้ามการรันจะมีค่าสำหรับการเชื่อมโยงที่กำหนดใด …

1
ช่วงการคาดการณ์สำหรับสัดส่วนความสำเร็จในอนาคตภายใต้การตั้งค่าแบบทวินาม
สมมติว่าฉันพอดีกับการถดถอยแบบทวินามและได้รับการประเมินจุดและเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมของสัมประสิทธิ์การถดถอย นั่นจะทำให้ฉันได้ CI สำหรับสัดส่วนที่คาดหวังของความสำเร็จในการทดลองในอนาคต, , แต่ฉันต้องการ CI สำหรับสัดส่วนที่สังเกตได้ มีคำตอบที่เกี่ยวข้องสองสามข้อที่โพสต์รวมถึงการจำลอง (สมมติว่าฉันไม่ต้องการทำเช่นนั้น) และลิงก์ไปยัง Krishnamoorthya et al (ซึ่งไม่ค่อยตอบคำถามของฉัน)ppp เหตุผลของฉันมีดังนี้: ถ้าเราใช้แค่แบบจำลอง Binomial เราถูกบังคับให้สมมติว่าถูกสุ่มตัวอย่างจากการแจกแจงแบบปกติ (ด้วย Wald CI ที่สอดคล้องกัน) และดังนั้นจึงเป็นไปไม่ได้ที่จะได้รับ CI สำหรับสัดส่วนที่สังเกตได้ในรูปแบบปิด หากเราสมมติว่าถูกสุ่มตัวอย่างจากการแจกแจงแบบเบต้าแล้วสิ่งต่างๆนั้นง่ายกว่ามากเนื่องจากการนับความสำเร็จจะเป็นไปตามการกระจายแบบเบต้า - ทวินาม เราก็จะต้องคิดว่ามีความไม่แน่นอนในพารามิเตอร์เบต้าประมาณไม่มีและ\ppppppαα\alphaββ\beta มีสามคำถาม: 1) ทฤษฎีหนึ่ง: คุณสามารถใช้การประมาณค่าพารามิเตอร์เบต้าหรือไม่ ฉันรู้ว่าการสร้าง CI สำหรับการสังเกตในอนาคตในการถดถอยเชิงเส้นหลาย Y=x′β+ϵ,ϵ∼N(0,σ2)Y=x′β+ϵ,ϵ∼N(0,σ2)Y = x'\beta + \epsilon, \epsilon \sim N(0, \sigma^2) พวกเขาทำอย่างนั้นแปรปรวนระยะผิดพลาด WRT, …

2
จะคำนวณช่วงความมั่นใจของการสกัดกั้น x ในการถดถอยเชิงเส้นได้อย่างไร?
เนื่องจากข้อผิดพลาดมาตรฐานของการถดถอยเชิงเส้นมักจะได้รับสำหรับตัวแปรตอบสนองฉันสงสัยว่าจะได้รับช่วงความมั่นใจในทิศทางอื่นได้อย่างไร - เช่นการสกัดกั้น x ฉันสามารถเห็นภาพว่ามันอาจจะเป็นอะไร แต่ฉันแน่ใจว่าต้องมีวิธีที่ตรงไปตรงมาในการทำเช่นนี้ ด้านล่างเป็นตัวอย่างใน R ของวิธีการเห็นภาพนี้: set.seed(1) x <- 1:10 a <- 20 b <- -2 y <- a + b*x + rnorm(length(x), mean=0, sd=1) fit <- lm(y ~ x) XINT <- -coef(fit)[1]/coef(fit)[2] plot(y ~ x, xlim=c(0, XINT*1.1), ylim=c(-2,max(y))) abline(h=0, lty=2, col=8); abline(fit, col=2) points(XINT, 0, col=4, …

1
ค่าสถิติเชิงลำดับของการแจกแจงแบบเทลด์หนัก
พื้นหลัง: ฉันมีตัวอย่างที่ฉันต้องการสร้างแบบจำลองที่มีการกระจายแบบเทลด์อย่างหนัก ฉันมีค่ามากเช่นการแพร่กระจายของการสังเกตมีขนาดค่อนข้างใหญ่ ความคิดของฉันคือทำแบบนี้ด้วยการแจกแจงแบบพาเรโตทั่วไปและฉันก็ทำไปแล้ว ตอนนี้ quantile 0.975 ของข้อมูลเชิงประจักษ์ของฉัน (ประมาณ 100 datapoints) ต่ำกว่า 0.975 quantile ของการแจกแจง Generalized Pareto ที่ฉันพอดีกับข้อมูลของฉัน ตอนนี้ฉันคิดว่ามีวิธีตรวจสอบว่าความแตกต่างนี้เป็นสิ่งที่ต้องกังวลหรือไม่ เรารู้ว่าการแจกแจงเชิงเส้นกำกับของควอนไทล์จะได้รับเป็น: ดังนั้นฉันจึงคิดว่ามันเป็นความคิดที่ดีที่จะสร้างความบันเทิงด้วยความอยากรู้อยากเห็นของฉันโดยพยายามพล็อตแถบความเชื่อมั่น 95% รอบ ๆ 0.975 ควอไทล์ของการแจกแจงแบบพาเรโตทั่วไปด้วยพารามิเตอร์เดียวกับที่ฉันได้รับ อย่างที่คุณเห็นเรากำลังทำงานกับค่าที่สุดยอดบางอย่างที่นี่ และเนื่องจากการแพร่กระจายมีขนาดใหญ่มากฟังก์ชั่นความหนาแน่นมีค่าน้อยมากทำให้วงความเชื่อมั่นไปที่คำสั่งของโดยใช้ความแปรปรวนของสูตรเชิงบรรทัดฐานเชิงเส้นกำกับด้านบน:±1012±1012\pm 10^{12} ± 1.960.975 ∗ 0.025n (ฉจีพีD(Q0.975))2±1.960.975* * * *0.025n(ฉGPD(Q0.975))2\pm 1.96\frac{0.975*0.025}{n({f_{GPD}(q_{0.975})})^2} ดังนั้นนี่ไม่สมเหตุสมผลเลย ฉันมีการแจกจ่ายที่มีผลลัพธ์เชิงบวกเท่านั้นและช่วงความมั่นใจรวมถึงค่าลบ มีบางอย่างเกิดขึ้นที่นี่ ถ้าผมคำนวณวงรอบ 0.5 quantile, วงดนตรีที่จะไม่ว่าขนาดใหญ่ แต่ยังคงขนาดใหญ่ ผมดำเนินการต่อเพื่อดูวิธีการนี้ไปกับการกระจายอีกคือกระจาย จำลองการสังเกตจากการแจกแจงและตรวจสอบว่า quantiles อยู่ในช่วงความเชื่อมั่นหรือไม่ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.