คำถามติดแท็ก confidence-interval

ช่วงความมั่นใจคือช่วงเวลาที่ครอบคลุมพารามิเตอร์ที่ไม่รู้จักด้วยความมั่นใจ ช่วงความเชื่อมั่นเป็นแนวคิดที่ใช้บ่อย พวกเขามักจะสับสนกับช่วงเวลาที่น่าเชื่อถือซึ่งเป็นแบบอะนาล็อกเบย์ (1α)%

1
ggplot คำนวณช่วงความเชื่อมั่นสำหรับการถดถอยอย่างไร
แพ็คเกจการลงจุด R ggplot2 มีฟังก์ชั่นที่ยอดเยี่ยมที่เรียกว่าstat_smoothสำหรับการลงจุดเส้นถดถอย (หรือเส้นโค้ง) ด้วยแถบความเชื่อมั่นที่เกี่ยวข้อง อย่างไรก็ตามฉันมีเวลายากที่จะหาว่าแถบความเชื่อมั่นนี้จะถูกสร้างขึ้นได้อย่างไรในทุกครั้งที่มีการถดถอย (หรือ "วิธี") ฉันจะหาข้อมูลนี้ได้อย่างไร

3
ความสับสนเกี่ยวกับเวลาที่จะใช้
ผมหมายถึงการบรรยายวิดีโอนี้สำหรับการคำนวณช่วงความเชื่อมั่น อย่างไรก็ตามฉันมีความสับสน เจ้านี่ใช้ -statistics สำหรับการคำนวณ แต่ผมคิดว่ามันควรจะได้รับเสื้อ -statistics เราไม่ได้รับค่าเบี่ยงเบนมาตรฐานที่แท้จริงของประชากร เราใช้ค่าเบี่ยงเบนมาตรฐานตัวอย่างเพื่อประมาณค่าจริงzzzttt แล้วทำไมเขาถึงกระจายตัวแบบปกติสำหรับช่วงความมั่นใจแทนที่จะเป็น ?ttt

4
ช่วงความเชื่อมั่นสำหรับพารามิเตอร์การถดถอย: Bayesian vs. Classical
จากสองอาร์เรย์ x และ y ความยาวทั้งสอง n ฉันพอดีกับโมเดล y = a + b * x และต้องการคำนวณช่วงความมั่นใจ 95% สำหรับความชัน นี่คือ (b - delta, b + delta) ซึ่ง b ถูกพบในวิธีปกติและ delta = qt(0.975,df=n-2)*se.slope และ se.slope เป็นข้อผิดพลาดมาตรฐานในความชัน วิธีการหนึ่งที่จะได้รับข้อผิดพลาดมาตรฐานของความลาดชันจาก R summary(lm(y~x))$coef[2,2]คือ ทีนี้สมมติว่าฉันเขียนความน่าจะเป็นของความชันที่ให้ x กับ y คูณนี่ด้วย "แบน" ก่อนแล้วใช้เทคนิค MCMC เพื่อวาดตัวอย่างmจากการกระจายหลัง กำหนด lims = quantile(m,c(0.025,0.975)) คำถามของฉัน: …

2
จะรับช่วงความมั่นใจสำหรับเปอร์เซ็นไทล์ได้อย่างไร
ฉันมีค่าข้อมูลดิบจำนวนมากที่เป็นจำนวนเงินดอลลาร์และฉันต้องการค้นหาช่วงความมั่นใจสำหรับเปอร์เซ็นต์ไทล์ของข้อมูลนั้น มีสูตรสำหรับช่วงความมั่นใจเช่นนี้หรือไม่?

3
เมื่อใดช่วงความเชื่อมั่น“ สมเหตุสมผล” แต่ช่วงเวลาที่น่าเชื่อถือนั้นไม่สอดคล้องกัน?
มันมักจะเป็นกรณีที่ช่วงความเชื่อมั่นที่มีความคุ้มครอง 95% จะคล้ายกันมากกับช่วงเวลาที่น่าเชื่อถือที่มี 95% ของความหนาแน่นหลัง สิ่งนี้เกิดขึ้นเมื่อชุดก่อนหน้านั้นเหมือนกันหรือใกล้เคียงในกรณีหลัง ดังนั้นช่วงความมั่นใจมักจะถูกใช้เพื่อประมาณช่วงเวลาที่น่าเชื่อถือและในทางกลับกัน ที่สำคัญเราสามารถสรุปได้ว่าสิ่งนี้เป็นการตีความที่ผิดพลาดอย่างมากของช่วงความเชื่อมั่นเนื่องจากช่วงเวลาที่น่าเชื่อถือนั้นมีความสำคัญเพียงเล็กน้อยถึงไม่มีประโยชน์เลยสำหรับกรณีการใช้งานที่ง่าย มีตัวอย่างจำนวนมากที่มีกรณีที่สิ่งนี้ไม่ได้เกิดขึ้นอย่างไรก็ตามพวกเขาทั้งหมดดูเหมือนจะถูกเชอร์รี่โดยผู้สนับสนุนของ Bayesian stats ในความพยายามที่จะพิสูจน์ว่ามีบางอย่างผิดปกติกับวิธีการที่ใช้บ่อย ในตัวอย่างเหล่านี้เราจะเห็นช่วงความมั่นใจมีค่าที่เป็นไปไม่ได้ ฯลฯ ซึ่งควรจะแสดงว่าไร้สาระ ฉันไม่ต้องการกลับไปดูตัวอย่างเหล่านั้นหรือการอภิปรายเชิงปรัชญาของ Bayesian vs Frequentist ฉันแค่กำลังมองหาตัวอย่างของสิ่งที่ตรงกันข้าม มีกรณีใดบ้างที่ความมั่นใจและช่วงเวลาที่เชื่อถือได้แตกต่างกันอย่างมีนัยสำคัญและช่วงเวลาที่กำหนดโดยขั้นตอนความเชื่อมั่นนั้นเหนือกว่าอย่างชัดเจนหรือไม่ ในการชี้แจง: นี่เป็นเรื่องเกี่ยวกับสถานการณ์ที่คาดว่าช่วงเวลาที่น่าเชื่อถือจะตรงกับช่วงความเชื่อมั่นที่สอดคล้องกันเช่นเมื่อใช้แบบแฟลตเครื่องแบบและนักบวช ฯลฯ ฉันไม่สนใจในกรณีที่มีคนเลือกที่ไม่ดีโดยพลการมาก่อน แก้ไข: เพื่อตอบสนองต่อคำตอบของ @JaeHyeok Shin ด้านล่างฉันต้องไม่เห็นด้วยว่าตัวอย่างของเขาใช้โอกาสที่ถูกต้อง ฉันใช้การคำนวณแบบเบย์โดยประมาณเพื่อประเมินการกระจายหลังที่ถูกต้องสำหรับทีต้าด้านล่างใน R: ### Methods ### # Packages require(HDInterval) # Define the likelihood like <- function(k = 1.2, theta = 0, …

5
ขนาดของเอฟเฟกต์ดีกว่าค่า p จริง ๆ หรือไม่
การเน้นจำนวนมากนั้นขึ้นอยู่กับการพึ่งพาและการรายงานขนาดผลกระทบมากกว่าค่า pในการวิจัยประยุกต์ แต่ไม่ใช่ในกรณีที่ขนาดของเอฟเฟกต์เหมือนกับค่าpเป็นตัวแปรสุ่มและเช่นนั้นอาจแตกต่างกันไปตามตัวอย่างเมื่อทำการทดลองเดียวกันซ้ำ ฉันกำลังถามว่าคุณลักษณะทางสถิติใด (เช่นขนาดของเอฟเฟกต์เป็นตัวแปรน้อยกว่าจากตัวอย่างไปยังตัวอย่างกว่าค่า p) ทำให้ขนาดของเอฟเฟกต์ดีกว่าดัชนีการวัดที่เป็นหลักฐานได้ดีกว่าค่า p อย่างไรก็ตามฉันควรพูดถึงข้อเท็จจริงสำคัญที่แยก p-value ออกจากขนาดเอฟเฟกต์ นั่นคือขนาดของเอฟเฟกต์เป็นสิ่งที่ต้องประมาณเนื่องจากมีพารามิเตอร์ประชากร แต่ค่าp จะไม่มีค่าใด ๆ ที่จะถูกประเมินเนื่องจากมันไม่มีพารามิเตอร์ประชากร สำหรับฉันขนาดของเอฟเฟกต์เป็นเพียงตัวชี้วัดที่ในบางพื้นที่ของการวิจัย (เช่นการวิจัยของมนุษย์) ช่วยเปลี่ยนการค้นพบเชิงประจักษ์ที่มาจากเครื่องมือการวัดที่นักวิจัยพัฒนาขึ้นมาเป็นเครื่องมือวัดทั่วไป ชมรมวิจัยเชิงปริมาณ. บางทีถ้าเราใช้สัดส่วนที่เรียบง่ายเป็นขนาดเอฟเฟกต์สิ่งต่อไปนี้ (ใน R) คืออะไรที่แสดงให้เห็นถึงขนาดที่ใหญ่ที่สุดของเอฟเฟกต์มากกว่าค่า p (การเปลี่ยนแปลงค่า p แต่ขนาดผลไม่ได้) binom.test(55, 100, .5) ## p-value = 0.3682 ## proportion of success 55% binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of …

2
การอนุมานเชิงสถิติภายใต้การสะกดผิด
การรักษาแบบดั้งเดิมของการอนุมานทางสถิติอาศัยสมมติฐานที่ว่ามีการใช้สถิติที่ระบุอย่างถูกต้อง นั่นคือการกระจายP∗(Y)P∗(Y)\mathbb{P}^*(Y)ที่สร้างข้อมูลที่สังเกตได้เป็นส่วนหนึ่งของแบบจำลองทางสถิติ : อย่างไรก็ตามในสถานการณ์ส่วนใหญ่เราไม่สามารถสรุปได้ว่านี่เป็นเรื่องจริง ฉันสงสัยว่าจะเกิดอะไรขึ้นกับขั้นตอนการอนุมานเชิงสถิติหากเราทิ้งสมมติฐานที่ระบุไว้อย่างถูกต้องyyyMM\mathcal{M}P∗(Y)∈M={Pθ(Y):θ∈Θ}P∗(Y)∈M={Pθ(Y):θ∈Θ}\mathbb{P}^*(Y) \in \mathcal{M}=\{\mathbb{P}_\theta(Y) :\theta \in \Theta\} ฉันได้พบงานบางอย่างของWhite 1982ในการประมาณ ML ภายใต้การสะกดผิด มันเป็นที่ถกเถียงกันอยู่ว่ามีความเป็นไปได้มากที่สุดคือการประเมินที่สอดคล้องกันสำหรับการแจกแจง ที่ช่วยลด KL-แตกต่างจากการกระจายทั้งหมดภายในแบบจำลองทางสถิติและการจัดจำหน่ายจริง\ mathbb {P} ^ *Pθ1=argminPθ∈MKL(P∗,Pθ)Pθ1=arg⁡minPθ∈MKL(P∗,Pθ)\mathbb{P}_{\theta_1}=\arg \min_{\mathbb{P}_\theta \in \mathcal{M}} KL(\mathbb{P}^*,\mathbb{P}_\theta)P∗P∗\mathbb{P}^* เกิดอะไรขึ้นกับตัวประมาณค่าความเชื่อมั่น ให้สรุปความเชื่อมั่นชุดประเมิน Let δ:ΩY→2Θδ:ΩY→2Θ\delta:\Omega_Y \rightarrow 2^\Thetaเป็นประมาณการที่ตั้งไว้ที่ΩYΩY\Omega_Yเป็นพื้นที่ตัวอย่างและ2Θ2Θ2^\Thetaชุดไฟมากกว่าพื้นที่พารามิเตอร์\ΘΘ\Thetaสิ่งที่เราอยากรู้คือความน่าจะเป็นของเหตุการณ์ที่ชุดที่สร้างโดยδδ\deltaรวมการแจกแจงที่แท้จริงP∗P∗\mathbb{P}^*นั่นคือP∗(P∗∈{Pθ:θ∈δ(Y)}):=A.P∗(P∗∈{Pθ:θ∈δ(Y)}):=A.\mathbb{P}^*(\mathbb{P}^* \in \{P_\theta : \theta \in \delta(Y)\}):=A. อย่างไรก็ตามเราแน่นอนไม่ทราบความจริงการกระจาย * สมมติฐานที่กำหนดไว้อย่างถูกต้องบอกเราว่า{M} อย่างไรก็ตามเรายังไม่ทราบว่าเป็นรุ่นใด แต่เป็นผูกพันที่ต่ำกว่าสำหรับความน่าจะเป็น Equationคือการ จำกัด คลาสสิกของระดับความเชื่อมั่นสำหรับตัวประมาณค่าชุดความเชื่อมั่นP∗P∗\mathbb{P}^*P∗∈MP∗∈M\mathbb{P}^* \in \mathcal{M}infθ∈ΘPθ(θ∈δ(Y)):=Binfθ∈ΘPθ(θ∈δ(Y)):=B\inf_{\theta \in \Theta} \mathbb{P}_\theta(\theta …

4
ช่วงความเชื่อมั่นเมื่อขนาดตัวอย่างใหญ่มาก
คำถามของฉันสามารถใช้ถ้อยคำใหม่เป็น "วิธีการประเมินข้อผิดพลาดการสุ่มตัวอย่างโดยใช้ข้อมูลขนาดใหญ่" โดยเฉพาะอย่างยิ่งสำหรับสิ่งพิมพ์วารสาร นี่คือตัวอย่างที่แสดงให้เห็นถึงความท้าทาย จากชุดข้อมูลที่มีขนาดใหญ่มาก (ผู้ป่วยที่ไม่ซ้ำกันมากกว่า 100,000 รายและยาที่กำหนดจากโรงพยาบาล 100 แห่ง) ฉันสนใจที่จะประเมินสัดส่วนของผู้ป่วยที่ทานยาโดยเฉพาะ มันตรงไปตรงมาเพื่อให้ได้สัดส่วนนี้ ช่วงความเชื่อมั่นของมัน (เช่นพารามิเตอร์หรือ bootstrap) แน่น / แคบอย่างไม่น่าเชื่อเพราะ n มีขนาดใหญ่มาก ในขณะที่โชคดีที่มีตัวอย่างขนาดใหญ่ฉันยังคงค้นหาวิธีการประเมินนำเสนอและ / หรือแสดงภาพความน่าจะเป็นข้อผิดพลาดบางรูปแบบ ในขณะที่ดูเหมือนว่าไม่ช่วยเหลือ (ถ้าไม่ทำให้เข้าใจผิด) เพื่อใส่ / แสดงช่วงความเชื่อมั่น (เช่น 95% CI: .65878 - .65881) แต่ก็ดูเหมือนว่าเป็นไปไม่ได้ที่จะหลีกเลี่ยงบางข้อความเกี่ยวกับความไม่แน่นอน โปรดแจ้งให้เราทราบว่าคุณคิดอย่างไร ฉันจะขอบคุณวรรณกรรมใด ๆ ในหัวข้อนี้ วิธีในการหลีกเลี่ยงความมั่นใจในข้อมูลแม้จะมีกลุ่มตัวอย่างขนาดใหญ่

1
แถบความเชื่อมั่นสำหรับสาย QQ
คำถามนี้ไม่เกี่ยวข้องโดยเฉพาะRแต่ฉันเลือกที่จะใช้Rเพื่ออธิบาย พิจารณารหัสสำหรับการสร้างวงความเชื่อมั่นรอบ a (ปกติ) qq-line: library(car) library(MASS) b0<-lm(deaths~.,data=road) qqPlot(b0$resid,pch=16,line="robust") ฉันกำลังมองหาคำอธิบายของ (หรือทางเลือกลิงก์ไปยังเอกสาร / เอกสารออนไลน์อธิบาย) วิธีสร้างวงความมั่นใจเหล่านี้ (ฉันได้เห็นการอ้างอิงถึง Fox 2002 ในไฟล์ช่วยเหลือของ R แต่น่าเสียดายที่ฉันไม่มีสิ่งนี้ หนังสือมีประโยชน์) คำถามของฉันจะทำให้ชัดเจนยิ่งขึ้นด้วยตัวอย่าง นี่คือวิธีRคำนวณ CI ของเหล่านี้ (ฉันย่อ / ย่อรหัสที่ใช้car::qqPlot) x<-b0$resid good<-!is.na(x) ord<-order(x[good]) ord.x<-x[good][ord] n<-length(ord.x) P<-ppoints(n) z<-qnorm(P) plot(z,ord.x,type="n") coef<-coef(rlm(ord.x~z)) a<-coef[1] b<-coef[2] abline(a,b,col="red",lwd=2) conf<-0.95 zz<-qnorm(1-(1-conf)/2) SE<-(b/dnorm(z))*sqrt(P*(1-P)/n) #[WHY?] fit.value<-a+b*z upper<-fit.value+zz*SE lower<-fit.value-zz*SE lines(z,upper,lty=2,lwd=2,col="red") lines(z,lower,lty=2,lwd=2,col="red") คำถามคืออะไรคือเหตุผลสำหรับสูตรที่ใช้ในการคำนวณ …

4
จากมุมมองความน่าจะเป็นแบบเบย์ทำไมช่วงเวลาความมั่นใจ 95% จึงไม่มีพารามิเตอร์จริงที่มีความน่าจะเป็น 95%
จากหน้า Wikipedia เกี่ยวกับช่วงความมั่นใจ : ... หากช่วงความมั่นใจถูกสร้างขึ้นในการวิเคราะห์ข้อมูลที่แยกกันหลายครั้งของการทดลองซ้ำ (และอาจแตกต่างกัน) การทดลองสัดส่วนของช่วงเวลาดังกล่าวที่มีค่าจริงของพารามิเตอร์จะตรงกับระดับความเชื่อมั่น ... และจากหน้าเดียวกัน: ช่วงความเชื่อมั่นไม่ได้คาดการณ์ว่ามูลค่าที่แท้จริงของพารามิเตอร์มีความน่าจะเป็นโดยเฉพาะอย่างยิ่งที่จะอยู่ในช่วงความเชื่อมั่นที่ได้รับข้อมูลจริง ถ้าฉันเข้าใจถูกต้องประโยคสุดท้ายนี้ทำขึ้นโดยการตีความความน่าจะเป็นบ่อยๆในใจ อย่างไรก็ตามจากมุมมองความน่าจะเป็นแบบเบย์ทำไมช่วงเวลาความมั่นใจ 95% จึงไม่มีพารามิเตอร์จริงที่มีความน่าจะเป็น 95% และถ้าไม่เช่นนั้นจะเกิดอะไรขึ้นกับการให้เหตุผลต่อไปนี้? หากฉันมีกระบวนการที่ฉันรู้ว่าสร้างคำตอบที่ถูกต้อง 95% ของเวลาความน่าจะเป็นของคำตอบถัดไปที่ถูกต้องคือ 0.95 (เนื่องจากฉันไม่มีข้อมูลเพิ่มเติมเกี่ยวกับกระบวนการ) ในทำนองเดียวกันถ้ามีคนแสดงช่วงความมั่นใจที่สร้างขึ้นโดยกระบวนการที่จะมีพารามิเตอร์จริง 95% ของเวลาฉันไม่ควรพูดว่ามันมีพารามิเตอร์จริงที่มีความน่าจะเป็น 0.95 ตามที่ฉันรู้ คำถามนี้คล้ายกับ แต่ไม่เหมือนกับทำไม 95% CI จึงไม่ได้หมายความถึงโอกาส 95% ที่มีค่าเฉลี่ย คำตอบสำหรับคำถามนั้นมุ่งเน้นไปที่สาเหตุที่ 95% CI ไม่ได้บอกถึงโอกาส 95% ในการเก็บค่าเฉลี่ยจากมุมมองของผู้ใช้บ่อย คำถามของฉันเหมือนกัน แต่จากมุมมองความน่าจะเป็นแบบเบย์

3
ช่วงความมั่นใจสำหรับรุ่น GAM
mgcv::gamหน้าความช่วยเหลือของReading : ความมั่นใจ / ช่วงเวลาที่น่าเชื่อถือนั้นพร้อมใช้งานสำหรับปริมาณใด ๆ ที่คาดการณ์ไว้โดยใช้แบบจำลองที่ติดตั้งไว้ อย่างไรก็ตามฉันไม่สามารถหาวิธีที่จะได้รับจริง ฉันคิดว่าpredict.gamจะมีtype=confidenceและlevelพารามิเตอร์ แต่ไม่ได้ คุณช่วยฉันเกี่ยวกับวิธีการสร้างมันได้หรือไม่

1
วิธีการคำนวณข้อผิดพลาดการคาดการณ์ (ช่วงความมั่นใจ) สำหรับช่วงเวลาต่อเนื่อง?
ฉันมักจะต้องคาดการณ์ระยะเวลาในอนาคตในชุดข้อมูลรายเดือน สูตรพร้อมที่จะคำนวณช่วงความเชื่อมั่นที่อัลฟาสำหรับช่วงเวลาต่อไปในอนุกรมเวลา แต่สิ่งนี้ไม่รวมถึงวิธีการปฏิบัติในช่วงที่สองและที่สามเป็นต้น ฉันมองเห็นด้วยสายตาว่าหากการคาดการณ์ใด ๆ ถูกสร้างกราฟด้วยช่วงความเชื่อมั่นสูงและต่ำโดยทั่วไปช่วงเวลาเหล่านั้นควรเพิ่มขึ้นหรือลดลงเมื่อเทียบกับการคาดคะเนเฉลี่ยเนื่องจากความไม่แน่นอนคือแรงสะสม สมมติว่าฉันมียอดขายต่อหน่วยของเมษายน = 10 พฤษภาคม = 8 มิถุนายน = 11 กรกฎาคม = 13 และไม่มีบริบทอื่น ๆ เช่นข้อมูลตามฤดูกาลหรือข้อมูลประชากร เราจำเป็นต้องคาดการณ์ (แม้ว่าจะเป็นคนตาบอด) สิงหาคม, กันยายน, ตุลาคม คุณจะใช้วิธีใด และที่สำคัญที่นี่คุณจะวัดความเชื่อมั่นในเดือนกันยายนและตุลาคมได้อย่างไร ขออภัยที่อาจเป็นคำถามง่าย ๆ สำหรับผู้เชี่ยวชาญบางคน - ฉันขุดมาไกลเพื่อหาคำตอบที่ชัดเจนและฉันแน่ใจว่านี่เป็นสิ่งที่มือสมัครเล่นทุกคนอย่างที่ฉันชอบที่จะเข้าใจ

2
ช่วงความเชื่อมั่นรอบค่าที่ทำนายจากโมเดลเอฟเฟกต์ผสมหมายถึงอะไร
ฉันกำลังดูหน้านี้และสังเกตเห็นวิธีการสำหรับช่วงความเชื่อมั่นสำหรับ lme และ lmer ใน R สำหรับผู้ที่ไม่ทราบว่า R เป็นฟังก์ชั่นสำหรับสร้างเอฟเฟกต์ผสมหรือโมเดลหลายระดับ หากฉันมีผลกระทบคงที่ในบางสิ่งบางอย่างเช่นการวัดซ้ำออกแบบช่วงเวลาความมั่นใจรอบค่าที่ทำนาย (คล้ายกับค่าเฉลี่ย) หมายถึงอะไร ฉันสามารถเข้าใจได้ว่าสำหรับเอฟเฟกต์คุณสามารถมีช่วงความเชื่อมั่นที่สมเหตุสมผล แต่สำหรับฉันแล้วช่วงความเชื่อมั่นของค่าเฉลี่ยที่คาดการณ์ไว้ในแบบนี้ดูเหมือนจะเป็นไปไม่ได้ มันอาจมีขนาดใหญ่มากที่จะยอมรับความจริงที่ว่าตัวแปรสุ่มมีส่วนทำให้เกิดความไม่แน่นอนในการประมาณค่า แต่ในกรณีนี้มันจะไม่เป็นประโยชน์เลยในแง่ที่เปรียบเทียบระหว่างค่าต่างๆ หรือ, ฉันขาดอะไรบางอย่างที่นี่หรือการวิเคราะห์สถานการณ์ของฉันถูกต้องหรือไม่ ... [และอาจเป็นเหตุผลว่าทำไมมันไม่ถูกนำไปใช้ใน lmer (แต่ง่ายที่จะได้รับใน SAS) :)]

1
ช่วงการทำนายสำหรับตัวแปรสุ่มแบบทวินาม
สูตร (โดยประมาณหรือแน่นอน) สำหรับช่วงเวลาการทำนายสำหรับตัวแปรสุ่มแบบทวินามคืออะไร สมมติว่าและเราสังเกตว่า (ดึงมาจาก ) เป็นที่รู้จักกันY∼Binom(n,p)Y∼Binom(n,p)Y \sim \mathsf{Binom}(n, p)yyyYYYnnn เป้าหมายของเราคือการได้รับช่วงเวลาที่การคาดการณ์ 95% สำหรับการวาดใหม่จากYYYY ประมาณการจุดคือที่{n} ช่วงความมั่นใจสำหรับนั้นตรงไปตรงมา แต่ฉันไม่สามารถหาสูตรสำหรับช่วงการทำนายสำหรับได้ ถ้าเรารู้ (แทนที่จะเป็น ) ช่วงเวลาการทำนาย 95% นั้นเกี่ยวข้องกับการหาควอนไทล์ของทวินาม มีบางสิ่งที่ชัดเจนที่ฉันมองเห็นหรือไม่?พี = Ynp^np^n\hat{p}P Yพีพีp^=ynp^=yn\hat{p}=\frac{y}{n}p^p^\hat{p}YYYpppp^p^\hat{p}

4
ทำนายช่วงเวลาสำหรับอัลกอริทึมการเรียนรู้ของเครื่อง
ฉันต้องการทราบว่ากระบวนการที่อธิบายด้านล่างนี้ถูกต้อง / ยอมรับได้และมีเหตุผลใด ๆ แนวคิด: อัลกอริธึมการเรียนรู้ภายใต้การดูแลไม่ถือว่าโครงสร้างหรือการแจกแจงเกี่ยวกับข้อมูล ในตอนท้ายของวันที่พวกเขาออกประมาณการจุด ฉันหวังว่าจะให้ปริมาณความไม่แน่นอนของการประมาณการอย่างใด ตอนนี้กระบวนการสร้างแบบจำลอง ML นั้นเป็นการสุ่มโดยเนื้อแท้ (เช่นในการสุ่มตัวอย่างสำหรับการตรวจสอบข้ามสำหรับการปรับค่าพารามิเตอร์และการสุ่มใน Stochastic GBM) ดังนั้นท่อส่งแบบจำลองจะให้ผลลัพธ์ที่แตกต่างกันสำหรับตัวทำนายเดียวกันกับเมล็ดแต่ละอัน ความคิดที่ไร้เดียงสาของฉันคือการเรียกใช้กระบวนการนี้ซ้ำแล้วซ้ำอีกเพื่อหาการกระจายของการทำนายและฉันหวังว่าฉันจะสามารถทำให้แถลงการณ์เกี่ยวกับความไม่แน่นอนของการทำนายได้ หากเป็นเรื่องสำคัญชุดข้อมูลที่ฉันทำงานด้วยจะเล็กมาก (ประมาณ 200 แถว) มันสมเหตุสมผลหรือไม่ เพื่อความกระจ่างแจ้งฉันไม่ได้ทำการบูตข้อมูลด้วยวิธีดั้งเดิม (เช่นฉันไม่ได้สุ่มตัวอย่างข้อมูลใหม่) ชุดข้อมูลเดียวกันถูกใช้ในการวนซ้ำทุกครั้งฉันแค่ใช้การสุ่มใน xval และ stochastic GBM

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.