คำถามติดแท็ก confidence-interval

ช่วงความมั่นใจคือช่วงเวลาที่ครอบคลุมพารามิเตอร์ที่ไม่รู้จักด้วยความมั่นใจ ช่วงความเชื่อมั่นเป็นแนวคิดที่ใช้บ่อย พวกเขามักจะสับสนกับช่วงเวลาที่น่าเชื่อถือซึ่งเป็นแบบอะนาล็อกเบย์ (1α)%

3
ฉันจะคำนวณช่วงความมั่นใจสำหรับค่าเฉลี่ยของชุดข้อมูลบันทึกปกติได้อย่างไร
ฉันเคยได้ยิน / เห็นในหลาย ๆ สถานที่ที่คุณสามารถแปลงข้อมูลที่ตั้งเป็นสิ่งที่กระจายปกติโดยการลอการิทึมของแต่ละตัวอย่างคำนวณช่วงความมั่นใจสำหรับข้อมูลที่ถูกแปลงและแปลงช่วงความเชื่อมั่นกลับมาโดยใช้การดำเนินการแบบผกผัน (เช่นเพิ่ม 10 ถึงพลังของขอบเขตล่างและบนตามลำดับสำหรับ )log10log10\log_{10} อย่างไรก็ตามฉันสงสัยวิธีนี้เล็กน้อยเนื่องจากวิธีนี้ใช้ไม่ได้กับค่าเฉลี่ย:10mean(log10(X))≠mean(X)10mean⁡(log10⁡(X))≠mean⁡(X)10^{\operatorname{mean}(\log_{10}(X))} \ne \operatorname{mean}(X) วิธีที่ถูกต้องในการทำเช่นนี้คืออะไร? ถ้ามันไม่ทำงานสำหรับค่าเฉลี่ยตัวเองมันจะทำงานได้อย่างไรในช่วงความมั่นใจสำหรับค่าเฉลี่ย

3
ฉันจะคำนวณช่วงความมั่นใจของค่าเฉลี่ยในตัวอย่างที่ไม่ได้กระจายแบบทั่วไปได้อย่างไร
ฉันจะคำนวณช่วงความมั่นใจของค่าเฉลี่ยในตัวอย่างที่ไม่ได้กระจายแบบทั่วไปได้อย่างไร ฉันเข้าใจว่าวิธีการ bootstrap มักใช้ที่นี่ แต่ฉันเปิดให้ตัวเลือกอื่น ๆ ในขณะที่ฉันกำลังมองหาตัวเลือกที่ไม่ใช่พารามิเตอร์หากใครบางคนสามารถโน้มน้าวใจฉันได้ว่าการแก้ปัญหาแบบพารามิเตอร์นั้นใช้ได้อย่างถูกต้อง ขนาดตัวอย่างคือ> 400 ถ้าใครสามารถให้ตัวอย่างใน R มันจะได้รับการชื่นชมมาก

4
จะคำนวณช่วงความมั่นใจของค่าเฉลี่ยได้อย่างไร
ลองนึกภาพว่าคุณทำการทดสอบซ้ำสามครั้ง ในการทดสอบแต่ละครั้งคุณจะรวบรวมการวัดเพิ่มขึ้นสามเท่า triplicates มีแนวโน้มที่จะอยู่ใกล้กันอย่างเป็นธรรมเมื่อเทียบกับความแตกต่างระหว่างสามวิธีการทดลอง การคำนวณค่าเฉลี่ยที่ยิ่งใหญ่นั้นง่ายมาก แต่เราจะคำนวณช่วงความมั่นใจสำหรับค่าเฉลี่ยที่ยิ่งใหญ่ได้อย่างไร ข้อมูลตัวอย่าง: การทดลอง 1: 34, 41, 39 การทดลองที่ 2: 45, 51, 52 การทดลอง 3: 29, 31, 35 สมมติว่าค่าการทำซ้ำภายในการทดสอบเป็นไปตามการแจกแจงแบบเกาส์เช่นเดียวกับค่าเฉลี่ยของการทดสอบแต่ละครั้ง SD ของการเปลี่ยนแปลงภายในการทดสอบมีขนาดเล็กกว่า SD ในวิธีการทดลอง สมมติว่าไม่มีการเรียงลำดับของค่าสามค่าในการทดสอบแต่ละครั้ง คำสั่งจากซ้ายไปขวาของค่าทั้งสามในแต่ละแถวนั้นไม่มีข้อ จำกัด วิธีง่ายๆคือการคำนวณค่าเฉลี่ยของการทดสอบแต่ละครั้งก่อน: 38.0, 49.3 และ 31.7 จากนั้นคำนวณค่าเฉลี่ยและช่วงความมั่นใจ 95% ของค่าสามค่า การใช้วิธีนี้ค่าเฉลี่ยที่ยิ่งใหญ่คือ 39.7 โดยมีช่วงความมั่นใจ 95% ตั้งแต่ 17.4 ถึง 61.9 ปัญหาของวิธีการนี้คือมันไม่สนใจความแตกต่างระหว่าง triplicates ฉันสงสัยว่าจะไม่มีวิธีที่ดีในการอธิบายการเปลี่ยนแปลงนั้นหรือไม่

3
ความสัมพันธ์ระหว่างความน่าจะเป็นของโปรไฟล์และช่วงความมั่นใจคืออะไร
ในการทำให้แผนภูมินี้ฉันสร้างตัวอย่างสุ่มขนาดแตกต่างจากการแจกแจงแบบปกติด้วยค่าเฉลี่ย = 0 และ sd = 1 ช่วงเวลาความเชื่อมั่นถูกคำนวณโดยใช้การตัดอัลฟาตั้งแต่. 001 ถึง. 999 (เส้นสีแดง) ด้วยฟังก์ชั่น t.test () ความน่าจะเป็นของโปรไฟล์ถูกคำนวณโดยใช้รหัสด้านล่างซึ่งฉันพบในบันทึกการบรรยายที่ใส่ไว้ในบรรทัด ไม่พบลิงค์ในขณะนี้แก้ไข: พบเลย ) นี่จะแสดงเป็นเส้นสีฟ้า เส้นสีเขียวแสดงความหนาแน่นปกติโดยใช้ฟังก์ชั่นความหนาแน่น R () และข้อมูลจะแสดงโดยกล่องสี่เหลี่ยมที่ด้านล่างของแต่ละแผนภูมิ ด้านขวาเป็นโครงเรื่องของช่วงความเชื่อมั่น 95% (สีแดง) และ 1/20 ของช่วงเวลาความน่าจะเป็นสูงสุด (สีน้ำเงิน) รหัส R ที่ใช้สำหรับความเป็นไปได้ของโปรไฟล์: #mn=mean(dat) muVals <- seq(low,high, length = 1000) likVals <- sapply(muVals, function(mu){ (sum((dat - mu)^2) / sum((dat …

5
ทำไมเราไม่ใช้การแจกแจงแบบ t เพื่อสร้างช่วงความมั่นใจสำหรับสัดส่วน?
ในการคำนวณช่วงความเชื่อมั่น (CI) สำหรับค่าเฉลี่ยด้วยค่าเบี่ยงเบนมาตรฐานประชากรที่ไม่รู้จัก (sd) เราประมาณค่าเบี่ยงเบนมาตรฐานประชากรโดยใช้การแจกแจงแบบ t ยวดที่n} แต่เนื่องจากเราไม่ได้ประมาณค่าเบี่ยงเบนมาตรฐานของประชากรเราประเมินผ่านการประมาณโดยที่CI=X¯±Z95%σX¯CI=X¯±Z95%σX¯CI=\bar{X} \pm Z_{95\% }\sigma_{\bar X}σX¯=σn√σX¯=σn\sigma_{\bar X} = \frac{\sigma}{\sqrt n}CI=X¯±t95%(se)CI=X¯±t95%(se)CI=\bar{X} \pm t_{95\% }(se)se=sn√se=snse = \frac{s}{\sqrt n} ในทางตรงกันข้ามสำหรับสัดส่วนประชากรเพื่อคำนวณ CI เราประมาณว่าโดยที่ให้และCI=p^±Z95%(se)CI=p^±Z95%(se)CI = \hat{p} \pm Z_{95\% }(se)se=p^(1−p^)n−−−−−√se=p^(1−p^)nse = \sqrt\frac{\hat{p}(1-\hat{p})}{n}np^≥15np^≥15n \hat{p} \ge 15n(1−p^)≥15n(1−p^)≥15n(1-\hat{p}) \ge 15 คำถามของฉันคือทำไมเราพึงพอใจกับการกระจายมาตรฐานสำหรับสัดส่วนประชากร?

1
ช่วงเวลาความมั่นใจสำหรับสัมประสิทธิ์การถดถอยเชิงเส้นควรเป็นไปตามการแจกแจงแบบปกติหรือ
ลองมีโมเดลเชิงเส้นตัวอย่างเช่น ANOVA ง่ายๆ: # data generation set.seed(1.234) Ng <- c(41, 37, 42) data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1) fact <- as.factor(rep(LETTERS[1:3], Ng)) m1 = lm(data ~ 0 + fact) summary(m1) ผลลัพธ์มีดังนี้: Call: lm(formula = data ~ 0 + fact) Residuals: Min 1Q Median 3Q …

4
ช่วงความมั่นใจแคบลง - มีความแม่นยำมากขึ้นหรือไม่
ฉันมีคำถามสองข้อเกี่ยวกับช่วงความมั่นใจ: เห็นได้ชัดว่าช่วงความมั่นใจแคบหมายความว่ามีโอกาสน้อยที่จะได้รับการสังเกตภายในช่วงเวลานั้นดังนั้นความแม่นยำของเราจึงสูงกว่า นอกจากนี้ช่วงความมั่นใจ 95% นั้นแคบกว่าช่วงความมั่นใจ 99% ซึ่งกว้างกว่า ช่วงความมั่นใจ 99% นั้นแม่นยำกว่า 95% ใครช่วยอธิบายง่ายๆที่จะช่วยให้ฉันเข้าใจความแตกต่างระหว่างความถูกต้องและความแคบนี้

3
ทำไมไม่ใช้การแจกแจงแบบ T เพื่อประมาณค่าเฉลี่ยเมื่อกลุ่มตัวอย่างมีขนาดใหญ่
หลักสูตรสถิติพื้นฐานมักแนะนำให้ใช้การแจกแจงแบบปกติเพื่อประมาณค่าเฉลี่ยของพารามิเตอร์ประชากรเมื่อขนาดตัวอย่างnมีขนาดใหญ่ (โดยทั่วไปแล้วจะมากกว่า 30 หรือ 50) การแจกแจงแบบ T ของนักเรียนใช้สำหรับกลุ่มตัวอย่างขนาดเล็กลงเพื่ออธิบายความไม่แน่นอนในค่าเบี่ยงเบนมาตรฐานของกลุ่มตัวอย่าง เมื่อขนาดตัวอย่างมีขนาดใหญ่ค่าเบี่ยงเบนมาตรฐานตัวอย่างจะให้ข้อมูลที่ดีเกี่ยวกับค่าเบี่ยงเบนมาตรฐานประชากรทำให้สามารถประมาณการกระจายตัวแบบปกติได้ ฉันเข้าใจ. แต่ทำไมต้องใช้การประมาณเมื่อคุณได้รับช่วงความมั่นใจอย่างแน่นอน ไม่ว่าขนาดของกลุ่มตัวอย่างจะเป็นอะไรจุดของการใช้การแจกแจงแบบปกติคือถ้าเป็นเพียงการประมาณบางอย่างที่คุณจะได้รับจากการแจกแจงแบบ T

1
ช่วงความเชื่อมั่นที่ใช้ Bootstrap
ในขณะที่ศึกษาช่วงความเชื่อมั่นตาม bootstrap ฉันเคยอ่านข้อความต่อไปนี้: หากการกระจายบูทสแตรปเอียงไปทางขวาช่วงความมั่นใจตามบู๊ตสแตรปจะรวมการแก้ไขเพื่อย้ายจุดสิ้นสุดแม้อยู่ไกลไปทางขวา สิ่งนี้อาจดูขัดกับความเป็นจริง แต่เป็นการกระทำที่ถูกต้อง ฉันพยายามที่จะเข้าใจตรรกะที่อยู่ภายใต้ข้อความข้างต้น

4
การรวมช่วงความเชื่อมั่น / การประมาณค่าสองจุดเข้าด้วยกัน
สมมติว่าหนึ่งมีสองตัวอย่างอิสระจากประชากรเดียวกันและวิธีการที่แตกต่างกันถูกนำมาใช้ในสองตัวอย่างเพื่อให้ได้มาซึ่งการประเมินจุดและช่วงความเชื่อมั่น ในกรณีเล็ก ๆ น้อย ๆ คนที่มีเหตุผลจะรวมกลุ่มสองตัวอย่างและใช้วิธีการหนึ่งเพื่อทำการวิเคราะห์ แต่ลองสมมติว่าช่วงเวลาที่วิธีการที่แตกต่างกันต้องใช้เนื่องจากข้อ จำกัด ของตัวอย่างหนึ่งตัวอย่างเช่นข้อมูลที่หายไป การวิเคราะห์ทั้งสองแยกนี้จะสร้างการประมาณการที่เป็นอิสระและเท่าเทียมกันสำหรับแอตทริบิวต์ของประชากรที่น่าสนใจ ฉันคิดว่าควรจะมีวิธีที่จะรวมการประมาณสองอย่างนี้เข้าด้วยกันอย่างถูกต้องทั้งในแง่ของการประมาณค่าพอยต์และช่วงความเชื่อมั่น คำถามของฉันคือสิ่งที่ควรเป็นวิธีที่ดีที่สุดที่จะทำ? ฉันสามารถจินตนาการค่าเฉลี่ยถ่วงน้ำหนักของการจัดเรียงบางอย่างตามข้อมูล / ขนาดตัวอย่างในแต่ละตัวอย่าง แต่สิ่งที่เกี่ยวกับช่วงความเชื่อมั่นหรือไม่

2
ทำไมคนเราถึงใช้ความมั่นใจแบบสุ่มหรือช่วงเวลาที่เชื่อถือได้
เมื่อเร็ว ๆ นี้ฉันกำลังอ่านกระดาษที่รวมการสุ่มในความมั่นใจและช่วงเวลาที่น่าเชื่อถือและฉันสงสัยว่านี่เป็นมาตรฐานหรือไม่และถ้าเป็นเช่นนั้นทำไมมันถึงเป็นสิ่งที่สมเหตุสมผล ไปยังชุดสัญกรณ์สมมติว่าข้อมูลของเราคือและเรามีความสนใจในการสร้างช่วงเวลาสำหรับพารามิเตอร์\ ฉันเคยชินกับช่วงความมั่นใจ / ความน่าเชื่อถือที่ถูกสร้างโดยการสร้างฟังก์ชั่น:θ ∈ Θx∈Xx∈Xx \in Xθ∈Θθ∈Θ\theta \in \Theta fx:Θ→{0,1}fx:Θ→{0,1}f_{x} : \Theta \rightarrow \{0,1\} และปล่อยให้ช่วงเวลาของเราจะเป็น\}I={θ∈Θ:fx(θ)=1}I={θ∈Θ:fx(θ)=1}I = \{ \theta \in \Theta \, : \, f_{x}(\theta) = 1\} นี่คือการสุ่มในแง่ที่ว่ามันขึ้นอยู่กับข้อมูล แต่เงื่อนไขกับข้อมูลมันเป็นเพียงช่วงเวลา กระดาษนี้แทนกำหนด gx:Θ→[0,1]gx:Θ→[0,1]g_{x} : \Theta \rightarrow [0,1] และยังเป็นคอลเลกชันของตัวแปรสุ่ม IID เครื่องแบบบน[0,1]มันกำหนดช่วงเวลาที่เกี่ยวข้องจะเป็นI = \ {\ theta \ in \ Theta \: …

2
การตีความช่วงความมั่นใจ
หมายเหตุ: ขออภัยล่วงหน้าหากซ้ำกันฉันไม่พบคิวที่คล้ายกันในการค้นหาของฉัน สมมติว่าเรามีพารามิเตอร์จริง p ช่วงความเชื่อมั่น C (X) เป็น RV ที่มี p พูด 95% ของเวลา ทีนี้สมมติว่าเราสังเกต X และคำนวณ C (X) คำตอบทั่วไปน่าจะเป็นว่ามันไม่ถูกต้องที่จะตีความว่ามี "95% โอกาสที่จะบรรจุ p" เพราะมัน "ไม่หรือไม่มี p" อย่างไรก็ตามสมมติว่าฉันเลือกการ์ดจากด้านบนของสำรับสับและทิ้งมันลง ฉันคิดอย่างถี่ถ้วนว่าความน่าจะเป็นของการ์ดใบนี้จากการเป็นเอซโพดำในฐานะ 1/52 แม้ว่าในความเป็นจริง "มันอาจเป็นหรือไม่ใช่เอซโพดำ" เหตุใดฉันจึงไม่สามารถใช้เหตุผลนี้กับตัวอย่างของช่วงความมั่นใจได้ หรือถ้ามันไม่มีความหมายเลยที่จะพูดถึง "ความน่าจะเป็น" ของการ์ดที่เป็นเอซโพดำเพราะมัน "เป็นหรือไม่ใช่" ฉันจะยังคงวางอัตราต่อรอง 51: 1 ว่ามันไม่ใช่เอซโพดำ มีคำอื่นที่อธิบายข้อมูลนี้หรือไม่? แนวคิดนี้แตกต่างจาก "ความน่าจะเป็น" อย่างไร แก้ไข: อาจจะมีความชัดเจนมากขึ้นจากการตีความความน่าจะเป็นแบบเบย์ถ้าฉันบอกว่าตัวแปรสุ่มมี p 95% ของเวลาเนื่องจากการรับรู้ของตัวแปรสุ่มนั้น (และไม่มีข้อมูลอื่นที่จะมีเงื่อนไข) …

1
วิธีการเปรียบเทียบแบบใดที่จะใช้สำหรับโมเดล lmer: lsmeans หรือ glht
ฉันกำลังวิเคราะห์ชุดข้อมูลโดยใช้โมเดลเอฟเฟกต์ผสมกับเอฟเฟ็กต์คงที่หนึ่งรายการ (เงื่อนไข) และเอฟเฟกต์แบบสุ่มสองรายการ (ผู้เข้าร่วมเนื่องจากการออกแบบภายในและคู่ของเรื่อง) รูปแบบที่ถูกสร้างขึ้นด้วยแพคเกจ:lme4exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp) ต่อไปฉันทำการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลนี้เทียบกับโมเดลโดยไม่มีผลกระทบคงที่ (เงื่อนไข) และมีความแตกต่างอย่างมีนัยสำคัญ ชุดข้อมูลของฉันมี 3 เงื่อนไขดังนั้นฉันจึงต้องการเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าจะใช้วิธีใด ฉันพบคำถามที่คล้ายกันจำนวนหนึ่งใน CrossValidated และฟอรัมอื่น ๆ แต่ฉันยังสับสนอยู่ จากสิ่งที่ฉันเห็นผู้คนแนะนำให้ใช้ 1.lsmeansแพคเกจ - lsmeans(exp.model,pairwise~condition)ซึ่งทำให้ผมส่งออกต่อไปนี้: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts …

5
ข้อผิดพลาดโดยประมาณของช่วงความมั่นใจสำหรับค่าเฉลี่ยเมื่อ
Let {Xi}ni=1{Xi}i=1n\{X_i\}_{i=1}^nจะเป็นครอบครัวของตัวแปรสุ่ม IID สละค่าใน[0,1][0,1][0,1]มีค่าเฉลี่ยμμ\muและแปรปรวนσ2σ2\sigma^2 2 ช่วงความเชื่อมั่นที่ง่ายสำหรับค่าเฉลี่ยโดยใช้σσ\sigmaเมื่อใดก็ตามที่เป็นที่รู้จักกันจะได้รับจาก P(|X¯−μ|>ε)≤σ2nε2≤1nε2(1).P(|X¯−μ|>ε)≤σ2nε2≤1nε2(1). P( | \bar X - \mu| > \varepsilon) \le \frac{\sigma^2}{n\varepsilon^2} \le\frac{1}{n \varepsilon^2} \qquad (1). นอกจากนี้เนื่องจากX¯−μσ/n√X¯−μσ/n\frac{\bar X- \mu}{\sigma/\sqrt{n}}ถูกกระจายแบบ asymptotically เป็นตัวแปรสุ่มมาตรฐานแบบปกติการแจกแจงแบบปกติบางครั้งใช้เพื่อ "สร้าง" ช่วงความมั่นใจโดยประมาณ ในหลายทางเลือกสอบสถิติคำตอบที่ผมได้มีการใช้ประมาณแทนนี้(1)(1)(1)เมื่อใดก็ตามที่n≥30n≥30n \geq 30 30 ฉันมักจะรู้สึกไม่สบายใจกับสิ่งนี้มาก (เกินกว่าที่คุณจะจินตนาการได้) เนื่องจากข้อผิดพลาดการประมาณนั้นไม่ได้ถูกคำนวณปริมาณ ใช้ประมาณปกติมากกว่าทำไม(1)(1)(1) ? ฉันไม่ต้องการใช้กฎกับคนตาบอดอีกเลย มีการอ้างอิงที่ดีที่สามารถสนับสนุนฉันในการปฏิเสธที่จะทำเช่นนั้นและให้ทางเลือกที่เหมาะสมหรือไม่? ( ( 1 )เป็นตัวอย่างของสิ่งที่ฉันพิจารณาทางเลือกที่เหมาะสม)n≥30n≥30n \geq 30(1)(1)(1) ที่นี่ในขณะที่และE [ | X | …

2
หาก "ข้อผิดพลาดมาตรฐาน" และ "ช่วงความมั่นใจ" วัดความแม่นยำของการวัดแล้วการวัดความถูกต้องคืออะไร
ในหนังสือ "ชีวสถิติสำหรับหุ่น" ในหน้า 40 ฉันอ่าน: ข้อผิดพลาดมาตรฐาน (ตัวย่อ SE) เป็นวิธีหนึ่งในการระบุความแม่นยำในการประมาณการหรือการวัดของคุณ และ ช่วงความเชื่อมั่นเป็นอีกวิธีหนึ่งในการระบุความแม่นยำของการประมาณหรือการวัดบางสิ่ง แต่ไม่มีการเขียนอะไรเพื่อแสดงความแม่นยำของการวัด คำถาม:จะระบุได้อย่างไรว่าการวัดบางอย่างนั้นแม่นยำแค่ไหน? วิธีใดที่ใช้สำหรับสิ่งนั้น เพื่อไม่ให้สับสนกับความแม่นยำและความแม่นยำของการทดสอบ: https://en.wikipedia.org/wiki/Accuracy_and_precision#In_binary_classification

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.