คำถามติดแท็ก hypothesis-testing

การทดสอบสมมติฐานจะประเมินว่าข้อมูลไม่สอดคล้องกับสมมติฐานที่กำหนดแทนที่จะเป็นผลของความผันผวนแบบสุ่มหรือไม่

4
การทดสอบสมมติฐานด้วยข้อมูลขนาดใหญ่
คุณจะทำการทดสอบสมมติฐานด้วยข้อมูลขนาดใหญ่ได้อย่างไร ฉันเขียนสคริปต์ MATLAB ต่อไปนี้เพื่อเน้นความสับสนของฉัน สิ่งที่มันทำคือสร้างชุดสุ่มสองชุดและเรียกใช้การถดถอยเชิงเส้นอย่างง่ายของตัวแปรหนึ่งในอีกตัวแปรหนึ่ง จะดำเนินการถดถอยนี้หลายครั้งโดยใช้ค่าสุ่มที่แตกต่างกันและรายงานค่าเฉลี่ย สิ่งที่เกิดขึ้นคือเมื่อฉันเพิ่มขนาดตัวอย่างค่า p โดยเฉลี่ยจะน้อยมาก ฉันรู้ว่าเนื่องจากพลังของการทดสอบเพิ่มขึ้นตามขนาดตัวอย่างเมื่อได้รับตัวอย่างมากพอค่า p จะมีขนาดเล็กพอแม้จะมีข้อมูลแบบสุ่มเพื่อปฏิเสธการทดสอบสมมติฐานใด ๆ ฉันถามไปรอบ ๆ และบางคนบอกว่าด้วย 'ข้อมูลขนาดใหญ่' สำคัญกว่าที่จะดูขนาดเอฟเฟกต์เช่น การทดสอบนั้นสำคัญหรือไม่และมีผลกระทบมากพอที่เราจะสนใจหรือไม่ นี้เป็นเพราะในขนาดตัวอย่างที่มีขนาดใหญ่ P-ค่าจะรับความแตกต่างของขนาดเล็กมากเหมือนมันจะมีการอธิบายที่นี่ อย่างไรก็ตามขนาดของเอฟเฟกต์สามารถกำหนดได้โดยการปรับขนาดของข้อมูล ด้านล่างฉันปรับขนาดตัวแปรอธิบายให้มีขนาดเล็กพอที่ให้ขนาดตัวอย่างใหญ่พอมันมีผลอย่างมากต่อตัวแปรตาม ดังนั้นฉันสงสัยว่าเราจะได้รับข้อมูลเชิงลึกจาก Big Data ได้อย่างไรหากปัญหาเหล่านี้มีอยู่ %make average %decide from how many values to make average obs_inside_average = 100; %make average counter average_count = 1; for average_i = 1:obs_inside_average, …

1
test vs -tests?
ฉันพยายามคิดให้ชัดเจนว่าอะไรคือความแตกต่างระหว่างการทดสอบและการทดสอบztttzzz เท่าที่ฉันสามารถบอกได้ว่าสำหรับการทดสอบทั้งสองคลาสเราใช้สถิติการทดสอบเดียวกันซึ่งเป็นรูปแบบบางอย่าง b^−Cseˆ(b^)b^−Cse^(b^)\frac{\hat{b} - C}{\widehat{\operatorname{se}}(\hat{b})} ที่เป็นตัวอย่างสถิติคือการอ้างอิงบางอย่าง (ที่ตั้ง) ค่าคงที่ (ซึ่งขึ้นอยู่กับรายการของการทดสอบ) และเป็นมาตรฐาน ข้อผิดพลาดของ{ข} C ^ SE (ข )ขb^b^\hat{b}CCCseˆ(b^)se^(b^)\widehat{\operatorname{se}}(\hat{b})b^b^\hat{b} แตกต่างเพียงแล้วระหว่างทั้งสองชั้นของการทดสอบก็คือว่าในกรณีของ -tests สถิติการทดสอบข้างต้นดังต่อไปนี้ -distribution (สำหรับตัวอย่างที่กำหนดบางองศาของเสรีภาพ ) ในขณะที่ในกรณีของ -tests, สถิติการทดสอบเดียวกันดังต่อไปนี้การกระจายมาตรฐานปกติ1) (นี่เป็นการชี้ให้เห็นว่าการเลือกของ -test หรือ -test นั้นควบคุมโดยตัวอย่างที่มีขนาดใหญ่พอหรือไม่)t d z N ( 0 , 1 ) z tttttttdddZZzยังไม่มีข้อความ( 0 , 1 )ยังไม่มีข้อความ(0,1)\mathcal{N}(0, 1)ZZzเสื้อเสื้อt ถูกต้องหรือไม่

4
การทดสอบทางสถิติมาตรฐานคืออะไรเพื่อดูว่าข้อมูลเป็นไปตามการแจกแจงแบบเอ็กซ์โพเนนเชียลหรือการแจกแจงปกติ?
การทดสอบทางสถิติมาตรฐานคืออะไรเพื่อดูว่าข้อมูลเป็นไปตามการแจกแจงแบบเอ็กซ์โพเนนเชียลหรือการแจกแจงปกติ?

6
การตีความผลลัพธ์ ur.df (การทดสอบรูทยูนิต Dickey-Fuller)
ฉันใช้การทดสอบรูทยูนิตต่อไปนี้ (Dickey-Fuller) ในอนุกรมเวลาโดยใช้ur.df()ฟังก์ชั่นในurcaแพ็คเกจ คำสั่งคือ: summary(ur.df(d.Aus, type = "drift", 6)) ผลลัพธ์คือ: ############################################### # Augmented Dickey-Fuller Test Unit Root Test # ############################################### Test regression drift Call: lm(formula = z.diff ~ z.lag.1 + 1 + z.diff.lag) Residuals: Min 1Q Median 3Q Max -0.266372 -0.036882 -0.002716 0.036644 0.230738 Coefficients: Estimate Std. Error t value …

3
เหตุใดการตัดค่าใช้สำหรับปัจจัยเบย์และค่า p จึงแตกต่างกันมาก
ฉันพยายามที่จะเข้าใจ Bayes Factor (BF) ฉันเชื่อว่าพวกเขาเป็นเหมือนอัตราส่วนความน่าจะเป็นของ 2 สมมติฐาน ดังนั้นถ้า BF เท่ากับ 5 หมายความว่า H1 มีโอกาสสูงกว่า H0 5 เท่า และค่า 3-10 หมายถึงหลักฐานระดับปานกลางขณะที่> 10 หมายถึงหลักฐานที่ชัดเจน อย่างไรก็ตามสำหรับค่า P จะใช้ค่า 0.05 เป็นแบบตัด ที่ค่า P นี้อัตราส่วนความน่าจะเป็นของ H1 / H0 ควรอยู่ที่ประมาณ 95/5 หรือ 19 เหตุใดจึงต้องตัดค่าตัด> 3 สำหรับ BF ขณะที่ตัดค่า> 19 เพื่อใช้ค่า P ค่าเหล่านี้ไม่ได้อยู่ใกล้กัน

2
มีการทดสอบทางสถิติ "ความลับ" ที่ใช้พลังงานต่ำมากหรือไม่?
พื้นหลัง ในวิทยาการคอมพิวเตอร์คณิตศาสตร์และบางครั้งในสาขาอื่นตัวอย่าง "ความลับ" ไม่เพียง แต่จะให้ความบันเทิง แต่มีประโยชน์ในการแสดงแนวคิดบางอย่างเช่น: BogosortและSlowsortเป็นอัลกอริธึมการเรียงลำดับที่ไม่มีประสิทธิภาพซึ่งสามารถใช้เพื่อทำความเข้าใจคุณสมบัติของอัลกอริทึมโดยเฉพาะเมื่อเปรียบเทียบกับอัลกอริทึมการเรียงลำดับอื่น ๆ ภาษาการเขียนโปรแกรมลึกลับแสดงให้เห็นว่าแนวคิดของภาษาการเขียนโปรแกรมที่ครอบคลุมและช่วยชื่นชมภาษาการเขียนโปรแกรมที่ดี ฟังก์ชั่น Weierstrassและฟังก์ชั่น Dirichletส่วนใหญ่พบว่าการใช้งานเพื่อแสดงให้เห็นถึงความเข้าใจผิดบางอย่างเกี่ยวกับแนวคิดของความต่อเนื่อง ขณะนี้ฉันกำลังเตรียมการสอนเกี่ยวกับการใช้การทดสอบสมมติฐานและคิดว่าการทดสอบที่มีกำลังไฟต่ำมาก (แต่ไม่มีข้อบกพร่องอื่น ๆ ) จะช่วยอธิบายแนวคิดของพลังทางสถิติได้ (แน่นอนฉันยังต้องตัดสินใจด้วยตนเองว่าตัวอย่างที่กำหนดมีประโยชน์อย่างยิ่งสำหรับผู้ชมของฉันหรือเพียงแค่สับสน) คำถามจริง มีการทดสอบทางสถิติใด ๆ ที่ใช้กำลังไฟต่ำหรือไม่โดยเฉพาะเจาะจงมากขึ้น: การทดสอบนั้นสอดคล้องกับกรอบทั่วไปของการทดสอบสมมติฐานนั่นคือทำงานได้กับสมมติฐานว่างมีข้อกำหนดและส่งกลับ ค่าp (ถูกต้อง) มันไม่ได้ตั้งใจ / เสนอสำหรับการใช้งานอย่างจริงจัง มันมีพลังงานต่ำมาก (เนื่องจากข้อบกพร่องในการออกแบบโดยเจตนาและไม่ได้เกิดจากตัวอย่างหรือขนาดของเอฟเฟกต์ต่ำ) หากคุณสามารถยืนยันได้ว่าการทดสอบดังกล่าวไม่มีอยู่จริงฉันจะพิจารณาคำตอบที่ถูกต้องสำหรับคำถามของฉันด้วย หากในอีกทางหนึ่งมีการทดสอบมากมายเช่นนี้ฉันสนใจในการทดสอบที่มีประสิทธิภาพมากที่สุดนั่นคือมันควรจะเข้าถึงได้ง่ายและมีผลที่โดดเด่น โปรดทราบว่าฉันไม่ได้ขอให้เลือกทั่วไปของข้อผิดพลาดทางสถิติ (การเก็บเชอร์รี่ ฯลฯ ) หรือคล้ายกัน สิ่งที่ฉันพบจนถึง การค้นหาทางอินเทอร์เน็ตไม่ได้ให้อะไรฉันเลย ความพยายามในการสร้างบางสิ่งเช่นนี้สิ้นสุดลงทั้งในการทดสอบที่มีอยู่ (มีประโยชน์) หรือรูปแบบนั้นไม่ใช่การทดสอบปกติ ตัวอย่างเช่นผมคิดเกี่ยวกับการทดสอบว่าประชากรมีค่าเฉลี่ยในแง่บวกว่าผลตอบแทนเท่านั้นใช่ถ้าทุกตัวอย่างเป็นบวก; แต่การทดสอบนั้นไม่ส่งคืน ค่าpดังนั้นจึงไม่เหมาะสมภายในกรอบการทดสอบตามปกติ ถ้าฉันเพียงแค่นับสัญญาณบวกและลบเป็นสถิติการทดสอบ (และคำนวณ ค่าpตามนั้น) ฉันจะจบลงด้วยการทดสอบเครื่องหมายซึ่งเป็นการทดสอบที่สมเหตุสมผล

5
ช่วงความมั่นใจมีประโยชน์หรือไม่?
ในสถิติที่ใช้บ่อยช่วงความมั่นใจ 95% เป็นขั้นตอนการสร้างช่วงเวลาซึ่งหากทำซ้ำจำนวนครั้งไม่สิ้นสุดจะมีพารามิเตอร์ที่แท้จริง 95% ของเวลา ทำไมถึงมีประโยชน์ ช่วงความเชื่อมั่นมักเข้าใจผิด พวกเขาไม่ใช่ช่วงเวลาที่เราสามารถมั่นใจได้ 95% ว่าพารามิเตอร์นั้นอยู่ใน (ยกเว้นว่าคุณกำลังใช้ช่วงความน่าเชื่อถือแบบเบย์ที่คล้ายกัน) ช่วงเวลาความมั่นใจรู้สึกเหมือนเป็นเหยื่อและสลับมาที่ฉัน กรณีการใช้งานอย่างหนึ่งที่ฉันคิดได้ก็คือกำหนดช่วงของค่าที่เราไม่สามารถปฏิเสธสมมติฐานว่างได้ว่าพารามิเตอร์คือค่านั้น ค่า p จะไม่ให้ข้อมูลนี้ แต่จะดีกว่าไหม โดยไม่ทำให้เข้าใจผิด? ในระยะสั้น: ทำไมเราต้องมีช่วงความมั่นใจ? เมื่อตีความอย่างถูกต้องมีประโยชน์อย่างไร?

5
เหตุใดเราจึงปฏิเสธสมมติฐานว่างที่ระดับ 0.05 และไม่ใช่ระดับ 0.5 (อย่างที่เราทำในการจำแนกประเภท)
การทดสอบสมมติฐานจะคล้ายกับปัญหาการจำแนกประเภท ดังนั้นเราจึงมี 2 ป้ายกำกับที่เป็นไปได้สำหรับการสังเกต (เรื่อง) - ความผิดเทียบกับการไม่ผิด ปล่อยให้ผู้ที่ไม่มีความผิดเป็นสมมุติฐานว่าง หากเราดูปัญหาจากมุมมองการจัดหมวดหมู่เราจะฝึกอบรมลักษณนามซึ่งจะทำนายความน่าจะเป็นของเรื่องที่อยู่ในแต่ละชั้นเรียนทั้งสองได้รับข้อมูล จากนั้นเราจะเลือกคลาสที่มีความน่าจะเป็นสูงสุด ในกรณีนั้นความน่าจะเป็น 0.5 จะเป็นเกณฑ์ปกติ เราอาจแตกต่างกันไปตามเกณฑ์ในกรณีที่เรากำหนดค่าใช้จ่ายที่แตกต่างให้กับข้อผิดพลาดที่เป็นเท็จบวกกับลบ แต่ไม่ค่อยเราจะไปสุดโต่งเช่นการตั้งค่าเกณฑ์ที่ 0.05 คือกำหนดเรื่องให้กับ Class "ผิด" เฉพาะในกรณีที่น่าจะเป็น 0.95 หรือสูงกว่า แต่ถ้าฉันเข้าใจดี นี่คือสิ่งที่เรากำลังทำอยู่เป็นแบบฝึกหัดมาตรฐานเมื่อเรามองปัญหาเดียวกันกับปัญหาของการทดสอบสมมติฐาน ในกรณีหลังนี้เราจะไม่กำหนดป้ายกำกับ "ไม่ใช่ผู้กระทำผิด" - เทียบเท่ากับกำหนดป้ายกำกับ "ผู้กระทำผิด" - เฉพาะในกรณีที่ความเป็นไปได้ที่จะเป็น "ผู้กระทำผิด" น้อยกว่า 5% และบางทีนี่อาจสมเหตุสมผลถ้าเราต้องการหลีกเลี่ยงการลงโทษผู้บริสุทธิ์ แต่ทำไมกฎนี้ควรเหนือกว่าในโดเมนทั้งหมดและทุกกรณี การตัดสินใจว่าสมมติฐานใดที่จะนำมาใช้นั้นเทียบเท่ากับการกำหนดตัวประมาณความจริงที่ให้ไว้กับข้อมูล ในการประมาณค่าความน่าจะเป็นสูงสุดเรายอมรับสมมติฐานที่มีแนวโน้มที่จะได้รับข้อมูลมากขึ้น - ไม่จำเป็นว่าจะมีโอกาสมากกว่า ดูกราฟด้านล่าง: การใช้วิธีความเป็นไปได้สูงสุดเราจะสนับสนุนสมมติฐานทางเลือกในตัวอย่างนี้หากค่าของ Predictor สูงกว่า 3 เช่น 4 แม้ว่าความน่าจะเป็นที่ค่านี้จะได้รับมาจากสมมติฐานของ Null จะมีขนาดใหญ่กว่า …

3
การประมาณค่าพารามิเตอร์แบบเบส์หรือการทดสอบสมมติฐานแบบเบย์?
ดูเหมือนว่ามีการถกเถียงกันอย่างต่อเนื่องในชุมชน Bayesian ว่าเราควรทำการประมาณค่าพารามิเตอร์แบบ Bayesian หรือการทดสอบสมมติฐานแบบ Bayesian ฉันสนใจในการร้องขอความคิดเห็นเกี่ยวกับเรื่องนี้ อะไรคือจุดแข็งและจุดอ่อนของวิธีการเหล่านี้? บริบทใดที่เหมาะสมกว่าบริบทอื่น เราควรจะทำทั้งการประมาณค่าพารามิเตอร์และการทดสอบสมมติฐานหรือเพียงหนึ่ง?

2
เป็นความผิดหรือไม่ที่จะใช้ ANOVA แทนที่จะใช้ t-test เพื่อเปรียบเทียบสองวิธี?
ฉันมีการกระจายเงินเดือนและฉันต้องการเปรียบเทียบความแตกต่างของค่าเฉลี่ยสำหรับชายและหญิง ฉันรู้ว่ามีนักเรียน T-test สำหรับเปรียบเทียบสองวิธี แต่หลังจากแนะนำ ANOVA ฉันได้รับการวิจารณ์ว่า ANOVA นั้นสำหรับเปรียบเทียบมากกว่าสองวิธี มีอะไรผิดพลาดในการใช้มันเพื่อเปรียบเทียบเพียง 2 หมายความว่าอย่างไร

1
วิธีการทดสอบว่าเมทริกซ์ความแปรปรวนร่วมเป็นศูนย์หรือไม่?
พื้นหลังของการศึกษาของฉัน : ในการสุ่มตัวอย่างกิ๊บส์เมื่อเราสุ่มตัวอย่าง (ตัวแปรที่สนใจ) และจากและตามลำดับโดยที่และเป็นเวกเตอร์สุ่มมิติ เรารู้ว่ากระบวนการนั้นมักจะแบ่งออกเป็นสองขั้นตอน:XXXYYYP(X|Y)P(X|Y)P(X|Y)P(Y|X)P(Y|X)P(Y|X)XXXYYYkkk ระยะเวลาการเผาไหม้ที่เราทิ้งตัวอย่างทั้งหมด แสดงว่ากลุ่มตัวอย่างเป็นและY_tX1∼XtX1∼XtX_1\sim X_tY1∼YtY1∼YtY_1\sim Y_t "After-Burn-in" ประจำเดือนซึ่งเราทำการหาค่าเฉลี่ยตัวอย่างเป็นผลลัพธ์สุดท้ายที่เราต้องการX¯=1k∑ki=1Xt+iX¯=1k∑i=1kXt+i\bar{X} = \frac{1}{k}\sum_{i=1}^k X_{t+i} อย่างไรก็ตามตัวอย่างในลำดับ "after-burn-in"ไม่ได้ถูกแจกจ่ายอย่างอิสระ ดังนั้นหากฉันต้องการตรวจสอบความแปรปรวนของผลลัพธ์สุดท้ายมันก็จะกลายเป็นXt+1∼Xt+kXt+1∼Xt+kX_{t+1}\sim X_{t+k} Var[X¯]=Var[∑i=1kXt+i]=1k2(∑i=1kVar[Xt+i]+∑i=1k−1∑j=i+1kCov[Xt+i,Xt+j])Var⁡[X¯]=Var⁡[∑i=1kXt+i]=1k2(∑i=1kVar⁡[Xt+i]+∑i=1k−1∑j=i+1kCov⁡[Xt+i,Xt+j])\operatorname{Var}[\bar{X}] = \operatorname{Var}\left[\sum_{i=1}^k X_{t+i}\right] = \frac{1}{k^2}\left(\sum_{i=1}^k\operatorname{Var}[X_{t+i}] + \sum_{i=1}^{k-1} \sum_{j=i+1}^k \operatorname{Cov}[X_{t+i},X_{t+j}]\right) ที่นี่มีคำCov[ Xt + i, Xt + j]Cov⁡[Xt+i,Xt+j]\operatorname{Cov}[X_{t+i},X_{t+j}]เป็นk × kk×kk\times kข้ามแปรปรวนเมทริกซ์ใช้กับใด ๆ( i , j )(i,j)(i,j)กับฉัน&lt; ji&lt;ji<j&lt;J ตัวอย่างเช่นฉันมี Xt + 1= ( …

2
นิยาม p-value สองวิธีทำอย่างไรจึงจะพิสูจน์ความเท่าเทียมกันได้
ฉันอ่านหนังสือของ Larry Wasserman สถิติทั้งหมดและในปัจจุบันเกี่ยวกับค่า p (หน้า 187) ให้ฉันแนะนำคำจำกัดความก่อน (ฉันพูด) คำจำกัดความ 1ฟังก์ชั่นพลังงานของการทดสอบที่มีพื้นที่การปฏิเสธถูกกำหนดโดย ขนาดของการทดสอบถูกกำหนดให้เป็น การทดสอบจะกล่าวว่ามีระดับ\ alphaถ้าขนาดของมันคือน้อยกว่าหรือเท่ากับ\ alphaRRRβ(θ)=Pθ(X∈R)β(θ)=Pθ(X∈R)\beta(\theta)=P_{\theta}(X\in R)α=supθ∈Θ0β(θ)α=supθ∈Θ0β(θ)\alpha = \sup_{\theta\in\Theta_0}\beta(\theta)αα\alphaαα\alpha โดยพื้นฐานแล้วบอกว่าαα\alphaขนาดคือความน่าจะเป็น "ใหญ่ที่สุด" ของข้อผิดพลาดประเภท I ค่าpppจะถูกกำหนดผ่านทาง (I quote) ความหมายที่ 2สมมติว่าทุกα∈(0,1)α∈(0,1)\alpha\in(0,1)เรามีขนาดαα\alphaทดสอบกับภูมิภาคปฏิเสธR_RαRαR_\alphaจากนั้น p-value=inf{α:T(Xn)∈Rα}p-value=inf{α:T(Xn)∈Rα}p\text{-value}=\inf\{\alpha:T(X^n)\in R_\alpha\} ที่Xn=(X1,…,Xn)Xn=(X1,…,Xn)X^n=(X_1,\dots,X_n)X_n) สำหรับฉันนี่หมายถึง: รับเฉพาะαα\alphaมีพื้นที่ทดสอบและปฏิเสธRαRαR_\alphaดังนั้นα=supθ∈Θ0(α)Pθ(T(Xn)∈Rα)α=supθ∈Θ0(α)Pθ(T(Xn)∈Rα)\alpha=\sup_{\theta\in\Theta_{0}(\alpha)}P_\theta(T(X^n)\in R_\alpha)alpha) สำหรับppp -value ผมก็ใช้เวลาแล้วที่เล็กที่สุดของทั้งหมดเหล่านี้\αα\alpha คำถามที่ 1ในกรณีนี้จะเป็นกรณีที่แล้วผมได้อย่างชัดเจนสามารถเลือกα=ϵα=ϵ\alpha = \epsilonสำหรับธุรกิจขนาดเล็กโดยพล\ϵϵ\epsilonการตีความคำจำกัดความที่ 2 ของฉันคืออะไรหมายถึงอะไร ตอนนี้ Wasserman ต่อเนื่องและแจ้งให้ทฤษฎีบทมีคำนิยาม "เทียบเท่า" ของpppซึ่งฉันคุ้นเคย (ฉันพูด): ทฤษฎีบทสมมติว่าการทดสอบขนาดเป็นรูปแบบ จากนั้น …

1
คุณสมบัติทางสถิติ '' ที่ต้องการ '' ของการทดสอบอัตราส่วนความน่าจะเป็นคืออะไร
ฉันกำลังอ่านบทความที่มีวิธีการทดสอบอย่างเต็มรูปแบบตามอัตราส่วนความน่าจะเป็น ผู้เขียนกล่าวว่าการทดสอบ LR กับทางเลือกด้านเดียวคือ UMP เขาดำเนินการโดยอ้างว่า "... ถึงแม้จะไม่สามารถแสดงให้เห็นว่ามีประสิทธิภาพมากที่สุด แต่การทดสอบ LR มักจะมีคุณสมบัติทางสถิติที่น่าพอใจ ฉันสงสัยว่าคุณสมบัติทางสถิติมีความหมายที่นี่ เนื่องจากผู้เขียนอ้างถึงคนที่ผ่านไปฉันถือว่าพวกเขาเป็นความรู้ทั่วไปในหมู่นักสถิติ คุณสมบัติที่พึงประสงค์เพียงอย่างเดียวที่ฉันสามารถหาได้คือการกระจายแบบไคม์สแควร์ asymptotic ของ (ภายใต้เงื่อนไขปกติ) โดยที่เป็นอัตราส่วน LR−2logλ−2log⁡λ-2 \log \lambdaλλ\lambda ฉันจะขอบคุณสำหรับการอ้างอิงถึงข้อความคลาสสิกที่หนึ่งสามารถอ่านเกี่ยวกับคุณสมบัติที่ต้องการ

2
ขอบเขตข้อผิดพลาดที่เหมาะสำหรับครอบครัว: การใช้ชุดข้อมูลซ้ำในการศึกษาที่แตกต่างกันของคำถามอิสระทำให้เกิดปัญหาการทดสอบหลายครั้งหรือไม่
หากทีมนักวิจัยทำการทดสอบหลายชุด (สมมติฐาน) ในชุดข้อมูลที่ระบุมีหนังสือรับรองจำนวนหนึ่งที่ยืนยันว่าพวกเขาควรใช้รูปแบบการแก้ไขสำหรับการทดสอบหลายรายการ (Bonferroni ฯลฯ ) แม้ว่าการทดสอบจะเป็นอิสระ คำถามของฉันคือสิ่งนี้: ตรรกะเดียวกันนี้ใช้กับหลาย ๆ ทีมที่ทดสอบสมมติฐานในชุดข้อมูลเดียวกันหรือไม่? กล่าวอีกวิธีหนึ่ง - อะไรคืออุปสรรคในการคำนวณข้อผิดพลาดที่เหมาะกับครอบครัว นักวิจัยควร จำกัด การใช้ชุดข้อมูลซ้ำเพื่อการสำรวจเท่านั้นหรือไม่

1
โดยรวมค่า p และค่า p คู่ตามตัวอักษร?
ฉันได้รับการติดตั้งทั่วไปเชิงเส้นรูปแบบ มีโอกาสบันทึกเป็นL_uy=β0+β1x1+β2x2+β3x3,y=β0+β1x1+β2x2+β3x3,y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3,LuLuL_u ตอนนี้ฉันต้องการทดสอบว่าสัมประสิทธิ์เหมือนกันหรือไม่ ครั้งแรกโดยรวมการทดสอบ: โอกาสเข้าสู่ระบบของการลดรูปแบบเป็นL_rโดยการทดสอบอัตราส่วนแบบเต็มรูปแบบเป็นอย่างดีกว่าหนึ่งลดลงด้วยpy=β0+β1⋅(x1+x2+x3)y=β0+β1⋅(x1+x2+x3)y=\beta_0+\beta_1\cdot(x_1+x_2+x_3)LrLrL_rp=0.02p=0.02p=0.02 ถัดไป ? รูปแบบที่ลดลงคือการ yผลลัพธ์คือไม่แตกต่างจากกับβ1=β2β1=β2\beta_1=\beta_2y=β0+β1⋅(x1+x2)+β2x3y=β0+β1⋅(x1+x2)+β2x3y=\beta_0+\beta_1\cdot(x_1+x_2)+\beta_2x_3β1β1\beta_1β2β2\beta_2p=0.15p=0.15p=0.15 p ในทำนองเดียวกัน ? พวกเขาแตกต่างกับβ1=β3β1=β3\beta_1=\beta_3p=0.007p=0.007p=0.007 p สุดท้าย ? พวกเขาจะไม่แตกต่างกันกับpβ2=β3β2=β3\beta_2=\beta_3p=0.12p=0.12p=0.12 นี่ค่อนข้างสับสนสำหรับฉันเพราะฉันคาดว่าโดยรวมจะเล็กกว่าเนื่องจากเห็นได้ชัดว่าเป็นเกณฑ์ที่เข้มงวดกว่า (ผู้ที่สร้างppp0.0070.0070.007β1=β2=β3β1=β2=β3\beta_1=\beta_2=\beta_3β1=β3β1=β3\beta_1=\beta_3p=0.007p=0.007p=0.007 ) นั่นคือเนื่องจากฉัน "มั่นใจ" แล้วที่ไม่ถือฉันควรจะ "มั่นใจมากขึ้น" ที่ไม่ถือ ดังนั้นของฉัน0.0070.0070.007β1=β3β1=β3\beta_1=\beta_3β1=β2=β3β1=β2=β3\beta_1=\beta_2=\beta_3pppควรลงไป ฉันกำลังทดสอบพวกเขาผิดหรือเปล่า? มิฉะนั้นฉันผิดในเหตุผลข้างต้นที่ไหน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.