คำถามติดแท็ก hypothesis-testing

การทดสอบสมมติฐานจะประเมินว่าข้อมูลไม่สอดคล้องกับสมมติฐานที่กำหนดแทนที่จะเป็นผลของความผันผวนแบบสุ่มหรือไม่

2
เหตุใดการพิสูจน์ของวิลก์ในปี 1938 จึงไม่ทำงานกับแบบจำลองที่ผิดพลาด
ใน 1,938 กระดาษที่มีชื่อเสียง (" การกระจายตัวอย่างขนาดใหญ่ของอัตราส่วนความน่าจะเป็นสำหรับการทดสอบสมมติฐานประกอบ ", พงศาวดารของคณิตศาสตร์สถิติ, 9: 60-62), ซามูเอล Wilks มากระจาย asymptotic (อัตราส่วนความน่าจะเป็นบันทึก ) สำหรับสมมติฐานที่ซ้อนกันภายใต้สมมติฐานว่ามีการระบุสมมติฐานที่ใหญ่กว่าอย่างถูกต้อง การ จำกัด การแจกแจงคือχ 2 (ไค - สแควร์) ที่มีองศาอิสระh - mโดยที่hคือจำนวนพารามิเตอร์ในสมมติฐานขนาดใหญ่และm2×LLR2×LLR2 \times LLRχ2χ2\chi^2h−mh−mh-mhhhmmmคือจำนวนของพารามิเตอร์อิสระในสมมติฐานที่ซ้อนกัน อย่างไรก็ตามเป็นที่ทราบกันดีว่าผลลัพธ์นี้ไม่ได้เก็บไว้เมื่อสมมติฐานถูกสะกดผิด (กล่าวคือเมื่อสมมติฐานที่ใหญ่กว่านั้นไม่ใช่การแจกแจงที่แท้จริงสำหรับข้อมูลตัวอย่าง) มีใครอธิบายได้บ้างไหม สำหรับฉันแล้วดูเหมือนว่าการพิสูจน์ของวิลก์สควรจะทำงานกับการดัดแปลงเล็กน้อย มันขึ้นอยู่กับมาตรฐานเชิงเส้นกำกับของการประมาณความน่าจะเป็นสูงสุด (MLE) ซึ่งยังคงมีรูปแบบที่ผิดพลาด ความแตกต่างเพียงอย่างเดียวคือเมทริกซ์ความแปรปรวนของการ จำกัด หลายตัวแปรปกติ: สำหรับรุ่นที่ระบุไว้อย่างถูกต้องเราสามารถใกล้เคียงกับเมทริกซ์ความแปรปรวนร่วมกับผกผันฟิชเชอร์ข้อมูลเมทริกซ์กับ misspecification เราสามารถใช้การประมาณการแซนวิชของเมทริกซ์ความแปรปรวนร่วม ( J - 1 K J - 1 ) …

4
เหตุใดวิธีการแบบเบย์จึงไม่ต้องการการทดสอบแก้ไขหลายรายการ?
Andrew Gelman เขียนบทความมากมายเกี่ยวกับสาเหตุที่การทดสอบแบบเบย์ไม่ต้องใช้การแก้ไขสมมติฐานหลายประการ: ทำไมเรา (โดยปกติ) ไม่ต้องกังวลเกี่ยวกับการเปรียบเทียบหลายแบบ , 2012 ฉันไม่ค่อยเข้าใจ: ทำไมวิธีการแบบเบย์จึงไม่จำเป็นต้องมีการแก้ไขการทดสอบหลายครั้ง A ~ Distribution1 + Common Distribution B ~ Distribution2 + Common Distribution C ~ Distribution3 + Common Distribution Common Distribution ~ Normal ความเข้าใจของฉันคือว่าวิธีการแบบเบย์ที่แสดงข้างต้นบัญชีสำหรับการกระจายพื้นฐานที่ใช้ร่วมกันโดยสมมติฐานทั้งหมด (ซึ่งแตกต่างจากการแก้ไข Bonferroni บ่อยครั้ง) เหตุผลของฉันถูกต้องหรือไม่

4
วิธี Z-คะแนนของ Stouffer: สิ่งที่ถ้าเราสรุป
ฉันกำลังทำการทดสอบทางสถิติอิสระด้วยสมมติฐานว่างเดียวกันและต้องการรวมผลลัพธ์เป็นค่าpเดียว มันดูเหมือนว่าจะมีสอง "ได้รับการยอมรับ" วิธีการ: วิธีการฟิชเชอร์และวิธีการของ Stoufferยังไม่มีข้อความNNพีpp คำถามของฉันเกี่ยวกับวิธีการของ Stouffer สำหรับการทดสอบแต่ละแยกต่างหากที่ผมได้รับคะแนน Z- ฉัน ภายใต้สมมติฐานแต่ละของพวกเขามีการกระจายและมีการกระจายแบบปกติมาตรฐานดังนั้นผลรวมΣ Z ฉันต่อไปนี้การแจกแจงแบบปกติที่มีความแปรปรวนN ดังนั้นวิธีของ Stouffer แนะนำให้คำนวณΣ z i / √Zผมziz_iΣ zผมΣzi\Sigma z_iยังไม่มีข้อความNNซึ่งควรกระจายตามปกติด้วยความแปรปรวนของหน่วยแล้วใช้สิ่งนี้เป็นคะแนน z ร่วมΣ zผม/ N--√Σzi/N\Sigma z_i / \sqrt{N} นี่เป็นเหตุผล แต่นี่เป็นอีกแนวทางหนึ่งที่ฉันคิดขึ้นและนั่นก็สมเหตุสมผลกับฉันเช่นกัน ในฐานะที่เป็นแต่ละมาจากการกระจายปกติมาตรฐานผลรวมของสี่เหลี่ยมS = Σ Z 2 ฉันควรมาจากการกระจายไคสแควร์กับNองศาอิสระ ดังนั้นเราสามารถคำนวณSและแปลงเป็นp-valueโดยใช้ฟังก์ชันการแจกแจงสะสมแบบ chi-squared ที่มีองศาอิสระN ( p = 1 - X N ( S …

5
การทดสอบแบบไม่อิงพารามิเตอร์ทำอะไรได้บ้างและคุณทำอะไรกับผลลัพธ์
ฉันรู้สึกว่านี่อาจถูกถามที่อื่น แต่ไม่จริงกับประเภทของคำอธิบายพื้นฐานที่ฉันต้องการ ฉันรู้ว่าไม่ใช่พารามิเตอร์อาศัยค่ามัธยฐานแทนค่าเฉลี่ยเพื่อเปรียบเทียบ ... บางสิ่งบางอย่าง ฉันเชื่อว่ามันต้องอาศัย "องศาอิสระ" (?) แทนที่จะเบี่ยงเบนมาตรฐาน ถูกต้องฉันถ้าฉันผิด ฉันได้ทำการวิจัยที่ดีพอสมควรหรืออย่างนั้นฉันก็คิดว่าพยายามเข้าใจแนวคิดว่าผลงานอยู่เบื้องหลังความหมายของผลการทดสอบจริง ๆ และ / หรือจะทำอย่างไรกับผลการทดสอบ อย่างไรก็ตามดูเหมือนว่าจะไม่มีใครกล้าเข้าไปในพื้นที่นั้น เพื่อความเรียบง่ายลองมากับ Mann-Whitney U-test ซึ่งฉันสังเกตเห็นว่ามันค่อนข้างเป็นที่นิยม หากคุณต้องการอธิบายการทดสอบอื่น ๆ ด้วยเช่นกันแม้ว่าฉันจะรู้สึกว่าเมื่อฉันเข้าใจแล้วฉันก็สามารถเข้าใจการทดสอบอื่น ๆ ในลักษณะที่คล้ายคลึงกับการทดสอบ t แบบต่างๆเป็นต้น สมมติว่าฉันทำการทดสอบที่ไม่ใช่พารามิเตอร์กับข้อมูลของฉันและฉันได้รับผลลัพธ์กลับมา: 2 Sample Mann-Whitney - Customer Type Test Information H0: Median Difference = 0 Ha: Median Difference ≠ 0 Size of Customer Large …

3
กำหนดขนาดตัวอย่างอย่างปลอดภัยสำหรับการทดสอบ A / B
ฉันเป็นวิศวกรซอฟต์แวร์ที่ต้องการสร้างเครื่องมือทดสอบ A / B ฉันไม่มีพื้นหลังสถิติที่มั่นคง แต่ได้อ่านบ้างเล็กน้อยในช่วงสองสามวันที่ผ่านมา ฉันกำลังทำตามวิธีการที่อธิบายไว้ที่นี่และจะสรุปประเด็นที่เกี่ยวข้องด้านล่าง เครื่องมือนี้จะช่วยให้นักออกแบบและผู้เชี่ยวชาญด้านโดเมนสามารถกำหนดค่าเว็บไซต์เพื่อแยกทราฟฟิกที่ได้รับที่ URL เฉพาะระหว่างสอง URL ขึ้นไป ยกตัวอย่างเช่นการจราจรมาถึงที่http://example.com/hello1อาจจะแยกระหว่างhttp://example.com/hello1และhttp://example.com/hello2 ปริมาณการใช้ข้อมูลจะถูกแบ่งเท่า ๆ กันระหว่าง URL เป้าหมายและประสิทธิภาพของกระบวนการทางการตลาดในแต่ละ URL เป้าหมายจะถูกเปรียบเทียบ ในการทดลองนี้ขนาดของกลุ่มตัวอย่างNจะสอดคล้องกับผู้เข้าชม การทดสอบจะวัด "การแปลง" ซึ่งเป็นคำที่อธิบายเมื่อผู้เข้าชมยอมรับการกระทำเฉพาะในกระบวนการทางการตลาด การแปลงจะแสดงเป็นเปอร์เซ็นต์และต้องการอัตราการแปลงที่สูงขึ้น สิ่งนี้ทำให้การทดสอบเป็นการเปรียบเทียบสัดส่วนอิสระ เครื่องมือนี้จะต้องสามารถใช้งานได้ง่ายเพื่อสร้างการทดสอบที่มีผลลัพธ์ที่ปลอดภัย การเลือกค่าที่เหมาะสมของNเป็นสิ่งสำคัญ Nในบทความที่เชื่อมโยงข้างต้นการวิเคราะห์พลังงานของทั้งสองสัดส่วนอิสระเป็นลูกจ้างที่จะหา วิธีนี้ต้องการให้ใครรู้อัตราการแปลงของการควบคุมล่วงหน้ารวมทั้งระบุเป้าหมายการปรับปรุงการแปลงที่ต้องการ นอกจากนี้ยังระบุระดับนัยสำคัญ 95% และพลังทางสถิติ 80% คำถาม: เป็นวิธีการกำหนดNเสียงนี้หรือไม่ ถ้าอย่างนั้นวิธีที่ปลอดภัยที่สุดในการกำหนดอัตราการแปลงของการควบคุมก่อนที่จะเริ่มการทดสอบคืออะไร? มีวิธีที่ดีในการพิจารณาNว่าไม่ต้องการให้ใครรู้อัตราการแปลงของการควบคุมล่วงหน้าหรือไม่? เป็นวิธีการในบทความเสียงที่เชื่อมโยง ? ถ้าไม่มีวิธีใดที่สามารถเข้าถึงได้และย่อยง่ายที่คุณสามารถเชื่อมโยงฉันได้หรือไม่

2
ควรเปรียบเทียบแบบจำลองเอฟเฟกต์ผสมและหรือตรวจสอบความถูกต้องอย่างไร
รุ่นเอฟเฟกต์ผสม (เชิงเส้น) เป็นอย่างไรเมื่อเปรียบเทียบกับแบบอื่น ฉันรู้ว่าสามารถใช้การทดสอบอัตราส่วนความน่าจะเป็นได้ แต่วิธีนี้ไม่ได้ผลหากแบบจำลองหนึ่งไม่ใช่ 'ส่วนย่อย' ของแบบจำลองอื่นที่ถูกต้องหรือไม่ การประมาณของตัวแบบ df นั้นตรงไปตรงมาเสมอหรือไม่? จำนวนผลกระทบคงที่ + จำนวนองค์ประกอบความแปรปรวนโดยประมาณ? เราเพิกเฉยต่อการประมาณผลกระทบแบบสุ่มหรือไม่? สิ่งที่เกี่ยวกับการตรวจสอบ? ความคิดแรกของฉันคือการตรวจสอบข้าม แต่การพับแบบสุ่มอาจไม่ทำงานเนื่องจากโครงสร้างของข้อมูล วิธีการของ 'ปล่อยให้หนึ่งวิชา / กลุ่มออก' เหมาะสมหรือไม่? สิ่งที่เกี่ยวกับการออกจากการสังเกตหนึ่ง Mallows Cp สามารถตีความได้ว่าเป็นการประมาณการข้อผิดพลาดในการทำนายแบบจำลอง การเลือกแบบจำลองผ่าน AIC พยายามลดข้อผิดพลาดในการคาดการณ์ให้น้อยที่สุด (ดังนั้น Cp และ AIC ควรเลือกแบบจำลองเดียวกันหากข้อผิดพลาดคือ Gaussian ฉันเชื่อ) นี่หมายความว่า AIC หรือ Cp สามารถใช้เพื่อเลือกโมเดลเอฟเฟกต์เชิงเส้น 'ที่ดีที่สุด' จากการรวบรวมโมเดลที่ไม่ซ้อนกันบางส่วนในแง่ของการคาดการณ์ข้อผิดพลาดหรือไม่? (หากพวกเขาสอดคล้องกับข้อมูลเดียวกัน) BIC ยังคงมีแนวโน้มที่จะเลือกรูปแบบ 'ของจริง' ในบรรดาผู้สมัครหรือไม่? ฉันยังอยู่ภายใต้ความประทับใจว่าเมื่อเปรียบเทียบโมเดลเอฟเฟกต์ผสมผ่าน AIC …

2
ทำไมสมมติฐานว่างเป็นค่าจุดแทนที่จะเป็นช่วงในการทดสอบสมมติฐานเสมอ
นี่ค่อนข้างเกี่ยวข้องกับคำถามอื่นที่ฉันถาม คำถามที่ฉันมีคือเมื่อทำการทดสอบสมมติฐานเมื่อสมมติฐานทางเลือกคือช่วงสมมุติฐานว่างยังคงเป็นค่าจุด ตัวอย่างเช่นเมื่อทดสอบว่าสัมประสิทธิ์สหสัมพันธ์มากกว่า 0.5 หรือไม่สมมุติฐานว่างคือ "correlation = 0.5" แทนที่จะเป็น "correlation <= 0.5" เหตุใดจึงเป็นเช่นนี้ (หรือว่าฉันเข้าใจผิด)

1
การแก้ไขการทดสอบสมมติฐานหลายครั้งด้วย Benjamini-Hochberg, p-values ​​หรือ q-values
ได้รับรายชื่อของ P-ค่าที่เกิดจากการทดสอบอิสระเรียงจากน้อยไปมากเพื่อที่หนึ่งสามารถใช้ขั้นตอน Benjamini-Hochbergสำหรับการแก้ไขการทดสอบหลาย สำหรับแต่ละค่า p ขั้นตอน Benjamini-Hochberg ช่วยให้คุณสามารถคำนวณอัตราการค้นพบที่ผิด (FDR) สำหรับแต่ละค่า p นั่นคือในแต่ละตำแหน่ง "ในรายการเรียงลำดับของค่า p มันจะบอกคุณว่าสัดส่วนของสิ่งเหล่านั้นมีแนวโน้มที่จะเป็นการปฏิเสธที่ผิดพลาดของสมมติฐานว่าง คำถามของฉันคือค่า FDR เหล่านี้จะเรียกว่า " ค่า q " หรือ " แก้ไขค่า p " หรือเป็นอย่างอื่นหรือไม่ แก้ไขปี 2010-07-12:ฉันต้องการอธิบายขั้นตอนการแก้ไขที่เรากำลังใช้อย่างสมบูรณ์ยิ่งขึ้น อันดับแรกเราจัดเรียงผลการทดสอบตามลำดับที่เพิ่มขึ้นโดยใช้ค่า p ดั้งเดิมที่ไม่ได้รับการแก้ไข จากนั้นเราวนซ้ำในรายการโดยคำนวณสิ่งที่ฉันได้ตีความว่าเป็น "FDR ที่คาดไว้ถ้าเราปฏิเสธสมมติฐานว่างสำหรับสิ่งนี้และการทดสอบทั้งหมดก่อนหน้านี้ในรายการ" โดยใช้การแก้ไข BH ด้วยอัลฟาเท่ากับค่าที่สังเกต p-value ที่ไม่ได้แก้ไขสำหรับการวนซ้ำตามลำดับ จากนั้นเราจึงรับสิ่งที่เราเรียกว่า "q-value" ซึ่งเป็นค่าสูงสุดของค่าที่ถูกแก้ไขก่อนหน้านี้ (FDR ที่การวนซ้ำ i - 1) หรือค่าปัจจุบัน …

2
สมมติฐานของการทดสอบการเปลี่ยนแปลงคืออะไร
มันมักจะระบุว่าการทดสอบการเปลี่ยนแปลงไม่มีข้อสันนิษฐานอย่างไรก็ตามเรื่องนี้ไม่เป็นความจริง ตัวอย่างเช่นหากตัวอย่างของฉันมีความสัมพันธ์กันฉันสามารถจินตนาการได้ว่าการอนุญาตให้ใช้ป้ายกำกับของพวกเขาจะไม่ใช่สิ่งที่ถูกต้อง เพียงคิดว่าฉันพบเกี่ยวกับปัญหานี้คือประโยคนี้จากวิกิพีเดีย: "ข้อสมมติฐานที่สำคัญที่อยู่เบื้องหลังการทดสอบการเปลี่ยนแปลงคือการสังเกตสามารถแลกเปลี่ยนได้ภายใต้สมมติฐานว่าง" ซึ่งฉันไม่เข้าใจ ข้อสมมติฐานของการทดสอบการเปลี่ยนรูปคืออะไร? และสมมติฐานเหล่านี้เชื่อมโยงกับแผนการเปลี่ยนแปลงที่เป็นไปได้ที่แตกต่างกันอย่างไร

2
การทดสอบ Wald ในการถดถอย (OLS และ GLMs): t- กับการกระจาย z
ฉันเข้าใจว่าการทดสอบ Wald สำหรับสัมประสิทธิ์การถดถอยขึ้นอยู่กับคุณสมบัติต่อไปนี้ที่เก็บ asymptotically (เช่น Wasserman (2006): สถิติทั้งหมดหน้า 153, 214-215): โดยที่แสดงถึงสัมประสิทธิ์การถดถอยโดยประมาณแสดงถึงข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอยและเป็นค่าที่น่าสนใจ (มักจะเป็น 0 เพื่อทดสอบว่าค่าสัมประสิทธิ์เป็นหรือไม่ แตกต่างจาก 0) ดังนั้นขนาดการทดสอบ Wald คือ: ปฏิเสธเมื่อใดβ^SE(β)β0β0αH0| W| >zα/2( β^- β0)SEˆ( β^)∼ N( 0 , 1 )(β^−β0)se^(β^)∼N(0,1) \frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) β^β^\hat{\beta}SEˆ( β^)se^(β^)\widehat{\operatorname{se}}(\hat{\beta})β0β0\beta_{0}β0β0\beta_{0}αα\alphaH0H0H_{0}| W| > zα / 2|W|>zα/2|W|> z_{\alpha/2}โดยที่ W= β^SEˆ( β^).W=β^se^(β^). W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}. แต่เมื่อคุณทำการถดถอยเชิงเส้นด้วยlmใน R, -value แทน -value จะใช้ในการทดสอบว่าสัมประสิทธิ์การถดถอยแตกต่างกันอย่างมีนัยสำคัญจาก …

6
การทดสอบภาวะปกติที่เหมาะสมสำหรับตัวอย่างขนาดเล็ก
จนถึงตอนนี้ฉันใช้สถิติของ Shapiro-Wilk เพื่อทดสอบสมมติฐานปกติในตัวอย่างเล็ก ๆ คุณช่วยแนะนำเทคนิคอื่นได้ไหม

4
ด้วยขนาดตัวอย่างที่ใหญ่พอการทดสอบจะแสดงผลลัพธ์ที่สำคัญเสมอเว้นแต่ขนาดของผลจริงจะเป็นศูนย์ ทำไม?
ฉันอยากรู้เกี่ยวกับการอ้างสิทธิ์ในบทความของ Wikipedia เกี่ยวกับขนาดของเอฟเฟกต์ โดยเฉพาะ: [... ] การเปรียบเทียบทางสถิติที่ไม่เป็นโมฆะมักจะแสดงผลลัพธ์ที่มีนัยสำคัญทางสถิติเว้นแต่ขนาดผลกระทบของประชากรจะเป็นศูนย์ ฉันไม่แน่ใจว่าสิ่งนี้หมายถึง / นัยให้อาร์กิวเมนต์เพื่อสำรอง ฉันเดาหลังจากทั้งหมดผลคือสถิติคือค่าที่คำนวณจากตัวอย่างที่มีการแจกแจงของตัวเอง นี่หมายความว่าเอฟเฟ็กต์ไม่เคยเกิดจากการเปลี่ยนแปลงแบบสุ่ม (ซึ่งเป็นสิ่งที่ฉันเข้าใจว่ามันไม่สำคัญ) ถ้าอย่างนั้นเราเพียงแค่พิจารณาว่าผลกระทบนั้นแข็งแกร่งเพียงพอหรือไม่ - มีค่าสัมบูรณ์สูง ฉันกำลังพิจารณาถึงผลกระทบที่ฉันคุ้นเคยมากที่สุด: สัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน r ดูเหมือนจะขัดแย้งกับเรื่องนี้ ทำไมใด ๆถึงมีนัยสำคัญทางสถิติ? ถ้ามีขนาดเล็กเส้นถดถอยของเราคือ r y = a x + b = r ( s yRRrRRrY= a x + b = r ( sYsx) =ϵx+bY=ax+ข=R(sYsx)=εx+ข y=ax+b = r\left(\frac {s_y}{s_x}\right) = \epsilon …

3
เนย์แมน - เพียร์สันบทแทรก
ฉันได้อ่านบทสรุปของเนย์แมน - เพียร์สัน จากหนังสือ บทนำสู่ทฤษฎีสถิติโดย Mood, Graybill และ Boes แต่ฉันไม่เข้าใจบทแทรก ใครช่วยอธิบายบทแทรกให้ฉันด้วยคำพูดธรรมดา ๆ ได้ไหม? มันระบุว่าอะไร? Neyman-Pearson Lemma:ให้เป็นตัวอย่างแบบสุ่มจากโดยที่เป็นหนึ่งในสองค่าที่รู้จักและและให้ได้รับการแก้ไข .X1,…,XnX1,…,XnX_1,\ldots,X_nf(x;θ)f(x;θ)f(x;\theta)θθ\thetaθ0θ0\theta_0θ1θ1\theta_10&lt;α&lt;10&lt;α&lt;10<\alpha<1 ให้ เป็นค่าคงที่เป็นบวกและเป็นเซตย่อยของซึ่งตอบสนอง: \ text {และ} \ quad \ lambda \ ge \ quad k ^ * \ ข้อความ {ถ้า} (x_1, \ ldots, x_n) \ in \ bar C ^ * จากนั้นทดสอบ\ gamma ^ …

3
การเปรียบเทียบและการตัดกันค่า p ระดับนัยสำคัญและข้อผิดพลาดประเภทที่ 1
ฉันสงสัยว่าถ้าใครสามารถให้บทสรุปสั้น ๆ เกี่ยวกับคำจำกัดความและการใช้ค่า p, ระดับนัยสำคัญและข้อผิดพลาดประเภทที่ 1 ฉันเข้าใจว่าค่า p ถูกกำหนดเป็น "ความน่าจะเป็นที่จะได้รับสถิติการทดสอบอย่างน้อยที่สุดเท่าที่เราสังเกตจริง" ในขณะที่ระดับนัยสำคัญเป็นเพียงค่า cutoff ตามอำเภอใจเพื่อประเมินว่าค่า p นั้นมีความสำคัญหรือไม่ . ข้อผิดพลาดประเภทที่ 1 คือข้อผิดพลาดของการปฏิเสธสมมติฐานว่างที่เป็นจริง อย่างไรก็ตามฉันไม่แน่ใจเกี่ยวกับความแตกต่างระหว่างระดับนัยสำคัญและข้อผิดพลาดประเภทที่ 1 พวกเขาไม่ใช่แนวคิดเดียวกันหรือไม่ ตัวอย่างเช่นสมมติว่าการทดลองง่าย ๆ ที่ฉันพลิกเหรียญ 1,000 ครั้งและนับจำนวนครั้งที่มันตกลงบน 'หัว' สมมุติฐานว่างของฉัน, H0, นั่นคือหัว = 500 (เหรียญไม่มีอคติ) จากนั้นฉันตั้งระดับความสำคัญของฉันที่ alpha = 0.05 ฉันพลิกเหรียญ 1,000 ครั้งจากนั้นฉันคำนวณค่า p ถ้าค่า p เป็น&gt; 0.05 จากนั้นฉันไม่สามารถปฏิเสธสมมติฐานว่างได้และถ้าค่า p เป็น &lt;0.05 …

2
“ ความตั้งใจของผู้ตรวจสอบ” และเกณฑ์ / p-values
ฉันกำลังอ่านสไลด์"Doing Bayesian Data Analysis"ของ John Kruschke แต่จริงๆแล้วมีคำถามเกี่ยวกับการตีความของเขาเกี่ยวกับการทดสอบ t-test และ / หรือกรอบการทดสอบนัยสำคัญเชิงสมมติฐานว่างทั้งหมด เขาระบุว่าค่า p ถูกกำหนดอย่างไม่ดีเพราะขึ้นอยู่กับความตั้งใจของผู้ตรวจสอบ โดยเฉพาะอย่างยิ่งเขาให้ตัวอย่าง (หน้า 3-6) ของห้องปฏิบัติการสองแห่งที่รวบรวมชุดข้อมูลที่เหมือนกันเปรียบเทียบการรักษาสองแบบ หนึ่งห้องปฏิบัติการมุ่งมั่นที่จะรวบรวมข้อมูลจาก 12 วิชา (6 ต่อเงื่อนไข) ในขณะที่คนอื่น ๆ รวบรวมข้อมูลสำหรับระยะเวลาคงที่ซึ่งยังเกิดขึ้นกับผลตอบแทน 12 วิชา ตามสไลด์สำคัญสำหรับแตกต่างกันระหว่างแผนการเก็บรวบรวมข้อมูลทั้งสองนี้:สำหรับอดีต แต่สำหรับหลัง !p &lt; 0.05 t crit = 2.33 t crit = 2.45เสื้อttp &lt; 0.05p&lt;0.05p<0.05เสื้อcrit= 2.33tcrit=2.33t_{\textrm{crit}}=2.33เสื้อcrit= 2.45tcrit=2.45t_{\textrm{crit}}=2.45 บล็อกโพสต์ - ซึ่งตอนนี้ฉันไม่พบ - แนะนำว่าสถานการณ์ระยะเวลาคงที่มีองศาอิสระมากขึ้นเนื่องจากพวกเขาสามารถรวบรวมข้อมูลจาก …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.