ทำความเข้าใจกับ Gelman & Carlin“ เหนือกว่าการคำนวณพลัง: …” (2014)


11

ฉันกำลังอ่าน Gelman & Carlin "นอกเหนือจากการคำนวณกำลังไฟ: การประเมินข้อผิดพลาดประเภท S (เครื่องหมาย) และประเภท M (ขนาด)" (2014) ฉันพยายามที่จะเข้าใจความคิดหลักทางเดินหลัก แต่ฉันสับสน ใครสามารถช่วยกลั่นสาระสำคัญให้ฉันได้บ้าง

กระดาษมีลักษณะดังนี้ (ถ้าฉันเข้าใจถูกต้อง)

  • สถิติการศึกษาทางจิตวิทยามักถูกรบกวนด้วยตัวอย่างเล็ก ๆ
  • เงื่อนไขในผลลัพธ์ที่มีนัยสำคัญทางสถิติในการศึกษาที่กำหนด
    (1) ขนาดของผลกระทบที่แท้จริงมีแนวโน้มที่จะประเมินค่าสูงเกินไปอย่างรุนแรงและ
    (2) เครื่องหมายของผลกระทบอาจตรงข้ามกับความน่าจะเป็นสูง - เว้นแต่ขนาดตัวอย่างมีขนาดใหญ่พอ
  • ด้านบนแสดงโดยใช้การคาดเดาขนาดของเอฟเฟกต์ก่อนหน้าและโดยทั่วไปเอฟเฟกต์นี้จะมีขนาดเล็ก

ปัญหาแรกของฉันคือทำไมเงื่อนไขกับผลลัพธ์ที่มีนัยสำคัญทางสถิติ? มันคือการสะท้อนอคติสิ่งพิมพ์? แต่ดูเหมือนจะไม่เป็นเช่นนั้น แล้วทำไมล่ะ

ปัญหาที่สองของฉันคือถ้าฉันทำการศึกษาด้วยตัวเองฉันควรปฏิบัติกับผลลัพธ์ของฉันแตกต่างจากที่ฉันเคยทำหรือไม่ (ฉันทำสถิติบ่อยครั้งไม่คุ้นเคยกับเบย์) เช่นฉันจะใช้ตัวอย่างข้อมูลประเมินแบบจำลองและบันทึกการประมาณค่าพอยต์สำหรับผลของความสนใจและความมั่นใจที่ผูกไว้ ตอนนี้ฉันควรจะเชื่อผลของฉันหรือไม่ หรือฉันควรจะเชื่อใจถ้ามันมีนัยสำคัญทางสถิติ? มีการเปลี่ยนแปลงใด ๆ ก่อนหน้านั้น

สิ่งที่เป็นประเด็นหลัก (1) สำหรับ "ผู้ผลิต" ของการวิจัยเชิงสถิติและ (2) สำหรับผู้อ่านของเอกสารทางสถิติประยุกต์?

อ้างอิง:

ป.ล. ฉันคิดว่าองค์ประกอบใหม่สำหรับฉันที่นี่คือการรวมข้อมูลก่อนหน้านี้ซึ่งฉันไม่แน่ใจว่าจะปฏิบัติอย่างไร (มาจากกระบวนทัศน์ที่พบบ่อย)


อย่างที่คุณเห็นฉันค่อนข้างสับสนดังนั้นคำถามของฉันอาจไม่เหมือนกันหรือมีเหตุผล ฉันจะขอบคุณคำแนะนำใด ๆ ที่ทำให้เข้าใจมากขึ้นจากกระดาษที่ฉันกำลังศึกษา ฉันหวังว่าจะสามารถตั้งคำถามที่เหมาะสมได้มากขึ้นเมื่อความเข้าใจในเรื่องนี้ดำเนินไป
Richard Hardy

7
โปรดทราบว่าพวกเขาตั้งสถานที่ตั้งของกระดาษขึ้นที่เหมาะสมในการเริ่มต้น: " คุณได้เสร็จสิ้นเพียงแค่เรียกใช้การทดสอบคุณวิเคราะห์ผลและคุณ. พบว่ามีผลกระทบอย่างมีนัยสำคัญ . ที่ประสบความสำเร็จ แต่รอว่าข้อมูลเท่าไหร่การศึกษาของคุณจริงๆให้คุณ! คุณควรเชื่อมั่นในผลลัพธ์ของคุณมากแค่ไหน "--- พวกเขากำลังอธิบายว่าเกิดอะไรขึ้น / อะไรที่บอกเป็นนัย ๆ เมื่อคุณมีความสำคัญ พวกเขาใช้ผลที่ตามมาเพื่อกระตุ้นการมุ่งเน้นไปที่สิ่งอื่นนอกเหนือจากความสำคัญ
Glen_b -Reinstate Monica

คุณควรเชื่อมั่นในผลของคุณ - ใช่ - ถ้าคุณทำการทดสอบความสำคัญหลายอย่างและกรองสิ่งที่ไม่สำคัญออกไป นี่เป็น "ความลำเอียงในการพิมพ์" แต่สามารถเกิดขึ้นได้โดยไม่มีการตีพิมพ์ใด ๆ เพียงแค่อยู่ในห้องทดลองของคนคนหนึ่งในช่วงเวลาหลายเดือนหรือหลายปีของการทดลอง ทุกคนทำบางสิ่งเช่นนั้นในระดับหนึ่งดังนั้นความสนใจด้านการสอนในการปรับเงื่อนไขในผลลัพธ์ที่สำคัญ
อะมีบา

@ amoeba, OK แต่ถ้า (สมมุติ) ฉันประมาณเพียงหนึ่งโมเดลและมุ่งเน้นไปที่พารามิเตอร์ที่มีการกำหนดค่าล่วงหน้าเพียงตัวเดียว (ดังนั้นไม่มีการทดสอบหลายอย่าง) ผลลัพธ์ของ Gelman & Carlin จะเปลี่ยนแปลงอะไรไหม วิธีการเกี่ยวกับการรวมข้อมูลก่อนหน้านี้?
Richard Hardy

2
ข้อมูลก่อนหน้านี้เป็นสิ่งจำเป็นเพื่อประเมินอัตราการค้นพบที่ผิด ตรรกะปกติของการทดสอบที่สำคัญรับประกันเฉพาะประเภทอัตราความผิดพลาด P (signif | null) ในการประมาณค่า P (null | signif) คุณต้องเรียกใช้ก่อน นั่นคือสิ่งที่ Gelman & Carlin กำลังทำอยู่ที่นี่ หากคุณประมาณหนึ่งโมเดลเท่านั้น "อัตราการค้นพบที่ผิดพลาด" นั้นไม่มีความหมาย (ในวิธีการที่ใช้บ่อย); แต่โดยปกติแล้วคนประมาณว่ามีหลายโมเดล :-) หรืออย่างน้อยพวกเขาอ่านวรรณกรรมที่ประกอบด้วยคนอื่น ๆ ที่ประเมินโมเดลหลาย ๆ แบบ
อะมีบา

คำตอบ:


5

ฉันอ่านกระดาษอีกครั้งและคราวนี้ดูเหมือนชัดเจนมากขึ้น ตอนนี้ความคิดเห็นที่เป็นประโยชน์โดย @Glen_b และ @amoeba ก็สมเหตุสมผลดี

Pβ^(|β^ is statistically significant)Pβ^().
  1. อคติสิ่งพิมพ์ (เฉพาะผลลัพธ์ที่มีนัยสำคัญทางสถิติเท่านั้นที่ได้รับการเผยแพร่) และ
  2. ความลำเอียงในการคำนวณการออกแบบสำหรับการศึกษาใหม่

ข่าวดีก็คือปัญหาทั้งสองสามารถแก้ไขได้อย่างน่าพอใจ

  1. βplausibleβ^s.e.(β^)tPβ^()
  2. βplausible

หากต้องการตอบคำถามสองข้อของฉันเองโดยย่อ:

  1. มันเป็นเรื่องเกี่ยวกับอคติสิ่งพิมพ์แม้ว่าจะไม่ได้อยู่ในแง่ของการขุดลอกข้อมูล แต่ในบริบทของการศึกษาที่ไม่ได้รับการยอมรับ มีผลลัพธ์ที่มีนัยสำคัญทางสถิติน่าจะเป็นของ, พูด, ปฏิเสธ 5% ภายใต้ null (ดังนั้น null เป็นจริงจริง แต่เราเกิดขึ้นจะจบลงห่างไกลจากมันโดยบังเอิญ) มากกว่าการปฏิเสธภายใต้ทางเลือก (ที่ null ไม่เป็นความจริงและผลลัพธ์คือ "ของแท้")
  2. ฉันควรระมัดระวังเกี่ยวกับการปฏิเสธโมฆะเนื่องจากผลลัพธ์ที่มีนัยสำคัญทางสถิติน่าจะเกิดจากโอกาส (แม้ว่าโอกาส จำกัด พูด 5%) แทนที่จะเป็นเพราะ "เอฟเฟ็กต์" ของแท้ (เพราะพลังงานต่ำ) .

2
คำตอบของ Glen_b นี้มีประโยชน์มากเช่นกัน
Richard Hardy

βplausibleD

@PatrickB. ขอบคุณ ฉันจะดูทีหลัง (ฉันเห็นว่าฉันได้ลบคำตอบของคุณก่อนหน้านี้แล้วนั่นหมายความว่าฉันได้พบว่ามีประโยชน์แล้ว)
Richard Hardy

1
Richard ฉันได้พัฒนาฟังก์ชัน Rเพื่อประเมินข้อผิดพลาดประเภท "S" และประเภท "M" สำหรับกรณีทั่วไปของขนาดเอฟเฟกต์ไม่ใช่สิ่งที่ Gelman แสดงภายใต้การแจกแจงแบบปกติ มีเมื่อคุณอ่านบทความกระบวนการกู้คืนง่าย ๆ จากการค้นหาก่อนหน้านี้และมีนัยสำคัญทางสถิติ แต่กระบวนการทั้งหมดขึ้นอยู่กับการวิเคราะห์พลังงานอย่างสมบูรณ์ ในสาระสำคัญสำหรับการศึกษาที่มีเสียงดังขนาดเล็ก SE มีขนาดใหญ่และโดยสมมติว่ามีหลายขนาดที่เหมาะสมโดยขนาดเอฟเฟกต์ที่น่าเชื่อถือที่ตรวจสอบได้คุณสามารถได้รับเหตุผล ...
rnorouzian

1
... ประมาณว่าการศึกษาในอนาคตควรรวมในแง่ของขนาดตัวอย่างที่จำเป็นในการพูดเพื่อหลีกเลี่ยงการได้รับอัตราสูงของประเภท "S" และอัตราการพูดเกินจริงสูง (เช่นประเภท "M") สำหรับบันทึกประเภท "S" ของเจลแมนนั้นเป็นเพียงชิ้นส่วนนั้นภายใต้การกระจายขนาดของเอฟเฟกต์พื้นฐานที่อยู่ฝั่งตรงข้ามของเอฟเฟกต์อันเดอร์ลิ่งหารด้วยพลังงาน อย่างไรก็ตามดูที่ฟังก์ชันในกรณีที่สามารถช่วยได้
rnorouzian

2

มีอีกมุมหนึ่งของบทความนี้ซึ่งจะมีประโยชน์หากคุณใช้การวิเคราะห์แบบเบย์อยู่แล้วและไม่สนใจส่วนที่มีนัยสำคัญทางสถิติ

PβVβ

p(β|V)p(V|β)p(β)

VVp(V|β)

βplausibleP(V|β)β=βplausibleVβplausible คือขนาดเอฟเฟกต์จริง

Vβ

VV

ββplausible

βplausible

βplausible

คุณต้องระวังว่าไม่มีใครใช้เมตริก "พลัง" นี้ในทางที่ผิดเช่นเดียวกับการคำนวณพลังงานแบบประจำซึ่งค่อนข้างยาก แต่ตัวชี้วัดทั้งหมดเหล่านี้ค่อนข้างมีประโยชน์สำหรับการวิเคราะห์การออกแบบที่คาดหวังและย้อนหลังแม้ว่าขั้นตอนการสร้างแบบจำลองทั้งหมดคือ Bayesian และจะไม่อ้างถึงผลลัพธ์ใด ๆ ที่มีนัยสำคัญทางสถิติ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.