นักวิจัยแต่ละคนควรคิดอย่างไรเกี่ยวกับอัตราการค้นพบที่ผิด?


30

ฉันได้พยายามสรุปว่า False Discovery Rate (FDR) ควรแจ้งข้อสรุปของนักวิจัยแต่ละคนอย่างไร ตัวอย่างเช่นถ้าการศึกษาของคุณจะ underpowered คุณควรลดผลลัพธ์ของคุณแม้ว่าพวกเขาจะมีนัยสำคัญที่ ? หมายเหตุ: ฉันกำลังพูดถึง FDR ในบริบทของการตรวจสอบผลลัพธ์ของการศึกษาหลาย ๆ ครั้งในภาพรวมไม่ใช่วิธีการแก้ไขการทดสอบหลายรายการα=.05

การสร้างสมมุติฐาน (อาจเผื่อแผ่) ที่ของการทดสอบสมมติฐานเป็นจริงจริง FDR เป็นหน้าที่ของทั้งอัตราการผิดพลาดประเภทที่ 1 และประเภท II ดังต่อไปนี้:.5

FDR=αα+1β.

มีเหตุผลที่ว่าหากการศึกษามีความไม่เพียงพอเราไม่ควรเชื่อถือผลลัพธ์แม้ว่าจะมีความสำคัญเท่าที่เราจะได้รับการศึกษาอย่างเพียงพอ ดังนั้นตามที่นักสถิติบางคนอาจกล่าวว่ามีสถานการณ์ที่ "ในระยะยาว" เราอาจเผยแพร่ผลลัพธ์ที่สำคัญหลายอย่างที่เป็นเท็จหากเราปฏิบัติตามแนวทางดั้งเดิม หากร่างกายของการวิจัยมีเอกลักษณ์เฉพาะด้วยการศึกษาที่ไม่ได้รับการยอมรับอย่างต่อเนื่อง (เช่นยีนของผู้สมัครวรรณกรรมเกี่ยวกับสภาพแวดล้อมของทศวรรษก่อนหน้า ) แม้กระทั่งการค้นพบที่มีนัยสำคัญที่ทำซ้ำ×

การใช้แพคเกจการ R extrafont, ggplot2และxkcdผมคิดว่านี่อาจจะมีแนวความคิดที่เป็นประโยชน์ในฐานะที่เป็นปัญหาของมุมมอง: ผลลัพธ์ที่สำคัญ ...

ไม่แน่ใจ ...

รับข้อมูลนี้สิ่งที่นักวิจัยแต่ละคนควรจะทำอย่างไรต่อไป ? ถ้าฉันเดาได้ว่าขนาดของเอฟเฟกต์ที่ฉันกำลังศึกษาควรจะเป็นขนาดใด (และด้วยการประมาณ1βตามขนาดตัวอย่างของฉัน) ฉันควรปรับระดับของฉันαจนกว่า FDR = .05 หรือไม่ ฉันควรเผยแพร่ผลลัพธ์ที่ระดับα=.05แม้ว่าการศึกษาของฉันจะได้รับการยอมรับและไม่ได้รับการพิจารณาจาก FDR ต่อผู้บริโภควรรณกรรม

ฉันรู้ว่านี่เป็นหัวข้อที่มีการพูดคุยกันบ่อยครั้งทั้งในเว็บไซต์นี้และในเอกสารทางสถิติ แต่ฉันไม่สามารถหาข้อสรุปเกี่ยวกับความเห็นในเรื่องนี้ได้


แก้ไข:ในการตอบสนองต่อความคิดเห็นของ @ amoeba, FDR สามารถได้มาจากตารางฉุกเฉินอัตราข้อผิดพลาดประเภท I / type II มาตรฐาน (ให้อภัยความอัปลักษณ์)

|                            |Finding is significant |Finding is insignificant |
|:---------------------------|:----------------------|:------------------------|
|Finding is false in reality |alpha                  |1 - alpha                |
|Finding is true in reality  |1 - beta               |beta                     |

ดังนั้นหากเรานำเสนอด้วยการค้นพบที่สำคัญ (คอลัมน์ 1) โอกาสที่จะเป็นเท็จในความเป็นจริงคืออัลฟาเหนือผลรวมของคอลัมน์

แต่ใช่เราสามารถแก้ไขคำจำกัดความของ FDR เพื่อสะท้อนความน่าจะเป็น (ก่อนหน้านี้) ที่สมมติฐานที่กำหนดเป็นจริงแม้ว่าอำนาจการศึกษายังคงมีบทบาท:(1β)

FDR=α(1prior)α(1prior)+(1β)prior

มันอาจจะไม่ให้คำตอบที่ชัดเจนกับคำถามของคุณ แต่คุณอาจหาแรงบันดาลใจในการนี้ข้อความ
JohnRos

1
กระดาษของ David Colquhoun ที่คุณเชื่อมโยงไปมีการพูดคุยกันที่นี่เมื่อเร็ว ๆ นี้ (ด้วย @DavidColquhoun เข้าร่วมการสนทนาด้วยตนเอง) คุณอาจสนใจดู
อะมีบาพูดว่า Reinstate Monica

2
สูตรสำหรับ FDR ในแง่ของและβมาจากที่ใด บางทีฉันอาจงี่เง่า แต่ฉันไม่เห็นว่าทำไมมันควรเป็นจริง ฉันคาดหวังว่า FDR จะขึ้นอยู่กับความชุกของโมฆะในประชากรของการศึกษาซึ่งดูเหมือนจะไม่เข้าสูตรของคุณ ฉันสับสน. αβ
อะมีบาพูดว่า Reinstate Monica

2
ดีโอเคฉันควรจะกลับว่าสูตรเดิมของคุณถูกต้องในกรณีพิเศษเมื่อความน่าจะเป็นก่อน 0.5 ที่จริงคุณเขียนมาตลอด แต่ฉันไม่ได้สังเกต ขอโทษ นอกจากนี้คุณยังถูกต้องว่าสำหรับpใดก็ตามที่ระบุ(นอกเหนือจากp = 0หรือก่อนหน้า= 1 ) ของคุณ FDR จะเติบโตขึ้นด้วยกำลังที่ลดลงถึง1ที่ศูนย์ที่ศูนย์ ดังนั้นคำถามของคุณจึงสมเหตุสมผล +1 p=0.5pp=0prior=11
อะมีบาพูดว่า Reinstate Monica

1
@Horst, "ปัญหา" กับการศึกษา underpowered (นั่นคือการอธิบาย OP) คือว่าหากการศึกษาทั้งหมดในบางสาขามีการดำเนินการอย่างไม่มีการควบคุมแล้วพวกเขาก็แทบจะไม่ได้ตรวจพบผลที่แท้จริงในขณะที่รายงานการค้นพบที่ผิดพลาด การค้นพบที่รายงานส่วนใหญ่เป็นเท็จ (เช่น FDR ที่สูงมาก) นี่ไม่ใช่สถานการณ์ที่ดีสำหรับเขตข้อมูลทางวิทยาศาสตร์ที่จะมาα
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


6

p

แต่เป็นสิ่งสำคัญที่จะต้องให้การศึกษาทั้งหมดเข้าถึงได้โดยไม่คำนึงถึงระดับพลังงานหรือผลลัพธ์ที่สำคัญ ในความเป็นจริงนิสัยที่ไม่ดีของการเผยแพร่เพียงนัยสำคัญและปกปิดผลลัพธ์ที่ไม่สำคัญนำไปสู่การมีอคติสิ่งพิมพ์และทำลายสถิติโดยรวมของผลลัพธ์ทางวิทยาศาสตร์

ดังนั้นผู้วิจัยแต่ละคนควรทำการศึกษาในลักษณะที่ทำซ้ำได้เก็บบันทึกทั้งหมดและบันทึกขั้นตอนการทดลองทั้งหมดแม้ว่าจะไม่ได้ขอรายละเอียดดังกล่าวจากวารสารการตีพิมพ์ก็ตาม เขาไม่ควรกังวลมากเกินไปเกี่ยวกับพลังงานต่ำ แม้แต่ผลที่ไม่เป็นทางการ (= สมมติฐานว่างที่ไม่ได้ปฏิเสธ) ก็จะเพิ่มค่าประมาณสำหรับการศึกษาต่อไปตราบใดที่เราสามารถมีคุณภาพของข้อมูลที่เพียงพอ

ppp


Horst คุณดูเหมือนจะตอบคำถามที่แตกต่างจากที่ถาม
Alexis

1
โปรดทราบว่าคำถามเกี่ยวกับ FDR ระหว่างการศึกษาไม่ใช่ภายใน สิ่งนี้เกี่ยวข้องกับวิธีการแบบเบย์บางอย่างเพื่อให้ได้อัตราการตัดสินใจโดยรวมที่ยอมรับได้ คำตอบของฉันย้ำว่าการตัดสินโดยรวมค่อนข้างจะทำโดยการรวบรวมข้อมูลการศึกษาและการประมาณไม่ใช่การตัดสินใจดังนั้นปัญหาจึงแก้ไขได้ด้วยการสร้าง "การศึกษาเสมือนจริง" ขนาดใหญ่ตราบใดที่ข้อมูล (ไม่ใช่การตัดสินใจ) ของการศึกษาเดี่ยวนั้นเชื่อถือได้
Horst Grünbusch


5

นี่เป็นคำถามเชิงปรัชญาที่ลึกซึ้ง ฉันเป็นนักวิจัยด้วยตัวเองและฉันก็คิดอยู่พักนึงแล้ว แต่ก่อนคำตอบเรามาทบทวนกันว่าอัตราการค้นพบที่ผิดคืออะไร

FDR กับ P P เป็นเพียงการวัดความน่าจะเป็นที่จะบอกว่ามีความแตกต่างเมื่อไม่มีความแตกต่างเลยและไม่คำนึงถึงอำนาจ ในทางกลับกัน FDR คำนึงถึงพลังงานด้วย อย่างไรก็ตามในการคำนวณ FDR เราต้องทำการตั้งสมมติฐาน: ความน่าจะเป็นที่เราได้รับผลบวกที่แท้จริงคืออะไร? นั่นคือสิ่งที่เราจะไม่สามารถเข้าถึงได้ยกเว้นภายใต้สถานการณ์ที่มีการวางแผนอย่างสูง จริง ๆ แล้วฉันพูดเกี่ยวกับเรื่องนี้เมื่อเร็ว ๆ นี้ในระหว่างการสัมมนาที่ฉันให้ คุณสามารถค้นหาภาพนิ่งที่นี่

นี่คือภาพจากกระดาษของ David Colquhoun ในหัวข้อ:

Calquhoun 2014

อัตราการค้นพบที่ไม่ถูกต้องคำนวณโดยการหารจำนวนของผลบวกที่ผิดพลาดด้วยผลรวมของผลบวกจริงและผลบวกเท็จ (ในตัวอย่าง 495 / (80 + 495) x 100% = 86%!

เพิ่มเติมเล็กน้อยเกี่ยวกับ P

ลองดูสไลด์อย่างใกล้ชิดจากการบรรยายของฉัน ฉันพูดถึงความจริงที่ว่าค่า P มาจากการแจกแจง ซึ่งหมายความว่าจะมีโอกาสที่คุณจะได้พบกับการบวกเท็จ ดังนั้นนัยสำคัญทางสถิติไม่ควรถูกมองว่าเป็นความจริงเด็ดขาด ฉันยืนยันว่าสิ่งที่สำคัญทางสถิติควรตีความว่า "เฮ้อาจมีบางสิ่งที่น่าสนใจที่นี่ฉันไม่แน่ใจมีคนไปตรวจสอบอีกครั้ง!" ดังนั้นความคิดพื้นฐานของการทำซ้ำในการวิจัย!

ดังนั้นสิ่งที่เราจะทำ? จุดที่น่าสนใจเกี่ยวกับตัวเลขข้างต้นและการวิเคราะห์ P และ FDR ของฉันคือวิธีเดียวที่เราสามารถบรรลุความเข้าใจที่ชัดเจนคือผ่าน 1) การทำซ้ำและ 2) การเผยแพร่ผลลัพธ์ทั้งหมด ซึ่งรวมถึงผลลัพธ์เชิงลบ (แม้ว่าผลลัพธ์เชิงลบจะตีความยาก) อย่างไรก็ตามข้อสรุปที่เราดึงมาจากผลลัพธ์ของเราจะต้องเหมาะสม น่าเสียดายที่ผู้อ่านและนักวิจัยจำนวนมากไม่เข้าใจแนวคิดของ P และ FDR อย่างสมบูรณ์ ฉันเชื่อว่ามันเป็นความรับผิดชอบของผู้อ่านที่จะวิเคราะห์ผลลัพธ์อย่างเหมาะสม ... ซึ่งหมายความว่าภาระนั้นอยู่บนไหล่ของนักการศึกษา ท้ายที่สุดค่า P ของ 0.000000001 นั้นไม่มีความหมายหาก "ความชุก" (ดูรูปด้านบน) เป็น 0 (ในกรณีนั้นอัตราการค้นพบที่ผิดพลาดจะเป็น 100%)

ในฐานะนักวิจัยการตีพิมพ์โปรดระมัดระวังในการทำความเข้าใจผลลัพธ์ของคุณอย่างเต็มที่และทำการอ้างสิทธิ์ที่แข็งแกร่งเท่าที่คุณต้องการ หากปรากฎว่า FDR สำหรับการศึกษาเฉพาะของคุณคือ 86% (เช่นตัวอย่างด้านบน) คุณควรระมัดระวังเกี่ยวกับการตีความของคุณ ในทางกลับกันถ้า FDR มีขนาดเล็กเพียงพอสำหรับความสะดวกสบายของคุณ .... ยังต้องระวังเกี่ยวกับการตีความของคุณ

ฉันหวังว่าทุกอย่างที่นี่จะชัดเจน มันเป็นแนวคิดที่สำคัญมากและฉันดีใจที่คุณพูดคุยกัน แจ้งให้เราทราบหากคุณมีคำถาม / ข้อสงสัย / ฯลฯ


1
@Alexis ไม่มีสิ่งใดที่จะเป็นการศึกษาที่เหนือชั้น! ตราบใดที่สังเกตขนาดของเอฟเฟกต์จะไม่มีอันตรายใด ๆ ในการกำหนดขนาดของเอฟเฟกต์อย่างใกล้ชิดยิ่งขึ้นโดยการศึกษาด้วยขนาดตัวอย่างที่ใหญ่กว่า ความคิดของ 'การครอบงำ' ดูเหมือนว่าจะเชื่อมโยงกับความคิดที่ว่างเปล่าซึ่งเราสามารถทำการอ้างถึงที่มีประโยชน์จากการดูค่า P โดยไม่ต้องดูข้อมูลที่สังเกตได้
Michael Lew

1
@MichaelLew: คุณถูกต้องที่ปัญหาการเอาชนะอาจได้รับการแก้ไข (บางส่วน) ถ้าคุณพิจารณาขนาดเอฟเฟกต์โดยประมาณพร้อมกับค่า p เสมอ อย่างไรก็ตามสิ่งนี้เอาชนะวัตถุประสงค์ของค่า p เล็กน้อย: การแมปตัวประมาณผลกับผลลัพธ์การทดสอบแบบไบนารี "เอฟเฟ็กต์ปัจจุบัน / ไม่ปรากฏ" เช่นนั้นอัตราข้อผิดพลาดประเภทที่ 1 คือ coorect นอกจากนี้การตัดสินของคุณว่าขนาดผลกระทบที่เกี่ยวข้องอาจมีการเปลี่ยนแปลงอย่างไรเมื่อคุณเห็นค่า p ดังนั้นจึงเป็นการดีที่สุดที่จะแก้ไขปัญหาโดยการกำหนดช่วงผลกระทบล่วงหน้าล่วงหน้าและเปรียบเทียบกับการศึกษา CI ตามที่อเล็กซิสแนะนำ
Horst Grünbusch

1
θ

1
ถึงระดับ ... ฉันพูดอย่างเคร่งครัดในแง่ของการอนุมานเชิงสถิติในขณะที่คุณกำลังพูดเกี่ยวกับตรรกะของการออกแบบการศึกษาและภววิทยาของการผลิตความรู้ทางวิทยาศาสตร์ ที่กล่าวว่าฉันรู้สึกว่าการค้นพบในเชิงบวกที่ไม่ได้รับการตีความด้วยโปรโตคอลการดูแลมากเกินไป ฯลฯ มีแนวโน้มที่จะปลอมแปลงเป็นผลการวิจัยเชิงลบ ไม่ใช่ทุกปรากฏการณ์ของจักรวาลที่จะศึกษาแยก (e กรัมทั้งสุขภาพของประชาชนและประชาชนพร้อมกันทางเคมีสังคมพฤติกรรม ฯลฯ ) และความไม่แน่นอนเกี่ยวกับธรรมชาติต้องมาพร้อมกับการศึกษาระบบที่ซับซ้อนเช่นนี้
Alexis

2
@ HorstGrünbuschฉันไม่เห็นคำถามเดิมว่าถูกตั้งค่าในบริบทไฮบริดตามที่เกี่ยวข้องกับอัลฟ่าและเบต้าไม่ใช่ค่า P อย่างไรก็ตามคำตอบของ justanotherbrain จะต้องมีการทำงานอย่างระมัดระวังอีกครั้งเพื่อวางไว้ในกรอบ Neyman & Pearson หรือกรอบการทดสอบที่สำคัญเท่านั้น อัตราการค้นพบเท็จเป็นของจริงในอดีตเท่านั้น
Michael Lew

3

เพื่อช่วยให้เข้าใจถึงความสัมพันธ์ฉันได้สร้างกราฟของ FDR นี้เป็นฟังก์ชั่นของความน่าจะเป็นก่อนหน้าสำหรับพลังต่างๆ (ด้วย alpha = 0.05) สังเกตกราฟนี้และสมการของ @Buckminster จะคำนวณ FDR สำหรับผลลัพธ์ทั้งหมดที่มี P น้อยกว่าอัลฟา กราฟจะดูแตกต่างหากคุณพิจารณาค่า P ใกล้เคียงกับค่า P ที่คุณเกิดขึ้นเพื่อสังเกตในการศึกษาเดียว


2
และนี่คือเวอร์ชั่นแอพ Shiny (แตกต่างกันเล็กน้อย): buckminster.shinyapps.io/FalseDiscoveryRate
Richard Border

1

เพื่อแนะนำสิ่งพิมพ์คือการตัดสินใจ ฉันคิดว่ามันคุ้มค่าที่จะศึกษาว่าอะไรคือผลประโยชน์และค่าใช้จ่ายที่เกี่ยวข้องกับการตัดสินใจครั้งนี้

1) สภาพแวดล้อมทางวิชาการผลักดันนักวิจัยให้ตีพิมพ์เผยแพร่ในระดับสากลมากขึ้นคิดว่าการจัดอันดับสิ่งพิมพ์ต่าง ๆ จะมีผลกับบันทึกนี้ด้วย เราสามารถสันนิษฐานได้ว่าวารสารที่มีชื่อเสียงมากกว่านี้อาจมีการตรวจสอบคุณภาพที่แข็งแกร่งกว่า (ฉันหวังว่าจะเป็นเช่นนั้น)

2) อาจมีค่าใช้จ่ายทางสังคมที่เกี่ยวข้องกับการผลิตสิ่งพิมพ์ที่มีขนาดใหญ่เกินไป ทรัพยากรเหล่านี้อาจถูกนำไปใช้ที่อื่นดีกว่าเช่นในการวิจัยประยุกต์โดยไม่มีการตีพิมพ์ผล เมื่อเร็ว ๆ นี้มีสิ่งพิมพ์ที่สิ่งพิมพ์จำนวนมากไม่สำคัญเท่าแหล่งข้อมูลเนื่องจากมีสิ่งพิมพ์ใหม่จำนวนมาก ... :)

http://arxiv.org/pdf/1503.01881v1.pdf

สำหรับนักวิจัยหมายเลขหนึ่งที่บังคับให้เผยแพร่มากขึ้นและฉันคิดว่าควรมีการตรวจสอบคุณภาพเชิงสถาบันซึ่งไม่ได้ขึ้นอยู่กับประชาชนแต่ละคนในการรักษาคุณภาพในระดับที่ยอมรับ

ไม่ว่าในกรณีใดก็ตามค่าพารามิเตอร์ของคุณไม่เป็นความจริงค่าเหล่านี้จะต้องได้รับการพิจารณาจากค่าใช้จ่ายและผลประโยชน์ต่างๆที่เกี่ยวข้องกับจำนวนผลลัพธ์ที่เผยแพร่เมื่อผลลัพธ์มีความจริงและ / หรือมีความสำคัญอย่างไม่ถูกต้อง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.