ข้อมูล "การสำรวจ" เทียบกับข้อมูล "การสอดแนม" / "การทรมาน" หรือไม่


30

หลายครั้งที่ฉันเจอคำเตือนแบบไม่เป็นทางการกับ "การสอดแนมข้อมูล" (นี่เป็นตัวอย่างที่น่าขบขัน ) และฉันคิดว่าฉันมีความคิดที่เข้าใจง่ายเกี่ยวกับสิ่งที่แปลว่าอะไรและทำไมมันถึงเป็นปัญหา

ในทางกลับกัน "การวิเคราะห์ข้อมูลเชิงสำรวจ" ดูเหมือนจะเป็นขั้นตอนที่ได้รับการยกย่องอย่างสมบูรณ์ในทางสถิติอย่างน้อยก็ตัดสินจากความจริงที่ว่าหนังสือที่มีชื่อนั้นยังคงอ้างถึงในฐานะคลาสสิก

ในสายงานของฉันฉันมักจะเจอสิ่งที่ดูเหมือนฉันชอบอาละวาด "ข้อมูลการสอดแนม" หรือบางทีมันอาจจะอธิบายได้ดีกว่าว่า " การทรมานข้อมูล" แม้ว่าผู้ที่ทำมันดูเหมือนจะเห็นกิจกรรมเดียวกันกับการสำรวจที่สมเหตุสมผลและไม่มีเหตุผลทั้งหมด "

นี่คือสถานการณ์ทั่วไป: การทดลองที่มีราคาแพงเกิดขึ้น (โดยไม่ต้องคิดมากนักกับการวิเคราะห์ที่ตามมา) นักวิจัยดั้งเดิมไม่สามารถมองเห็น "เรื่องราว" ในข้อมูลที่รวบรวมได้อย่างง่ายดายใครบางคนจะถูกนำไปใช้เพื่อ "พ่อมดทางสถิติ" หลังจากการแบ่งและการทำให้ข้อมูลเป็นไปตามลำดับในที่สุดก็สามารถดึง "เรื่องราว" ที่เผยแพร่ได้ออกมา

แน่นอนว่ามักจะมี "การตรวจสอบความถูกต้อง" ถูกโยนลงในรายงาน / กระดาษขั้นสุดท้ายเพื่อแสดงให้เห็นว่าการวิเคราะห์ทางสถิติอยู่ในสภาพที่ดีและมากขึ้น แต่ทัศนคติการตีพิมพ์เผยแพร่ที่เห็นได้ชัดทั้งหมดทำให้ฉันสงสัย

น่าเสียดายที่ความเข้าใจที่ จำกัด ของฉันเกี่ยวกับสิ่งที่ต้องทำและไม่ได้ทำการวิเคราะห์ข้อมูลทำให้ฉันพ้นจากข้อสงสัยที่คลุมเครือเช่นนั้นดังนั้นการตอบสนองแบบอนุรักษ์นิยมของฉันคือการไม่สนใจสิ่งที่ค้นพบ

ความหวังของฉันคือไม่เพียง แต่เข้าใจถึงความแตกต่างระหว่างการสำรวจและการสอดแนม / การทรมาน แต่ยังรวมถึงและที่สำคัญกว่านั้นคือการเข้าใจหลักการและเทคนิคที่ดีกว่าสำหรับการตรวจจับเมื่อสายนั้นผ่านไปแล้ว วิธีที่สมเหตุสมผลสามารถอธิบายขั้นตอนการวิเคราะห์ที่น้อยกว่าที่ดีที่สุดและสามารถไปไกลกว่าการตอบสนองในปัจจุบันของฉันที่ค่อนข้างง่ายสำหรับการไม่เชื่อฟังผ้าห่ม


แก้ไข: ขอบคุณทุกท่านสำหรับความคิดเห็นและคำตอบที่น่าสนใจมาก เมื่อพิจารณาจากเนื้อหาของพวกเขาฉันคิดว่าฉันอาจไม่ได้อธิบายคำถามของฉันได้ดีพอ ฉันหวังว่าการอัปเดตนี้จะอธิบายให้ชัดเจน

คำถามของฉันที่นี่ไม่เกี่ยวข้องกับสิ่งที่ฉันควรทำมากนักเพื่อหลีกเลี่ยงการทรมานข้อมูลของฉัน (แม้ว่านี่จะเป็นคำถามที่ให้ความสนใจฉันด้วย) แต่: ฉันควรคำนึงถึง (หรือประเมิน) ผลลัพธ์ที่ฉันรู้มาอย่างไร "การทรมานข้อมูล" เช่นนั้น

สถานการณ์ได้รับความสนใจมากขึ้นในกรณีเหล่านั้น (ยิ่งหายาก) ยิ่งไปกว่านั้นฉันยังอยู่ในฐานะที่สามารถแสดงความคิดเห็นเกี่ยวกับ "สิ่งที่ค้นพบ" ก่อนที่พวกเขาจะได้รับการตีพิมพ์

เมื่อมาถึงจุดนี้สิ่งที่ฉันทำได้มากที่สุดก็คือพูดอะไรบางอย่างเช่น "ฉันไม่รู้ว่าฉันจะให้ความเชื่อถือได้มากแค่ไหนกับสิ่งที่ฉันค้นพบจากสิ่งที่ฉันรู้เกี่ยวกับสมมติฐานและขั้นตอนที่ทำให้พวกเขาได้รับ" นี่มันคลุมเครือเกินกว่าจะพูดได้ ต้องการไปไกลกว่าความคลุมเครือดังกล่าวเป็นแรงจูงใจสำหรับโพสต์ของฉัน

เพื่อความยุติธรรมข้อสงสัยของฉันที่นี่ขึ้นอยู่กับวิธีทางสถิติที่น่าสงสัยมากกว่า ในความเป็นจริงฉันเห็นหลังมากขึ้นเนื่องจากปัญหาที่ลึกกว่า: การรวมกันของทัศนคติขุนนางที่มีต่อการออกแบบการทดลองควบคู่ไปกับความมุ่งมั่นอย่างเป็นหมวดหมู่ในการเผยแพร่ผลลัพธ์ตามที่พวกเขายืน (เช่นไม่มีการทดลองเพิ่มเติม) แน่นอนว่าโครงการติดตามผลมักจะนึกถึง แต่มันก็เป็นคำถามที่ไม่น่าสนใจเลยว่าจะไม่มีกระดาษแผ่นเดียวออกมาพูด "ตู้เย็นที่เต็มไปด้วย 100,000 ตัวอย่าง"

สถิติเข้ามาในภาพเป็นเพียงวิธีการในการบรรลุวัตถุประสงค์สูงสุดนี้ ข้ออ้างเพียงอย่างเดียวสำหรับการยึดสถิติ (ที่สองในสถานการณ์ทั้งหมด) คือความท้าทายที่อยู่ตรงหน้าต่อสมมติฐานของ "การตีพิมพ์ด้วยค่าใช้จ่ายทั้งหมด" นั้นไร้ค่า

ในความเป็นจริงฉันสามารถนึกถึงการตอบสนองที่มีประสิทธิภาพเพียงข้อเดียวในสถานการณ์เช่นนี้: เพื่อเสนอการทดสอบทางสถิติบางอย่าง (ไม่ต้องการการทดสอบเพิ่มเติม) ที่ทดสอบคุณภาพการวิเคราะห์อย่างแท้จริง แต่ฉันไม่ได้มีสถิติในการสับ ความหวังของฉัน (ไร้เดียงสาในการหวนกลับ) คือการหาสิ่งที่ฉันสามารถศึกษาที่อาจทำให้ฉันมากับการทดสอบดังกล่าว ...

เมื่อฉันเขียนสิ่งนี้มันเริ่มขึ้นเมื่อฉันว่าถ้ามันไม่มีอยู่จริงโลกสามารถใช้สถิติย่อยใหม่หนึ่งสาขาเพื่อรองรับเทคนิคในการตรวจจับและเปิดเผย "การทรมานข้อมูล" (แน่นอนฉันไม่ได้หมายถึงการดำเนินการโดยการเปรียบเทียบ "การทรมาน": ปัญหาไม่ใช่ "การทรมานข้อมูล" ต่อรายการ แต่การค้นพบ "ปลอม" อาจนำไปสู่)


1
@BakakP คำพูดนั้นปรากฏในหกคำตอบที่นี่รวมถึงในเรื่องตลกเกี่ยวกับสถิติและหัวข้อการเสนอราคาสถิติ (อันหลังเป็นแหล่งข้อมูลที่ดีสำหรับใบเสนอราคาที่เกี่ยวข้องหากคุณเคยตามล่ามาบ้าง)
whuber

7
ฉันไม่คิดว่าจะมีความแตกต่างระหว่างเทคนิคที่ใช้ใน 'การสอดแนมข้อมูล' และใน 'การวิเคราะห์ข้อมูลเชิงสำรวจ' - การใช้ความเสื่อมเสียของคำศัพท์ก่อนหน้านี้สำหรับการวิเคราะห์เชิงสำรวจที่นำเสนอเป็นการวิเคราะห์เชิงยืนยัน
Scortchi - Reinstate Monica

8
ไฟน์แมนในหนังสือที่คุณอ้างอิงตอบคำถามนี้แล้ว: "ถ้าเขาต้องการทดสอบสมมติฐานนี้ [ค้นพบผ่านการสำรวจ], ... เขาต้องทำการทดลองอีกครั้ง" สิ่งที่คุณดูเหมือนจะถามข้อกังวลว่าไฟน์แมนอาจจะรุนแรงเกินไป ("พูดเกินจริงไปเล็กน้อย"): การทดสอบสมมติฐานอย่างเป็นทางการสามารถพิสูจน์ได้ว่าพวกเขาได้รับการพัฒนาโดยการสำรวจข้อมูลเดียวกันหรือไม่
whuber

2
@whuber: ในทางปฏิบัติมันเป็นเรื่องที่น่าทึ่งมากขึ้นเพราะบ่อยครั้งที่การทดสอบกับข้อมูลที่แตกต่างกัน แต่การตั้งค่าการทดลองหรือประเภทการทดสอบเดียวกันจะนำไปสู่ผลลัพธ์ที่คล้ายกันโดยไม่ตั้งใจ
มกราคม

1
@ มกราคม: ฉันคิดว่ามันขึ้นอยู่กับข้อมูล / การทดลองของคุณ พิจารณาเช่นการวิจัยทางชีวภาพ / การแพทย์ สำหรับข้อมูลที่ฉันเห็นการเปลี่ยนแปลงที่ใหญ่ที่สุดมักจะอยู่ระหว่างผู้ป่วย (วิชา) การทดลองซ้ำกับผู้ป่วยรายใหม่หวังว่าจะนำไปสู่ผลลัพธ์ที่คล้ายกัน แต่ในทางปฏิบัติสิ่งนี้มักไม่เป็นเช่นนั้น (เช่นผลการทำนายของแบบจำลองที่พัฒนาในชุดแรกของผู้ป่วยแย่กว่าที่คาดไว้มากซึ่งหมายความว่า ข้อมูลในการทดลองครั้งแรกคือ "ถูกทรมาน")
cbeleites รองรับโมนิก้า

คำตอบ:


22

มีความแตกต่างซึ่งบางครั้งไม่ได้รับความสนใจมากพอคือการสร้างสมมุติฐานกับการทดสอบสมมติฐานหรือการวิเคราะห์เชิงสำรวจกับการทดสอบสมมติฐาน คุณได้รับอนุญาตให้เล่นกลสกปรกในโลกที่มากับความคิด / สมมติฐานของคุณ แต่เมื่อคุณทดสอบในภายหลังคุณจะต้องฆ่าดาร์ลิ่งอย่างไร้ความปราณี

ฉันเป็นนักชีววิทยาที่ทำงานกับข้อมูลความเร็วสูงตลอดเวลาและใช่ฉันทำแบบนี้ "หั่นและหั่นเป็นชิ้นเล็ก" บ่อยครั้ง กรณีส่วนใหญ่การทดสอบดำเนินการไม่ได้รับการออกแบบอย่างรอบคอบ หรืออาจเป็นคนที่วางแผนว่ามันไม่ได้คำนึงถึงผลลัพธ์ที่เป็นไปได้ทั้งหมด หรือทัศนคติทั่วไปเมื่อมีการวางแผน "มาดูกันว่ามีอะไรอยู่ในนั้น" เราจบลงด้วยชุดข้อมูลราคาแพงที่มีค่าและในตัวเองที่น่าสนใจที่ฉันหันไปรอบ ๆ เพื่อหาเรื่องราว

แต่แล้วมันก็เป็นเพียงเรื่อง (ก่อนนอน) หลังจากที่คุณได้เลือกมุมที่น่าสนใจสองสามอย่างแล้วและนี่คือจุดสำคัญ - คุณต้องทดสอบไม่เพียง แต่กับชุดข้อมูลอิสระหรือตัวอย่างอิสระ แต่ควรใช้วิธีอิสระซึ่งเป็นระบบทดลองอิสระ

ความสำคัญของสิ่งสุดท้ายนี้ - การตั้งค่าการทดลองที่เป็นอิสระไม่เพียง แต่การวัดหรือตัวอย่างที่เป็นอิสระ - มักจะถูกประเมินต่ำเกินไป อย่างไรก็ตามเมื่อเราทดสอบ 30,000 ตัวแปรสำหรับความแตกต่างที่สำคัญมันมักจะเกิดขึ้นในขณะที่ตัวอย่างที่คล้ายกัน (แต่แตกต่างกัน) จากการศึกษาเดียวกันและวิเคราะห์ด้วยวิธีเดียวกันจะไม่ปฏิเสธสมมติฐานที่เรายึดตามชุดก่อนหน้า แต่จากนั้นเราหันไปใช้การทดสอบประเภทอื่นและการศึกษาอื่นและการค้นพบของเรากลายเป็นผลมาจากความลำเอียงด้านระเบียบวิธีหรือ จำกัด ในการบังคับใช้ของพวกเขา

นั่นคือเหตุผลที่เรามักต้องการเอกสารหลายฉบับโดยนักวิจัยอิสระหลายคนเพื่อยอมรับสมมติฐานหรือแบบจำลอง

ดังนั้นฉันคิดว่าการทรมานข้อมูลดังกล่าวเป็นเรื่องปกติตราบใดที่คุณจดจำความแตกต่างไว้ในใจและจดจำสิ่งที่คุณกำลังทำอยู่ในขั้นตอนของกระบวนการทางวิทยาศาสตร์ที่คุณเป็นอยู่ คุณสามารถใช้ระยะดวงจันทร์หรือนิยามใหม่ 2 + 2 ตราบใดที่คุณมีการตรวจสอบข้อมูลที่เป็นอิสระ วิธีใส่ภาพ:

ป้อนคำอธิบายรูปภาพที่นี่

น่าเสียดายที่มีผู้ที่สั่งให้ microarray ปัดเศษกระดาษหลังจากทำการทดลองหลายครั้งและไม่มีเรื่องราวโผล่ออกมาด้วยความหวังว่าการวิเคราะห์ปริมาณงานสูงจะแสดงบางอย่าง หรือพวกเขาสับสนเกี่ยวกับการทดสอบสมมติฐานทั้งหมดกับสิ่งที่สร้างขึ้น


ฉันคิดว่าใครสามารถตีความสิ่งที่ฉันเห็นว่าเป็น "การสร้างสมมุติฐาน" แต่จุดมุ่งหมายของการจัดการที่ฉันกำลังพูดถึงนั้นแน่นอนที่สุดในการเผยแพร่ผลลัพธ์ที่ได้จากข้อมูล "ทรมาน" และจะทำเช่นนั้นในระดับสูงสุด วารสารผลกระทบที่จะยอมรับกระดาษ เอกสารดังกล่าวไม่เคยมีคำแนะนำใด ๆ เกี่ยวกับต้นกำเนิดที่ถูกทรมานจากการค้นพบของพวกเขา ในความเป็นจริง AFAICT ผู้เขียนไม่ได้มีปัญหากับเรื่องนี้ แต่ถึงกระนั้นฉันคิดว่าผู้อ่านส่วนใหญ่ของเอกสารดังกล่าวจะลดการค้นพบอย่างมากถ้าพวกเขารู้แน่ชัดว่าการทรมานข้อมูลมากแค่ไหนที่ทำให้พวกเขาได้รับ ...
kjo

1
@kjo: การสร้างสมมติฐานเป็นส่วนหนึ่งของกระบวนการทางวิทยาศาสตร์ที่สามารถเผยแพร่ได้อย่างแน่นอน นั่นไม่ใช่เหตุผล
cbeleites รองรับโมนิก้า

@ มกราคม: คุณลืมพูดถึง DoE "เอาตัวอย่างทั้งหมดที่เราได้ - พวกมันจะน้อยไปหน่อย" - ซึ่งเป็น DoE ที่พบบ่อยที่สุดที่ฉันพบ
cbeleites รองรับโมนิก้า

@cbeleites: ดีฉันจะไม่ฝันที่จะวิจารณ์ทัศนคตินี้โดยทั่วไป โดยทั่วไปแล้วการทดลองจะได้รับประโยชน์จากการจำลองจำนวนมากขึ้น แต่ฉันยอมรับว่าบ่อยครั้งที่นักทดลองมักจะรวมเงื่อนไขต่าง ๆ (ตัวอย่างประเภทสายพันธุ์ตัวแปรชั้นเรียน ฯลฯ ) เท่าที่เป็นไปได้ทางร่างกายทำให้การวิเคราะห์เป็นฝันร้ายและบางครั้งก็ปิดบังคำถามโดยสิ้นเชิง
มกราคม

12

เฮอร์แมนฟรีดแมนศาสตราจารย์คนโปรดของฉันในระดับบัณฑิตศึกษาเคยพูดเช่นนั้น

"ถ้าคุณไม่แปลกใจคุณก็ไม่ได้เรียนรู้อะไรเลย"

การหลีกเลี่ยงอย่างเข้มงวดของสิ่งใด ๆ ยกเว้นการทดสอบอย่างเข้มงวดที่สุดของสมมติฐานที่กำหนดไว้ล่วงหน้า จำกัด อย่างรุนแรง จำกัด ความสามารถของคุณที่จะประหลาดใจ

ฉันคิดว่าสิ่งสำคัญคือการที่เราซื่อสัตย์เกี่ยวกับสิ่งที่เรากำลังทำ ถ้าเราอยู่ในโหมดสำรวจสูงเราควรพูดอย่างนั้น ในทางตรงกันข้ามอาจารย์คนหนึ่งที่ฉันรู้จักบอกให้นักเรียนเปลี่ยนสมมติฐานเนื่องจากไม่พบว่ามีนัยสำคัญ


4
ไม่มีอะไรผิดปกติกับการทดสอบสมมติฐานที่กำหนดไว้ล่วงหน้าอย่างเข้มงวดและสอดแนมข้อมูลเดียวกันเพื่อแนะนำสมมติฐานที่กำหนดไว้ก่อนหน้าเพื่อทดสอบอย่างเข้มงวด และถ้าเราอยู่ในโหมดสำรวจเพียงเล็กน้อยเราควรพูดอย่างนั้น - แค่พูดในสิ่งที่เราทำจริงๆ - & ปล่อยให้คนอื่นตัดสินใจด้วยเกลือขนาดใหญ่แค่ไหนที่พวกเขาต้องการผลลัพธ์ของเราอย่างไรก็ตามเราอาจมั่นใจได้ ตัวเรา ฉันต้องการให้คำตอบนี้มากกว่าหนึ่งคะแนนเพื่อเน้นความซื่อสัตย์
Scortchi - Reinstate Monica

7

ให้ฉันเพิ่มบางจุด:

  • ประการแรกการสร้างสมมุติฐานเป็นส่วนสำคัญของวิทยาศาสตร์ และผลลัพธ์ที่ไม่สามารถคาดการณ์ได้ (exploratory / descriptive) สามารถเผยแพร่ได้

  • IMHO ปัญหาไม่ได้ต่อว่าการสำรวจข้อมูลจะถูกใช้ในชุดข้อมูลและมีการเผยแพร่ผลการค้นพบบางส่วนเท่านั้น ปัญหาคือ

    • ไม่ได้อธิบายว่าได้ลองไปแล้วเท่าใด
    • จากนั้นจึงทำการสรุปว่าการศึกษาเป็นการศึกษาเพื่อตรวจสอบรูปแบบการทำนาย / การทดสอบทดสอบสมมติฐาน
  • การพัฒนาวิทยาศาสตร์และวิธีการเป็นกระบวนการวนซ้ำโดยทั่วไปมากกว่าแค่การสร้างสมมุติฐาน - การทดสอบ - การสร้างสมมุติฐานใหม่ - การทดสอบ .... IMHO มันเป็นเรื่องของการตัดสินอย่างมืออาชีพว่าการดำเนินการที่เหมาะสมแบบใดที่จำเป็นในขั้นตอนใด (ดูตัวอย่าง ด้านล่าง)

สิ่งที่ฉันทำ:

  • พยายามทำให้ผู้คนตระหนักถึงอคติในแง่ดีที่เกิดขึ้น
    เมื่อฉันมีโอกาสฉันยังแสดงให้ผู้คนเห็นว่ามีความแตกต่างมากน้อยเพียงใด (เป็นไปได้ส่วนใหญ่ที่มีปัญหาเดียวกันในระดับที่ต่ำกว่าเช่นเปรียบเทียบข้อมูลที่ตรวจสอบโดยผู้ป่วย การประมาณค่ารูทีนการเพิ่มประสิทธิภาพพารามิเตอร์ไฮเปอร์เช่นการค้นหากริดสำหรับ parters SVM, "โมเดลรวม" เช่น PCA-LDA และอื่น ๆ ไม่เป็นไปได้จริง ๆ สำหรับการขุดลอกข้อมูลจริงเพราะจนถึงตอนนี้ไม่มีใครให้เงินแก่ฉัน การจำลองขนาดจริงอย่างแท้จริง ... )
  • สำหรับเอกสารที่ฉันได้รับอนุญาตจาก: ยืนยันในการอภิปรายข้อ จำกัด ของข้อสรุป ตรวจสอบให้แน่ใจว่าข้อสรุปนั้นไม่ได้มีการจัดทำขึ้นโดยทั่วไปมากกว่าการศึกษาวิจัย
  • กระตุ้นให้เพื่อนร่วมงานใช้ความรู้จากผู้เชี่ยวชาญเกี่ยวกับเรื่องของการศึกษาและกระบวนการสร้างข้อมูลเพื่อตัดสินใจว่าจะปฏิบัติต่อข้อมูลแทนที่จะทำค่าใช้จ่ายสูง (ในแง่ของขนาดตัวอย่างที่คุณต้องทำอย่างถูกต้อง) model- "hyper" - พารามิเตอร์ (เช่นชนิดของการประมวลผลล่วงหน้าที่จะใช้)
  • ในแบบคู่ขนาน: พยายามทำให้ผู้คนตระหนักว่าธุรกิจการปรับให้เหมาะสมนี้มีราคาแพงเพียงใดหากทำอย่างถูกต้อง (ไม่ว่าจะเรียกว่าการสำรวจหรือไม่เกี่ยวข้องหากทำผิดก็จะมีผลลัพธ์ที่คล้ายกันเช่นการขุดลอกข้อมูล) เช่นBeleites, C. และ Neugebauer , U. และ Bocklitz, T. และ Krafft, C. และ Popp, J: การวางแผนขนาดตัวอย่างสำหรับแบบจำลองการจำแนกประเภท Anal Chim Acta, 2013, 760, 25-33 DOI: 10.1016 / j.aca.2012.11.007
    ต้นฉบับที่ยอมรับใน arXiv: 1211.1323
  • นี่คือการศึกษาที่พบว่าคนตาบอดพยายามอยู่บ่อยครั้งก็ไร้ประโยชน์เช่น
    J. Engel, J. Gerretzen, E. Szymańska, JJ Jansen, G. Downey, L. Blanchet, LMC Buydens: ทำลายแนวโน้มในการประมวลผลล่วงหน้าหรือไม่? แนวโน้ม TrAC เคมีวิเคราะห์, 2013, 50, 96-106 DOI: 10.1016 / j.trac.2013.04.015
    (พวกเขาลองชุดของขั้นตอนการประมวลผลล่วงหน้าจำนวนมากและพบว่ามีจำนวนน้อยที่นำไปสู่โมเดลที่ดีกว่าไม่มีการประมวลผลล่วงหน้าเลย)

  • เน้นว่าฉันไม่ได้ทรมานข้อมูลของฉันมากเกินความจำเป็น:
    ตัวอย่าง :

    การประมวลผลล่วงหน้าทั้งหมดได้รับการตัดสินใจโดยใช้ความรู้ทางสเปกโทรสโกปีโดยเฉพาะและไม่มีการดำเนินการประมวลผลล่วงหน้าด้วยข้อมูล

    ติดตามกระดาษโดยใช้ข้อมูลเดียวกันเป็นตัวอย่างสำหรับ (ที่แตกต่างกัน) การพัฒนาทฤษฎีอ่าน

    การประมวลผลล่วงหน้าทั้งหมดได้รับการตัดสินโดยความรู้ด้านสเปกโทรสโกปีไม่มีขั้นตอนการขับเคลื่อนข้อมูลและไม่มีการปรับพารามิเตอร์ให้เหมาะสม อย่างไรก็ตามเราตรวจสอบว่าการฉาย PLS [45] ของสเปกตรัมไปยังตัวแปรแฝง 25 ตัวเนื่องจากการประมวลผลล่วงหน้าสำหรับการฝึกอบรม LR ไม่ได้นำไปสู่การเปลี่ยนแปลงที่มากกว่าในการทำนายเล็กน้อย (ดูรูปเพิ่มเติม S.2)

    เพราะในขณะเดียวกันฉันถูกถามอย่างชัดเจน (ในการประชุมโดยบรรณาธิการของวารสาร CILS) เพื่อเปรียบเทียบแบบจำลองกับการประมวลผลล่วงหน้า PLS

  • ใช้มุมมองที่ใช้งานได้จริง: เช่นในการศึกษา astrocytoma ที่เชื่อมโยงด้านบนแน่นอนว่าฉันยังตัดสินใจบางจุดหลังจากดูข้อมูล (เช่นเกณฑ์ความเข้มที่สอดคล้องกับการวัดที่นำมาจากนอกตัวอย่าง - ซึ่งถูกทิ้งไปแล้ว) การตัดสินใจอื่น ๆ ฉันรู้ว่าไม่สำคัญ (เชิงเส้นตรงกับสมการกำลังสอง: ประสบการณ์ของฉันกับข้อมูลประเภทนั้นแสดงให้เห็นว่าสิ่งนี้ไม่เปลี่ยนแปลงมากนัก - ซึ่งเป็นข้อตกลงที่สมบูรณ์แบบกับสิ่งที่ Jasper Engel พบบนข้อมูลประเภทเดียวกัน ฉันไม่คาดหวังว่าอคติขนาดใหญ่จะมาจากการตัดสินใจประเภทพื้นฐานโดยดูที่ข้อมูล (กระดาษให้เหตุผลว่าทำไมมันถึงสมเหตุสมผล)
    จากการศึกษาที่เราทำตอนนี้เราสามารถพูดได้ว่าอะไรควรแก้ไขต่อไปและสิ่งที่ควรเปลี่ยน และเนื่องจากเราจะยังคงอยู่ในขั้นตอนในช่วงต้นของการพัฒนาเมื่อเทียบกับวิธีการ (มองไปที่อดีตร่างกายตัวอย่าง) ก็ไม่คุ้มค่าในขณะที่จะผ่านไปทั้งหมด "การบ้าน" ที่ในที่สุดจะมีความจำเป็นก่อนที่จะวิธีการที่สามารถนำมาใช้ในร่างกาย เช่นในขั้นตอนปัจจุบันของการจัดระดับ astrocytoma การตรวจสอบความถูกต้อง resampling เป็นทางเลือกที่เหมาะสมกว่าชุดทดสอบภายนอก ฉันยังคงเน้นว่าจำเป็นต้องมีการศึกษาการตรวจสอบภายนอกอย่างแท้จริงในบางจุดเนื่องจากลักษณะการทำงานบางอย่างสามารถวัดได้ด้วยวิธีนั้น (เช่นผลกระทบของการดริฟท์เครื่องมือ / การพิสูจน์ว่าเราสามารถแก้ไขสิ่งเหล่านี้ได้) แต่ตอนนี้ในขณะที่เรายังคงเล่นกับอดีตร่างกายตัวอย่างและกำลังแก้ปัญหาส่วนอื่น ๆ ของปัญหาใหญ่ (ในเอกสารที่เชื่อมโยง: วิธีจัดการกับกรณีแนวเขตแดน) การได้รับความรู้ที่เป็นประโยชน์จากการศึกษาการตรวจสอบความถูกต้องของex-vivoที่เหมาะสมต่ำเกินไปที่จะคุ้มค่าในขณะที่พยายาม ที่ทำเพื่อวัดอคติเนื่องจากการขุดลอกข้อมูล)

  • ฉันเคยอ่านข้อโต้แย้งเกี่ยวกับมาตรฐานทางสถิติและการรายงานและควรตัดสินใจเช่นนั้นว่าจำเป็นหรือไม่สำหรับวารสาร (จำไม่ได้ว่าข้อใด) ที่ทำให้ฉันเชื่อมั่น: ความคิดที่แสดงออกมาก็คือไม่จำเป็นต้องให้บรรณาธิการแก้ไข เห็นด้วยและบังคับใช้มาตรฐานบางอย่าง (ซึ่งจะทำให้การสนทนาไร้ประโยชน์มาก) เนื่องจาก:

    • ผู้ที่ใช้เทคนิคที่เหมาะสมมักจะตระหนัก / ภูมิใจในสิ่งนั้นและจะ (และควร) ดังนั้นจึงรายงานรายละเอียดในสิ่งที่ทำ
    • หากจุดใดจุดหนึ่ง (เช่นการขุดลอกข้อมูลการตรวจสอบที่ไม่เป็นอิสระในระดับผู้ป่วย) ไม่ชัดเจนสะกดข้อสันนิษฐานเริ่มต้นสำหรับผู้ตรวจสอบ / ผู้อ่านคือการศึกษาที่ไม่เป็นไปตามหลักการที่เหมาะสมในคำถามนั้น (อาจเป็นเพราะพวกเขาไม่ได้ ไม่รู้ดีกว่า)

4

บางครั้งสิ่งที่คุณเห็นว่าเป็น "การทรมานข้อมูล" ก็ไม่จริง ไม่ชัดเจนเสมอไปก่อนว่าสิ่งที่คุณจะทำกับข้อมูลเพื่อให้สิ่งที่คุณเชื่อว่าเป็นผลลัพธ์ที่แท้จริงของการทดสอบจนกว่าคุณจะเห็นมัน

ตัวอย่างเช่นด้วยข้อมูลเวลาตอบสนองสำหรับงานตัดสินใจคุณมักต้องการปฏิเสธเวลาที่ไม่เกี่ยวกับการตัดสินใจ (เช่นเมื่อพวกเขาไปเร็วมากพวกเขาก็แค่คาดเดาและไม่ตัดสินใจ) คุณสามารถวางแผนความถูกต้องของการตัดสินใจกับ RT เพื่อดูว่าการเดาเกิดขึ้นที่ใด แต่จนกว่าคุณจะทดสอบกระบวนทัศน์เฉพาะนั้นคุณจะไม่มีทางรู้ว่าจุดตัดอยู่ตรงไหน (ตรงเวลาไม่ใช่ความแม่นยำ) สำหรับผู้สังเกตการณ์บางคนกระบวนการดังกล่าวดูเหมือนว่าจะทรมานข้อมูล แต่ตราบใดที่มันไม่มีอะไรเกี่ยวข้องกับการทดสอบสมมติฐานโดยตรง (คุณไม่ได้ปรับตามการทดสอบ) จากนั้นก็จะไม่ทรมานข้อมูล

การสอดแนมข้อมูลในระหว่างการทดสอบนั้นใช้ได้ตราบใดที่มันทำถูกวิธี มันอาจผิดจรรยาบรรณในการทดสอบของคุณในกล่องดำและทำการวิเคราะห์เฉพาะเมื่อมีการเรียกใช้จำนวนอาสาสมัครที่วางแผนไว้ บางครั้งมันก็ยากที่จะบอกว่ามีปัญหากับการทดสอบจนกว่าคุณจะดูข้อมูลและคุณควรดูโดยเร็วที่สุด การแอบดูข้อมูลนั้นมีการบิดเบือนอย่างมากเนื่องจากมีการพิจารณาว่า p <0.05 และตัดสินใจดำเนินการต่อหรือไม่ แต่มีเกณฑ์จำนวนมากที่คุณสามารถตัดสินใจที่จะรวบรวมต่อซึ่งไม่ทำอะไรที่เป็นอันตรายต่ออัตราความผิดพลาดของคุณ

สมมติว่าคุณต้องการให้แน่ใจว่าการประมาณผลต่างของคุณอยู่ในช่วงที่เป็นไปได้ ตัวอย่างขนาดเล็กอาจมีการประมาณค่าความแปรปรวนค่อนข้างไกลดังนั้นคุณจึงรวบรวมข้อมูลเพิ่มเติมจนกว่าคุณจะรู้ว่าตัวอย่างเป็นตัวแทนมากขึ้น ในการจำลองต่อไปนี้ฉันคาดหวังความแปรปรวนในแต่ละเงื่อนไขว่าจะเป็น 1 ฉันจะทำสิ่งที่บ้าจริง ๆ และสุ่มตัวอย่างแต่ละกลุ่มอย่างอิสระสำหรับกลุ่มตัวอย่าง 10 กลุ่มจากนั้นเพิ่มหัวเรื่องจนกว่าความแปรปรวนจะใกล้เคียงกับ 1

Y <- replicate(1000, {
    y1 <- rnorm(10)
    while(var(y1) < 0.9 | var(y1) > 1.1) y1 <- c(y1, rnorm(1))
    y2 <- rnorm(10)
    while(var(y2) < 0.9 | var(y2) > 1.1) y2 <- c(y2, rnorm(1))
    c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1), length(y2) )
    })
range(Y[2,]) #range of N's in group 1
[1]   10 1173
range(Y[3,]) #range of N's in group 2
[1]   10 1283
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.045

ดังนั้นฉันเพิ่งไปเป็นบ้ากับการสุ่มตัวอย่างและทำให้ผลต่างของฉันใกล้เคียงกับที่คาดไว้และฉันก็ยังไม่ได้ส่งผลกระทบต่ออัลฟามากนัก ข้อ จำกัด เพิ่มเติมบางอย่างเช่น N จะต้องเท่ากันในแต่ละกลุ่มและไม่สามารถเกิน 30 และอัลฟาค่อนข้างถูกต้องที่ 0.05 แต่แล้ว SE ล่ะ ถ้าฉันพยายามทำให้ SE เป็นมูลค่าที่กำหนดไว้ นั่นเป็นความคิดที่น่าสนใจจริง ๆ เพราะฉันกำลังตั้งค่าความกว้างของ CI ล่วงหน้า (แต่ไม่ใช่ตำแหน่ง)

se <- function(x) sqrt(var(x) / length(x))
Y <- replicate(1000, {
        y1 <- rnorm(10)
        y2 <- rnorm(10)
        while(se(y1) > 0.2 | se(y2) > 0.2) {
            y1 <- c(y1, rnorm(1)); y2 <- c(y2, rnorm(1))
        }
        c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1) )
        })
range(Y[2,]) #range of N's in group 1 and 2 (they're equal now)
[1] 10 46
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.053

อีกครั้งอัลฟาเปลี่ยนจำนวนเล็กน้อยแม้ว่าฉันจะอนุญาตให้ N's ท่องไปมากถึง 46 จาก 10 ต้นฉบับโดยอิงจากการสอดแนมข้อมูล ที่สำคัญกว่านั้น SE ของทั้งหมดตกอยู่ในช่วงแคบ ๆ ในการทดลองแต่ละครั้ง มันง่ายที่จะทำการปรับอัลฟาขนาดเล็กเพื่อแก้ไขปัญหานั้นหากเป็นข้อกังวล ประเด็นก็คือการสอดแนมข้อมูลบางอย่างไม่เป็นอันตรายและอาจก่อให้เกิดประโยชน์

(BTW สิ่งที่ฉันกำลังแสดงไม่ได้เป็นเวทย์มนตร์กระสุนบางอันคุณไม่ลดจำนวนของอาสาสมัครในระยะยาวเนื่องจากการใช้พลังงานสำหรับการจำลอง N ที่ต่างกันนั้นมีความใกล้เคียงกับการจำลองค่าเฉลี่ย N )

ไม่มีสิ่งใดที่ขัดแย้งกับวรรณกรรมล่าสุดเกี่ยวกับการเพิ่มวิชาหลังจากเริ่มการทดสอบ ในการศึกษาเหล่านั้นพวกเขาดูแบบจำลองที่คุณเพิ่มวิชาหลังจากทำการทดสอบสมมติฐานเพื่อให้ค่า p ลดลง ยังคงไม่ดีและสามารถขยายอัลฟ่าได้อย่างมาก นอกจากนี้ฉันชอบคำตอบของเดือนมกราคมและ Peter Flom จริงๆ ฉันแค่อยากจะชี้ให้เห็นว่าการดูข้อมูลในขณะที่คุณกำลังรวบรวมข้อมูลและแม้แต่การเปลี่ยน N ที่วางแผนไว้ในขณะที่กำลังรวบรวมข้อมูลนั้นไม่จำเป็นต้องเป็นสิ่งเลวร้าย


สิ่งเหล่านี้ไม่มี 'ดี' ในแง่ที่ไม่ส่งผลต่อการกระจายตัวตัวอย่างของสถิติทดสอบของคุณ การตอบสนองที่สมเหตุสมผลอย่างสมบูรณ์แบบต่อความประหลาดใจแน่นอน (cf @ Peter's answer) แต่พวกเขาเจือจางค่อนข้างเป็นธรรมชาติที่ยืนยันการทดลองของคุณและเพิ่ม 'องศานักวิจัยอิสระ' มันแม่นยำเพื่อหลีกเลี่ยงความประหลาดใจที่เราทำการศึกษานำร่องเพื่อแก้ไขโปรโตคอลและกำหนดกฎการหยุดก่อนล่วงหน้าโดยคำนึงถึงพวกเขาในการวิเคราะห์ เป้าหมายเป็นกระบวนการที่กำหนดไว้อย่างดีซึ่งสามารถจำลองแบบได้อย่างอิสระเพื่อแสดงความถูกต้องของผลลัพธ์ของคุณ
Scortchi - Reinstate Monica

คุณสามารถใช้สถานการณ์จำลองได้ด้วยตัวเอง แต่การมีกฎการหยุดแบบแปรปรวน (มากกว่า N ขั้นต่ำที่สมเหตุสมผล) จะไม่มีผลกับอัลฟ่าและจะสร้างพลังงานที่คาดหวัง คุณสามารถมีกฎการหยุดตาม SE และรับ SE ที่สอดคล้องกันและกฎเหล่านั้นจะไม่ส่งผลกระทบต่ออัลฟ่าหรือเบต้า คุณไม่สามารถมีpกฎการหยุดตาม การวิพากษ์วิจารณ์ทั้งหมดเกี่ยวกับการดัดแปลง N กำลังทำอยู่หลังจากการทดสอบสมมติฐาน (ควรมีสิ่งอื่นรวมอยู่ด้วย) มีความเป็นไปได้ที่สิ่งนี้จะทำให้เกิดการล่อลวง ... แต่ฉันไม่สนใจสิ่งนั้น
จอห์น

สำหรับการกระจายเวลาตอบสนองคุณแนะนำว่าควรเลือกจุดตัดคงที่ที่อิงกับนักบินไม่ใช่การหาว่าแต่ละเรื่องคาดเดาจากการถดถอยโลจิสติกส์และใช้จุดตัดของตัวเองหรือไม่ (แน่นอนว่าจุดตัดความแม่นยำได้รับการแก้ไขไม่ใช่เวลาตอบสนองเดียว)
จอห์น

(1) กฎการหยุดตามความแปรปรวน: มันมีผลต่อการประมาณค่าความแปรปรวนดังนั้นจึงสามารถส่งผลต่ออัตราข้อผิดพลาดเมื่อการทดสอบของการวิเคราะห์ราวกับว่าขนาดตัวอย่างได้รับการแก้ไขล่วงหน้า มีความตึงเครียดระหว่างข้อแม้ของ "เกินกว่าขั้นต่ำที่เหมาะสม N" ที่ระบุไว้ในความคิดเห็นของคุณและ "ตัวอย่างขนาดเล็ก" ที่อ้างถึงในคำตอบของคุณ ไม่ต้องสงสัยเลยว่าคุณมีสถิติเชิงสถิติที่จะรู้ว่าการประมาณนั้นดีพอเมื่อใด แต่ไม่ใช่ทุกคนที่ทำได้ โดยทั่วไปแล้ววิธีการที่ไม่สามารถเข้าถึงได้คือการกำหนดกฎการหยุดอย่างชัดเจนก่อนการทดสอบ
Scortchi - Reinstate Monica

(2) การกระจายเวลาของการเกิดปฏิกิริยา: ไม่มี (แม้ว่าฉันจะยอมรับว่ามีบางอย่างเช่นนั้นในใจ); ฉันแนะนำว่าไม่ว่าวิธีการใดที่ใช้ในการลบข้อสังเกตที่ไม่น่าเชื่อถือมันจะพัฒนาได้ดีกว่าจากการศึกษานำร่องแล้วนำไปใช้ในการทดสอบยืนยัน
Scortchi - Reinstate Monica

0

นี่เป็นปัญหาทางวัฒนธรรมของการคิดที่ไม่สมดุลซึ่งความเอนเอียงจากสิ่งพิมพ์นำไปสู่การได้รับผลลัพธ์เชิงบวกและลักษณะการแข่งขันของเรานั้นต้องการให้ผู้แก้ไขและนักวิจัยเห็นว่าจะสร้างผลลัพธ์ที่น่าสนใจที่แปลกใหม่หรือเป็นที่ถกเถียง การโต้แย้งผลลัพธ์ของคนอื่น ในการวิจัยทางการแพทย์มีความก้าวหน้าอย่างมากในการแก้ไขปัญหานี้โดยการลงทะเบียนภาคบังคับของการทดลองและการตีพิมพ์ผลการวิจัยพร้อมบันทึกการทดลองที่ถูกทอดทิ้งให้เป็นที่เปิดเผยต่อสาธารณะ ฉันเข้าใจว่าเนื่องจากการตีพิมพ์ในวารสารเพื่อการวิจัยที่ไม่ประสบความสำเร็จอาจไม่สามารถนำไปใช้ได้จริงจึงมีแผนที่จะเก็บฐานข้อมูลที่เปิดเผยต่อสาธารณะ ผลลัพธ์ที่ผิดปกติที่ไม่สามารถจำลองแบบได้ไม่จำเป็นต้องเป็นผลลัพธ์ของความผิดทางอาญาเช่นเดียวกับที่ 50

การใช้วิธีการต่าง ๆ ไม่จำเป็นต้องเป็นวิธีแก้ปัญหาเช่นกัน ตัวอย่างเช่นนักเคมีคนใดที่จะผสมรีเอเจนต์ด้วยวิธีต่างกันในสภาวะที่แตกต่างกันและคาดหวังผลลัพธ์เดียวกันกับเรื่องนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.