วิธีรับมือกับการวิเคราะห์ข้อมูลเชิงสำรวจและการขุดลอกข้อมูลในการศึกษาตัวอย่างขนาดเล็กได้อย่างไร?


25

การวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) มักจะนำไปสู่การสำรวจ "รอยทาง" อื่น ๆ ที่ไม่จำเป็นต้องเป็นของชุดเริ่มต้นของสมมติฐาน ฉันต้องเผชิญกับสถานการณ์เช่นนี้ในกรณีของการศึกษาที่มีขนาดตัวอย่าง จำกัด และข้อมูลจำนวนมากที่รวบรวมผ่านแบบสอบถามที่แตกต่างกัน (ข้อมูลทางสังคม - ประชากรสถิติวิทยาหรือมาตรวิทยาทางการแพทย์ - เช่นการทำงานของจิตใจหรือร่างกายระดับความวิตกกังวล / วิตกกังวล ) มันเกิดขึ้นที่ EDA ช่วยเน้นความสัมพันธ์ที่ไม่คาดคิดบางอย่าง ("ไม่คาดหมาย" ซึ่งหมายความว่าพวกเขาไม่ได้รวมอยู่ในแผนการวิเคราะห์เบื้องต้น) ที่แปลเป็นคำถาม / สมมติฐานเพิ่มเติม

ในกรณีของการ overfitting การขุดลอกข้อมูลหรือการสอดแนมจะนำไปสู่ผลลัพธ์ที่ไม่ได้สรุป อย่างไรก็ตามเมื่อมีข้อมูลจำนวนมากมันค่อนข้างยาก (สำหรับนักวิจัยหรือแพทย์) ในการตั้งสมมติฐานที่ จำกัด

ฉันอยากจะรู้ว่ามีวิธีการที่เป็นที่ยอมรับคำแนะนำหรือกฎง่ายๆที่อาจช่วยอธิบาย EDA ในกรณีศึกษาตัวอย่างขนาดเล็กหรือไม่


ฉันไม่แน่ใจว่าทำไมขนาดตัวอย่างของคุณถึงสำคัญ คุณสามารถให้เหตุผลที่เฉพาะเจาะจงอีกต่อไปว่าทำไมคุณถึงคิดว่ามันแตกต่างจาก n ขนาดเล็กกว่า n ใหญ่?
Andy W

2
@Andy เพราะมันจะกลายเป็นเรื่องยากมากที่จะพิจารณาตัวอย่าง holdout และ / หรือความไม่สมดุลของคลาสที่มีขนาดตัวอย่างที่ จำกัด มาก ( ) โดยทั่วไปจะให้อัตราความผิดพลาดการจำแนกที่ใหญ่ขึ้นเมื่อใช้ CV; บุคคลบางคนอาจถูกมองว่าเป็นคนผิดเมื่อศึกษาการแจกแจง bivariate และมาตรการรวบรวมเกี่ยวกับตราสารที่มีข้อผิดพลาดในการวัดของตัวเองมีความน่าเชื่อถือน้อยกว่า (ขนาดเล็กnขนาดใหญ่σ ) ในบางแง่บางครั้งมันก็ยากที่จะคลี่คลายความสัมพันธ์ที่ไม่คาดคิดจากสิ่งประดิษฐ์ 13<n<25nσ
chl

ฉันคิดว่าฉันสามารถเข้าใจความรู้สึกนั้นได้หากสิ่งที่คุณสนใจเป็นเพียงการจำแนกประเภทเท่านั้น ฉันคิดว่าการอนุมานเชิงสาเหตุปัญหาของการสอดแนมข้อมูลเหมือนกัน (เช่นปัญหาไม่ได้รับการแก้ไขโดยอำนาจที่เพิ่มขึ้นเพื่อระบุความสัมพันธ์) ฉันจะพยายามกำหนดความคิดเห็นนี้เป็นคำตอบ ฉันอาจถามคำถามในฟอรัมหลักในระหว่างนี้เกี่ยวกับการใช้การตรวจสอบความถูกต้องของการอนุมานเชิงสาเหตุเนื่องจากฉันไม่ได้เจองานใด ๆ ในสาขาของฉันที่ทำสิ่งนี้
Andy W

1
@ Andy ขอบคุณ หวังว่าคำถามของคุณจะได้รับคำตอบที่น่าสนใจมากมาย
chl

คำตอบ:


10

ฉันคิดว่าสิ่งสำคัญคือการซื่อสัตย์เมื่อรายงานผลลัพธ์ดังกล่าวว่าเป็นผลการวิจัยที่ไม่คาดคิดจาก EDA และไม่ได้เป็นส่วนหนึ่งของแผนการวิเคราะห์เริ่มต้นตามสมมติฐานเบื้องต้น บางคนชอบที่จะติดป้ายกำกับ 'การสร้างสมมติฐาน' ของผลลัพธ์เช่น: การเข้าชมครั้งแรกจากการค้นหาวลีนี้ใน Google Scholarมีดังต่อไปนี้ในส่วนสรุปของบทคัดย่อ:

เนื่องจากนี่เป็นการวิเคราะห์ "เชิงสำรวจ" ผลกระทบนี้จึงควรได้รับการพิจารณาในฐานะการสร้างสมมุติฐานและการประเมินแบบมุ่งหวังในการทดลองอื่น ๆ ...

แม้ว่าโปรดทราบว่าแม้ว่านี่เป็นการวิเคราะห์กลุ่มย่อยแบบโพสต์เฉพาะกิจ แต่มาจากการทดลองแบบควบคุมแบบสุ่มไม่ใช่การศึกษาเชิงสังเกตการณ์ซึ่งปัญหานั้นเลวร้ายลง Philip Cole หลั่งไหลดูหมิ่นความคิดที่ว่าการศึกษาเชิงสังเกตการณ์ ('ระบาดวิทยา') สามารถสร้างสมมติฐานในคำอธิบายที่เร้าใจ แต่สนุกสนาน

พีโคล เครื่องสร้างสมมุติฐาน ระบาดวิทยา 2536; 4 : 271-273


+1 ขอบคุณสำหรับลิงค์ (และ retag) ฉันจะดูในทิศทางนี้
chl

13

ฉันเพิ่งวางอ้างอิงบางอย่างเกี่ยวกับการขุดลอกข้อมูลและการศึกษาทางคลินิกสำหรับผู้อ่านที่สนใจ นี่มีวัตถุประสงค์เพื่อขยายคำตอบที่ดีของ@onestop ผมพยายามที่จะหลีกเลี่ยงการบทความเน้นเฉพาะในการเปรียบเทียบหลายหรือปัญหาการออกแบบแม้ว่าการศึกษาที่มีปลายทางหลายอย่างต่อเนื่องจนถึงปัจจุบันที่ท้าทายและการอภิปรายโต้เถียง (นานหลังจากที่การเรียกร้องรอ ธ แมนเกี่ยวกับการปรับเปลี่ยนที่ไร้ประโยชน์ , ระบาดวิทยาปี 1990 ที่ 1: 43-46 หรือดูความคิดเห็น Feise ในบีเอ็มซี ระเบียบวิธีวิจัยทางการแพทย์ 2002, 2: 8)

ความเข้าใจของฉันคือแม้ว่าฉันจะพูดคุยเกี่ยวกับการวิเคราะห์ข้อมูลเชิงสำรวจคำถามของฉันมักจะกล่าวถึงการใช้งานการทำเหมืองข้อมูลกับข้อผิดพลาดที่อาจเกิดขึ้นควบคู่ไปกับการทดสอบตามสมมติฐาน

  1. เกาะ HC และ Tan, G (2005) การประยุกต์ใช้การขุดข้อมูลในการดูแลสุขภาพ . วารสารการจัดการข้อมูลการดูแลสุขภาพ , 19 (2), 64-72
  2. Ioannidis, JPA (2005) ทำไมผลการวิจัยที่เผยแพร่เป็นเท็จ PLoS Medicine , 2 (8), e124
  3. แอนเดอร์สัน, DR, Link, WA, Johnson, DH, และ Burnham, KP (2001) ข้อเสนอแนะสำหรับการนำเสนอผลการวิเคราะห์ข้อมูล วารสารการจัดการสัตว์ป่า , 65 (3), 373-378 - ความคิดเห็น echoes @ onestop นี้เกี่ยวกับความจริงที่ว่าเราต้องยอมรับการสำรวจ / การสร้างแบบจำลองข้อมูลที่ขับเคลื่อนด้วยข้อมูลนอกเหนือจากชุดเริ่มต้นของสมมติฐาน
  4. Michels, KB และ Rosner, BA (1996) ข้อมูลสืบค้น: ปลาหรือไม่ไปตกปลา มีดหมอ , 348, 1152-1153
  5. ลอร์ด, SJ, Gebski, VJ และ Keech, AC (2004) การวิเคราะห์หลายครั้งในการทดลองทางคลินิก: วิทยาศาสตร์เสียงหรือการขุดลอกข้อมูล? . วารสารการแพทย์ของออสเตรเลีย 181 (8), 452-454
  6. Smith, GD และ Ebrahim, S (2002) ข้อมูลการขุดลอกอคติหรือรบกวน BMJ , 325, 1437-1438
  7. Afshartous, D and Wolf, M (2007) หลีกเลี่ยง 'ข้อมูลการสอดแนมในหลายระดับและผลกระทบที่ผสมรุ่น วารสารสมาคมสถิติ A , 170 (4), 1578-1059
  8. แอนเดอร์สัน, DR, อัม, KP, โกลด์, WR, และเชอร์รี่, S (2001) ความกังวลเกี่ยวกับการหาผลกระทบที่มีปลอมจริง แถลงการณ์ Widlife Society , 29 (1), 311-316

นี่เป็นเพียงบทสรุปของสิ่งที่ฉันอ่านจนถึงตอนนี้ เห็นได้ชัดว่าฉันจะไม่ยอมรับคำตอบของตัวเอง ความคิดอื่น ๆ จะได้รับการชื่นชมมาก
chl

ขอขอบคุณที่ยอมรับคำตอบของฉันแม้ว่ารายการอ้างอิงของคุณจะดีขึ้นเรื่อย ๆ ฉันควรจะนึกถึงพวกเขาสองสามตัวในขณะที่ฉันเก็บมันไว้ในฮาร์ดไดรฟ์และอาจจะอ่านบางส่วนของมันด้วย ...
onestop
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.