แนวคิดของการวิเคราะห์ข้อมูลแบบปรับตัวคือคุณปรับเปลี่ยนแผนสำหรับการวิเคราะห์ข้อมูลในขณะที่คุณเรียนรู้เพิ่มเติมเกี่ยวกับมัน ในกรณีของการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) โดยทั่วไปเป็นความคิดที่ดี (คุณมักจะมองหารูปแบบที่ไม่คาดฝันในข้อมูล) แต่สำหรับการศึกษาเชิงยืนยันสิ่งนี้ได้รับการยอมรับอย่างกว้างขวางว่าเป็นวิธีการวิเคราะห์ที่มีข้อบกพร่องมาก ขั้นตอนมีการกำหนดไว้อย่างชัดเจนและวางแผนอย่างเหมาะสมในขั้นสูง)
ดังที่ได้กล่าวไปแล้วการวิเคราะห์ข้อมูลที่ปรับตัวได้นั้นโดยทั่วไปแล้วมีนักวิจัยจำนวนเท่าใดที่ทำการวิเคราะห์จริง ๆ เช่นนี้หากใครสามารถทำได้ในลักษณะที่ถูกต้องทางสถิติมันจะปฏิวัติการปฏิบัติทางสถิติ
บทความวิทยาศาสตร์ต่อไปนี้อ้างว่าได้พบวิธีในการทำเช่นนั้น (ฉันขอโทษสำหรับ paywall แต่ถ้าคุณอยู่ในมหาวิทยาลัยคุณน่าจะเข้าถึงได้): Dwork et al, 2015, holdout ที่นำมาใช้ใหม่ได้: รักษาความถูกต้องในการวิเคราะห์ข้อมูลแบบปรับตัว .
โดยส่วนตัวฉันมักสงสัยเกี่ยวกับบทความสถิติที่ตีพิมพ์ในวิทยาศาสตร์และบทความนี้ก็ไม่ต่างกัน ในความเป็นจริงหลังจากอ่านบทความสองครั้งรวมถึงเนื้อหาเพิ่มเติมฉันไม่เข้าใจ (เลย) ทำไมผู้เขียนอ้างว่าวิธีการของพวกเขาป้องกันไม่ให้เกินความเหมาะสม
ความเข้าใจของฉันคือพวกเขามีชุดข้อมูลแบบโฮลด์ซึ่งพวกเขาจะใช้ซ้ำ พวกเขาดูเหมือนจะเรียกร้องโดย "fuzzing" ผลลัพธ์ของการวิเคราะห์ยืนยันในชุดข้อมูลที่ไม่ยอมอ่อนข้อกว่ากระชับจะได้รับการป้องกัน (มันเป็นที่น่าสังเกตว่า fuzzing น่าจะเป็นเพียงการเพิ่มเสียงถ้าสถิติการคำนวณเกี่ยวกับข้อมูลการฝึกอบรมคือพอไกล จากสถิติที่คำนวณได้ในข้อมูลโฮลด์ ) เท่าที่ฉันสามารถบอกได้ว่าไม่มีเหตุผลจริงที่จะป้องกันไม่ให้มีความเหมาะสมมากเกินไป
ฉันเข้าใจผิดในสิ่งที่ผู้เขียนเสนอหรือไม่? มีลักษณะพิเศษบางอย่างที่ฉันมองเห็นหรือไม่? หรือวิทยาศาสตร์ ได้รับรองการฝึกฝนทางสถิติที่เลวร้ายที่สุดจนถึงปัจจุบันหรือไม่?