สำหรับผมแล้วคำถามของคุณมักจะพูดถึงการตรวจสอบความถูกต้องที่แตกต่างกันของแบบจำลองการคาดการณ์: การตรวจสอบแบบไขว้ค่อนข้างมีความเกี่ยวข้องกับความถูกต้องภายในหรืออย่างน้อยขั้นตอนการสร้างแบบจำลองเริ่มต้น เพื่อความถูกต้องภายนอก. โดยที่ (และตามการปรับปรุงต่อไปนี้เป็นคำพูดที่ดีของ @ Brett) ฉันหมายความว่าเรามักจะสร้างแบบจำลองบนตัวอย่างการทำงานสมมติว่าเป็นแบบจำลองแนวคิดเชิงสมมุติฐาน (เช่นเราระบุความสัมพันธ์ระหว่างตัวทำนายและผลที่น่าสนใจ) และเราพยายามที่จะได้รับการประมาณการที่เชื่อถือได้ด้วยอัตราข้อผิดพลาดการจำแนกประเภทน้อยที่สุดหรือข้อผิดพลาดการคาดการณ์ขั้นต่ำ หวังว่าโมเดลจะทำงานได้ดีขึ้นมากเท่าไรก็จะช่วยให้เราสามารถคาดการณ์ผลลัพธ์ที่มองไม่เห็นได้ ยังคง CV ไม่ได้บอกอะไรเกี่ยวกับ "ความถูกต้อง" หรือความเพียงพอของการเชื่อมโยงสาเหตุที่ตั้งสมมติฐาน เราสามารถบรรลุผลลัพธ์ที่เหมาะสมด้วยโมเดลที่มีการละเลยและ / หรือเอฟเฟ็กต์การไกล่เกลี่ยบางอย่างหรือไม่ทราบล่วงหน้า
ประเด็นของฉันคือไม่ว่าวิธีการใดที่คุณใช้ในการตรวจสอบแบบจำลองของคุณ (และวิธีการแบบโฮลด์ไม่ได้เป็นวิธีที่ดีที่สุด แต่ก็ยังใช้กันอย่างแพร่หลายในการศึกษาทางระบาดวิทยาเพื่อบรรเทาปัญหาที่เกิดขึ้นจากการสร้างแบบจำลองแบบขั้นตอน) (ซึ่งเราถือว่าเป็นตัวแทนของประชากรที่มีขนาดใหญ่กว่า) ในทางตรงกันข้าม generalizing ผลและการเชื่อมโยงสาเหตุสรุปวิธีนี้ตัวอย่างใหม่หรือประชากรที่เกี่ยวข้องฟังมักจะทำโดยการศึกษาการจำลองแบบ สิ่งนี้ทำให้มั่นใจได้ว่าเราสามารถทดสอบความสามารถในการทำนายของโมเดลของเราอย่างปลอดภัยใน "superpopulation" ซึ่งมีช่วงของการเปลี่ยนแปลงที่หลากหลายและอาจแสดงปัจจัยที่น่าสนใจอื่น ๆ
แบบจำลองของคุณอาจให้การคาดการณ์ที่ถูกต้องสำหรับตัวอย่างการทำงานของคุณและรวมถึงผู้ที่อาจเกิดขึ้นทั้งหมดที่คุณอาจคิดถึง อย่างไรก็ตามเป็นไปได้ว่ามันจะไม่ทำงานได้ดีกับข้อมูลใหม่เพียงเพราะปัจจัยอื่น ๆ ที่ปรากฏในเส้นทางสาเหตุที่ไม่ได้ระบุเมื่อสร้างแบบจำลองเริ่มต้น สิ่งนี้อาจเกิดขึ้นได้หากผู้ทำนายและการเชื่อมโยงเชิงสาเหตุที่อ้างถึงนั้นขึ้นอยู่กับศูนย์ทดลองเฉพาะที่ผู้ป่วยได้รับการคัดเลือก
ในการระบาดวิทยาทางพันธุกรรมการศึกษาความสัมพันธ์ทางพันธุกรรมจำนวนมากล้มเหลวที่จะทำซ้ำเพียงเพราะเรากำลังพยายามที่จะสร้างแบบจำลองโรคที่ซับซ้อนด้วยมุมมองที่กว้างขวางเกินความจริงเกี่ยวกับความสัมพันธ์เชิงสาเหตุระหว่างเครื่องหมายดีเอ็นเอและฟีโนไทป์ที่สังเกตในขณะที่มีแนวโน้มว่า ยีน - โรค (pleiotropy), ยีน - สิ่งแวดล้อม, และโครงสร้างพื้นฐานประชากรทั้งหมดเข้ามาเล่น, แต่ดูตัวอย่างการตรวจสอบ, การเพิ่มและการปรับแต่งสัญญาณความสัมพันธ์จีโนมกว้าง(Ioannidis et al., Nature Reviews Genetics, 2009 10) ดังนั้นเราสามารถสร้างแบบจำลองนักแสดงขึ้นเพื่ออธิบายการเปลี่ยนแปลงข้ามที่สังเกตได้ระหว่างชุดของเครื่องหมายทางพันธุกรรม (ที่มีขนาดของเอฟเฟกต์ต่ำและเบาบาง) และรูปแบบหลายตัวแปรของฟีโนไทป์ที่สังเกตได้ (เช่นปริมาณของวัตถุสีขาว / เทาหรือ กิจกรรมที่แปลเป็นภาษาท้องถิ่นในสมองดังที่สังเกตผ่าน fMRI, การตอบสนองต่อการประเมินทางประสาทวิทยาหรือรายการสินค้าบุคลิกภาพ), ถึงกระนั้นก็ยังไม่สามารถทำงานได้ตามที่คาดไว้ในตัวอย่างอิสระ
สำหรับการอ้างอิงทั่วไปในหัวข้อนี้สามารถแนะนำบทที่ 17 และส่วนที่สามของแบบจำลองการทำนายทางคลินิกจาก EW Steyerberg (Springer, 2009) ฉันชอบบทความต่อไปนี้จาก Ioannidis:
Ioannidis, JPA, ทำไมผลการวิจัยที่ตีพิมพ์มากที่สุดนั้นเป็นเท็จ? PLoS Med 2005 2 (8): e124