สามารถใช้การตรวจสอบความถูกต้องไขว้สำหรับการอนุมานเชิงสาเหตุได้หรือไม่?


37

ในบริบททั้งหมดฉันคุ้นเคยกับการตรวจสอบข้ามมันถูกใช้เพียงกับเป้าหมายของการเพิ่มความแม่นยำในการทำนาย สามารถขยายตรรกะของการตรวจสอบข้ามในการประมาณความสัมพันธ์ที่ไม่เอนเอียงระหว่างตัวแปรได้หรือไม่?

ในขณะที่บทความนี้ของ Richard Berk แสดงให้เห็นถึงการใช้ตัวอย่างที่ระงับไว้สำหรับการเลือกพารามิเตอร์ในรูปแบบการถดถอย "ขั้นสุดท้าย" (และแสดงให้เห็นว่าทำไมการเลือกพารามิเตอร์ขั้นตอนที่ชาญฉลาดไม่ใช่ความคิดที่ดี) การประเมินเอฟเฟ็กต์ที่เป็นกลางโดยไม่ลำเอียงมีต่อ Y มากกว่าการเลือกแบบจำลองตามตรรกะและความรู้เดิมของเรื่อง

ฉันขอให้ผู้คนยกตัวอย่างที่คนหนึ่งใช้ตัวอย่างที่ระงับไว้เพื่อช่วยในการอนุมานเชิงสาเหตุหรือบทความทั่วไปที่อาจช่วยฉันเข้าใจ ฉันไม่สงสัยเลยว่าความคิดของฉันเกี่ยวกับการตรวจสอบไขว้นั้นไร้เดียงสาและดังนั้นถ้าพูดเช่นนั้น ดูเหมือนว่าการใช้ตัวอย่างที่ระงับไว้จะเป็นการคล้อยตามการอนุมานเชิงสาเหตุ แต่ฉันไม่ทราบว่ามีงานใดที่ทำสิ่งนี้หรือวิธีที่พวกเขาจะทำสิ่งนี้

การอ้างอิงสำหรับ Berk Paper:

การอนุมานทางสถิติหลังจากการเลือกแบบจำลอง โดย: Richard Berk, Lawrence Brown, Linda Zhao วารสารอาชญาวิทยาเชิงปริมาณ, Vol 26, ลำดับที่ 2 (1 มิถุนายน 2010), หน้า 217-236

รุ่น PDF ที่นี่

นี้คำถามเกี่ยวกับการวิเคราะห์ข้อมูลในการศึกษาสำรวจกลุ่มตัวอย่างขนาดเล็กโดย CHL รับแจ้งคำถามนี้

คำตอบ:


19

ฉันคิดว่ามันมีประโยชน์ที่จะตรวจสอบสิ่งที่เรารู้เกี่ยวกับการตรวจสอบข้าม ผลลัพธ์ทางสถิติรอบประวัติย่อแบ่งเป็นสองคลาส: ประสิทธิภาพและความสอดคล้อง

ประสิทธิภาพคือสิ่งที่เรามักกังวลเมื่อสร้างแบบจำลองการทำนาย แนวคิดก็คือเราใช้ CV เพื่อกำหนดรูปแบบที่มีการรับประกันแบบอะซิมโทติคเกี่ยวกับฟังก์ชันการสูญเสีย ผลลัพธ์ที่มีชื่อเสียงที่สุดที่นี่เนื่องจากStone 1977และแสดงให้เห็นว่า LOO CV นั้นเทียบเท่ากับ AIC แต่เบรตต์เป็นตัวอย่างที่ดีที่คุณสามารถหาแบบจำลองการทำนายที่ไม่ได้บอกคุณเกี่ยวกับกลไกเชิงสาเหตุ

ความสอดคล้องเป็นสิ่งที่เรากังวลหากเป้าหมายของเราคือการหารูปแบบ "ของจริง" แนวคิดก็คือเราใช้ CV เพื่อกำหนดแบบจำลองด้วย asymptotic การันตีว่าเนื่องจากพื้นที่ของแบบจำลองของเรารวมถึงแบบจำลองที่แท้จริงเราจะค้นพบมันด้วยตัวอย่างที่มีขนาดใหญ่พอ ผลลัพธ์ที่มีชื่อเสียงที่สุดในที่นี้คือเนื่องจากShao 1993เกี่ยวกับโมเดลเชิงเส้น แต่ในขณะที่เขากล่าวถึงในนามธรรมของเขา "การค้นพบที่น่าตกใจ" ของเขาอยู่ตรงข้ามกับผลลัพธ์ของ LOO สำหรับรูปแบบเชิงเส้นคุณสามารถบรรลุความสอดคล้องใช้ LKO CV ตราบเท่าที่เป็น\ นอกเหนือจาก mdoels เชิงเส้นมันยากที่จะได้รับผลลัพธ์ทางสถิติ n k/n1n

แต่สมมติว่าคุณสามารถตามเกณฑ์ที่สอดคล้องและนำไปสู่ขั้นตอนประวัติส่วนตัวของคุณกับรูปแบบจริง:E เราเรียนรู้อะไรเกี่ยวกับกลไกเชิงสาเหตุ เรารู้เพียงว่ามันมีความสัมพันธ์ที่ชัดเจนระหว่างและซึ่งไม่ได้พูดอะไรมากเกี่ยวกับการอ้างเหตุผล จากมุมมองแบบดั้งเดิมคุณต้องนำการออกแบบการทดลองมาพร้อมกับกลไกการควบคุม / การจัดการเพื่อทำการอ้างเหตุผล จากมุมมองของกรอบแคว้นยูเดียเพิร์ลของคุณสามารถอบสมมติฐานสาเหตุในรูปแบบโครงสร้างและการใช้แคลคูลัสตามความน่าจะเป็นของ counterfactuals ที่จะได้รับการเรียกร้องบางอย่าง แต่คุณจะต้องตอบสนองคุณสมบัติบางอย่าง Y XY=βX+eYX

บางทีคุณอาจพูดได้ว่าประวัติย่อสามารถช่วยในการอนุมานสาเหตุโดยการระบุรูปแบบที่แท้จริง (หากคุณสามารถตอบสนองเกณฑ์ความมั่นคง!) แต่เพียงทำให้คุณได้รับจนถึง ประวัติส่วนตัวไม่ได้ทำงานใด ๆ ในกรอบการอนุมานเชิงสาเหตุ

หากคุณสนใจเพิ่มเติมในสิ่งที่เราสามารถพูดได้ด้วยการตรวจสอบข้ามฉันจะแนะนำ Shao 1997 ผ่านกระดาษ 1993 อ้างอย่างกว้างขวาง:

คุณสามารถอ่านผลลัพธ์ที่สำคัญ แต่น่าสนใจที่จะอ่านการสนทนาที่ตามมา ฉันคิดว่าความคิดเห็นของ Rao & Tibshirani และโดย Stone มีความลึกซึ้งเป็นพิเศษ แต่โปรดทราบว่าในขณะที่พวกเขาพูดถึงความมั่นคงจะไม่มีการกล่าวอ้างใด ๆ เกี่ยวกับความเป็นเหตุเป็นผล


ขอบคุณสำหรับการอ้างอิงทั้งหมดโดยเฉพาะอย่างยิ่งการตอบสนองของจูเดียเพิร์ล (ฉันจะต้องซื้อหนังสือตามข้อมูลที่ยอดเยี่ยมทั้งหมดในบทความคำตอบสั้น ๆ เหล่านั้น)
Andy W

1
ความคิดเห็นสำหรับ downvote ยินดีต้อนรับเสมอ!
chl

18

นี่เป็นคำถามที่น่าสนใจจริงๆและฉันไม่ได้ให้การอ้างอิงเฉพาะใด ๆ อย่างไรก็ตามโดยทั่วไปฉันจะบอกว่าไม่มีในตัวของมันเองการตรวจสอบไขว้ไม่ได้ให้ข้อมูลเชิงลึกเกี่ยวกับความเป็นเหตุเป็นผล ในกรณีที่ไม่มีการทดลองที่ออกแบบมาปัญหาของเวรกรรมนั้นไม่แน่นอนอยู่เสมอ ตามที่คุณแนะนำการตรวจสอบข้ามสามารถและจะปรับปรุงความแม่นยำในการทำนาย เพียงอย่างเดียวไม่ได้พูดอะไรเกี่ยวกับความเป็นเวรกรรม

หากไม่มีการทดลองที่ออกแบบมาการอนุมานเชิงสาเหตุจะต้องใช้แบบจำลองที่มีตัวทำนายที่เกี่ยวข้องทั้งหมดซึ่งเป็นสิ่งที่เราไม่ค่อยสามารถรับประกันได้ในการศึกษาเชิงสังเกตการณ์ ยิ่งไปกว่านั้นตัวแปร lag ที่เรียบง่ายเช่น (หรืออะไรก็ตามที่มีความสัมพันธ์อย่างมากกับผลลัพธ์ที่เราพยายามทำนาย) จะสร้างแบบจำลองที่ดีและแบบจำลองหนึ่งที่สามารถตรวจสอบได้ในหลายตัวอย่าง อย่างไรก็ตามนั่นไม่ได้หมายความว่าเราสามารถอนุมานสาเหตุได้ การตรวจสอบความถูกต้องข้ามช่วยให้มั่นใจได้ว่าสามารถทำซ้ำได้ในการคาดการณ์ เวรกรรมเป็นเรื่องของการออกแบบและตรรกะ

แก้ไข: นี่คือตัวอย่างที่แสดงให้เห็น ฉันสามารถสร้างแบบจำลองที่มีความแม่นยำในการทำนายที่ดีซึ่งทำนายจำนวนประชากรของเมืองตามจำนวนเงินที่เมืองใช้ในการกำจัดขยะ ฉันสามารถใช้การตรวจสอบข้ามเพื่อทดสอบความถูกต้องของแบบจำลองนั้นรวมถึงวิธีอื่น ๆ เพื่อปรับปรุงความแม่นยำของการทำนายและรับพารามิเตอร์ที่มีเสถียรภาพมากขึ้น ตอนนี้ในขณะที่แบบจำลองนี้ใช้งานได้ดีสำหรับการทำนาย แต่เหตุผลเชิงตรรกะนั้นผิด - ทิศทางเชิงสาเหตุกลับด้าน ไม่ว่าสิ่งที่คนในแผนกโยธาธิการอาจโต้แย้งการเพิ่มงบประมาณของพวกเขาสำหรับการกำจัดขยะจะไม่เป็นกลยุทธ์ที่ดีในการเพิ่มประชากรของเมือง (การตีความสาเหตุ)

ปัญหาของความถูกต้องและความสามารถในการทำซ้ำของแบบจำลองนั้นแยกจากความสามารถของเราในการอ้างถึงสาเหตุเกี่ยวกับความสัมพันธ์ที่เราสังเกต การตรวจสอบข้ามช่วยเราในอดีตและไม่ใช่กับหลัง ตอนนี้ถ้าเรากำลังประเมินโมเดล "ถูกต้อง" ในแง่ของการระบุความสัมพันธ์แบบไม่เป็นทางการ (ตัวอย่างเช่นพยายามกำหนดว่างบประมาณการกำจัดขยะของเราควรเป็นไปตามประชากรที่เราคาดหวังในปีหน้า) การตรวจสอบข้ามจะช่วยให้เรามีมากขึ้น ความมั่นใจในการประเมินผลของเรา อย่างไรก็ตามการตรวจสอบข้ามไม่ได้ทำอะไรเพื่อช่วยให้เราเลือกรูปแบบ "ถูกต้อง" เกี่ยวกับความสัมพันธ์เชิงสาเหตุ อีกครั้งที่นี่เราจำเป็นต้องพึ่งพาการออกแบบการศึกษาความเชี่ยวชาญในเรื่องของเราทฤษฎีและตรรกะ


1
ดังนั้นคุณไม่คิดว่าการทำซ้ำในการประมาณค่าผลกระทบจะมีประโยชน์หรือไม่ แม้ว่าคุณจะไม่ได้อยู่คนเดียวในความคิดของคุณเกี่ยวกับสิ่งที่พิสูจน์ได้ของเวรกรรมฉันคิดว่ามันค่อนข้างแคบ เราจะไม่สามารถพิสูจน์ความสัมพันธ์เชิงสาเหตุได้อย่างไม่มีกำหนดแม้ว่าจะมีการทดลองก็ตามหลักฐานทั้งหมดในจักรวาลก็ไม่ได้ ดังนั้นในความคิดของฉันมีเป้าหมายที่จะเสนอหลักฐานว่าความสัมพันธ์ใดก็ตามที่เราประเมินนั้นใกล้เคียงกับความจริงที่ได้รับข้อมูลที่เรารู้ เนื่องจากคุณไม่คิดว่าการทำซ้ำในการทำนายจากชุดการฝึกอบรมจนถึงตัวอย่างที่ค้างอาจเป็นการตรวจสอบการอนุมานที่มีประโยชน์หรือไม่
Andy W

ฉันขอขอบคุณความคิดเห็นของคุณเช่นกันและฉันเห็นด้วยอย่างยิ่งว่าการอนุมานนั้นขึ้นอยู่กับตรรกะและการออกแบบการวิจัยเป็นอย่างมาก
Andy W

1
แอนดี้ฉันได้แก้ไขโพสต์ของฉันเพื่อแก้ไขความคิดเห็นของคุณ นอกจากนี้ฉันไม่ได้ตั้งใจจะแนะนำว่าการอนุมานเชิงสาเหตุไม่สามารถทำได้นอกบริบทของการทดสอบที่ออกแบบมา อย่างไรก็ตามมันเป็นเรื่องยากและไม่แน่นอนในการศึกษาเชิงสังเกตการณ์และเราไม่ควรมองไปที่ขั้นตอนการสร้างแบบจำลองเพื่อช่วยเราในการแก้ปัญหานั้น แต่เราควรพยายามเข้าใจปัญหาที่เราพยายามเข้าใจความสัมพันธ์เชิงสาเหตุ
Brett

ฉันเห็นด้วยกับทุกสิ่งที่คุณพูดยกเว้นเรื่องของความถูกต้องและความสามารถในการทำซ้ำนั้นเป็นสิ่งจำเป็นในการทำการอนุมานที่ถูกต้องเมื่อพบข้อสงสัย ฉันสามารถให้ผู้เชี่ยวชาญได้รับประโยชน์จากข้อสงสัยว่าพวกเขากำลังสร้างแบบจำลองเชิงตรรกะ ที่ฉันกังวลก็คือการทำซ้ำของการค้นพบในบริบทเชิงสังเกตการณ์จำนวนมาก แม้ว่าฉันจะเห็นด้วยซ้ำการทำซ้ำไม่จำเป็นต้องคำนึงถึงอิทธิพลที่รบกวนซึ่งจัดการได้ดีที่สุดในการตั้งค่าการทดลอง
Andy W

(+1) ขอโทษด้วย ดูเหมือนว่าฉันจะลืมคำตอบที่ดีของคุณ โหวตความคิดเห็นที่เป็นประโยชน์ของคุณแล้ว
chl

13

สำหรับผมแล้วคำถามของคุณมักจะพูดถึงการตรวจสอบความถูกต้องที่แตกต่างกันของแบบจำลองการคาดการณ์: การตรวจสอบแบบไขว้ค่อนข้างมีความเกี่ยวข้องกับความถูกต้องภายในหรืออย่างน้อยขั้นตอนการสร้างแบบจำลองเริ่มต้น เพื่อความถูกต้องภายนอก. โดยที่ (และตามการปรับปรุงต่อไปนี้เป็นคำพูดที่ดีของ @ Brett) ฉันหมายความว่าเรามักจะสร้างแบบจำลองบนตัวอย่างการทำงานสมมติว่าเป็นแบบจำลองแนวคิดเชิงสมมุติฐาน (เช่นเราระบุความสัมพันธ์ระหว่างตัวทำนายและผลที่น่าสนใจ) และเราพยายามที่จะได้รับการประมาณการที่เชื่อถือได้ด้วยอัตราข้อผิดพลาดการจำแนกประเภทน้อยที่สุดหรือข้อผิดพลาดการคาดการณ์ขั้นต่ำ หวังว่าโมเดลจะทำงานได้ดีขึ้นมากเท่าไรก็จะช่วยให้เราสามารถคาดการณ์ผลลัพธ์ที่มองไม่เห็นได้ ยังคง CV ไม่ได้บอกอะไรเกี่ยวกับ "ความถูกต้อง" หรือความเพียงพอของการเชื่อมโยงสาเหตุที่ตั้งสมมติฐาน เราสามารถบรรลุผลลัพธ์ที่เหมาะสมด้วยโมเดลที่มีการละเลยและ / หรือเอฟเฟ็กต์การไกล่เกลี่ยบางอย่างหรือไม่ทราบล่วงหน้า

ประเด็นของฉันคือไม่ว่าวิธีการใดที่คุณใช้ในการตรวจสอบแบบจำลองของคุณ (และวิธีการแบบโฮลด์ไม่ได้เป็นวิธีที่ดีที่สุด แต่ก็ยังใช้กันอย่างแพร่หลายในการศึกษาทางระบาดวิทยาเพื่อบรรเทาปัญหาที่เกิดขึ้นจากการสร้างแบบจำลองแบบขั้นตอน) (ซึ่งเราถือว่าเป็นตัวแทนของประชากรที่มีขนาดใหญ่กว่า) ในทางตรงกันข้าม generalizing ผลและการเชื่อมโยงสาเหตุสรุปวิธีนี้ตัวอย่างใหม่หรือประชากรที่เกี่ยวข้องฟังมักจะทำโดยการศึกษาการจำลองแบบ สิ่งนี้ทำให้มั่นใจได้ว่าเราสามารถทดสอบความสามารถในการทำนายของโมเดลของเราอย่างปลอดภัยใน "superpopulation" ซึ่งมีช่วงของการเปลี่ยนแปลงที่หลากหลายและอาจแสดงปัจจัยที่น่าสนใจอื่น ๆ

แบบจำลองของคุณอาจให้การคาดการณ์ที่ถูกต้องสำหรับตัวอย่างการทำงานของคุณและรวมถึงผู้ที่อาจเกิดขึ้นทั้งหมดที่คุณอาจคิดถึง อย่างไรก็ตามเป็นไปได้ว่ามันจะไม่ทำงานได้ดีกับข้อมูลใหม่เพียงเพราะปัจจัยอื่น ๆ ที่ปรากฏในเส้นทางสาเหตุที่ไม่ได้ระบุเมื่อสร้างแบบจำลองเริ่มต้น สิ่งนี้อาจเกิดขึ้นได้หากผู้ทำนายและการเชื่อมโยงเชิงสาเหตุที่อ้างถึงนั้นขึ้นอยู่กับศูนย์ทดลองเฉพาะที่ผู้ป่วยได้รับการคัดเลือก

ในการระบาดวิทยาทางพันธุกรรมการศึกษาความสัมพันธ์ทางพันธุกรรมจำนวนมากล้มเหลวที่จะทำซ้ำเพียงเพราะเรากำลังพยายามที่จะสร้างแบบจำลองโรคที่ซับซ้อนด้วยมุมมองที่กว้างขวางเกินความจริงเกี่ยวกับความสัมพันธ์เชิงสาเหตุระหว่างเครื่องหมายดีเอ็นเอและฟีโนไทป์ที่สังเกตในขณะที่มีแนวโน้มว่า ยีน - โรค (pleiotropy), ยีน - สิ่งแวดล้อม, และโครงสร้างพื้นฐานประชากรทั้งหมดเข้ามาเล่น, แต่ดูตัวอย่างการตรวจสอบ, การเพิ่มและการปรับแต่งสัญญาณความสัมพันธ์จีโนมกว้าง(Ioannidis et al., Nature Reviews Genetics, 2009 10) ดังนั้นเราสามารถสร้างแบบจำลองนักแสดงขึ้นเพื่ออธิบายการเปลี่ยนแปลงข้ามที่สังเกตได้ระหว่างชุดของเครื่องหมายทางพันธุกรรม (ที่มีขนาดของเอฟเฟกต์ต่ำและเบาบาง) และรูปแบบหลายตัวแปรของฟีโนไทป์ที่สังเกตได้ (เช่นปริมาณของวัตถุสีขาว / เทาหรือ กิจกรรมที่แปลเป็นภาษาท้องถิ่นในสมองดังที่สังเกตผ่าน fMRI, การตอบสนองต่อการประเมินทางประสาทวิทยาหรือรายการสินค้าบุคลิกภาพ), ถึงกระนั้นก็ยังไม่สามารถทำงานได้ตามที่คาดไว้ในตัวอย่างอิสระ

สำหรับการอ้างอิงทั่วไปในหัวข้อนี้สามารถแนะนำบทที่ 17 และส่วนที่สามของแบบจำลองการทำนายทางคลินิกจาก EW Steyerberg (Springer, 2009) ฉันชอบบทความต่อไปนี้จาก Ioannidis:

Ioannidis, JPA, ทำไมผลการวิจัยที่ตีพิมพ์มากที่สุดนั้นเป็นเท็จ? PLoS Med 2005 2 (8): e124


1
@chl: คุณสามารถอธิบายคำสั่งของคุณในวรรคแรกเกี่ยวกับความถูกต้องภายนอกภายในได้หรือไม่? ในประเพณีที่ฉันคุ้นเคย: ความถูกต้องภายในหมายถึงความสามารถในการยืนยันสาเหตุและผลกระทบความสัมพันธ์ระหว่างตัวแปรภายในตัวอย่างเฉพาะ; ความถูกต้องภายนอกเป็นเรื่องเกี่ยวกับความสามารถในการสรุปจากตัวอย่างไปยังบุคคลอื่นสถานที่และเวลา ตามเนื้อผ้าข้ามการตรวจสอบเป็นเรื่องเกี่ยวกับหลังและตามคำนิยามข้างต้นเกี่ยวกับความถูกต้องภายนอกในขณะที่คุณระบุว่ามันเกี่ยวกับความถูกต้องภายใน ฉันเข้าใจผิดคำสั่งของคุณหรือไม่?
Brett

1
@ เบร็ทฉันคิดว่า CV เป็นเทคนิคทางสถิติเพื่อหลีกเลี่ยงการ overfitting หรือเพื่อให้การวัดความแม่นยำในการทำนายในตัวอย่างการทำงาน (ดังนั้นจึงไม่จำเป็นต้องเป็นเครื่องมือเฉพาะที่แสดงถึงความถูกต้องภายใน ฉันไม่ชัดเจนขอบคุณหรือชี้ให้เห็นว่า ฉันยอมรับว่าสิ่งนี้ถูกใช้เพื่อสรุปตัวอย่างในมือ แต่ที่นั่นฉันคิดว่ามันไม่มีส่วนเกี่ยวข้องกับการอนุมานสาเหตุ (CV ไม่ได้พิสูจน์อะไรเกี่ยวกับการเชื่อมโยงเชิงสาเหตุตามแบบจำลองในตัวอย่างการทำงาน) ฉันแชร์มุมมองของคุณเกี่ยวกับความถูกต้องภายนอก แต่เพื่อแสดงให้เห็นว่าเราต้องการตัวอย่างอื่น ๆ ไม่ใช่หรือ?
chl

1
คุณอาจชี้แจงว่าย่อหน้าแรก ฉันคิดว่าคุณกำลังพยายามที่จะบอกว่า CV ไม่ได้มีผลบังคับใช้ภายใน นั่นเป็นเรื่องสำหรับกระบวนการอื่น ๆ แต่ถ้าเรามีความถูกต้องภายในที่ดีสำหรับเหตุผลอื่น ๆ ไม่ว่าจะเป็นอะไรก็ตาม CV จะช่วยให้การประเมินผลนั้นแม่นยำยิ่งขึ้นสำหรับบุคคลสถานที่และเวลา - เช่นปรับปรุงความถูกต้องจากภายนอก ฉันยังคงไม่สามารถคิดวิธีที่ CV จะช่วยให้เราสามารถอ้างเหตุผลเกี่ยวกับความสัมพันธ์ระหว่างตัวแปร - คำถามความถูกต้องภายในตัวเอง - เพียงเพื่อช่วยให้ทั่วไปความสัมพันธ์เชิงสาเหตุที่จัดตั้งขึ้น
Brett

1
@ เบร็ทฉันคิดว่าความคิดเห็นของคุณสำหรับคำถามนี้เกี่ยวข้องมากและสรุปประเด็นบางอย่างเป็นอย่างดี ฉันสงสัยว่ามันจะช่วยให้เกิดความสับสนระหว่างความถูกต้องภายในและภายนอก ณ จุดนี้ แต่ตัวอย่างทางระบาดวิทยาทางพันธุกรรมของ chl เป็นปัญหาของความถูกต้องภายในไม่ใช่ความถูกต้องภายนอก (ยกเว้นระหว่างชุดข้อมูลที่แตกต่างกัน (หรือโครงสร้างย่อยประชากร) ความกังวลน้อยกว่าความถูกต้องภายในในตัวอย่างเหล่านี้)
Andy W

2
คำนิยามของ Brett ระหว่างความถูกต้องภายในและภายนอกนั้นถูกต้อง แต่สำหรับวัตถุประสงค์ของเรามันจะช่วยในการกำหนดในแง่ที่แตกต่างกัน ความถูกต้องภายนอกนั้นเกี่ยวข้องกับตัวอย่างและความเกี่ยวข้องของกลุ่มตัวอย่างกับประชากรอื่น ๆ ความถูกต้องภายในเกี่ยวข้องกับแง่มุมต่าง ๆ เกี่ยวกับผลกระทบที่ประเมินและโครงสร้างที่ใช้ในการประเมินผลกระทบเหล่านั้น
Andy W

12

นี่เป็นคำถามที่ดี แต่คำตอบคือไม่แน่นอน: การตรวจสอบข้ามจะไม่ปรับปรุงการอนุมานสาเหตุ หากคุณมีการแมประหว่างอาการและโรคการตรวจสอบแบบไขว้จะช่วยให้มั่นใจได้ว่าแบบจำลองของคุณตรงกับการกระจายข้อต่อของพวกเขาดีกว่าถ้าคุณพอดีกับแบบจำลองของคุณกับชุดข้อมูลดิบทั้งหมด แต่มันไม่สามารถบอกคุณได้เลย ทิศทางของสาเหตุ

การตรวจสอบไขว้เป็นสิ่งสำคัญมากและคุ้มค่าที่จะศึกษา แต่ก็ไม่ได้ช่วยอะไรมากไปกว่าการป้องกันไม่ให้คุณส่งเสียงรบกวนในชุดข้อมูลของคุณ หากคุณต้องการทำความเข้าใจเพิ่มเติมฉันแนะนำบทที่ 7 ของ ESL: http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf


ขอบคุณสำหรับการอ้างอิง. ดังนั้นถ้าคุณไม่กังวลเกี่ยวกับการเลือกแบบจำลองคุณสามารถตรวจสอบการประเมินผลกระทบของข้อมูลการฝึกอบรมที่กำหนดให้กับชุดข้อมูลที่มีประโยชน์ได้หรือไม่
Andy W

อาจเป็นไปได้ แต่ฉันจะบอกว่าคุณกำลังทำ bootstrapping (หรือการเปลี่ยนแปลงบางอย่าง) ที่จุดนั้น
John Myles White

ฉันเห็นด้วยฉันและคิดว่ามีสิ่งอื่น ๆ ที่ทำอย่างสม่ำเสมอซึ่งสะท้อนถึงตรรกะประเภทเดียวกันนี้ (เช่นการทดสอบความเฉพาะเจาะจงของชุดย่อยหรือตัวแปรที่ไม่ขึ้นอยู่กับที่ไม่เทียบเท่า) ฉันเพิ่งโพสต์คำถามเพราะฉันคิดว่าการรักษาที่เป็นทางการมากขึ้นมีอยู่
Andy W

ความคิดเห็นสำหรับ downvote ยินดีต้อนรับเสมอ!
chl

หนังสือเล่มนี้เป็นของขวัญที่มอบให้อย่างต่อเนื่อง!
hayd

6

หากต้องการตอบกลับการติดตาม @Andy ที่โพสต์เป็นคำตอบที่นี่ ...

แม้ว่าฉันจะไม่สามารถบอกได้ว่าการประมาณการแบบใดที่ถูกต้องและเป็นเรื่องผิด แต่ความไม่สอดคล้องใน Assault Conviction และการประเมินความเชื่อมั่นของ Gun ระหว่างทั้งสองรุ่นทำให้เกิดความสงสัยว่าทั้งสองแบบนั้น

ฉันคิดว่าสิ่งที่คุณหมายถึงคือความคลาดเคลื่อนในการประมาณค่าพารามิเตอร์ทำให้เรามีเหตุผลที่จะเชื่อว่าการประมาณค่าพารามิเตอร์ไม่แสดงถึงผลกระทบเชิงสาเหตุที่แท้จริง ฉันเห็นด้วยกับที่แม้ว่าเรามีเหตุผลมากมายที่จะสงสัยว่าแบบจำลองดังกล่าวจะทำให้เกิดผลที่แท้จริง

นี่คือสิ่งที่ฉันต้องทำ: ข้อมูลที่มีความเหมาะสมเป็นแหล่งของการประมาณค่าพารามิเตอร์แบบเอนเอียงและไม่มีเหตุผลที่จะเชื่อได้ว่าอคตินี้จะชดเชยแหล่งที่มาของอคติอื่น ๆ ในการประเมินผลกระทบเชิงสาเหตุโดยเฉพาะอย่างยิ่ง โดยไม่ต้องปรับข้อมูลให้แน่นเกินไป การตรวจสอบความถูกต้องไขว้ช่วยป้องกันการปรับตัวที่มากเกินไปดังนั้นโดยเฉลี่ยแล้วควรปรับปรุงประมาณการของผลกระทบเชิงสาเหตุ

แต่ถ้ามีคนพยายามโน้มน้าวใจฉันให้เชื่อว่าการประเมินผลกระทบเชิงสาเหตุของพวกเขาจากข้อมูลเชิงสังเกตแสดงให้เห็นว่าพวกเขาไม่ได้พอดีข้อมูลของพวกเขาเป็นความสำคัญต่ำเว้นแต่ฉันมีเหตุผลที่ดีที่จะสงสัยว่ากลยุทธ์การสร้างแบบจำลองของพวกเขา เกินพอดี

ในแอปพลิเคชันทางสังคมศาสตร์ที่ฉันทำงานด้วยฉันกังวลกับประเด็นสำคัญปัญหาการวัดและการตรวจสอบความไว ด้วยการตรวจสอบความอ่อนไหวฉันหมายถึงการประมาณความแปรปรวนของตัวแบบที่มีการเพิ่มหรือลบคำศัพท์และการประมาณตัวแบบที่มีปฏิสัมพันธ์ซึ่งทำให้ผลของความสนใจแตกต่างกันไปตามกลุ่มย่อย การเปลี่ยนแปลงแบบจำลองทางสถิติเหล่านี้ส่งผลกระทบต่อการประมาณค่าพารามิเตอร์ที่เราต้องการตีความอย่างมีเหตุผลเท่าใด ความแตกต่างในการประมาณค่าพารามิเตอร์นี้ทั่วทั้งข้อมูลจำเพาะของรูปแบบหรือกลุ่มย่อยที่เข้าใจได้ในแง่ของเรื่องราวสาเหตุที่คุณพยายามที่จะบอกหรือพวกเขาบอกเป็นนัยเกี่ยวกับผลกระทบที่ขับเคลื่อนโดยเช่นการเลือก

ในความเป็นจริงก่อนที่คุณจะเรียกใช้ข้อกำหนดทางเลือกเหล่านี้ จดบันทึกว่าคุณคิดว่าการประมาณพารามิเตอร์ของคุณจะเปลี่ยนไปอย่างไร มันยอดเยี่ยมถ้าการประมาณค่าพารามิเตอร์ที่คุณสนใจไม่ได้แตกต่างกันมากในกลุ่มย่อยหรือข้อกำหนด - ในบริบทของงานของฉันนั่นสำคัญกว่าการตรวจสอบข้าม แต่ประเด็นสำคัญอื่น ๆ ที่มีผลต่อการตีความของฉันยังคงสำคัญกว่า


ขอบคุณมากสำหรับการชั่งน้ำหนัก! มุมมองของคุณทำให้เกิดแรงจูงใจโดยตรงสำหรับการตรวจสอบข้ามในแบบจำลองเชิงสาเหตุที่ฉันไม่เคยกำหนดตัวเองไว้อย่างตรงไปตรงมา IMO ของคุณแม้ขายตัวเองสักหน่อยโดยใช้ฉลากของข้อต่อที่มากเกินไป ตัวอย่างเช่นในชุดสำรวจเริ่มต้นฉันอาจดูรูปแบบที่เหมาะสมระหว่างสมการโดยใช้ตัวแปรอิสระในระดับเริ่มต้นเมื่อเทียบกับขนาดบันทึก ฉันตัดสินใจว่าแบบจำลองที่มีมาตราส่วนล็อกเหมาะสมกว่าแล้วใช้โมเดลนั้นในโมเดลที่ระงับ โดยทั่วไปจะไม่ได้รับการพิจารณาว่าเหมาะสมมากเกินไป (เลือกระหว่างอันใดอันหนึ่ง), ...
Andy W

แต่ยังคงพอดีภายในกรอบความคิดที่คุณแนะนำในย่อหน้าของคุณที่นี่
Andy W

5

ฉันขอขอบคุณทุกคนสำหรับคำตอบของพวกเขา แต่คำถามก็เพิ่มขึ้นเป็นสิ่งที่ฉันไม่ได้ตั้งใจจะเป็นส่วนใหญ่เป็นบทความเกี่ยวกับแนวคิดทั่วไปของการอนุมานเชิงสาเหตุโดยไม่มีคำตอบที่ถูกต้อง

ตอนแรกฉันตั้งใจจะถามผู้ชมเพื่อดูตัวอย่างของการใช้การตรวจสอบความถูกต้องแบบไขว้สำหรับการอนุมานเชิงสาเหตุ ฉันสันนิษฐานว่ามีวิธีการดังกล่าวอยู่เนื่องจากความคิดในการใช้ตัวอย่างทดสอบและเก็บตัวอย่างไว้เพื่อประเมินความสามารถในการทำซ้ำของการประมาณค่าผลกระทบที่มีต่อฉัน สิ่งที่ฉันแนะนำคือไม่แตกต่างจาก bootstrapping และฉันจะบอกว่ามันคล้ายกับวิธีอื่น ๆ ที่เราใช้ในการตรวจสอบผลลัพธ์เช่นการทดสอบความเฉพาะเจาะจงของเซตย่อยหรือตัวแปรตามที่ไม่เทียบเท่า (bootstrapping ผ่อนคลายสมมติฐานเชิงพารามิเตอร์ของโมเดลและชุดย่อย การทดสอบในลักษณะทั่วไปจะใช้เป็นการตรวจสอบว่าผลลัพธ์เป็นตรรกะในสถานการณ์ที่แตกต่างกัน) ไม่มีวิธีการใดที่ตรงกับมาตรฐานคำตอบอื่น ๆ ในการพิสูจน์การอนุมานสาเหตุ แต่ฉันเชื่อว่ามันยังมีประโยชน์สำหรับการอนุมานเชิงสาเหตุ

ความคิดเห็นของ chl นั้นถูกต้องตรงที่การยืนยันของฉันสำหรับการใช้การตรวจสอบความถูกต้องเป็นการตรวจสอบความถูกต้องภายในเพื่อช่วยในการอนุมานเชิงสาเหตุ แต่ฉันขอให้เราละทิ้งความแตกต่างระหว่างความถูกต้องภายในและภายนอกในตอนนี้ ตัวอย่างของการศึกษาจีโนมในวงกว้างของระบาดวิทยาฉันจะพิจารณาตัวอย่างที่สำคัญของความมีเหตุผลภายในที่ไม่ดี ฉันคิดว่าการศึกษาความสัมพันธ์จีโนมเป็นตัวอย่างของสิ่งที่ฉันขอ คุณคิดว่าการอนุมานระหว่างยีนและโรคได้รับการปรับปรุงโดยใช้การตรวจสอบความถูกต้องของข้อมูล (เป็นเพียงการโยนเครื่องหมายทั้งหมดลงในแบบจำลองเดียวและปรับค่า p ตามนั้นหรือไม่)

ด้านล่างฉันวางสำเนาของตารางในบทความ Berk ที่ฉันอ้างถึงในคำถามของฉัน ในขณะที่ตารางเหล่านี้มีการแสดงให้เห็นถึงตรรกะที่ผิดพลาดของการใช้เกณฑ์การคัดเลือกขั้นตอนที่ชาญฉลาดและสาเหตุการอนุมานในรูปแบบเดียวกันช่วยให้ทำเป็นรูปแบบไม่มีเกณฑ์การคัดเลือกถูกนำมาใช้และพารามิเตอร์ทั้งในการฝึกอบรมและถือออกตัวอย่างได้รับการพิจารณาเบื้องต้น. สิ่งนี้ไม่ได้ทำให้ฉันเป็นผลที่ไม่สมจริง แม้ว่าฉันจะไม่สามารถบอกได้ว่าการประมาณการแบบใดที่ถูกต้องและเป็นเรื่องผิด แต่ความไม่สอดคล้องใน Assault Conviction และการประเมินความเชื่อมั่นของ Gun ระหว่างทั้งสองรุ่นทำให้เกิดความสงสัยว่าทั้งสองแบบนั้น การรู้ว่ารูปแบบนั้นไม่มีประโยชน์หรือไม่ หากเราไม่มีอะไรเสียโดยมีตัวอย่างที่ค้างไว้เพื่อทดสอบแบบจำลองของเราทำไมเราไม่สามารถใช้การตรวจสอบข้ามเพื่อปรับปรุงการอนุมานเชิงสาเหตุ (หรือฉันพลาดสิ่งที่เรากำลังสูญเสียโดยใช้ตัวอย่างที่ระงับไว้) ข้อความแสดงแทน


1
บันทึกเกี่ยวกับสาเหตุที่การลงคะแนนนี้จะได้รับการชื่นชม
Andy W

2
ฉันจะ @Andy ที่สองและแนะนำให้แสดงความคิดเห็นเมื่อ downvoting: มันเป็นประโยชน์เสมอในการเรียนรู้สิ่งที่ผิดถ้ามี โดยเฉพาะอย่างยิ่งในกรณีนี้: Andy W กลับมาพร้อมกับ CW ความคิดเห็นเพิ่มเติมซึ่งในความคิดของฉันเพิ่มการสนับสนุนเพิ่มเติมสำหรับคำถามเดิม ไม่จำเป็นต้องลงคะแนนอะไรเลย!
chl

1
ข้อผิดพลาด / ช่วงความมั่นใจมาตรฐานไม่ได้ให้การบ่งชี้ความแปรปรวนนี้แล้วหรือยัง ค่าประมาณชุดทดสอบของคุณอยู่ในช่วงความมั่นใจมาตรฐานของคุณจากชุดฝึกอบรมของคุณ ฉันจะคิดว่าความผิดพลาดมาตรฐานขนาดเล็กและ CIs ที่แคบนั้นมีความสำคัญต่อความเป็นเวรกรรม
ความน่าจะเป็นทาง

ใช่ @probabilityislogic คุณถูกต้อง ฉันเชื่อว่าเมื่อฉันทำในจุดนี้มันไม่ได้มีความหมายสำหรับสถานการณ์ที่คุณใช้ CV กับชุดข้อมูลที่มีอยู่แล้ว แต่ไปยังชุดข้อมูลที่รวบรวมในบางครั้ง ฉันคิดว่า CV อาจมีประโยชน์ที่นี่เพื่อสนับสนุนงบเชิงสาเหตุ แต่ก็ยังไม่ชัดเจนสำหรับฉันหากเป็นเช่นนั้น ฉันเห็นว่ามันมีประโยชน์ในแง่ของการเลือกรูปแบบไม่ได้ตรวจสอบความถูกต้องของรูปแบบ (เช่นโมเดลของฉันกับข้อมูลใหม่นี้ให้ความพอดีมาก)
Andy W

2
@ AriB.Friedman, ทำให้ผมนึกถึงเอ็ดTufte ของสัญญาณปรัชญา , ความสัมพันธ์ไม่ได้เป็นสาเหตุ แต่แน่ใจว่าจะช่วยให้
Andy W

1

ฉันเดาว่านี่เป็นวิธีที่ใช้งานง่ายที่จะคิดเกี่ยวกับความสัมพันธ์ระหว่าง CV และการอนุมานสาเหตุ: (โปรดแก้ไขให้ถูกต้องถ้าฉันผิด)

ฉันมักจะคิดถึง CV เป็นวิธีในการประเมินประสิทธิภาพของแบบจำลองในการทำนาย อย่างไรก็ตามในการอนุมานสาเหตุเรามีความกังวลมากขึ้นกับสิ่งที่เทียบเท่ากับ Occam's Razor (parsimony) ดังนั้น CV จึงไม่ช่วย

ขอบคุณ


เหตุผลที่ฉันโพสต์คำถามคือเพราะเราไม่ต้องคิดถึงการตรวจสอบไขว้เป็นเพียงวิธีการประเมินแบบจำลองความสามารถในการทำนาย ไม่ใช่เรื่องแปลกที่ต้องคำนึงว่าผลลัพธ์ของแบบจำลอง (และการอนุมานด้วยเหตุนี้) เป็นสิ่งประดิษฐ์ด้วยเหตุผลหลายประการ ดังนั้นเราต้องการตรวจสอบความทนทานของการค้นพบและฉันคิดว่าการตรวจสอบข้ามอาจเป็นบริบทที่มีประโยชน์ในการตรวจสอบความทนทานของผลลัพธ์
Andy W

ขอโทษสำหรับการตีความที่ผิด
suncoolsu

ไม่จำเป็นต้องขอโทษ ฉันเป็นคนหนึ่งที่แนะนำสิ่งที่เห็นได้ชัดและการตรวจสอบความถูกต้องจะใช้ในบริบทที่คุณแนะนำเสมอ
Andy W

@suncoolsu เมื่อฉันกำลังคิดเกี่ยวกับการอนุมานสาเหตุฉันไม่เคยกังวลเกี่ยวกับความคมชัดของมีดโกนหรือ Occarsimony Occam คุณช่วยอธิบายการเชื่อมต่อกับฉันได้ไหม?
Michael Bishop
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.