อะไรคือ“ ความคาดหวังความเป็นไปได้สูงสุดที่ตั้งเป้าหมายไว้”?


15

ฉันพยายามทำความเข้าใจกับเอกสารของ Mark van der Laan เขาเป็นนักสถิติเชิงทฤษฎีที่ Berkeley ที่ทำงานกับปัญหาที่ทับซ้อนกันอย่างมีนัยสำคัญกับการเรียนรู้ของเครื่อง ปัญหาหนึ่งสำหรับฉัน (นอกเหนือจากคณิตศาสตร์ลึก) คือเขามักจะอธิบายวิธีการเรียนรู้ของเครื่องที่คุ้นเคยโดยใช้คำศัพท์ที่แตกต่างกันโดยสิ้นเชิง หนึ่งในแนวคิดหลักของเขาคือ "ความคาดหวังสูงสุดตามเป้าหมาย"

TMLE ใช้ในการวิเคราะห์ข้อมูลเชิงการเซ็นเซอร์จากการทดลองที่ไม่มีการควบคุมในลักษณะที่ช่วยให้การประเมินผลกระทบแม้ในที่ที่มีปัจจัยรบกวน ฉันสงสัยอย่างยิ่งว่ามีแนวคิดแบบเดียวกันหลายอย่างอยู่ภายใต้ชื่ออื่นในสาขาอื่น แต่ฉันยังไม่เข้าใจดีพอที่จะจับคู่มันกับอะไรก็ได้โดยตรง

ความพยายามในการเชื่อมช่องว่างกับ "การวิเคราะห์ข้อมูลเชิงคำนวณ" อยู่ที่นี่:

การเข้าสู่ยุคของวิทยาศาสตร์ข้อมูล: การเรียนรู้แบบเป้าหมายและการบูรณาการสถิติและการวิเคราะห์ข้อมูลเชิงคำนวณ

และการแนะนำสำหรับนักสถิติอยู่ที่นี่:

การอนุมานสาเหตุเชิงสาเหตุสูงสุดตามเป้าหมาย: ส่วนที่ 1

จากวินาที:

ในบทความนี้เราพัฒนาตัวประมาณความน่าจะเป็นเป้าหมายสูงสุดเฉพาะของผลกระทบเชิงสาเหตุของการแทรกแซงจุดเวลาหลายจุด สิ่งนี้เกี่ยวข้องกับการใช้การสูญเสียการเรียนรู้ระดับสูงเพื่อรับการประเมินเบื้องต้นของปัจจัยที่ไม่ทราบของสูตรการคำนวณ G และต่อมาใช้ฟังก์ชันพารามิเตอร์ความผันผวนที่เหมาะสมที่สุดที่เป็นเป้าหมายเฉพาะพารามิเตอร์ การประมาณค่าพารามิเตอร์ความผันผวนด้วยการประมาณค่าความน่าจะเป็นสูงสุดและวนซ้ำขั้นตอนการอัปเดตของปัจจัยเริ่มต้นจนถึงการลู่เข้า ขั้นตอนการอัพเดทโอกาสสูงสุดที่เป็นเป้าหมายซ้ำ ๆ นี้ทำให้ตัวประมาณค่าผลลัพธ์ของผลลัพธ์เชิงสาเหตุมีความแข็งแกร่งเป็นสองเท่าในแง่ที่ว่ามีความสอดคล้องกันหากตัวประมาณค่าเริ่มต้นสอดคล้องกัน หรือตัวประมาณของฟังก์ชันความผันผวนที่เหมาะสมนั้นสอดคล้องกัน ฟังก์ชั่นความผันผวนที่ดีที่สุดจะถูกระบุอย่างถูกต้องหากการแจกแจงแบบมีเงื่อนไขของโหนดในกราฟเชิงสาเหตุระบุการแทรกแซงอย่างใดอย่างหนึ่ง

ในคำศัพท์ของเขา "การเรียนรู้ขั้นสูง" คือการเรียนรู้ทั้งมวลด้วยทฤษฎีที่มีน้ำหนักที่ไม่เป็นลบ แต่สิ่งที่เขาหมายถึงโดย "การใช้ฟังก์ชั่นความผันผวนที่ดีที่สุดเฉพาะพารามิเตอร์เป้าหมายพารามิเตอร์

หรือแบ่งเป็นสามคำถามที่แตกต่างกัน TMLE มีการเรียนรู้แบบขนานในเครื่องเรียนรู้ว่าอะไรคือ "รูปแบบพารามิเตอร์ที่มีประโยชน์น้อยที่สุด" และ "ฟังก์ชันความผันผวน" ในสาขาอื่นคืออะไร


1
เหตุผลหนึ่งที่คำศัพท์อาจไม่คุ้นเคยคือเป้าหมายของ TMLE คือการประเมินผลการรักษาโดยเฉลี่ย - การอนุมานเชิงสาเหตุไม่ใช่การทำนาย เมื่อฉันอ่าน "super learner" ในเอกสารของ TMLE ฉันคิดว่าผู้เขียนยืมคำศัพท์จากแพ็คเกจ SuperLearner ใน R เพื่อสร้างแบบจำลองทั้งหมด
RobertF

คำตอบ:


24

ฉันยอมรับว่า Van der Laan มีแนวโน้มที่จะคิดค้นชื่อใหม่สำหรับแนวคิดที่มีอยู่แล้ว (เช่นผู้เรียนรู้ขั้นสูง) แต่ TMLE ไม่ใช่หนึ่งในพวกเขาเท่าที่ฉันรู้ จริงๆแล้วมันเป็นความคิดที่ฉลาดมากและฉันไม่เคยเห็นอะไรเลยจากชุมชนการเรียนรู้ของเครื่องจักรซึ่งมีลักษณะคล้ายกัน (แม้ว่าฉันอาจจะไม่รู้ก็ตาม) ความคิดมาจากทฤษฎีของสมการการประมาณค่ากึ่งมีประสิทธิภาพซึ่งเป็นสิ่งที่ฉันคิดว่านักสถิติคิดมากกว่าคน ML

P0 Ψ(P0)

iφ(Yiθ)=0,

θ=θ(P)PΨφEPφ(Yθ)=0θP0Ψ(P0)(หมายเหตุ: ฉันรู้สึกไม่ค่อยดีกับคำว่า "ประสิทธิภาพ" เนื่องจากฉันเพิ่งอธิบายฮิวริสติก)ทฤษฎีที่อยู่เบื้องหลังสมการประมาณนี้ค่อนข้างสง่างามหนังสือเล่มนี้เป็นหนังสืออ้างอิงที่เป็นที่ยอมรับ นี่คือที่หนึ่งอาจพบคำจำกัดความมาตรฐานของ "submodels ที่น้อยที่สุด"; สิ่งเหล่านี้ไม่ใช่คำที่แวนเดอร์ลันสร้างขึ้น

P0P0Ψ(P0)P0P^Ψ(P^)nP0Ψ

p^

p^1,ϵ=p^exp(ϵ φ(Yθ))p^exp(ϵ φ(yθ)) dy

ϵϵϵ=0p^Ψϵ0p^1p^

p^2,ϵp^1,ϵ^exp(ϵ φ(Yθ).

และจนกว่าเราจะได้อะไรซักอย่างในขีด จำกัด ซึ่งเป็นไปตามสมการการประมาณที่มีประสิทธิภาพ


1
"ฉันยอมรับว่า van der Laan มีแนวโน้มที่จะคิดค้นชื่อใหม่สำหรับแนวคิดที่มีอยู่แล้ว" - ใช่ดูการแนะนำ TMLE นี้: biostats.bepress.com/ucbbiostat/paper252โดยที่ Van der Laan ใช้ "การรวมกลุ่มแบบสุ่ม" เพื่อหมายถึง การแลกเปลี่ยนและ "สมมติฐานการรักษาทดลอง (ETA)" เพื่อหมายถึงความเป็นบวก :-) มันไม่แปลกมากในสาขาของเรา นักวิทยาศาสตร์ข้อมูลใช้คำศัพท์เช่นการเรียกคืนความแม่นยำและการทดสอบ A / B ซึ่งฉันได้เรียนรู้ว่าเป็นความอ่อนไหวค่าทำนายเชิงบวกและการทดสอบสมมติฐานในวิทยาลัย
RobertF

2
@RobertF CAR เกิดจาก Heitjan และ Rubin และเป็นลักษณะทั่วไปของ MAR Rubin ได้ประดิษฐ์ MAR และยังเป็นที่นิยมในกรอบของผลลัพธ์ที่เป็นไปได้ดังนั้นการใช้ CAR เป็นข้อสรุปทั้งหมดสำหรับสมมุติฐานประเภทความไม่รู้
ผู้ชาย
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.