การอภิปรายที่ชัดเจนยิ่งขึ้นของการเลือกตัวแปร


55

พื้นหลัง

ฉันกำลังทำวิจัยทางคลินิกด้านการแพทย์และมีหลักสูตรสถิติหลายหลักสูตร ฉันไม่เคยตีพิมพ์บทความโดยใช้การถดถอยเชิงเส้น / โลจิสติกและต้องการเลือกตัวแปรอย่างถูกต้อง การตีความเป็นสิ่งสำคัญดังนั้นจึงไม่มีเทคนิคการเรียนรู้ด้วยเครื่อง ฉันได้สรุปความเข้าใจของฉันเกี่ยวกับการเลือกตัวแปร - บางคนจะมีจิตใจที่เข้าใจถึงความเข้าใจผิด ๆ ผมพบว่าสอง (1) ที่คล้ายกัน (2) โพสต์ CV ให้เป็นหนึ่งในนี้ แต่พวกเขาไม่ได้ค่อนข้างเต็มที่ตอบข้อสงสัยของฉัน ความคิดใด ๆ ที่จะได้รับการชื่นชมมาก! ฉันมี 3 คำถามหลักในตอนท้าย

ปัญหาและการสนทนา

ปัญหาการถดถอย / การจำแนกประเภทโดยทั่วไปของฉันมีการสังเกต 200-300 ครั้งอัตราการเกิดเหตุการณ์ไม่พึงประสงค์ 15% (หากการจำแนก) และข้อมูลเกี่ยวกับตัวแปร 25 จาก 40 ที่อ้างว่ามีผลกระทบ "นัยสำคัญทางสถิติ" ในวรรณคดีหรือทำให้น่าเชื่อถือ ความรู้สึกโดยโดเมนความรู้

ฉันใส่ "นัยสำคัญทางสถิติ" ในเครื่องหมายคำพูดเพราะดูเหมือนว่าทุกคนและแม่ของพวกเขาใช้การถดถอยแบบขั้นตอน แต่Harrell (3) และFlom (4) ดูเหมือนจะไม่ชอบด้วยเหตุผลหลายประการ สิ่งนี้ได้รับการสนับสนุนเพิ่มเติมจากการสนทนาโพสต์บล็อกของ Gelman (5) ดูเหมือนว่าเวลาจริงเท่านั้นที่เป็นขั้นตอนเป็นที่ยอมรับคือถ้านี่เป็นการวิเคราะห์เชิงสำรวจอย่างแท้จริงหรือมีใครสนใจทำนายและมีรูปแบบการตรวจสอบข้ามที่เกี่ยวข้อง โดยเฉพาะอย่างยิ่งเนื่องจากผู้ป่วยโรคทางการแพทย์หลายคนต้องทนทุกข์ทรมานจากความไม่ลงรอยกันและการศึกษาประสบจากตัวอย่างขนาดเล็กความเข้าใจของฉันคือจะมีผลบวกเท็จมากมายในวรรณคดี สิ่งนี้ยังทำให้ฉันมีความน่าเชื่อถือน้อยลงในวรรณกรรมสำหรับตัวแปรที่เป็นไปได้

แนวทางที่ได้รับความนิยมอีกวิธีหนึ่งคือการใช้ชุดของการถดถอย / การเชื่อมโยงแบบไม่เปลี่ยนแปลงระหว่างตัวทำนายและตัวแปรอิสระเป็นจุดเริ่มต้น ต่ำกว่าเกณฑ์เฉพาะ (พูด, p <0.2) ดูเหมือนว่าไม่ถูกต้องหรือทำให้เข้าใจผิดอย่างน้อยด้วยเหตุผลที่อธิบายไว้ในโพสต์ StackExchange นี้ (6)

สุดท้ายวิธีอัตโนมัติที่ได้รับความนิยมในการเรียนรู้ของเครื่องคือการใช้การลงโทษเช่น L1 (Lasso), L2 (Ridge) หรือ L1 + L2 คอมโบ (Elastic Net) ความเข้าใจของฉันคือว่าสิ่งเหล่านี้ไม่มีการตีความง่าย ๆ เหมือนกับ OLS หรือการถดถอยโลจิสติก

Gelman + Hill เสนอสิ่งต่อไปนี้:

Gelman

ในหลักสูตรสถิติของฉันฉันยังจำได้ว่าใช้การทดสอบแบบ F หรือการวิเคราะห์ความเบี่ยงเบนเพื่อเปรียบเทียบแบบจำลองแบบเต็มและแบบซ้อนเพื่อทำตัวแปรการเลือกแบบจำลอง / ตัวแปรตามตัวแปร ดูเหมือนว่ามีเหตุผล แต่ตัวแบบเรียงซ้อนแบบเรียงตามลำดับอย่างเป็นระบบเพื่อค้นหาตัวแปรที่ทำให้เกิดการเบี่ยงเบนที่ใหญ่ที่สุดต่อ df ดูเหมือนว่าจะเป็นไปโดยอัตโนมัติได้อย่างง่ายดาย (ดังนั้นฉันจึงกังวลเล็กน้อย) และดูเหมือนว่า คุณทดสอบการรวมตัวแปร ความเข้าใจของฉันคือว่าสิ่งนี้ควรได้รับการเสริมด้วยการตรวจสอบความหลากสีและพล็อตที่เหลือ (ที่เหลือเทียบกับที่คาดการณ์ไว้)

คำถาม:

  1. Gelman สรุปวิธีไปหรือไม่? คุณจะเพิ่มหรือเปลี่ยนแปลงอะไรในกลยุทธ์ที่เขาเสนอ

  2. นอกเหนือจากการคิดอย่างหมดจดเกี่ยวกับการโต้ตอบและการเปลี่ยนแปลงที่อาจเกิดขึ้น (ซึ่งดูเหมือนว่ามีอคติ / ผิดพลาด / ละเลยได้ง่าย) มีวิธีอื่นที่จะค้นพบสิ่งที่อาจเป็นไปได้หรือไม่? Multivariate adaptive regline spline (MARS)แนะนำให้ฉัน แต่ฉันได้รับแจ้งว่าการไม่เป็นเชิงเส้น / การแปลงไม่ได้แปลเป็นตัวแปรเดียวกันในรูปแบบการถดถอยมาตรฐาน

  3. สมมติว่าเป้าหมายของฉันง่ายมาก: พูดว่า "ฉันต้องการประเมินความสัมพันธ์ของ X1 ใน Y, เพียงบัญชีสำหรับ X2" มันเพียงพอแล้วหรือไม่ที่จะถดถอย Y ~ X1 + X2 รายงานผลลัพธ์โดยไม่ต้องอ้างอิงความสามารถในการทำนายที่แท้จริง การเปลี่ยนแปลงนี้ขึ้นอยู่กับอัตรากิจกรรมหรือขนาดตัวอย่างหรือถ้า R ^ 2 ต่ำมาก (ฉันทราบว่า R ^ 2 ไม่ดีเพราะคุณสามารถเพิ่มได้เสมอโดยการใส่ให้มากเกินไป)? โดยทั่วไปฉันสนใจที่จะอนุมาน / ตีความได้มากกว่าการเพิ่มประสิทธิภาพการทำนาย

ตัวอย่างข้อสรุป:

  1. "การควบคุม X2 นั้น X1 นั้นไม่มีนัยสำคัญทางสถิติที่เกี่ยวข้องกับ Y เมื่อเทียบกับระดับการอ้างอิงของ X1" (สัมประสิทธิ์การถดถอยโลจิสติก)
  2. "X1 ไม่ใช่ตัวทำนายที่มีนัยสำคัญทางสถิติของ Y เนื่องจากในการลดลงของความเบี่ยงเบนของแบบจำลองนั้นไม่เพียงพอเมื่อเทียบกับการเปลี่ยนแปลงใน df" (การวิเคราะห์ความเบี่ยงเบน)

การตรวจสอบข้ามจำเป็นหรือไม่ ในกรณีนี้เราอาจต้องการสร้างความสมดุลให้กับชั้นเรียนผ่าน SMOTE การสุ่มตัวอย่างและอื่น ๆ



6
ไม่ว่าจะเป็นสิ่งที่เป็นไปโดยอัตโนมัติหรือไม่ (ในปัจจุบัน - ก่อนการถือกำเนิดของ AI ที่แข็งแกร่ง) ทำให้ฉันกลายเป็นปลาเฮอริ่งแดง
gung - Reinstate Monica

7
+1 สำหรับคำถามที่คิดอย่างมาก สิ่งหนึ่งที่รีวิวของคุณแสดงให้เห็นคือไม่มีสูตรหรือตำราอาหารมาตรฐานสำหรับการเลือกตัวแปร ทุกคนมีวิธีการที่แตกต่างกันและชุดของการปฏิบัติที่ "ดีที่สุด" จากนั้นมีความแตกต่างที่สำคัญมากระหว่างแบบจำลองเชิงทฤษฎีหรือแบบประชากรเทียบกับแบบจำลองเชิงประจักษ์ซึ่งเป็นกรอบที่แตกต่างกันเหล่านี้ไม่ค่อยจัดและมันง่ายที่จะทำให้พวกเขาเข้าใจง่าย ความกังวลของคุณเกี่ยวกับบางสิ่งที่ "หายไป" นั้นไม่ได้ไม่มีมูลความจริงเลย แต่ความจริงก็คือไม่มีคำตอบที่ชัดเจนและชัดเจน วิธีการที่คุณตรวจสอบนั้นมีการบันทึกไว้อย่างกว้างขวางเลือกวิธีหนึ่ง
Mike Hunter

4
Harrell, Flom, & Kolassa; มันถูกตัดสินแล้ว
gung - Reinstate Monica

4
Re Gelman & Hill's 4 (b): Harrell, RMS 1st edn, p60: "ปัญหาสุดท้ายที่มีการเลือกตัวแปรถูกแสดงโดยการเปรียบเทียบวิธีนี้ [sc. stepwise] กับวิธีที่สมเหตุสมผลนักเศรษฐศาสตร์หลายคนพัฒนาแบบจำลองการถดถอยนักเศรษฐศาสตร์มักใช้กลยุทธ์ ของการลบเฉพาะตัวแปรที่ไม่มีนัยสำคัญ & ซึ่งสัมประสิทธิ์การถดถอยมีทิศทางที่ไม่จำเป็น " และฉันดูเหมือนจะจำได้ว่า Steyerberg กำลังจะเขียนบทความลงบนกระดาษ [จะพยายามค้นหาผู้อ้างอิง เมื่อฉันมีโอกาส]
Scortchi - Reinstate Monica

คำตอบ:


46

Andrew Gelman เป็นชื่อที่น่านับถือในโลกแห่งสถิติ หลักการของเขาสอดคล้องกับการวิจัยการสร้างแบบจำลองเชิงสาเหตุที่ทำโดย "ชื่อใหญ่" คนอื่น ๆ ในสาขานี้ แต่ฉันคิดว่าคุณให้ความสนใจในการวิจัยทางคลินิกคุณควรจะปรึกษาแหล่งข้อมูลอื่น

ฉันกำลังใช้คำว่า "สาเหตุ" อย่างอิสระ (เช่นเดียวกับคนอื่น ๆ ) เพราะมีเส้นแบ่งที่เราต้องวาดระหว่างการดำเนินการ "อนุมานสาเหตุ" จากข้อมูลเชิงสังเกตการณ์และยืนยันความสัมพันธ์เชิงสาเหตุระหว่างตัวแปร เราทุกคนเห็นพ้องต้องกันว่า RCT เป็นวิธีหลักในการประเมินเวรกรรม เราไม่ค่อยปรับเปลี่ยนสิ่งใดในการทดลองดังกล่าวตามสมมติฐานการสุ่มโดยมีข้อยกเว้นเล็กน้อย ( Senn, 2004 ) ศึกษาเชิงมีความสำคัญและยูทิลิตี้ (ของพวกเขาไวส์ 1989 ) และ counterfactual ตามวิธีการที่จะทำให้การอนุมานจากข้อมูลสังเกตการณ์ได้รับการยอมรับว่าเป็นวิธีการที่เสียงปรัชญาในการทำเช่นนั้น ( Höfler 2005 ) มันมักจะใกล้เคียงกับประสิทธิภาพการใช้งานที่วัดใน RCT อย่างใกล้ชิดมาก ( Anglemyer, 2014 )

ดังนั้นฉันจะเน้นการศึกษาจากข้อมูลเชิงสังเกตการณ์ จุดของฉันของการต่อสู้กับคำแนะนำ Gelman คือ: ทุกพยากรณ์ในรูปแบบของพวกเขาและความสัมพันธ์เชิงสาเหตุ positedระหว่างสัมผัสเพียงครั้งเดียวที่น่าสนใจและผลเดียวที่สนใจควรมีการระบุaPriori การโยนและแยกโควาเรียตามความสัมพันธ์ระหว่างชุดการค้นพบที่สำคัญคือการกระตุ้นให้เกิดกรณีพิเศษของ 'ตารางสถิติของ Munchausen' ( Martin, 1984 ) วารสารบางเล่ม (และแนวโน้มกำลังเป็นที่จับตามอง) จะปฏิเสธบทความใด ๆ ที่ใช้การถดถอยแบบขั้นตอนเพื่อระบุแบบจำลองขั้นสุดท้าย ( Babyak, 2004 ) และฉันคิดว่าปัญหาดังกล่าวคล้ายกันที่นี่

เหตุผลในการรวมและแยกโควาเรียต์ในแบบจำลองถูกกล่าวถึงใน: Causality ของ Judea Pearl ( Pearl, 2002 ) มันอาจเป็นหนึ่งในตำราที่ดีที่สุดในการทำความเข้าใจหลักการของการอนุมานทางสถิติการถดถอยและการปรับหลายตัวแปร นอกจากนี้ยังมีสิ่งใดที่แซนเดอร์และกรีนแลนด์กำลังส่องสว่างโดยเฉพาะอย่างยิ่งการอภิปรายเกี่ยวกับการรบกวนที่ไม่ได้รับการแนะนำจากรายการแนะนำนี้ ( กรีนแลนด์และคณะ 1999)) โควาเรียเฉพาะสามารถกำหนดป้ายกำกับตามความสัมพันธ์แบบกราฟิกกับแบบจำลองเชิงสาเหตุ รายละเอียดเช่นการพยากรณ์โรค Confounder หรือตัวแปรความแม่นยำรับประกันการรวมเป็นตัวแปรในรูปแบบสถิติ ผู้ทำหน้าที่ไกล่เกลี่ย colliders หรือตัวแปรที่อยู่นอกเส้นทางของสาเหตุควรถูกละเว้น คำจำกัดความของคำศัพท์เหล่านี้มีความเข้มงวดกับตัวอย่างมากมายใน Causality

ด้วยพื้นหลังเล็ก ๆ นี้ฉันจะพูดถึงประเด็นแบบจุดต่อหนึ่ง

  1. โดยทั่วไปนี่เป็นวิธีการที่ดีในการพิจารณาข้อสำคัญ MAJOR: ตัวแปรเหล่านี้จะต้องไม่เป็นสื่อกลางของผลลัพธ์ ยกตัวอย่างเช่นหากคุณกำลังตรวจสอบความสัมพันธ์ระหว่างการสูบบุหรี่กับสมรรถภาพทางกายและคุณปรับการทำงานของปอดนั่นคือการลดทอนผลกระทบของการสูบบุหรี่เพราะผลกระทบโดยตรงต่อการออกกำลังกายคือการลดการทำงานของปอด สิ่งนี้ไม่ควรจะสับสนกับการรบกวนที่ตัวแปรที่สามเป็นสาเหตุของการทำนายผลประโยชน์และผลที่น่าสนใจ Confounders จะต้องรวมอยู่ในรุ่น นอกจากนี้การปรับเปลี่ยนอาจทำให้เกิดอคติหลายรูปแบบในการวิเคราะห์ ผู้ทำหน้าที่ไกล่เกลี่ยและคู่หูที่ถือว่าเป็นเช่นนั้นไม่ใช่เพราะสิ่งที่พบในการวิเคราะห์ แต่เป็นเพราะคุณเชื่อในเรื่องของผู้เชี่ยวชาญเรื่อง (SME) หากคุณมีการสังเกต 20 ครั้งต่อตัวแปรหรือน้อยกว่าหรือ 20 การสังเกตต่อเหตุการณ์ในการวิเคราะห์แบบเวลาต่อเหตุการณ์หรือการวิเคราะห์โลจิสติกคุณควรพิจารณาวิธีการแบบมีเงื่อนไขแทน

  2. นี่เป็นวิธีการประหยัดพลังงานที่ยอดเยี่ยมที่ไม่ซับซ้อนเช่นการปรับคะแนนความชอบหรือ SEM หรือการวิเคราะห์ปัจจัย ฉันขอแนะนำให้ทำอย่างนี้ทุกครั้งที่ทำได้

  3. ฉันไม่เห็นด้วยอย่างสุดใจ จุดปรับสำหรับตัวแปรอื่น ๆ ในการวิเคราะห์คือการสร้างชั้นที่สามารถเปรียบเทียบได้ การสะกดผิดความสัมพันธ์ผู้หลงผิดไม่ได้นำไปสู่การวิเคราะห์ที่มากเกินไปดังนั้นการรบกวนที่หลงเหลือจากคำศัพท์ที่ถูกละเว้นคือประสบการณ์ของฉันไม่ใช่ประเด็นใหญ่ อย่างไรก็ตามคุณอาจพิจารณาเงื่อนไขการโต้ตอบระหว่างตัวทำนายความสนใจและตัวแปรอื่น ๆ เป็นการวิเคราะห์หลังจบ นี่เป็นขั้นตอนการสร้างสมมุติฐานที่มีจุดประสงค์เพื่อปรับปรุงการค้นพบใด ๆ ที่เป็นไปได้ อาจเป็นของกลุ่มย่อยหรือ b ที่เกี่ยวข้องกับการทำงานร่วมกันระหว่างกลไกสองปัจจัยสิ่งแวดล้อมและ / หรือพันธุกรรม

  4. ฉันไม่เห็นด้วยกับสุดใจนี้ มันไม่ตรงกับวิธีการวิเคราะห์เชิงยืนยันการถดถอย คุณคือ SME การวิเคราะห์ควรได้รับแจ้งจากคำถามและไม่ใช่ข้อมูล ระบุด้วยความมั่นใจในสิ่งที่คุณเชื่อว่าจะเกิดขึ้นตามภาพของโมเดลเชิงสาเหตุ (โดยใช้ DAG และหลักการที่เกี่ยวข้องจาก Pearl et al.) จากนั้นเลือกตัวทำนายสำหรับโมเดลที่คุณสนใจพอดีและอภิปราย ในฐานะที่เป็นการวิเคราะห์รองคุณควรพิจารณาวิธีการนี้แม้ในทุกกรณี

บทบาทของการเรียนรู้ของเครื่องในทั้งหมดนี้เป็นที่ถกเถียงกันอย่างมาก โดยทั่วไปแล้วการเรียนรู้ของเครื่องจะเน้นไปที่การทำนายและไม่อนุมานซึ่งเป็นวิธีการวิเคราะห์ข้อมูลที่แตกต่างกัน คุณมีสิทธิ์ที่การตีความผลกระทบจากการถดถอยเชิงลงโทษนั้นไม่สามารถตีความได้ง่ายสำหรับชุมชนที่ไม่ใช่ทางสถิติซึ่งแตกต่างจากการประมาณการจาก OLS โดยที่ 95% CIs และการประมาณค่าสัมประสิทธิ์เป็นการวัดความสัมพันธ์

การตีความสัมประสิทธิ์จากโมเดล OLS Y ~ X นั้นตรงไปตรงมา: มันเป็นความชันความแตกต่างที่คาดหวังในกลุ่มเปรียบเทียบ Y ที่แตกต่างกัน 1 หน่วยใน X ในรุ่นที่ปรับหลายตัวแปร Y ~ X1 + X2 เราปรับเปลี่ยนสิ่งนี้ตามเงื่อนไข ความชัน: มันเป็นความแตกต่างที่คาดหวังใน Y เปรียบเทียบกลุ่มที่แตกต่างกัน 1 หน่วยใน X1 ที่มีค่าเท่ากันของ X2 การปรับแต่งเชิงเรขาคณิตสำหรับ X2 จะนำไปสู่ชั้นที่แตกต่างกันหรือ "ส่วนข้าม" ของพื้นที่ทั้งสามที่เราเปรียบเทียบ X1 กับ Y จากนั้นเราจะเฉลี่ยการค้นพบของแต่ละชั้นเหล่านั้น ใน R coplotฟังก์ชั่นมีประโยชน์มากสำหรับการแสดงภาพความสัมพันธ์ดังกล่าว


ขอขอบคุณความเห็นโดยละเอียดของคุณ - ฉันไม่เคยมีใครตอบคำถามของฉันในรายละเอียดเช่นนี้มาก่อน ฉันจะผ่านลิงก์ของคุณตอนนี้!
sharper_image

1
(+1) ในจุด # 1: G&H พูดว่านี่คือ "หลักการทั่วไปสำหรับการสร้างแบบจำลองการถดถอยสำหรับการทำนาย " [ตัวเอียงของฉัน] เพื่อให้ข้อแม้ของคุณไม่จำเป็นต้องใช้ (บางทีผู้สูบบุหรี่ที่หายากที่มีฟังก์ชั่นปอดที่ดีมีแนวโน้มที่จะเหมาะสมโดยเฉพาะอย่างยิ่ง) เมื่อพวกเขาพูดคุยเกี่ยวกับแบบจำลองเชิงสาเหตุพวกเขาทำจุดเดียวกัน (Ch. 9.7)
Scortchi - Reinstate Monica

2
(+1) การตอบสนองที่ยอดเยี่ยม AdamO! เห็นคุณค่าว่าคุณได้ทำงานเป็นจำนวนมากแล้วฉันสงสัยว่าคุณจะบอกอะไรเพิ่มเติมเกี่ยวกับสถานะการยอมรับปัจจุบันของนโยบายวารสารที่คุณกล่าวถึง ฉันยังคงบินเข้าไปในความโกรธแค้นเมื่อได้เห็นคำว่า 'stepwise' ในวารสาร JAMA เป็นอย่างน้อย คุณสามารถอ้างอิงบทความเกี่ยวกับนโยบายนี้ได้หรือไม่?
David C. Norris

2
@ DavidC.Norris "การศึกษาและการวัดทางจิตวิทยา" เป็นวารสารที่มีปัญหาและอนิจจาบทความ Babyak เพียงกล่าวถึงการถดถอยแบบขั้นตอนอัตโนมัติ ฉันเคยเห็นในผู้เขียนบทความบางคนที่กล่าวถึงแนวทาง "ลงมือ" เพื่อรวมและคัดลอกแบบจำลองว่าเป็น "ขั้นตอน" (แม้ว่าจะไม่ใช่แบบอัตโนมัติ) ฉันจะเถียงว่าพวกเขาได้อธิบายขั้นตอนที่พวกเขาใช้อย่างถูกต้องแล้ว แต่ฉันยังคงมีข้อโต้แย้งที่น่าเกรงขามด้วยวิธีนี้
AdamO

1/2 +1 คำตอบที่น่ารัก A niggle: "Confounders ต้องรวมอยู่ในแบบจำลอง" ทั้งนี้ขึ้นอยู่กับความสัมพันธ์เชิงสาเหตุเฉพาะที่เกี่ยวข้องกับการทำเช่นนั้นอาจมีอคติความสัมพันธ์ออกไปจากการประเมินเชิงสาเหตุ ตัวอย่างเช่นใน DAG ที่อธิบายโดย , , ,และ ,เป็นคนสับสน ทั้งในแง่ของเกณฑ์ลับๆและในคลาสสิค (i) ที่เกี่ยวข้องกับ & (ii) สาเหตุของหรือและ (iii) ก่อน &LAU1LU1AU2YU2LLAYAYAYความรู้สึก อย่างไรก็ตามมีอคติ (จาก ) E[Y|A,L]AU1LU2Y
อเล็กซิส

9

คำถามที่ยอดเยี่ยมนี้และคำตอบที่ครอบคลุมของ @ AdamO เป็นตัวอย่างที่ดีเยี่ยมของ CV ที่ช่วยให้ฉันมีศรัทธาในมนุษยชาติเป็นประจำ ฉันจะตั้งเป้าหมายที่นี่เป็นหลักเพื่อเสนอวิธีที่จะขอบคุณคำตอบ (และคำถามของ OP) ในบริบทที่กว้างขึ้น

ประการแรกผมกล้าที่จะยืนยันว่าคำแนะนำที่เชื่อถือได้เกี่ยวกับการปฏิบัติทางสถิติคือเตือนในธรรมชาติ - โปร scriptive มากกว่าก่อน scriptive ยกตัวอย่างเช่น Gelman & Hill point # 3 ในขณะที่มันอ่านอย่างผิวเผินเพื่อให้คำแนะนำในการทำบางสิ่งบางอย่าง ("พิจารณา") เป็นที่เข้าใจกันดีกว่าว่าเป็นการเตือนไม่ให้พิจารณาการโต้ตอบกับเอฟเฟกต์อันทรงพลัง เข้าใจโดยสังหรณ์ใจว่าเป็นสิ่งที่ดึงดูดความสนใจจากสัญชาตญาณที่เกี่ยวข้องกับการเลือกคำศัพท์ที่สำคัญที่สุดในการขยายตัวซีรีส์ (หลายตัวแปร) เทย์เลอร์ดูเหมือนว่าไม่น่ารังเกียจสำหรับฉัน

ประการที่สองในขณะที่ OP กำลังยุ่งอยู่กับการศึกษาที่ดีขึ้นกว่านักชีวสถิติระดับปริญญาเอกส่วนใหญ่ (โดยการติดตามการอ้างอิงของ AdamO) OP อาจจะเลือกแบบจำลองทางสถิติของ David A. Friedman และการอนุมานเชิงสาเหตุ [1] พบว่าข้อสันนิษฐานว่าการถดถอยควรเป็นเครื่องมือหลักของเราในการวิจัยทางคลินิก ผมขอแนะนำโดยเฉพาะอย่างยิ่งบทที่ 3 "แบบจำลองทางสถิติและรองเท้าหนัง" ซึ่งยังมีอยู่ในรูปแบบที่เผยแพร่ก่อนหน้านี้ [2] ที่นี่ (อย่าให้ชื่อวารสารปิดคุณ; บทเรียนสำคัญที่ดึงมาจากการตรวจสอบของอหิวาตกโรคที่ John Snow ดูคำตอบนี้ที่บทเรียนเหล่านี้ถูกจัดวางอย่างละเอียด)

ในที่สุด - และบางทีนี่อาจเป็นข้อพิสูจน์ถึงความเป็นอิสระ - ควรกล่าวว่าตัวอย่าง 'ข้อสรุป' ที่เสนอโดย OP จริง ๆ แล้วจะอยู่ในส่วนของผลลัพธ์ของบทความ มันจะมีสุขภาพที่ดีที่สุดที่จะต้องพิจารณาให้เร็วที่สุดเท่าที่จะเป็นไปได้ว่าข้อสรุปและการอภิปรายที่แท้จริงของบทความจะเป็นคำพูดอย่างไรเพื่อให้สามารถเข้าถึงแพทย์สื่อและแม้แต่จำนวนผู้ป่วยและผู้สนับสนุนที่เพิ่มขึ้น แรงงานในการอ่านวรรณกรรมทางการแพทย์ การคงจุดเน้นไว้ที่จุดสิ้นสุดนั้นจะเป็นประโยชน์ต่อรูปร่างของงานด้านเทคนิคของการวิเคราะห์ทางสถิติและทำให้มันมีเหตุผลในความเป็นจริงของโลกที่มีเป้าหมายที่จะอธิบายและความต้องการที่จะให้บริการ


  1. ฟรีแมน, เดวิด, เดวิดคอลลิสต์, Jasjeet Singh Sekhon, และ Philip B. Stark แบบจำลองทางสถิติและการอนุมานเชิงสาเหตุ: บทสนทนากับสังคมศาสตร์ เคมบริดจ์; นิวยอร์ก: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์, 2553

  2. ฟรีแมนเดวิดเอ“ แบบจำลองเชิงสถิติและหนังรองเท้า” ระเบียบวิธีทางสังคมวิทยา 21 (1991): 291–313 ดอย: 10.2307 / 270939

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.