การศึกษาน้ำหนักตัวแรกเกิดต่ำ
นี่เป็นหนึ่งในชุดข้อมูลในตำราเรียนของ Hosmer และ Lemeshow เรื่องApplied Logistic Regression (2000, Wiley, 2nd ed.) เป้าหมายของการศึกษาในอนาคตนี้คือการระบุปัจจัยเสี่ยงที่เกี่ยวข้องกับการให้กำเนิดทารกน้ำหนักแรกเกิดต่ำ (น้ำหนักน้อยกว่า 2,500 กรัม) รวบรวมข้อมูลจากผู้หญิงจำนวน 189 คนซึ่ง 59 คนมีทารกน้ำหนักแรกเกิดต่ำและ 130 คนมีทารกน้ำหนักแรกเกิดปกติ ตัวแปรสี่ตัวที่คิดว่ามีความสำคัญ ได้แก่ อายุน้ำหนักของตัวแบบในช่วงเวลาที่มีประจำเดือนครั้งสุดท้ายการแข่งขันและจำนวนการพบแพทย์ในช่วงไตรมาสแรกของการตั้งครรภ์
มันมีอยู่ในการวิจัยเป็นdata(birthwt, package="MASS")
หรือ Stata webuse lbw
กับ รุ่นข้อความปรากฏขึ้นที่นี่: lowbwt.dat ( คำอธิบาย ) มีหลายรุ่นของชุดข้อมูลนี้เนื่องจากถูกขยายไปยังการศึกษากรณีศึกษา (1-1 หรือ 1-3, จับคู่ตามอายุ) ตามที่ Hosmer และ Lemeshow แสดงในบทที่ 7
ฉันเคยสอนหลักสูตรเบื้องต้นตามชุดข้อมูลนี้ด้วยเหตุผลดังต่อไปนี้:
- เป็นที่น่าสนใจจากมุมมองทางประวัติศาสตร์และระบาดวิทยา (รวบรวมข้อมูลในปี 1986) ไม่จำเป็นต้องมีพื้นฐานด้านการแพทย์หรือสถิติมาก่อนในการทำความเข้าใจแนวคิดหลักและคำถามใดบ้างที่สามารถถามได้
- χ2
- จะช่วยให้หารือเกี่ยวกับมุมมองการสร้างแบบจำลองที่แตกต่างกัน (วิธีการอธิบายหรือการทำนาย) และความหมายของรูปแบบการสุ่มตัวอย่างเมื่อพัฒนาแบบจำลอง (การแบ่งชั้น / กรณีที่จับคู่)
ประเด็นอื่น ๆ ที่สามารถเน้นได้ขึ้นอยู่กับผู้ชมและระดับความเชี่ยวชาญด้วยซอฟต์แวร์ทางสถิติหรือสถิติโดยทั่วไป
สำหรับชุดข้อมูลที่มีอยู่ใน R ตัวทำนายหมวดหมู่จะได้คะแนนเป็นจำนวนเต็ม (เช่นสำหรับเชื้อชาติของแม่เรามี '1' = สีขาว, '2' = สีดำ, '3' = อื่น ๆ ) อย่างไรก็ตามข้อเท็จจริงที่ว่า (เช่นจำนวนแรงงานที่คลอดก่อนกำหนดหรือจำนวนครั้งที่ไปพบแพทย์) หรือการใช้ป้ายกำกับที่ชัดเจน (เป็นความคิดที่ดีเสมอที่จะใช้ 'ใช่' / 'ไม่' แทนที่จะเป็น 1/0 สำหรับตัวแปรไบนารีแม้ว่านั่นจะไม่ใช่ก็ตาม ไม่เปลี่ยนแปลงอะไรเลยในเมทริกซ์การออกแบบ! ดังนั้นจึงเป็นเรื่องง่ายที่จะหารือเกี่ยวกับปัญหาที่อาจเกิดขึ้นโดยไม่สนใจระดับหรือหน่วยการวัดในการวิเคราะห์ข้อมูล
ตัวแปรประเภทผสมมีความน่าสนใจเมื่อพูดถึงการวิเคราะห์เชิงสำรวจและอภิปรายว่าการแสดงกราฟิกชนิดใดที่เหมาะสมสำหรับการสรุปความสัมพันธ์แบบ univariate, bivariate หรือ trivariate เช่นเดียวกันการสร้างตารางสรุปที่ดีและการรายงานโดยทั่วไปเป็นอีกแง่มุมหนึ่งที่น่าสนใจของชุดข้อมูลนี้ (แต่Hmisc::summary.formula
คำสั่งทำให้ง่ายภายใต้ R)
Hosmer และ Lemeshow รายงานว่ามีการแก้ไขข้อมูลจริงเพื่อป้องกันการรักษาความลับของหัวเรื่อง (หน้า 25) มันอาจจะเป็นที่น่าสนใจเพื่อหารือในประเด็นข้อมูลที่เป็นความลับตามที่ได้ทำในหนึ่งก่อนหน้านี้ของเราวารสารคลับแต่เห็นของหลักฐานการศึกษา (ฉันต้องยอมรับว่าฉันไม่เคยลงลึกรายละเอียดมากนัก)
เป็นการง่ายที่จะแนะนำค่าที่หายไปหรือค่าที่ผิดพลาด (ซึ่งเป็นปัญหาที่พบบ่อยในชีวิตจริงของนักสถิติ) ซึ่งนำไปสู่การอภิปราย (a) การตรวจจับของพวกเขาผ่าน codebook ( Hmisc::describe
หรือ Stata's codebook
) หรือกราฟฟิคสำรวจ และ (b) การเยียวยาที่เป็นไปได้ (การใส่ข้อมูลการลบแบบรายการหรือการวัดความสัมพันธ์แบบคู่)