นี่เป็นสถานการณ์ที่เรียบง่าย มาเก็บมันกันเถอะ กุญแจสำคัญคือการมุ่งเน้นไปที่สิ่งที่สำคัญ:
การรับรายละเอียดที่เป็นประโยชน์ของข้อมูล
การประเมินความเบี่ยงเบนส่วนบุคคลจากคำอธิบายนั้น
การประเมินบทบาทที่เป็นไปได้และอิทธิพลของโอกาสในการตีความ
การรักษาความซื่อสัตย์ทางปัญญาและความโปร่งใส
ยังมีตัวเลือกมากมายและการวิเคราะห์หลายรูปแบบจะถูกต้องและมีประสิทธิภาพ เราจะแสดงวิธีหนึ่งที่นี่ซึ่งสามารถแนะนำให้ปฏิบัติตามหลักการสำคัญเหล่านี้
เพื่อรักษาความสมบูรณ์เรามาแบ่งข้อมูลออกเป็นครึ่ง ๆ ดังนี้การสังเกตจาก 1972 ถึง 1990 และจาก 1991 ถึง 2009 (19 ปีในแต่ละครั้ง) เราจะจัดวางนางแบบให้พอดีกับครึ่งแรกและดูว่าเหมาะสมที่สุดในการฉายครึ่งหลังได้อย่างไร นี่เป็นข้อดีเพิ่มเติมของการตรวจจับการเปลี่ยนแปลงที่สำคัญที่อาจเกิดขึ้นในช่วงครึ่งหลัง
เพื่อให้ได้คำอธิบายที่เป็นประโยชน์เราจำเป็นต้อง (ก) หาวิธีในการวัดการเปลี่ยนแปลงและ (b) พอดีกับโมเดลที่ง่ายที่สุดเท่าที่จะเป็นไปได้ที่เหมาะสมสำหรับการเปลี่ยนแปลงเหล่านั้นประเมินและซ้ำแบบที่ซับซ้อนมากขึ้นเพื่อรองรับการเบี่ยงเบนจากรุ่นง่าย ๆ
(a) คุณมีทางเลือกมากมาย: คุณสามารถดูข้อมูลดิบได้ คุณสามารถดูความแตกต่างประจำปีของพวกเขา คุณสามารถทำเช่นเดียวกันกับลอการิทึม (เพื่อประเมินการเปลี่ยนแปลงที่สัมพันธ์กัน); คุณสามารถประเมินจำนวนปีที่สูญเสียชีวิตหรืออายุขัยที่คาดหวัง (RLE) หรือสิ่งอื่น ๆ อีกมากมาย หลังจากความคิดบางอย่างฉันตัดสินใจที่จะพิจารณา RLE ซึ่งกำหนดเป็นอัตราส่วนของอายุขัยใน Cohort B เทียบกับ (อ้างอิง) Cohort A. โชคดีที่กราฟแสดงให้เห็นว่าอายุขัยของ Cohort A จะเพิ่มขึ้นอย่างสม่ำเสมอ แฟชั่นเมื่อเวลาผ่านไปดังนั้นความแตกต่างที่ดูสุ่มใน RLE ส่วนใหญ่จะเกิดจากการเปลี่ยนแปลงใน Cohort B
(b) โมเดลที่เป็นไปได้ที่ง่ายที่สุดในการเริ่มต้นคือแนวโน้มเชิงเส้น เรามาดูกันว่ามันใช้งานได้ดีแค่ไหน
จุดสีน้ำเงินเข้มในพล็อตนี้คือข้อมูลที่เก็บไว้เพื่อการปรับ จุดทองแสงเป็นข้อมูลต่อมาไม่ได้ใช้เพื่อความพอดี เส้นสีดำนั้นพอดีมีความชันเท่ากับ. 009 / ปี เส้นประคือช่วงเวลาการทำนายสำหรับค่าในอนาคตแต่ละรายการ
โดยรวมแล้วความพอดีดูดี:การตรวจสอบสารตกค้าง (ดูด้านล่าง) แสดงให้เห็นว่าไม่มีการเปลี่ยนแปลงที่สำคัญในขนาดเมื่อเวลาผ่านไป (ระหว่างช่วงข้อมูล 2515-2533) (มีข้อบ่งชี้ว่าพวกเขามีแนวโน้มที่จะมีขนาดใหญ่ขึ้นในช่วงต้นเมื่ออายุขัยคาดหวังต่ำเราสามารถรับมือกับภาวะแทรกซ้อนนี้ได้ด้วยการเสียสละความเรียบง่ายบางส่วน แต่ข้อดีสำหรับการประเมินแนวโน้มไม่น่าจะยิ่งใหญ่) ของความสัมพันธ์แบบอนุกรม (แสดงโดยการวิ่งบางส่วนของการบวกและการทำงานของส่วนที่เหลือเชิงลบ) แต่ชัดเจนว่านี่ไม่สำคัญ ไม่มีค่าผิดปกติซึ่งจะระบุด้วยคะแนนเกินกว่าแถบคาดการณ์
สิ่งที่น่าประหลาดใจอย่างหนึ่งก็คือในปี 2544 ค่านิยมก็ตกสู่วงทำนายที่ต่ำกว่าและอยู่ที่นั่น: มีบางสิ่งที่เกิดขึ้นอย่างฉับพลัน
นี่คือส่วนที่เหลือซึ่งเป็นส่วนเบี่ยงเบนจากคำอธิบายที่กล่าวถึงก่อนหน้านี้
เนื่องจากเราต้องการเปรียบเทียบส่วนที่เหลือกับ 0 เส้นแนวตั้งจึงถูกวาดให้อยู่ในระดับศูนย์เพื่อช่วยในการมองเห็น อีกครั้งจุดสีน้ำเงินแสดงข้อมูลที่ใช้สำหรับการสวมใส่ ส่วนแสงสีทองเป็นส่วนที่เหลือสำหรับข้อมูลที่ตกลงมาใกล้ขีด จำกัด การทำนายที่ต่ำกว่าโพสต์ -2000
จากตัวเลขนี้เราสามารถประเมินว่าผลกระทบของการเปลี่ยนแปลง 2000-2001 เป็นประมาณ -0.07 สิ่งนี้สะท้อนถึงการลดลงอย่างกระทันหันของ 0.07 (7%) ของอายุการใช้งานเต็มรูปแบบภายใน Cohort B หลังจากนั้นรูปแบบที่เหลือของแนวนอนแสดงให้เห็นว่าแนวโน้มก่อนหน้านี้ยังคงดำเนินต่อไป แต่ในระดับที่ต่ำกว่าใหม่ การวิเคราะห์ส่วนนี้ควรได้รับการพิจารณาเชิงสำรวจ : มันไม่ได้วางแผนมาเป็นพิเศษ แต่เกิดขึ้นเนื่องจากมีการเปรียบเทียบที่น่าประหลาดใจระหว่างข้อมูลที่จัดขึ้น (2534-2552) และความเหมาะสมกับส่วนที่เหลือของข้อมูล
อีกอย่างหนึ่ง - แม้จะใช้เพียงแค่ 19 ปีแรกของข้อมูล แต่ความคลาดเคลื่อนมาตรฐานของความชันนั้นน้อยมาก: มันเป็นเพียง. 0009 เพียงแค่หนึ่งในสิบของค่าประมาณ. 009 t-statistic ที่สอดคล้องกันของ 10 กับเสรีภาพ 17 องศามีความสำคัญมาก (ค่า p- น้อยกว่า10- 7); นั่นคือเราสามารถมั่นใจได้ว่าแนวโน้มไม่ใช่เพราะโอกาส นี่เป็นส่วนหนึ่งของการประเมินบทบาทของโอกาสในการวิเคราะห์ ส่วนอื่น ๆ เป็นการตรวจสารตกค้าง
ดูเหมือนจะไม่มีเหตุผลใดที่จะพอดีกับแบบจำลองที่ซับซ้อนมากขึ้นกับข้อมูลเหล่านี้อย่างน้อยก็ไม่ใช่เพื่อการประเมินว่ามีแนวโน้มที่แท้จริงใน RLE เมื่อเวลาผ่านไปหรือไม่: มี เราสามารถไปต่อและแยกข้อมูลเป็นค่าก่อนปี 2001 และค่าหลังปี 2000 เพื่อปรับแต่งประมาณการของเราของแนวโน้ม แต่จะไม่ซื่อสัตย์อย่างสมบูรณ์ในการทดสอบสมมติฐาน ค่า p จะต่ำเกินจริงเนื่องจากการทดสอบแยกไม่ได้วางแผนล่วงหน้า แต่เป็นแบบฝึกหัดเชิงสำรวจการประมาณเช่นนี้ก็ใช้ได้ เรียนรู้ทุกสิ่งที่คุณทำได้จากข้อมูลของคุณ! เพียงระวังอย่าหลอกลวงตัวเองด้วย overfitting (ซึ่งเกือบจะเกิดขึ้นแน่นอนถ้าคุณใช้พารามิเตอร์มากกว่าครึ่งโหลหรือมากกว่านั้นหรือใช้เทคนิคการปรับพอดีอัตโนมัติ) หรือการสอดแนมข้อมูล: โปรดระวังความแตกต่างระหว่างการยืนยันอย่างเป็นทางการและไม่เป็นทางการ (แต่ การสำรวจข้อมูลที่มีค่า
มาสรุปกัน:
โดยการเลือกวัดที่เหมาะสมของอายุขัย (RLE), เก็บข้อมูลครึ่งหนึ่ง, ปรับโมเดลให้เรียบง่าย, และทดสอบโมเดลนั้นกับข้อมูลที่เหลืออยู่, เราได้สร้างความเชื่อมั่นสูงว่า : มีแนวโน้มที่สอดคล้องกัน; มันใกล้เคียงกับเส้นตรงเป็นเวลานาน และมีการลดลงอย่างต่อเนื่องใน RLE ในปี 2544
แบบจำลองของเราเป็นที่น่าประทับใจอย่างมาก : มันต้องการเพียงตัวเลขสองตัว (ความชันและจุดตัด) เพื่ออธิบายข้อมูลต้นอย่างแม่นยำ มันต้องการหนึ่งในสาม (วันที่หยุดพักในปี 2001) เพื่ออธิบายการออกที่ชัดเจน แต่ไม่คาดคิดจากคำอธิบายนี้ ไม่มีค่าผิดปกติที่เกี่ยวข้องกับคำอธิบายสามพารามิเตอร์นี้ แบบจำลองจะไม่ได้รับการปรับปรุงอย่างมีนัยสำคัญโดยการอธิบายลักษณะความสัมพันธ์แบบอนุกรม (โดยทั่วไปจะใช้เทคนิคอนุกรมเวลา) พยายามที่จะอธิบายความเบี่ยงเบนของแต่ละบุคคลขนาดเล็ก (ส่วนที่เหลือ) แสดงหรือแนะนำให้เหมาะสมยิ่งขึ้น หรือการสร้างแบบจำลองการเปลี่ยนแปลงในขนาดของส่วนที่เหลือในช่วงเวลา)
แนวโน้มได้รับ 0.009 RLE ต่อปี ซึ่งหมายความว่าในแต่ละปีที่ผ่านไปอายุขัยของ Cohort B นั้นเท่ากับ 0.009 (เกือบ 1%) ของอายุการใช้งานปกติที่คาดว่าจะเพิ่มเข้าไป ตลอดระยะเวลาการศึกษา (37 ปี) นั่นจะเท่ากับ 37 * 0.009 = 0.34 = หนึ่งในสามของการปรับปรุงตลอดชีวิต ความปราชัยในปี 2544 ลดลงที่เพิ่มขึ้นเป็น 0.28 ของอายุการใช้งานเต็มรูปแบบจากปี 1972 ถึง 2009 (แม้ว่าในช่วงเวลานั้นอายุขัยโดยรวมเพิ่มขึ้น 10%)
แม้ว่าแบบจำลองนี้จะได้รับการปรับปรุงให้ดีขึ้น แต่ก็น่าจะต้องมีพารามิเตอร์มากขึ้นและการปรับปรุงก็ไม่น่าจะดีมาก (เนื่องจากพฤติกรรมแบบสุ่มที่ใกล้เคียงของการยืนยันส่วนที่เหลือ) โดยรวมแล้วเราควรเป็นเนื้อหาที่จะมาถึงคำอธิบายที่กะทัดรัดมีประโยชน์และใช้งานง่ายของข้อมูลสำหรับงานวิเคราะห์เล็ก ๆ น้อย ๆ