วิธีการเปรียบเทียบอนุกรมเวลาที่ไม่หยุดนิ่ง 2 แบบเพื่อกำหนดสหสัมพันธ์


11

ฉันมีชุดข้อมูลสองชุดที่พล็อตค่ามัธยฐานของอายุเมื่อเวลาผ่านไป ทั้งสองซีรีส์แสดงอายุที่เพิ่มขึ้นเมื่อตายในช่วงเวลาหนึ่ง แต่ต่ำกว่าอีกมาก ฉันต้องการตรวจสอบว่าการเพิ่มขึ้นของอายุที่เสียชีวิตของกลุ่มตัวอย่างต่ำกว่านั้นแตกต่างจากกลุ่มตัวอย่างบนอย่างมีนัยสำคัญหรือไม่

นี่คือข้อมูลที่เรียงลำดับตามปี (ตั้งแต่ปี 1972 ถึง 2009 รวม) โดยปัดเศษเป็นทศนิยมสามตำแหน่ง:

Cohort A    70.257  70.424  70.650  70.938  71.207  71.263  71.467  71.763  71.982  72.270  72.617  72.798  72.964  73.397  73.518  73.606  73.905  74.343  74.330  74.565  74.558  74.813  74.773  75.178  75.406  75.708  75.900  76.152  76.312  76.558  76.796  77.057  77.125  77.328  77.431  77.656  77.884  77.983
Cohort B    5.139   8.261   6.094   12.353  11.974  11.364  12.639  11.667  14.286  12.794  12.250  14.079  17.917  16.250  17.321  18.182  17.500  20.000  18.824  21.522  21.500  21.167  21.818  22.895  23.214  24.167  26.250  24.375  27.143  24.500  23.676  25.179  24.861  26.875  27.143  27.045  28.500  29.318

ทั้งสองซีรีส์นั้นไม่อยู่กับที่ - ฉันจะเปรียบเทียบทั้งสองได้อย่างไร ฉันใช้ STATA คำแนะนำใด ๆ ที่จะได้รับสุดซึ้ง

แปลงข้อมูล


หากคุณให้ลิงก์ไปยังข้อมูลของคุณ Matt เราสามารถแก้ไขคำถามของคุณเพื่อรวมข้อมูลเหล่านั้นได้
whuber

ขอบคุณมากสำหรับความสนใจในชะตากรรมของฉัน - ลิงก์ไปยังข้อมูลที่เพิ่มเข้ามา ความช่วยเหลือจะได้รับการชื่นชม
แมตต์

@ Matt: การดูข้อมูลของคุณดูเหมือนว่าพวกเขามีแนวโน้มสูงขึ้น คุณสนใจสมมติฐานที่ว่ากลุ่มคนหนึ่งจะเพิ่มขึ้นเร็วกว่าอีกกลุ่มหรือไม่?
แอนดรู

ใช่แอนดรูว์ - กลุ่มคนบนเป็นประชากรทั่วไปในขณะที่กลุ่มที่อายุต่ำกว่าตายเป็นกลุ่มที่ตายด้วยสภาพเดียวกัน สมมุติฐานว่างว่าหากพวกเขามีความสัมพันธ์อย่างใกล้ชิดการปรับปรุงใด ๆ ในการอยู่รอดอาจเกิดจากปัจจัยทั่วไป (และไม่ปรับปรุงการดูแลของเงื่อนไขดังกล่าว)
Matt Hurley

อย่างไรก็ตามการเพิ่มขึ้นของการวัดนั้นแตกต่างกันอย่างเห็นได้ชัดว่าไม่จำเป็นต้องทำการทดสอบอย่างเป็นทางการ (คุณจะได้รับค่า p จาก10-10หรือน้อยกว่าไม่ว่าคุณจะประเมินและเปรียบเทียบเนินเขาไม่ว่าคุณจะจำลองแบบการเปลี่ยนแปลงอย่างไร) ความแตกต่างในการคาดการณ์ชีวิตลดลงแบบเอกซ์โปเนนเชียลในอัตรา 0.83% ต่อปี สิ่งที่น่าสนใจคือความพ่ายแพ้อย่างฉับพลันใน Cohort B ในปี 2001 การเปลี่ยนแปลงนี้ - เทียบเท่ากับการสูญเสียความก้าวหน้าทันทีหกปี - มีนัยสำคัญทางสถิติ
whuber

คำตอบ:


14

นี่เป็นสถานการณ์ที่เรียบง่าย มาเก็บมันกันเถอะ กุญแจสำคัญคือการมุ่งเน้นไปที่สิ่งที่สำคัญ:

  • การรับรายละเอียดที่เป็นประโยชน์ของข้อมูล

  • การประเมินความเบี่ยงเบนส่วนบุคคลจากคำอธิบายนั้น

  • การประเมินบทบาทที่เป็นไปได้และอิทธิพลของโอกาสในการตีความ

  • การรักษาความซื่อสัตย์ทางปัญญาและความโปร่งใส

ยังมีตัวเลือกมากมายและการวิเคราะห์หลายรูปแบบจะถูกต้องและมีประสิทธิภาพ เราจะแสดงวิธีหนึ่งที่นี่ซึ่งสามารถแนะนำให้ปฏิบัติตามหลักการสำคัญเหล่านี้

เพื่อรักษาความสมบูรณ์เรามาแบ่งข้อมูลออกเป็นครึ่ง ๆ ดังนี้การสังเกตจาก 1972 ถึง 1990 และจาก 1991 ถึง 2009 (19 ปีในแต่ละครั้ง) เราจะจัดวางนางแบบให้พอดีกับครึ่งแรกและดูว่าเหมาะสมที่สุดในการฉายครึ่งหลังได้อย่างไร นี่เป็นข้อดีเพิ่มเติมของการตรวจจับการเปลี่ยนแปลงที่สำคัญที่อาจเกิดขึ้นในช่วงครึ่งหลัง

เพื่อให้ได้คำอธิบายที่เป็นประโยชน์เราจำเป็นต้อง (ก) หาวิธีในการวัดการเปลี่ยนแปลงและ (b) พอดีกับโมเดลที่ง่ายที่สุดเท่าที่จะเป็นไปได้ที่เหมาะสมสำหรับการเปลี่ยนแปลงเหล่านั้นประเมินและซ้ำแบบที่ซับซ้อนมากขึ้นเพื่อรองรับการเบี่ยงเบนจากรุ่นง่าย ๆ

(a) คุณมีทางเลือกมากมาย: คุณสามารถดูข้อมูลดิบได้ คุณสามารถดูความแตกต่างประจำปีของพวกเขา คุณสามารถทำเช่นเดียวกันกับลอการิทึม (เพื่อประเมินการเปลี่ยนแปลงที่สัมพันธ์กัน); คุณสามารถประเมินจำนวนปีที่สูญเสียชีวิตหรืออายุขัยที่คาดหวัง (RLE) หรือสิ่งอื่น ๆ อีกมากมาย หลังจากความคิดบางอย่างฉันตัดสินใจที่จะพิจารณา RLE ซึ่งกำหนดเป็นอัตราส่วนของอายุขัยใน Cohort B เทียบกับ (อ้างอิง) Cohort A. โชคดีที่กราฟแสดงให้เห็นว่าอายุขัยของ Cohort A จะเพิ่มขึ้นอย่างสม่ำเสมอ แฟชั่นเมื่อเวลาผ่านไปดังนั้นความแตกต่างที่ดูสุ่มใน RLE ส่วนใหญ่จะเกิดจากการเปลี่ยนแปลงใน Cohort B

(b) โมเดลที่เป็นไปได้ที่ง่ายที่สุดในการเริ่มต้นคือแนวโน้มเชิงเส้น เรามาดูกันว่ามันใช้งานได้ดีแค่ไหน

รูปที่ 1

จุดสีน้ำเงินเข้มในพล็อตนี้คือข้อมูลที่เก็บไว้เพื่อการปรับ จุดทองแสงเป็นข้อมูลต่อมาไม่ได้ใช้เพื่อความพอดี เส้นสีดำนั้นพอดีมีความชันเท่ากับ. 009 / ปี เส้นประคือช่วงเวลาการทำนายสำหรับค่าในอนาคตแต่ละรายการ

โดยรวมแล้วความพอดีดูดี:การตรวจสอบสารตกค้าง (ดูด้านล่าง) แสดงให้เห็นว่าไม่มีการเปลี่ยนแปลงที่สำคัญในขนาดเมื่อเวลาผ่านไป (ระหว่างช่วงข้อมูล 2515-2533) (มีข้อบ่งชี้ว่าพวกเขามีแนวโน้มที่จะมีขนาดใหญ่ขึ้นในช่วงต้นเมื่ออายุขัยคาดหวังต่ำเราสามารถรับมือกับภาวะแทรกซ้อนนี้ได้ด้วยการเสียสละความเรียบง่ายบางส่วน แต่ข้อดีสำหรับการประเมินแนวโน้มไม่น่าจะยิ่งใหญ่) ของความสัมพันธ์แบบอนุกรม (แสดงโดยการวิ่งบางส่วนของการบวกและการทำงานของส่วนที่เหลือเชิงลบ) แต่ชัดเจนว่านี่ไม่สำคัญ ไม่มีค่าผิดปกติซึ่งจะระบุด้วยคะแนนเกินกว่าแถบคาดการณ์

สิ่งที่น่าประหลาดใจอย่างหนึ่งก็คือในปี 2544 ค่านิยมก็ตกสู่วงทำนายที่ต่ำกว่าและอยู่ที่นั่น: มีบางสิ่งที่เกิดขึ้นอย่างฉับพลัน

นี่คือส่วนที่เหลือซึ่งเป็นส่วนเบี่ยงเบนจากคำอธิบายที่กล่าวถึงก่อนหน้านี้

รูปที่ 2

เนื่องจากเราต้องการเปรียบเทียบส่วนที่เหลือกับ 0 เส้นแนวตั้งจึงถูกวาดให้อยู่ในระดับศูนย์เพื่อช่วยในการมองเห็น อีกครั้งจุดสีน้ำเงินแสดงข้อมูลที่ใช้สำหรับการสวมใส่ ส่วนแสงสีทองเป็นส่วนที่เหลือสำหรับข้อมูลที่ตกลงมาใกล้ขีด จำกัด การทำนายที่ต่ำกว่าโพสต์ -2000

จากตัวเลขนี้เราสามารถประเมินว่าผลกระทบของการเปลี่ยนแปลง 2000-2001 เป็นประมาณ -0.07 สิ่งนี้สะท้อนถึงการลดลงอย่างกระทันหันของ 0.07 (7%) ของอายุการใช้งานเต็มรูปแบบภายใน Cohort B หลังจากนั้นรูปแบบที่เหลือของแนวนอนแสดงให้เห็นว่าแนวโน้มก่อนหน้านี้ยังคงดำเนินต่อไป แต่ในระดับที่ต่ำกว่าใหม่ การวิเคราะห์ส่วนนี้ควรได้รับการพิจารณาเชิงสำรวจ : มันไม่ได้วางแผนมาเป็นพิเศษ แต่เกิดขึ้นเนื่องจากมีการเปรียบเทียบที่น่าประหลาดใจระหว่างข้อมูลที่จัดขึ้น (2534-2552) และความเหมาะสมกับส่วนที่เหลือของข้อมูล

อีกอย่างหนึ่ง - แม้จะใช้เพียงแค่ 19 ปีแรกของข้อมูล แต่ความคลาดเคลื่อนมาตรฐานของความชันนั้นน้อยมาก: มันเป็นเพียง. 0009 เพียงแค่หนึ่งในสิบของค่าประมาณ. 009 t-statistic ที่สอดคล้องกันของ 10 กับเสรีภาพ 17 องศามีความสำคัญมาก (ค่า p- น้อยกว่า107); นั่นคือเราสามารถมั่นใจได้ว่าแนวโน้มไม่ใช่เพราะโอกาส นี่เป็นส่วนหนึ่งของการประเมินบทบาทของโอกาสในการวิเคราะห์ ส่วนอื่น ๆ เป็นการตรวจสารตกค้าง

ดูเหมือนจะไม่มีเหตุผลใดที่จะพอดีกับแบบจำลองที่ซับซ้อนมากขึ้นกับข้อมูลเหล่านี้อย่างน้อยก็ไม่ใช่เพื่อการประเมินว่ามีแนวโน้มที่แท้จริงใน RLE เมื่อเวลาผ่านไปหรือไม่: มี เราสามารถไปต่อและแยกข้อมูลเป็นค่าก่อนปี 2001 และค่าหลังปี 2000 เพื่อปรับแต่งประมาณการของเราของแนวโน้ม แต่จะไม่ซื่อสัตย์อย่างสมบูรณ์ในการทดสอบสมมติฐาน ค่า p จะต่ำเกินจริงเนื่องจากการทดสอบแยกไม่ได้วางแผนล่วงหน้า แต่เป็นแบบฝึกหัดเชิงสำรวจการประมาณเช่นนี้ก็ใช้ได้ เรียนรู้ทุกสิ่งที่คุณทำได้จากข้อมูลของคุณ! เพียงระวังอย่าหลอกลวงตัวเองด้วย overfitting (ซึ่งเกือบจะเกิดขึ้นแน่นอนถ้าคุณใช้พารามิเตอร์มากกว่าครึ่งโหลหรือมากกว่านั้นหรือใช้เทคนิคการปรับพอดีอัตโนมัติ) หรือการสอดแนมข้อมูล: โปรดระวังความแตกต่างระหว่างการยืนยันอย่างเป็นทางการและไม่เป็นทางการ (แต่ การสำรวจข้อมูลที่มีค่า

มาสรุปกัน:

  • โดยการเลือกวัดที่เหมาะสมของอายุขัย (RLE), เก็บข้อมูลครึ่งหนึ่ง, ปรับโมเดลให้เรียบง่าย, และทดสอบโมเดลนั้นกับข้อมูลที่เหลืออยู่, เราได้สร้างความเชื่อมั่นสูงว่า : มีแนวโน้มที่สอดคล้องกัน; มันใกล้เคียงกับเส้นตรงเป็นเวลานาน และมีการลดลงอย่างต่อเนื่องใน RLE ในปี 2544

  • แบบจำลองของเราเป็นที่น่าประทับใจอย่างมาก : มันต้องการเพียงตัวเลขสองตัว (ความชันและจุดตัด) เพื่ออธิบายข้อมูลต้นอย่างแม่นยำ มันต้องการหนึ่งในสาม (วันที่หยุดพักในปี 2001) เพื่ออธิบายการออกที่ชัดเจน แต่ไม่คาดคิดจากคำอธิบายนี้ ไม่มีค่าผิดปกติที่เกี่ยวข้องกับคำอธิบายสามพารามิเตอร์นี้ แบบจำลองจะไม่ได้รับการปรับปรุงอย่างมีนัยสำคัญโดยการอธิบายลักษณะความสัมพันธ์แบบอนุกรม (โดยทั่วไปจะใช้เทคนิคอนุกรมเวลา) พยายามที่จะอธิบายความเบี่ยงเบนของแต่ละบุคคลขนาดเล็ก (ส่วนที่เหลือ) แสดงหรือแนะนำให้เหมาะสมยิ่งขึ้น หรือการสร้างแบบจำลองการเปลี่ยนแปลงในขนาดของส่วนที่เหลือในช่วงเวลา)

  • แนวโน้มได้รับ 0.009 RLE ต่อปี ซึ่งหมายความว่าในแต่ละปีที่ผ่านไปอายุขัยของ Cohort B นั้นเท่ากับ 0.009 (เกือบ 1%) ของอายุการใช้งานปกติที่คาดว่าจะเพิ่มเข้าไป ตลอดระยะเวลาการศึกษา (37 ปี) นั่นจะเท่ากับ 37 * 0.009 = 0.34 = หนึ่งในสามของการปรับปรุงตลอดชีวิต ความปราชัยในปี 2544 ลดลงที่เพิ่มขึ้นเป็น 0.28 ของอายุการใช้งานเต็มรูปแบบจากปี 1972 ถึง 2009 (แม้ว่าในช่วงเวลานั้นอายุขัยโดยรวมเพิ่มขึ้น 10%)

  • แม้ว่าแบบจำลองนี้จะได้รับการปรับปรุงให้ดีขึ้น แต่ก็น่าจะต้องมีพารามิเตอร์มากขึ้นและการปรับปรุงก็ไม่น่าจะดีมาก (เนื่องจากพฤติกรรมแบบสุ่มที่ใกล้เคียงของการยืนยันส่วนที่เหลือ) โดยรวมแล้วเราควรเป็นเนื้อหาที่จะมาถึงคำอธิบายที่กะทัดรัดมีประโยชน์และใช้งานง่ายของข้อมูลสำหรับงานวิเคราะห์เล็ก ๆ น้อย ๆ


: whuber ชีพจรระบุครั้งเดียวไม่มีบทบาทในการคาดการณ์เพื่อปัญญา:
IrishStat

2

ฉันคิดว่าคำตอบของ whuber นั้นตรงไปตรงมาและเป็นคำที่เรียบง่ายสำหรับคนที่ไม่ใช่ซีรีย์ที่ไม่ใช่เวลาอย่างฉันที่จะเข้าใจ ฉันวางระเบิดบนเขา คำตอบของฉันคือ R ไม่ใช่ Stata เพราะฉันไม่รู้ stata ดี

ฉันสงสัยว่าคำถามนั้นจริง ๆ แล้วขอให้เราดูว่าปีที่เพิ่มขึ้นแน่นอนในปีนั้นเหมือนกันในทั้งสองกลุ่ม (มากกว่าญาติ) ฉันคิดว่านี่เป็นสิ่งสำคัญและแสดงให้เห็นดังต่อไปนี้ ลองพิจารณาตัวอย่างของเล่นต่อไปนี้:

a <- 21:40
b <- 41:60
x <- 1:20
plot(y = a, x = x, ylim = c(0, 60))
points(y = b, x = x, pch = 2)

ป้อนคำอธิบายรูปภาพที่นี่

ที่นี่เรามีเพื่อน 2 คนแต่ละคนมีการอยู่รอดเฉลี่ยเพิ่มขึ้น 1 ปีต่อปี ดังนั้นในแต่ละปีทั้งสองกลุ่มในตัวอย่างนี้จะเพิ่มจำนวนสัมบูรณ์เท่ากัน แต่ RLE ให้สิ่งต่อไปนี้

rle <-  a / b
plot(rle)

ป้อนคำอธิบายรูปภาพที่นี่

ซึ่งเห็นได้ชัดว่ามีแนวโน้มสูงขึ้นและค่า p เพื่อทดสอบสมมติฐานว่าการไล่ระดับสีของเส้น 0 คือ 2.2e-16 เส้นตรงที่ประกอบพอดี (อย่าสนใจว่าเส้นนี้มีลักษณะโค้ง) มีการไล่ระดับสี 0.008 ดังนั้นแม้ว่าทั้งสองกลุ่มจะมีจำนวนเพิ่มขึ้นอย่างแน่นอนในหนึ่งปี แต่ RLE ก็มีความชันเพิ่มขึ้น

ดังนั้นถ้าคุณใช้ RLE เมื่อคุณต้องการเพิ่มค่าสัมบูรณ์แล้วคุณจะปฏิเสธสมมติฐานที่ไม่เหมาะสม

ใช้ข้อมูลที่ให้มาเพื่อคำนวณความแตกต่างที่แน่นอนระหว่างรุ่นที่เราได้รับ: ป้อนคำอธิบายรูปภาพที่นี่

ซึ่งหมายความว่าความแตกต่างที่แท้จริงระหว่างการอยู่รอดของค่ามัธยฐานจะค่อยๆลดลง (เช่นหมู่ที่มีการอยู่รอดที่ไม่ดีจะค่อยๆเข้าใกล้กับหมู่ที่มีการอยู่รอดที่ดีขึ้น)


: แอนดรูว์จดบันทึกกลุ่มสารตกค้างสองกลุ่มไว้ท้ายกราฟของคุณ สิ่งนี้ชี้ให้เห็นข้อบกพร่องที่อาจเกิดขึ้นในการวิเคราะห์ของคุณ น่าเสียดายแม้แต่นักคณิตศาสตร์ที่มีทักษะซึ่งเป็นนักสถิติที่มีทักษะบางครั้งก็ไม่ใช่คนอนุกรมเวลา สิ่งที่ฉันแนะนำคืออะไรคือขั้นตอนการดำเนินงานมาตรฐานสำหรับการวิเคราะห์อนุกรมเวลา
IrishStat

@andrew การตอบสนองที่ดี ฉัน upvoting ฉันเชื่อในคุณสมบัติของคุณ!
อดัม

1
อดัมขอบคุณสำหรับคำพูดดี ๆ ของคุณ คุณจะทราบว่าฉันมีปัญหา / คำถามเกี่ยวกับอนุกรมเวลาเท่านั้นที่ฉันมีความเชี่ยวชาญเนื่องจากฉันมีความเชี่ยวชาญเฉพาะด้านในช่วง 40 ปีที่ผ่านมา
IrishStat

@IrishStat เป็นแบบสัมผัสแบบแยกส่วน เป็นประสบการณ์ที่ดีคุณได้ใส่พวกที่ชอบฟังฉันตั้งแต่ก่อนเกิด
อดัม

: อดัมความคิดทั้งหมดคือการช่วยเหลือผู้อื่น ฉันหวังว่าจะเป็นอย่างนั้นจริง ๆ ฉันสับสนกับคำว่า "ฟังก์" เพราะฉันไม่มีความรู้สึกแบบนั้นเลย แค่พยายามช่วย!
IrishStat

1

อนุกรมเวลาสองชุดนี้ดูเหมือนว่าจะมีแนวโน้มที่แน่นอน นี่คือความสัมพันธ์หนึ่งที่คุณต้องการลบอย่างชัดเจนก่อนการวิเคราะห์เพิ่มเติม โดยส่วนตัวแล้วฉันจะดำเนินการดังนี้:

1) ฉันจะเรียกใช้การถดถอยสำหรับแต่ละชุดเวลาเทียบกับค่าคงที่และเวลาและคำนวณส่วนที่เหลือสำหรับแต่ละชุดเวลา

2) นำซีรีส์ที่เหลือทั้งสองซึ่งคำนวณในขั้นตอนข้างต้นฉันจะรันการถดถอยเชิงเส้นอย่างง่าย (โดยไม่มีค่าคงที่) และดูที่สถิติ t-p, p-value และตัดสินใจว่าจะมีการพึ่งพาหรือไม่ ทั้งสองซีรีส์

การวิเคราะห์นี้ถือว่าสมมติฐานชุดเดียวกันกับที่คุณทำในการถดถอยเชิงเส้น


: user3544 การรันการถดถอยต่อค่าคงที่ในเวลาเป็นรูปแบบของการลดทอนซึ่งเป็นรูปแบบหนึ่งของการฟอกสีฟันล่วงหน้า differencing เป็นอีกรูปแบบหนึ่งของการฟอกสีฟันก่อนหน้านี้: ทั้งสองเป็นข้อสันนิษฐานเนื่องจากอาจมีหลายแนวโน้มหรือรูปแบบที่แตกต่างกันของผู้ประกอบการแตกต่าง โปรดทราบว่าโอเปอเรเตอร์ที่แตกต่างกันเป็นกรณีพิเศษของตัวกรอง ARIMA ซึ่งแปลงซีรีส์เป็นเสียงสีขาว โดยทั่วไปแล้วต้องการกรอง X เพื่อให้เกิดเสียง (x) จากนั้นใช้ตัวกรองนั้นกับ Y เพื่อสร้าง y (ไม่จำเป็นต้องมีเสียงสีขาว) เพื่อวัตถุประสงค์ในการระบุโครงสร้างหรือการถ่ายโอนระหว่าง Y และ X
IrishStat

: User3544 ฉันควรจะปรบมือให้คุณโดยใช้แนวโน้มเดียวที่ไม่ซับซ้อน แต่ฉันคิดว่าบางครั้งก็ไม่ควรเป็นไปได้แนวโน้มที่เรียบง่ายมักจะไร้ประโยชน์ถ้ามีการเลื่อนระดับในซีรีส์หรือมีแนวโน้มจำนวนมาก การทดสอบสมมติฐานเกี่ยวกับความคงที่ของพารามิเตอร์จำเป็นต้องมีความแข็งแกร่งและดำเนินการเมื่อผู้ใช้ค้นหาจุดในเวลาที่พารามิเตอร์อาจมีการเปลี่ยนแปลงมากกว่าการเลือกจุดโดยใช้การทดสอบ Chow Test เป็นที่ทราบกันดีว่าค่าผิดปกติของการทดสอบอคติลดลงสำหรับความสัมพันธ์อัตโนมัติซึ่งเป็นสาเหตุที่เราต้องตรวจจับพวกมัน
IrishStat

IrishStat: เสียงปรบมือของคุณได้รับการตอบรับเป็นอย่างดี .. :) ฉันเห็นด้วยกับความคิดเห็นของคุณเป็นอย่างมากอย่างไรก็ตามเนื่องจากแผนการของสองช่วงเวลาฉันคิดว่า "มาทำให้มันง่าย" .. :)
Lalas

1
: user3544 คำพูดของ Einstein ที่ฉันโปรดปรานคือ "ทำให้ทุกอย่างง่ายที่สุดเท่าที่จะเป็นไปได้ แต่ไม่ง่ายกว่า" หรือทำแบบจำลองใหม่ให้ง่ายที่สุด แต่ไม่ง่ายกว่าเพราะบางคนคิดว่าเรียบง่ายเป็นเป้าหมายในขณะที่อาจทำให้เกิดการวิเคราะห์ไม่เพียงพอ ในกรณีนี้ข้อเสนอแนะของคุณจะพอเพียงเพื่อระบุความสัมพันธ์ที่เกิดขึ้นพร้อมกันและความสัมพันธ์ที่ล้าหลังระหว่างเพื่อนทั้งสองในขณะที่ให้ความสว่างระดับกะ อ่านเพิ่มเติม: brainyquote.com/quotes/quotes/a/...
IrishStat

0

ในบางกรณีเรารู้รูปแบบทางทฤษฎีซึ่งสามารถใช้ทดสอบสมมติฐานของคุณได้ ในโลกของฉัน "ความรู้" มักจะขาดและเราต้องหันไปใช้เทคนิคทางสถิติที่สามารถจัดเป็นการวิเคราะห์ข้อมูลเชิงสำรวจซึ่งสรุปสิ่งต่อไปนี้เมื่อการวิเคราะห์ข้อมูลอนุกรมเวลาที่ไม่นิ่งคือมีคุณสมบัติ autocorrelative ง่ายการทดสอบความสัมพันธ์ข้าม มักจะทำให้เข้าใจผิดตราบเท่าที่เป็นบวกเท็จสามารถพบได้ง่าย หนึ่งในการวิเคราะห์ที่เร็วที่สุดของเรื่องนี้พบได้ในเทศกาลคริสต์มาส, GU, 1926, "ทำไมบางครั้งเราถึงมีความสัมพันธ์แบบไร้สาระระหว่างอนุกรมเวลา? การศึกษาในการสุ่มตัวอย่างและธรรมชาติของอนุกรมเวลา", วารสารสมาคมสถิติ 89, 1– 64. อีกทางเลือกหนึ่งเมื่อซีรีย์หนึ่งตัวหรือมากกว่านั้นได้รับผลกระทบจากกิจกรรมพิเศษ (ดูที่ " ความพ่ายแพ้อย่างฉับพลันใน Cohort B ที่ 2001) ซึ่งสามารถซ่อนความสัมพันธ์ที่สำคัญได้อย่างมีประสิทธิภาพ ตอนนี้การตรวจสอบความสัมพันธ์ระหว่างอนุกรมเวลาขยายไปถึงการตรวจสอบไม่เพียง แต่ความสัมพันธ์ที่เกิดขึ้นพร้อมกันเท่านั้น อย่างต่อเนื่องหากทั้งสองซีรีย์ได้รับผลกระทบจากความผิดปกติ (เหตุการณ์ครั้งเดียว) เราจะต้องทำให้การวิเคราะห์ของเราแข็งแกร่งขึ้นโดยปรับการบิดเบือนครั้งเดียวเหล่านี้ วรรณกรรมของอนุกรมเวลาชี้ให้เห็นถึงวิธีการระบุความสัมพันธ์ผ่านการฟอกสีฟันก่อนเพื่อระบุโครงสร้างที่ชัดเจนยิ่งขึ้น Pre-whitening ปรับสำหรับโครงสร้าง intra-correlative ก่อนระบุโครงสร้าง inter-correlative ขอให้สังเกตคำสำคัญคือการระบุโครงสร้าง วิธีการนี้นำไปสู่ ​​"โมเดลที่มีประโยชน์" ได้อย่างง่ายดาย: ตอนนี้การตรวจสอบความสัมพันธ์ระหว่างอนุกรมเวลาขยายไปถึงการตรวจสอบไม่เพียง แต่ความสัมพันธ์ที่เกิดขึ้นพร้อมกันเท่านั้น อย่างต่อเนื่องหากทั้งสองซีรีย์ได้รับผลกระทบจากความผิดปกติ (เหตุการณ์ครั้งเดียว) เราจะต้องทำให้การวิเคราะห์ของเราแข็งแกร่งขึ้นโดยปรับการบิดเบือนครั้งเดียวเหล่านี้ วรรณกรรมของอนุกรมเวลาชี้ให้เห็นถึงวิธีการระบุความสัมพันธ์ผ่านการฟอกสีฟันก่อนเพื่อระบุโครงสร้างที่ชัดเจนยิ่งขึ้น Pre-whitening ปรับสำหรับโครงสร้าง intra-correlative ก่อนระบุโครงสร้าง inter-correlative ขอให้สังเกตคำสำคัญคือการระบุโครงสร้าง วิธีการนี้นำไปสู่ ​​"โมเดลที่มีประโยชน์" ได้อย่างง่ายดาย: ตอนนี้การตรวจสอบความสัมพันธ์ระหว่างอนุกรมเวลาขยายไปถึงการตรวจสอบไม่เพียง แต่ความสัมพันธ์ที่เกิดขึ้นพร้อมกันเท่านั้น อย่างต่อเนื่องหากทั้งสองซีรีย์ได้รับผลกระทบจากความผิดปกติ (เหตุการณ์ครั้งเดียว) เราจะต้องทำให้การวิเคราะห์ของเราแข็งแกร่งขึ้นโดยปรับการบิดเบือนครั้งเดียวเหล่านี้ วรรณกรรมของอนุกรมเวลาชี้ให้เห็นถึงวิธีการระบุความสัมพันธ์ผ่านการฟอกสีฟันก่อนเพื่อระบุโครงสร้างที่ชัดเจนยิ่งขึ้น Pre-whitening ปรับสำหรับโครงสร้าง intra-correlative ก่อนระบุโครงสร้าง inter-correlative ขอให้สังเกตคำสำคัญคือการระบุโครงสร้าง วิธีการนี้นำไปสู่ ​​"โมเดลที่มีประโยชน์" ได้อย่างง่ายดาย: หากทั้งสองซีรีย์ได้รับผลกระทบจากความผิดปกติ (เหตุการณ์ที่เกิดขึ้นครั้งเดียว) จากนั้นเราจะต้องทำให้การวิเคราะห์ของเราแข็งแกร่งขึ้นโดยการปรับสำหรับการบิดเบือนครั้งเดียวเหล่านี้ วรรณกรรมของอนุกรมเวลาชี้ให้เห็นถึงวิธีการระบุความสัมพันธ์ผ่านการฟอกสีฟันก่อนเพื่อระบุโครงสร้างที่ชัดเจนยิ่งขึ้น Pre-whitening ปรับสำหรับโครงสร้าง intra-correlative ก่อนระบุโครงสร้าง inter-correlative ขอให้สังเกตคำสำคัญคือการระบุโครงสร้าง วิธีการนี้นำไปสู่ ​​"โมเดลที่มีประโยชน์" ได้อย่างง่ายดาย: หากทั้งสองซีรีย์ได้รับผลกระทบจากความผิดปกติ (เหตุการณ์ที่เกิดขึ้นครั้งเดียว) จากนั้นเราจะต้องทำให้การวิเคราะห์ของเราแข็งแกร่งขึ้นโดยการปรับสำหรับการบิดเบือนครั้งเดียวเหล่านี้ วรรณกรรมของอนุกรมเวลาชี้ให้เห็นถึงวิธีการระบุความสัมพันธ์ผ่านการฟอกสีฟันก่อนเพื่อระบุโครงสร้างที่ชัดเจนยิ่งขึ้น Pre-whitening ปรับสำหรับโครงสร้าง intra-correlative ก่อนระบุโครงสร้าง inter-correlative ขอให้สังเกตคำสำคัญคือการระบุโครงสร้าง วิธีการนี้นำไปสู่ ​​"โมเดลที่มีประโยชน์" ได้อย่างง่ายดาย: ขอให้สังเกตคำสำคัญคือการระบุโครงสร้าง วิธีการนี้นำไปสู่ ​​"โมเดลที่มีประโยชน์" ได้อย่างง่ายดาย: ขอให้สังเกตคำสำคัญคือการระบุโครงสร้าง วิธีการนี้นำไปสู่ ​​"โมเดลที่มีประโยชน์" ได้อย่างง่ายดาย:

Y (T) = -194.45
+ [X1 (T)] [(+ 1.2396+ 1.6523B ** 1)] COHORTA

   +[X2(T)][(- 3.3924)]                :PULSE          3

   +[X3(T)][(- 2.4760)]                :LEVEL SHIFT   30 reflecting persistant  unusal activity

   +[X4(T)][(+ 1.1453)]                :PULSE         29

   +[X5(T)][(- 2.7249)]                :PULSE         11

   +[X6(T)][(+ 1.5248)]                :PULSE         27

   +[X7(T)][(+ 2.1361)]                :PULSE          4

   +[X8(T)][(+ 1.6395)]                :PULSE         13

   +[X9(T)][(- 1.6936)]                :PULSE         12

   +[X10(T)[(- 1.6996)]                :PULSE         19

   +[X11(T)[(- 1.2749)]                :PULSE         10

   +[X12(T)[(- 1.2790)]                :PULSE         17

  +       [A(T)]

ซึ่งแสดงถึงความสัมพันธ์แบบร่วมสมัยที่ 1.2936 และผลล่าช้าจาก 1.6523 โปรดทราบว่ามีหลายปีที่มีการระบุกิจกรรมที่ผิดปกติ ได้แก่ (1975,2001,1983,1999,1976,1985,1984,1991 และ 1989) การปรับเปลี่ยนสำหรับปีนี้ช่วยให้เราสามารถประเมินความสัมพันธ์ระหว่างทั้งสองซีรี่ส์ได้ชัดเจนยิ่งขึ้น

ในแง่ของการพยากรณ์

แสดงแบบจำลองเป็น XARMAX
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ ค่าคงที่

ค่าคงที่ด้านขวามือคือ: -194.45

COHORTA 0 1.239589 X (39) * 78.228616 = 96.971340

COHORTA 1 1.652332 X (38) * 77.983000 = 128.853835

I ~ L00030 0 -2.475963 X (39) * 1.000000 = -2.475963

      NET PREDICTION FOR Y(    39 )=                     28.894826 

สัมประสิทธิ์สี่ประการคือทั้งหมดที่ต้องใช้ในการพยากรณ์และแน่นอนการคาดการณ์สำหรับ CohortA ในช่วงเวลา 39 (78.228616) ที่ได้จากแบบจำลอง ARIMA สำหรับ Cohorta


4
เก้าจาก 38 ปีมีกิจกรรมที่ผิดปกติหรือไม่ ในโมเดลที่มีพารามิเตอร์ 25 ตัว (ชัด)! มีบางอย่างผิดปกติกับการตีความนั้น นอกเหนือจากพัลส์เหล่านี้และการเลื่อนระดับแล้วคุณยังพบองค์ประกอบที่ไม่เชิงเส้นที่ยังอยู่ในแนวโน้มของการศึกษากลุ่ม b หรือไม่?
whuber

2
ตัวเลขในคอลัมน์ขวาคืออะไร (3, 30, 29, 11, ฯลฯ ) พวกเขาดูเหมือนจะเป็นส่วนหนึ่งของคำอธิบายข้อมูลของคุณและดังนั้นจึงเป็นพารามิเตอร์เช่นกัน แม้ว่าเราจะไม่นับพวกเขาโดยใช้พารามิเตอร์ 14 ตัวเพื่ออธิบายค่า 38 ค่าโดยเฉพาะเมื่อคำถามคือ "มีแนวโน้มหรือไม่" ดูเหมือนจะมากเกินไป สำหรับเรื่องนั้นแนวโน้มอะไรกันแน่? ในการประมาณการเหล่านี้จะขุดที่ไหน? หากแพทย์จะเข้าหาคุณและถามว่า "โอเคสิ่งที่สำเร็จสำหรับผู้ป่วยใน Cohort B ตั้งแต่ปี 1972" คุณช่วยบอกพวกเขาด้วยประโยคเดียวที่ชัดเจนได้ไหม
whuber

2
เรื่อง "การคาดการณ์ที่มีประสิทธิภาพมาก": ฉันอาจเข้าใจผิดว่าแบบจำลองของคุณมีจำนวนเท่าใด แต่โดยทั่วไปแล้วคำอธิบายที่ดีกว่าของวิธีการ (อนุกรมเวลาหรืออื่น ๆ ) ที่ระบุหนึ่งในสี่ของข้อมูลว่า "ผิดปกติ" และต้องมีการปรับ "ติดตั้งมากเกินไป" และ "ซับซ้อนโดยไม่จำเป็น" การที่คุณยืนยันว่าไม่มีเทรนด์ใน Cohort B นั้นยอดเยี่ยมมาก
whuber

2
@ อดัมเนื่องจากการวิเคราะห์นี้ไม่สนใจข้อมูลเกี่ยวกับความแปรปรวนที่มีอยู่ใน "พัลส์" 10 รายการแถบคาดการณ์ใด ๆ ที่มีการคาดการณ์จะสูงเกินไปในแง่ดี (แน่นเกินไป) ยิ่งกว่านั้นการวิเคราะห์เชิงลึกที่รวมข้อมูลทั้งหมด (ไม่เหมือนกับการวิเคราะห์เชิงประกอบที่มีเพียงครึ่งปีแรก) จะตรวจสอบส่วนประกอบที่ไม่เชิงเส้นสอดคล้องกับแนวโน้มที่ลดลงเล็กน้อยและไม่ได้ตรวจพบที่นี่เช่นกัน ความสำคัญมากกว่าการคาดการณ์คือการทำความเข้าใจกับผลกระทบของ 2000-2001: หากสามารถทำซ้ำได้การคาดการณ์ทั้งหมดอาจผิดไป
whuber

1
@ คนที่ฉันยอมรับว่าไม่รู้ศัพท์แสงทางเทคนิคทั้งหมด แต่คำอธิบายของคุณทำให้ความรู้สึกที่ดี ขอบคุณมาก.
Adam

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.