การจัดการกับความสัมพันธ์อัตโนมัติคืออะไร


13

เพื่อนำหน้าสิ่งนี้ฉันมีพื้นฐานทางคณิตศาสตร์ค่อนข้างลึก แต่ฉันไม่เคยจัดการกับอนุกรมเวลาหรือการสร้างแบบจำลองทางสถิติ ดังนั้นคุณไม่ต้องอ่อนโยนกับฉัน :)

ฉันกำลังอ่านกระดาษนี้เกี่ยวกับการสร้างแบบจำลองการใช้พลังงานในอาคารพาณิชย์และผู้เขียนทำให้การเรียกร้องนี้:

[สถานะของความสัมพันธ์อัตโนมัติเกิดขึ้น] เนื่องจากตัวแบบได้รับการพัฒนาจากข้อมูลอนุกรมเวลาของการใช้พลังงานซึ่งมีความสัมพันธ์โดยอัตโนมัติ รูปแบบที่กำหนดอย่างหมดจดสำหรับข้อมูลอนุกรมเวลาจะมีความสัมพันธ์อัตโนมัติ พบว่าความสัมพันธ์อัตโนมัติลดลงหากรวมค่าสัมประสิทธิ์ฟูริเยร์มากขึ้นในโมเดล อย่างไรก็ตามในกรณีส่วนใหญ่แบบจำลองฟูริเยร์มี CV ต่ำดังนั้นแบบจำลองจึงอาจเป็นที่ยอมรับได้สำหรับวัตถุประสงค์ในทางปฏิบัติที่ (sic) ไม่ต้องการความแม่นยำสูง

0. ) "รูปแบบใด ๆ ที่กำหนดอย่างหมดจดสำหรับข้อมูลอนุกรมเวลาจะมีความสัมพันธ์อัตโนมัติ" หมายความว่าอะไร? ฉันสามารถเข้าใจความหมายของสิ่งนี้ได้อย่างชัดเจน - ตัวอย่างเช่นคุณคาดหวังว่าจะทำนายประเด็นต่อไปในอนุกรมเวลาของคุณอย่างไรถ้าคุณมี 0 ความสัมพันธ์อัตโนมัติ? นี่ไม่ใช่อาร์กิวเมนต์ทางคณิตศาสตร์เพื่อให้แน่ใจว่าเป็นเพราะเหตุใดนี่คือ 0 :)

1. ) ฉันอยู่ภายใต้การแสดงความคิดเห็นที่ความสัมพันธ์อัตโนมัติฆ่าโมเดลของคุณโดยทั่วไป แต่เมื่อคิดถึงมันฉันไม่เข้าใจว่าทำไมจึงเป็นเช่นนั้น ดังนั้นความสัมพันธ์อัตโนมัติทำไมจึงเป็นสิ่งที่ไม่ดี (หรือดี)

2. ) วิธีแก้ปัญหาที่ฉันเคยได้ยินเกี่ยวกับออโตคอร์เรชั่นคือการแตกต่างของอนุกรมเวลา หากไม่ได้พยายามอ่านใจผู้เขียนเหตุใดจึงไม่แตกต่างกันถ้าความสัมพันธ์อัตโนมัติที่ไม่มีความสำคัญมีอยู่จริง

3. ) ข้อ จำกัด อะไรที่ทำให้ไม่มีข้อมูลที่เกี่ยวข้องโดยอัตโนมัติในโมเดล? นี่เป็นข้อสันนิษฐานบางแห่งหรือไม่ (เช่นปกติจะมีการกระจายของเสียเมื่อสร้างโมเดลด้วยการถดถอยเชิงเส้นอย่างง่าย) หรือไม่?

อย่างไรก็ตามขออภัยหากคำถามเหล่านี้เป็นคำถามพื้นฐานและขอบคุณล่วงหน้าสำหรับความช่วยเหลือ

คำตอบ:


10
  1. ฉันคิดว่าผู้เขียนอาจพูดถึงเศษซากของแบบจำลอง ฉันโต้เถียงเพราะคำพูดของเขาเกี่ยวกับการเพิ่มค่าสัมประสิทธิ์ฟูริเยร์มากขึ้น ถ้าอย่างที่ฉันเชื่อว่าเขาเป็นแบบจำลองฟูริเยร์การเพิ่มสัมประสิทธิ์มากขึ้นจะช่วยลดความสัมพันธ์แบบอัตโนมัติของค่าใช้จ่ายของ CV ที่สูงขึ้น

    หากคุณมีปัญหาในการมองเห็นสิ่งนี้ให้นึกถึงตัวอย่างต่อไปนี้สมมติว่าคุณมีชุดข้อมูล 100 คะแนนดังต่อไปนี้ซึ่งมาจากตัวแบบฟูริเยร์สัมประสิทธิ์สองตัวพร้อมเสียงเกาส์สีขาวเสริม

    จุดข้อมูล

    กราฟต่อไปนี้แสดงให้เห็นถึงสองเหมาะ: หนึ่งทำด้วยสัมประสิทธิ์ฟูริเยร์ 2 และหนึ่งทำด้วยสัมประสิทธิ์ฟูริเยร์ 200:

    พอดี

    อย่างที่คุณเห็นค่าสัมประสิทธิ์การแปลงฟูเรียร์ 200 นั้นตรงกับ DATAPOINTS ที่ดีกว่าในขณะที่สัมประสิทธิ์ 2 พอดี (รุ่น 'ของจริง') จะตรงกับรุ่นที่ดีกว่า นี่ก็หมายความว่า autocorrelation ของส่วนที่เหลือของแบบจำลองที่มีค่าสัมประสิทธิ์ 200 จะเกือบจะเป็นศูนย์ที่ทุกความล่าช้ากว่าส่วนที่เหลือของรูปแบบค่าสัมประสิทธิ์ 2 เพราะแบบจำลองที่มีค่าสัมประสิทธิ์ 200 พอดีพอดีเกือบทุก datapoints (เช่นส่วนที่เหลือจะ เกือบทุกศูนย์) อย่างไรก็ตามสิ่งที่คุณคิดว่าจะเกิดขึ้นถ้าคุณออกไปพูด 10 ดาต้าพอยน์ออกมาจากตัวอย่างและพอดีกับรูปแบบเดียวกัน? แบบจำลอง 2 ค่าสัมประสิทธิ์จะทำนายว่าดาต้าพอยน์ที่คุณปล่อยออกมาจากตัวอย่างดีกว่า! ดังนั้นมันจะสร้างข้อผิดพลาด CV ที่ต่ำลงเมื่อนำไปจำลองที่ค่าสัมประสิทธิ์ 200 นี้เรียกว่าอิง. เหตุผลที่อยู่เบื้องหลัง 'เวทมนต์' นี้เป็นเพราะสิ่งที่ CV พยายามที่จะวัดจริง ๆ คือข้อผิดพลาดในการทำนายคือโมเดลของคุณทำนายว่าดาต้าพอยน์ไม่ได้อยู่ในชุดข้อมูลของคุณได้ดีเพียงใด

  2. ในบริบทนี้การสัมพันธ์อัตโนมัติในส่วนที่เหลือนั้นไม่ดีเพราะหมายความว่าคุณไม่ได้สร้างแบบจำลองความสัมพันธ์ระหว่างดาต้าพอยน์ที่ดีพอ สาเหตุหลักที่ทำให้คนไม่เห็นความแตกต่างของซีรีย์คือเพราะพวกเขาต้องการจำลองกระบวนการพื้นฐานเหมือนกัน ความแตกต่างอย่างหนึ่งของอนุกรมเวลาโดยทั่วไปคือการกำจัดคาบหรือแนวโน้ม แต่ถ้าช่วงเวลาหรือแนวโน้มนั้นเป็นสิ่งที่คุณกำลังพยายามทำแบบจำลองจริง ๆ แล้วการแยกพวกมันอาจดูเหมือนตัวเลือกสุดท้าย (หรือตัวเลือก กระบวนการสุ่มที่ซับซ้อนมากขึ้น)
  3. ขึ้นอยู่กับพื้นที่ที่คุณกำลังทำอยู่ มันอาจเป็นปัญหากับโมเดลกำหนดขึ้นเช่นกัน อย่างไรก็ตามขึ้นอยู่กับรูปแบบของ autocorrelation มันสามารถเห็นได้ง่ายเมื่อ autocorrelation เกิดขึ้นเช่น, เสียงวูบวาบ, เสียงเหมือน ARMA หรือถ้ามันเป็นแหล่งธาตุพื้นฐานที่เหลือ (ในกรณีที่คุณอาจต้องการเพิ่ม จำนวนสัมประสิทธิ์ฟูเรียร์)

ขอบคุณสำหรับการตอบกลับของคุณและถ้าคุณเต็มใจฉันต้องการที่จะลองและแยกแยะสิ่งเหล่านี้ในแต่ละครั้ง สำหรับ 1. ) มีวิธีที่เข้าใจง่ายหรือไม่ว่าทำไมการรวมค่าสัมประสิทธิ์ฟูริเยร์มากขึ้นจะช่วยลดความสัมพันธ์อัตโนมัติและเพิ่ม CV (ฉันถือว่านี่เป็นประวัติย่อของส่วนที่เหลือ)
BenDundee

1
ฉันเพิ่มตัวอย่าง หวังว่ามันจะช่วย และใช่เขาอ้างถึงประวัติย่อของส่วนที่เหลือ
Néstor

อ่าฉันคิดว่าฉันเห็น สิ่งนี้เชื่อมโยงกับสิ่งที่ฉันจะขอในเรื่องที่เกี่ยวกับ 2 เราจะปรับปรุงแพทช์รุ่นนี้ (โดยทั่วไป) เพื่อเข้าใจความสัมพันธ์ได้อย่างไร คุณสามารถเพิ่มข้อ จำกัด เกี่ยวกับเมทริกซ์สหสัมพันธ์ของสัมประสิทธิ์ฟูริเยร์ได้ไหม?
BenDundee

1
นั่นเป็นงานที่ยากที่ฉันทำด้วย โดยเฉพาะอย่างยิ่งกับแบบจำลองกำหนดเวลาเป็นระยะมันยากที่จะทราบว่าแบบจำลองเสียงแบบใดที่จะใช้ ปัญหาใหญ่คือคุณไม่ทราบจำนวนสัมประสิทธิ์ของโมเดลฟูเรียร์ดังนั้นจึงเป็นตัวแปรสุ่มที่คุณต้องจำลองด้วย ในที่ที่มีดาต้าพอยท์อยู่ในระดับต่ำฉันจะต้องกระโดด MCMC แบบพลิกกลับได้แน่นอนเพื่อจำลองแบบนี้ ฉันจะลองแบบจำลองเสียงที่แตกต่างกันและเปรียบเทียบ AIC / BIC ระหว่างพวกเขา อย่างไรก็ตามสำหรับชุดข้อมูลขนาดใหญ่จะไม่สามารถทำได้
Néstor

3

ฉันพบบทความนี้ว่า 'การปลอมแปลงในเศรษฐมิติ ' มีประโยชน์เมื่อพยายามทำให้ฉันเข้าใจว่าทำไมการขจัดแนวโน้มจึงเป็นสิ่งจำเป็น โดยพื้นฐานแล้วหากมีตัวแปรสองตัวที่กำลังได้รับความนิยมพวกเขาจะร่วมแตกต่างกันซึ่งเป็นสูตรสำหรับปัญหา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.