สถิติใดที่ถูกเก็บรักษาไว้ภายใต้การรวมกลุ่ม?


12

หากเรามีอนุกรมเวลาที่มีความยาวและความละเอียดสูงพร้อมเสียงรบกวนมากมายมันมักจะสมเหตุสมผลที่จะรวบรวมข้อมูลให้เป็นความละเอียดที่ต่ำกว่า (เช่นค่ารายวันเป็นรายเดือน) เพื่อทำความเข้าใจกับสิ่งที่เกิดขึ้นได้ดียิ่งขึ้น เสียงดัง.

ฉันเคยเห็นอย่างน้อยหนึ่งกระดาษที่ใช้สถิติบางอย่างกับข้อมูลรวมรวมถึงสำหรับการถดถอยเชิงเส้นในตัวแปรแยกต่างหาก ถูกต้องหรือไม่ ฉันคิดว่ากระบวนการหาค่าเฉลี่ยจะปรับเปลี่ยนผลลัพธ์ค่อนข้างดีเนื่องจากเสียงรบกวนน้อยลงr2

โดยทั่วไปแล้วสถิติบางอย่างสามารถนำไปใช้กับข้อมูลอนุกรมเวลารวมและอื่น ๆ ไม่ได้? ถ้าเป็นเช่นนั้น คนที่มีการรวมกันเชิงเส้นอาจ?


ที่เกี่ยวข้องให้ดูที่การเข้าใจผิดในระบบนิเวศ
Andy W

1
เกี่ยวกับความคิดเห็นจาก @cbeleites ฉันคิดว่ามีคำตอบทางทฤษฎีที่นี่ - การขยายตัวของข้อเสนอแนะของคุณที่จะรักษาชุดค่าผสมเชิงเส้นไว้ อย่างไรก็ตามในแง่ของการใช้งานจริงมันยากมากที่จะวาดข้อสรุปทั่วไปเกี่ยวกับความถูกต้องของวิธีการและจะต้องมีตัวอย่างที่เฉพาะเจาะจง
Jonathan

คำตอบ:


6

ฉันคิดว่าคำถามในหัวข้อนั้นกว้างเกินไปที่จะตอบในวิธีที่มีประโยชน์มากขึ้นดังนั้นมันอาจจะขึ้นอยู่กับทั้งวิธีการรวมและสถิติในคำถาม

  • สิ่งนี้จะนำไปใช้กับ "หมายถึง": คุณพยายามรักษารูปร่างและความเข้มของสัญญาณ (เช่นตัวกรอง Savitzky-Golay) หรือคุณพยายามรักษาพื้นที่ใต้สัญญาณ (เช่นเหลือง)

  • สถิติเกี่ยวกับเสียงรบกวนนั้นได้รับผลกระทบอย่างชัดเจนนั่นคือโดยปกติแล้วจะเป็นจุดประสงค์ของการรวม

ฉันเคยเห็นอย่างน้อยหนึ่งกระดาษที่ใช้สถิติบางอย่างกับข้อมูลรวม [... ] นั้นถูกต้องหรือไม่ ฉันคิดว่ากระบวนการหาค่าเฉลี่ยจะปรับเปลี่ยนผลลัพธ์ค่อนข้างดีเนื่องจากเสียงรบกวนน้อยลง

การปรับเปลี่ยนนี้น่าจะเป็นจุดประสงค์ของการรวบรวม

โดยทั่วไปคุณได้รับอนุญาตให้ทำสิ่งต่างๆมากมายกับข้อมูลของคุณ แต่คุณต้องทำ

  • พูดในสิ่งที่คุณกำลังทำ (และควรทำเช่นนั้นด้วย)
  • แสดงคุณภาพของแบบจำลองที่ได้ (ทดสอบด้วยข้อมูลอิสระ)

การรวมที่ถูกต้องคืออะไรขึ้นอยู่กับแอปพลิเคชันของคุณ
เช่นฉันกำลังทำงานกับข้อมูลสเปกโทรสโกปี มันเป็นเรื่องธรรมดามากที่จะรวมสเปคตรัมเดียวเข้ากับสเป็คตรัมเฉลี่ย: กระบวนการวัดหมายถึงข้อ จำกัด บางอย่างเกี่ยวกับคุณภาพของสเป็คตร้าที่ฉันสามารถได้รับ "ในนัดเดียว" อย่างไรก็ตามสำหรับการใช้งานหลาย ๆ คนก็เป็นที่ถูกต้องสมบูรณ์เพื่อระบุขั้นตอนการเข้าซื้อกิจการที่บอกว่าเสมอวัดซ้ำจะต้องดำเนินการและเฉลี่ย ในทางกลับกันหากแอปพลิเคชันเป็นการวิเคราะห์แบบเรียลไทม์ / ออนไลน์หรืออินไลน์เช่นFIA (การวิเคราะห์การไหลของการไหล)นี่หมายถึงข้อ จำกัด เกี่ยวกับแผนการรวมที่เป็นไปได้n


5

ในการตั้งค่าการถดถอยคุณสามารถทดสอบว่าการรวมอย่างง่ายเป็นตัวเลือกที่ถูกต้องหรือไม่ สมมติว่าคุณมีข้อมูลรายเดือนและรายวันข้อมูล (ที่มีการแก้ไขวันในหนึ่งเดือน) สมมติว่าคุณสนใจในการถดถอย:YtXτm

Yt=α+βX¯t+ut,(1)

โดยที่

X¯t=1mh=0m1Xtmh.

ที่นี่เราคิดว่าเดือนแต่ละสังเกตทุกวัน{} ในกรณีนี้เราสันนิษฐานว่าในแต่ละวันมีน้ำหนักเท่ากันซึ่งเป็นข้อ จำกัด อย่างชัดเจน ดังนั้นเราจึงสามารถสรุปได้ว่าแบบจำลองทั่วไปมีดังนี้:tX30(t1)+1,...,X30t

Yt=α+βX¯t(w)+ut,(2)

กับ

Xt(w)=h=1m1whXtmh.

มีจำนวนมากของบทความที่สำรวจเลือกที่เป็นไปแตกต่างกันของมีw_hมักจะมีข้อสันนิษฐานว่าสำหรับบางฟังก์ชั่นซึ่งขึ้นอยู่กับพารามิเตอร์\รูปแบบการถดถอยชนิดนี้เรียกว่าการถดถอยแบบ MIDAS (การสุ่มตัวอย่าง DAx)whwh=g(h,α)gα

รุ่น (2) รังรูปแบบ (1) จึงเป็นไปได้ในการทดสอบสมมติฐานที่ว่า{m} มีการเสนอการทดสอบหนึ่งรายการในบทความนี้ (ฉันเป็นหนึ่งในผู้เขียนขอโทษสำหรับปลั๊กที่ไร้ยางอายฉันยังเขียนmidasrแพ็คเกจ R สำหรับการประเมินและทดสอบการถดถอย MIDAS ที่ใช้การทดสอบนี้)wh=1m

ในการตั้งค่าที่ไม่ใช่การถดถอยมีผลลัพธ์ที่แสดงว่าการรวมสามารถเปลี่ยนคุณสมบัติของอนุกรมเวลา ตัวอย่างเช่นถ้าคุณรวมกระบวนการ AR (1) ที่มีหน่วยความจำระยะสั้น (ความสัมพันธ์ระหว่างการสังเกตสองครั้งของอนุกรมเวลาจะดับลงอย่างรวดเร็วเมื่อระยะห่างระหว่างพวกเขาเพิ่มขึ้น) คุณจะได้รับกระบวนการที่มีหน่วยความจำระยะยาว

ดังนั้นการสรุปคำตอบก็คือความถูกต้องของการประยุกต์ใช้สถิติกับข้อมูลรวมเป็นคำถามเชิงสถิติ ขึ้นอยู่กับรุ่นที่คุณสามารถสร้างสมมติฐานว่ามันเป็นโปรแกรมที่ถูกต้องหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.