การตรวจจับที่ผิดพลาดในอนุกรมเวลา: วิธีลดผลบวกปลอม?


11

ฉันพยายามที่จะทำงานโดยอัตโนมัติขอบเขตการตรวจสอบในอนุกรมเวลาและฉันใช้การปรับเปลี่ยนของการแก้ปัญหาที่เสนอโดยร็อบ Hyndman ที่นี่

บอกว่าฉันวัดการเข้าชมเว็บไซต์ทุกวันจากหลายประเทศ สำหรับบางประเทศที่การเข้าชมรายวันเป็นสองสามหมื่นหรือหลายพันวิธีการของฉันดูเหมือนจะทำงานได้อย่างสมเหตุสมผล

อย่างไรก็ตามในกรณีที่ประเทศหนึ่งนำไปสู่การเยี่ยมชมเพียง 1 หรือ 2 ครั้งต่อวันข้อ จำกัด ของอัลกอริทึมนั้นแคบมาก (เช่น 1 ± 0.001) ดังนั้นการเข้าชม 2 ครั้งจึงถือว่าเป็นค่าที่ผิดปกติ ฉันจะตรวจจับกรณีดังกล่าวโดยอัตโนมัติได้อย่างไรและฉันจะปฏิบัติต่อพวกเขาเพื่อระบุค่าผิดปกติได้อย่างไร ฉันไม่ต้องการตั้งเกณฑ์แบบกำหนดเองเป็น 100 ครั้งต่อวัน

ขอบคุณ!


2
วิธีที่ง่ายและเป็นธรรมชาติที่อาจช่วยแก้ปัญหาของคุณซึ่งมีสาเหตุมาจากความแปรปรวนอย่างมาก (อย่างน้อยในบางส่วน) คือการใช้การแปลงแบบแปรปรวนที่มีความเสถียรเช่นการแปลงAnscombe หรือ Freeman-Tukeyกับข้อมูล ก่อนที่จะมองหาคนผิด
whuber

คำตอบ:


3

อย่าคาดหวังมากนักสำหรับเรื่องเล็กน้อยที่ไม่ต่อเนื่อง การเข้าชมจาก 1 ถึง 2 เป็นการเพิ่มขึ้น 100% และการเข้าชมจาก 0 เป็น 1 เป็นการเพิ่มขึ้นไม่ จำกัด ในระดับต่ำคุณอาจต้องเผชิญกับนางแบบที่ไม่พองตัวและอาจมีเสียงดังมากเช่นกัน

จากประสบการณ์ของฉันให้นับข้อมูลด้วยการนับจำนวนมากและน้อยเช่นนี้ทำให้เกิดปัญหาสองประการกับการนับจำนวนเล็กน้อยของคุณ: 1) พวกเขาหยาบเกินไปที่จะทำอะไรมากมาย 2) พวกเขาถูกสร้างขึ้นโดยกระบวนการที่แตกต่างกัน (คิดว่าที่ทำการไปรษณีย์เล็ก ๆ ในชนบทกับที่ทำการไปรษณีย์ในเมืองใหญ่) ดังนั้นอย่างน้อยคุณต้องแบ่งการสร้างแบบจำลองของคุณเป็นสอง: ทำสิ่งที่คุณประสบความสำเร็จในการนับที่มีขนาดใหญ่ขึ้นและทำสิ่งที่แตกต่าง - coarser และอื่น ๆ โดยประมาณ - ด้วยจำนวนเล็กน้อย แต่อย่าคาดหวังว่าจำนวนเล็กน้อยจะมีมาก

ข่าวดีก็คือว่าการนับที่ยิ่งใหญ่นั้นรวมถึงการทำธุรกรรมของคุณมากขึ้นดังนั้นโมเดลที่ดีกว่าของคุณจึงครอบคลุมข้อมูลมากขึ้นแม้ว่ามันอาจจะไม่ครอบคลุมเว็บไซต์ส่วนใหญ่ของคุณก็ตาม

(ฉันบอกว่า "การสร้างแบบจำลอง" เป็นแบบทั่วไป แต่แน่นอนว่าการตรวจหาค่าผิดปกติจะถือว่าเป็นรูปแบบเฉพาะและการหาจุดที่ไม่น่าเป็นไปได้อย่างมากจากสมมติฐานของแบบจำลองนั้น)


1

แต่ละค่าจากอนุกรมเวลาของคุณคือตัวอย่างจากการแจกแจงความน่าจะเป็น คุณต้องค้นหาก่อนว่าการกระจายความน่าจะเป็นคืออะไรแล้วกำหนดว่าคำที่หายากหมายถึงอะไรในการแจกแจงนั้น

ดังนั้นคำนวณ cdf เชิงประจักษ์และคำนวณช่วงความมั่นใจ 95% เมื่อใดก็ตามที่มีบางสิ่งที่อยู่นอกภูมิภาคเกิดขึ้นคุณต้องทราบว่าเป็นเหตุการณ์ที่เกิดขึ้นได้ยาก


0

มันเป็นเรื่องสำคัญที่จะต้องตรวจสอบ Outlier ที่ระดับความเชื่อมั่นโดยเฉพาะและอีกสิ่งหนึ่งคือการวางข้อกำหนดที่สองซึ่งจะ จำกัด การยอมรับของ Outlier เพิ่มเติม ฉันเคยถามคำถามต่อไปนี้ "AUTOBOX สามารถตรวจจับการเปลี่ยนแปลงค่าเฉลี่ยของหน่วย xx ในระดับความเชื่อมั่นที่กำหนดไว้ล่วงหน้า" สิ่งที่จำเป็นต้องมีคือการทดสอบคู่ AUTOBOX เป็นซอฟต์แวร์ชิ้นหนึ่งที่ฉันได้ช่วยพัฒนาซึ่งคุณอาจพบว่าคุ้มค่าเพราะไม่มีซอฟต์แวร์ฟรีที่ใช้การทดสอบสองระบบนี้

ขอบคุณ Nick: ฉันใช้การเลื่อนระดับเป็นตัวอย่างเฉพาะของ "ค่าผิดปกติ" หรือโดยทั่วไปแล้วผลกระทบที่กำหนดขึ้นจากการสังเกตเชิงประจักษ์ รูปแบบอื่น ๆ ของ "ค่าผิดปกติ" คือพัลส์จังหวะตามฤดูกาลและแนวโน้มเวลาท้องถิ่นและชุดค่าผสมเฉพาะเช่นการเปลี่ยนแปลงชั่วคราวเป็นระดับใหม่ ประเด็นหลักคืออาจมีสมมติฐานสองข้อที่แสดงให้เห็นถึงนัยสำคัญทางสถิติและนัยสำคัญของโลกแห่งความเป็นจริง ลูกค้าที่เคยนำปัญหานี้มาให้ฉันก็สนใจทั้ง


ค่าเริ่มต้นไม่จำเป็นต้องหมายถึงการเปลี่ยนค่าเฉลี่ย .... อันที่จริงการเปลี่ยนแปลงแบบก้าวหรือ ramped ระหว่างระบอบที่มีวิธีการที่แตกต่างกันไม่จำเป็นต้องมีค่าผิดปกติ คุณรู้เรื่องนี้ดีมาก แต่สิ่งที่ฉันคิดว่ามันบอกเป็นนัย ๆ ว่ามันจะเป็นประโยชน์ต่อผู้อื่นมากที่สุดในการตอบคำถามของคุณ
Nick Cox

ขอบคุณทั้งคู่ ฉันสนใจความสำคัญของโลกแห่งความจริง หลังจากระบุค่าผิดปกติแล้วฉันชั่งน้ำหนักความสำคัญด้วยกล่าวคือสัดส่วนการเข้าชมเปรียบเทียบกับการเข้าชมทั้งหมดเพื่อให้ได้ความสำคัญขั้นสุดท้าย แม้ว่าสัดส่วนนั้นจะน้อยมากในกรณีของการเข้าชม 2 ครั้งเนื่องจากค่าที่คาดไว้คือ 1 ± 0.001 แต่ 'ระยะทาง' ของจุดที่เกิดขึ้นจริงจากขีด จำกัด ที่คาดหวังนั้นสูงมาก (เช่น 2 / 0.002 โดยที่ 0.002 คือ 'iqr') . ดังนั้นประเด็นที่ได้รับความสำคัญสูงในที่สุด ความคิดใด ๆ
Stergios

ฉันตั้งค่าสถานะว่าการใช้ "นอกขอบเขต" ที่นี่กว้างกว่าความรู้สึกใจกว้างของทุกสิ่งที่สุดขั้วซึ่งเป็นเรื่องธรรมดาในวรรณกรรมหลายเล่ม ผู้อ่านที่มีประสบการณ์จะรู้ว่า @IrishStat ยึดติดกับการวิเคราะห์อนุกรมเวลาของเขา
Nick Cox

0

คุณกำลังมีปัญหานั้นเนื่องจากข้อมูลของคุณอยู่ไกลจากการแจกแจงแบบปกติ หากการกระจายไม่สมดุลอย่างมากด้วยการกระแทก, humps หรือหางยาว / สั้นเกินไปคุณจะพบปัญหา ความคิดที่ดีคือการใช้การแปลงเช่น Box Cox หรือ Yeo-Johnson ก่อนที่จะใช้วิธีการของคุณ ในตัวอย่างของคุณถ้าคุณใช้ F (x) = log (1 + x) คุณหลีกเลี่ยงปัญหาเรื่องขนาดที่แตกต่างกันและคุณสามารถแปลงกลับโดยใช้: exp (z) -1

มีหลายขั้นตอนที่คุณสามารถใช้เพื่อค้นหาแลมบ์ดาที่ดีสำหรับการแปลงบ็อกซ์โดยอัตโนมัติ โดยส่วนตัวฉันใช้ค่ามัธยฐานของวิธีการทั้งหมดของฟังก์ชั่น boxcoxnc จากแพ็คเกจ AID ใน R หากข้อมูลของคุณไม่ได้เป็นบวกอย่างเคร่งครัดคุณจะต้องเพิ่ม 1 หรือจำนวนบวกอื่น ๆ ก่อนที่จะใช้มัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.