สถิติและข้อมูลขนาดใหญ่ outliers

5

การล้างข้อมูลสามารถทำให้ผลการวิเคราะห์เชิงสถิติแย่ลงได้หรือไม่?

การเพิ่มจำนวนผู้ป่วยและการเสียชีวิตเกิดขึ้นในช่วงที่มีการระบาดของโรค (เพิ่มจำนวนขึ้นอย่างกะทันหัน) เนื่องจากการไหลเวียนของไวรัส (เช่น West Nile Virus ในสหรัฐอเมริกาในปี 2545) หรือลดความต้านทานของผู้คนหรือการปนเปื้อนของอาหารหรือน้ำ ยุง โรคระบาดเหล่านี้จะปรากฏเป็นค่าผิดปกติซึ่งสามารถเกิดขึ้นได้ทุก 1 ถึง 5 ปี การลบค่าผิดปกติเหล่านี้ทำให้เราลบหลักฐานการระบาดซึ่งเป็นส่วนสำคัญในการพยากรณ์และการทำความเข้าใจเกี่ยวกับโรค การทำความสะอาดข้อมูลจำเป็นหรือไม่เมื่อต้องรับมือกับผู้ผิดที่เกิดจากโรคระบาด? มันจะปรับปรุงผลลัพธ์หรือทำให้แย่ลงจากการวิเคราะห์ทางสถิติ?

17 time-series forecasting epidemiology outliers

1

PCA ที่แข็งแกร่งเทียบกับระยะทาง Mahalanobis ที่แข็งแกร่งสำหรับการตรวจจับค่าผิดปกติ

PCA แข็งแกร่ง (ตามที่พัฒนาโดยCandes et al, 2009หรือดีกว่ายังNetrepalli et al, 2014 ) เป็นวิธีที่นิยมใช้สำหรับการตรวจสอบค่าผิดปกติหลายตัวแปรแต่ Mahalanobis ระยะนอกจากนี้ยังสามารถนำมาใช้สำหรับการตรวจสอบขอบเขตที่กำหนดแข็งแกร่งประมาณการ regularized ของเมทริกซ์ความแปรปรวนร่วม ฉันอยากรู้เกี่ยวกับข้อดี (dis) ของการใช้วิธีหนึ่งกับอีกวิธีหนึ่ง สัญชาตญาณของฉันบอกฉันว่าความแตกต่างที่ยิ่งใหญ่ที่สุดระหว่างสองคือเมื่อข้อมูลชุด "เล็ก" (ในความหมายทางสถิติ), PCA ที่แข็งแกร่งจะให้ความแปรปรวนร่วมอันดับที่ต่ำกว่าในขณะที่การประมาณค่าความแปรปรวนร่วมที่แข็งแกร่งจะแทน อันดับความแปรปรวนเนื่องจากการทำให้เป็นปกติ Ledoit-Wolf สิ่งนี้จะส่งผลกระทบต่อการตรวจหาค่าผิดปกติอย่างไร

17 pca outliers covariance-matrix robust anomaly-detection

2

วิธีการพยากรณ์กับการตรวจจับค่าผิดปกติใน R - ขั้นตอนและวิธีการวิเคราะห์อนุกรมเวลา

ฉันมีข้อมูลอนุกรมเวลารายเดือนและต้องการคาดการณ์ด้วยการตรวจจับค่าผิดปกติ นี่คือตัวอย่างของชุดข้อมูลของฉัน: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 7.71 7.67 7.85 7.82 7.91 7.91 8.00 7.82 7.90 7.93 7.99 7.93 2008 8.46 8.48 9.03 9.43 11.58 12.19 12.23 11.98 12.26 …

16 r time-series forecasting arima outliers

3

การตรวจจับค่าผิดปกติที่แข็งแกร่งในไทม์ทางการเงิน

ฉันกำลังมองหาเทคนิคที่มีประสิทธิภาพในการลบค่าผิดพลาดและข้อผิดพลาด (ไม่ว่าจะเกิดอะไร) จากข้อมูลอนุกรมเวลาการเงิน (เช่น tickdata) ข้อมูลอนุกรมเวลาทางการเงินแบบ Tick-by-tick นั้นยุ่งมาก มันมีช่องว่างขนาดใหญ่ (เวลา) เมื่อการแลกเปลี่ยนถูกปิดและกระโดดอย่างมากเมื่อการแลกเปลี่ยนเปิดขึ้นอีกครั้ง เมื่อการแลกเปลี่ยนเปิดขึ้นปัจจัยทุกชนิดจะแนะนำการซื้อขายในระดับราคาที่ไม่ถูกต้อง (ไม่ได้เกิดขึ้น) และ / หรือไม่ได้เป็นตัวแทนของตลาด (ขัดขวางเนื่องจากการเสนอราคาที่ป้อนไม่ถูกต้องหรือขอราคาตัวอย่าง) บทความนี้โดย tickdata.com (PDF) ทำงานได้ดีในการสรุปปัญหา แต่เสนอวิธีแก้ไขปัญหาที่เป็นรูปธรรมเล็กน้อย เอกสารส่วนใหญ่ที่ฉันสามารถหาได้ทางออนไลน์ที่กล่าวถึงปัญหานี้ก็คือไม่ต้องสนใจ (ติ๊กถูกสันนิษฐานว่าถูกกรอง) หรือรวมการกรองไว้เป็นส่วนหนึ่งของรูปแบบการค้าขนาดใหญ่ซึ่งซ่อนขั้นตอนการกรองที่มีประโยชน์ มีใครตระหนักถึงการทำงานในเชิงลึกมากขึ้นในพื้นที่นี้หรือไม่? อัปเดต: คำถามนี้ดูเหมือนกับพื้นผิว แต่: ซีรี่ส์เวลาทางการเงินคือ (อย่างน้อยก็ที่ระดับเห็บ) ที่ไม่ใช่งวด เอฟเฟ็กต์เปิดเป็นปัญหาใหญ่เพราะคุณไม่สามารถใช้ข้อมูลของวันสุดท้ายเป็นการเริ่มต้นแม้ว่าคุณจะชอบจริงๆ (เพราะไม่เช่นนั้นคุณก็ไม่มีอะไร) เหตุการณ์ภายนอกอาจทำให้การเปิดตัวของวันใหม่แตกต่างกันอย่างมากทั้งในระดับที่แน่นอนและความผันผวนจากวันก่อนหน้า ความถี่ที่ผิดปกติอย่างมากของข้อมูลที่เข้ามา ใกล้เปิดและปิดของวันจำนวนดาต้าพอยน์ / วินาทีสามารถสูงกว่าค่าเฉลี่ย 10 ครั้งในระหว่างวัน คำถามอื่น ๆ ที่เกี่ยวข้องกับข้อมูลตัวอย่างเป็นประจำ "ค่าผิดปกติ" ในข้อมูลทางการเงินแสดงรูปแบบเฉพาะบางอย่างที่สามารถตรวจพบได้ด้วยเทคนิคเฉพาะที่ไม่สามารถใช้ได้ในโดเมนอื่นและฉันกำลังมองหาเทคนิคเฉพาะเหล่านั้น ในกรณีที่รุนแรงมากขึ้น (เช่นเกิดความผิดพลาดของแฟลช) ค่าผิดปกติอาจมีจำนวนมากกว่า 75% …

16 time-series outliers

5

มันเป็นการโกงที่จะปล่อยค่าผิดปกติตาม boxplot ของ Mean Absolute Error เพื่อปรับปรุงตัวแบบการถดถอยหรือไม่

ฉันมีแบบจำลองการทำนายทดสอบด้วยวิธีการสี่วิธีดังที่คุณเห็นในรูปแบบกล่องด้านล่าง แอตทริบิวต์ที่ตัวแบบทำนายนั้นอยู่ในช่วง 0-8 คุณอาจสังเกตเห็นว่ามีค่าผิดปกติที่มีขอบบนหนึ่งค่าและค่าผิดปกติที่ต่ำกว่าสามค่าที่ระบุโดยวิธีการทั้งหมด ฉันสงสัยว่าเหมาะสมที่จะลบอินสแตนซ์เหล่านี้ออกจากข้อมูลหรือไม่ หรือนี่เป็นการโกงเพื่อปรับปรุงตัวแบบการทำนาย?

15 regression machine-learning multiple-regression predictive-models outliers

2

ความหมายที่แม่นยำและการเปรียบเทียบระหว่างจุดที่มีอิทธิพลจุดยกระดับสูงและค่าผิดปกติ?

จากวิกิพีเดีย การสังเกตที่มีอิทธิพลคือการสังเกตที่มีผลกระทบค่อนข้างมากต่อการทำนายของตัวแบบการถดถอย จากวิกิพีเดีย คะแนนการใช้ประโยชน์คือการสังเกตเหล่านั้นถ้าทำที่ค่าสุดขีดหรือค่าที่อยู่ภายนอกของตัวแปรอิสระเช่นการขาดการสังเกตที่อยู่ใกล้เคียงหมายความว่าแบบจำลองการถดถอยที่เหมาะสมจะผ่านเข้าใกล้การสังเกตนั้น ทำไมการเปรียบเทียบดังต่อไปนี้จาก Wikipedia แม้ว่าจะเป็นจุดที่มีอิทธิพลโดยทั่วไปแล้วจะมีการยกระดับสูงซึ่งเป็นจุดที่ยกระดับสูงไม่จำเป็นต้องเป็นจุดที่มีอิทธิพล

15 regression outliers leverage

2

การประมาณค่าพารามิเตอร์ของการแจกแจงแบบปกติ: ค่ามัธยฐานแทนค่าเฉลี่ย?

วิธีการทั่วไปในการประมาณค่าพารามิเตอร์ของการแจกแจงแบบปกติคือการใช้ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐาน / ความแปรปรวนตัวอย่าง อย่างไรก็ตามหากมีค่าผิดปกติค่ามัธยฐานและค่าเบี่ยงเบนเฉลี่ยจากค่ามัธยฐานควรจะแข็งแกร่งกว่านี้ใช่ไหม ในชุดข้อมูลบางชุดที่ฉันพยายามการแจกแจงแบบปกติประมาณโดยดูเหมือนจะทำให้เกิดอะไรมากมาย ดีกว่าแบบคลาสสิกโดยใช้ค่าเฉลี่ยและส่วนเบี่ยงเบน RMSN ( μ , σ )N(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|)N(μ^,σ^)N(μ^,σ^)\mathcal{N}(\hat\mu, \hat\sigma) มีเหตุผลใดที่จะไม่ใช้ค่ามัธยฐานถ้าคุณคิดว่ามีค่าผิดปกติบางอย่างในชุดข้อมูลหรือไม่? คุณรู้การอ้างอิงบางส่วนสำหรับวิธีการนี้หรือไม่? การค้นหาอย่างรวดเร็วบน Google ไม่พบผลลัพธ์ที่มีประโยชน์ที่พูดถึงประโยชน์ของการใช้สื่อตรงกลางที่นี่ (แต่เห็นได้ชัดว่า "มัธยฐานการประมาณค่าพารามิเตอร์การกระจายทั่วไป" ไม่ใช่คำค้นหาที่เจาะจงมาก) ค่าเบี่ยงเบนเฉลี่ย, มันมีอคติหรือไม่? ฉันควรคูณมันด้วยเพื่อลดอคติหรือไม่n−1nn−1n\frac{n-1}{n} คุณรู้วิธีการประมาณค่าพารามิเตอร์ที่มีประสิทธิภาพที่ใกล้เคียงกันสำหรับการแจกแจงอื่น ๆ เช่นการแจกแจงแกมม่าหรือการแจกแจงแบบเกาส์แบบเอ็กซ์โปเนนเชียล (ซึ่งต้องการความเบ้ในการประมาณค่าพารามิเตอร์และค่าผิดปกติทำให้ยุ่งเหยิง)

15 normal-distribution estimation outliers robust unbiased-estimator

3

หลักสูตรความผิดพลาดในการประมาณค่าเฉลี่ยที่มีประสิทธิภาพ

ฉันมีการประมาณ (ประมาณ 1,000 รายการ) และพวกเขาทั้งหมดควรจะประมาณความยืดหยุ่นในระยะยาว น้อยกว่าครึ่งหนึ่งของจำนวนนี้ประมาณโดยใช้วิธี A และที่เหลือใช้วิธี B บางแห่งที่ฉันอ่านบางสิ่งบางอย่างเช่น "ฉันคิดว่าวิธี B ประมาณการบางสิ่งที่แตกต่างจากวิธี A มากขึ้นเนื่องจากการประมาณการสูงกว่ามาก (50-60%) " ความรู้เกี่ยวกับสถิติที่แข็งแกร่งของฉันนั้นอยู่ถัดจากอะไรเลยดังนั้นฉันจึงคำนวณค่าเฉลี่ยตัวอย่างและค่ามัธยฐานของตัวอย่างทั้งสอง ... และฉันเห็นความแตกต่างทันที วิธี A มีความเข้มข้นมากความแตกต่างระหว่างค่ามัธยฐานและค่าเฉลี่ยน้อยมาก แต่ตัวอย่างวิธี B แตกต่างกันอย่างมาก ฉันได้ข้อสรุปว่าค่าผิดปกติและการวัดผิดพลาดทำให้ตัวอย่างวิธี B ดังนั้นฉันโยนค่าประมาณ 50 ค่า (ประมาณ 15%) ที่ไม่สอดคล้องกับทฤษฎี ... และทันใดนั้นค่าเฉลี่ยของทั้งสองตัวอย่าง (รวมถึง CI) มีความคล้ายคลึงกันมาก . ความหนาแน่นของแปลงก็เช่นกัน (ในการค้นหาการกำจัดค่าผิดปกติฉันดูช่วงของตัวอย่าง A และลบจุดตัวอย่างทั้งหมดใน B ที่อยู่นอกมัน) ฉันอยากให้คุณบอกฉันว่าฉันสามารถหาข้อมูลเบื้องต้นเกี่ยวกับการประมาณค่าที่แข็งแกร่งของวิธีการที่จะ อนุญาตให้ฉันตัดสินสถานการณ์นี้อย่างจริงจังมากขึ้น และจะมีการอ้างอิงบางอย่าง ฉันไม่ต้องการความเข้าใจอย่างลึกซึ้งในเทคนิคต่าง …

15 mean outliers robust references

3

การทำความเข้าใจกลุ่มความเชื่อมั่นจากการถดถอยพหุนาม

ฉันพยายามเข้าใจผลลัพธ์ที่เห็นในกราฟด้านล่าง โดยปกติแล้วฉันมักจะใช้ Excel และรับเส้นการถดถอยเชิงเส้น แต่ในกรณีด้านล่างฉันใช้ R และฉันได้รับการถดถอยพหุนามด้วยคำสั่ง: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() ดังนั้นคำถามของฉันถึงกับ: พื้นที่สีเทา (ลูกศร # 1) รอบ ๆ เส้นการถดถอยสีน้ำเงินคืออะไร นี่คือค่าเบี่ยงเบนมาตรฐานของการถดถอยพหุนามหรือไม่? ฉันสามารถพูดได้ไหมว่าสิ่งที่อยู่นอกพื้นที่สีเทา (ลูกศร # 2) คือ 'ผิดเพี้ยน' และอะไรก็ตามที่อยู่ในพื้นที่สีเทา (ลูกศร # 3) อยู่ในส่วนเบี่ยงเบนมาตรฐาน?

14 r regression data-visualization outliers

5

มีวิธีง่ายๆในการตรวจจับผู้ผิดหรือไม่

ฉันสงสัยว่ามีวิธีง่ายๆในการตรวจจับค่าผิดปกติหรือไม่ สำหรับหนึ่งในโครงการของฉันซึ่งโดยทั่วไปมีความสัมพันธ์กันระหว่างจำนวนครั้งที่ผู้ตอบแบบสอบถามมีส่วนร่วมในการออกกำลังกายในหนึ่งสัปดาห์และจำนวนครั้งที่พวกเขากินนอกบ้าน (อาหารจานด่วน) ในหนึ่งสัปดาห์ฉันดึง scatterplot และถอด จุดข้อมูลที่รุนแรง (Scatterplot มีความสัมพันธ์เชิงลบ) สิ่งนี้ขึ้นอยู่กับการตัดสินคุณค่า (ขึ้นอยู่กับแผนการกระจายที่จุดข้อมูลเหล่านี้รุนแรงมาก) ฉันไม่ได้ทำการทดสอบทางสถิติใด ๆ ฉันแค่สงสัยว่านี่เป็นวิธีที่ดีในการจัดการกับคนผิด ฉันมีข้อมูลจาก 350 คนดังนั้นการสูญเสีย (พูด) 20 จุดข้อมูลไม่ได้เป็นสิ่งที่ฉันกังวล

14 correlation outliers

1

ปล่อยค่าผิดปกติตาม“ 2.5 เท่า RMSE”

ในKahneman และ Deaton (2010)ผู้แต่งเขียนสิ่งต่อไปนี้:††^\dagger การถดถอยนี้อธิบายถึง 37% ของความแปรปรวนพร้อมกับรูทข้อผิดพลาดกำลังสองเฉลี่ย (RMSE) เท่ากับ 0.67852 ในการกำจัดค่าผิดปกติและรายงานรายได้ที่ไม่น่าเชื่อถือเราได้ลดการสังเกตซึ่งค่าสัมบูรณ์ของความแตกต่างระหว่างรายได้จากบันทึกและการคาดการณ์เกิน 2.5 เท่าของ RMSE นี่คือการปฏิบัติทั่วไปหรือไม่ สัญชาตญาณที่อยู่เบื้องหลังการทำเช่นนั้นคืออะไร? ดูเหมือนจะค่อนข้างแปลกที่จะกำหนดค่าผิดปกติโดยยึดตามแบบจำลองซึ่งอาจไม่ได้ระบุอย่างชัดเจนตั้งแต่แรก การกำหนดค่าผิดปกติไม่ควรอยู่บนพื้นฐานทางทฤษฎีสำหรับสิ่งที่มีค่าที่น่าเชื่อถือมากกว่าแบบจำลองของคุณทำนายค่าจริงได้ดีเพียงใด ††\dagger : Daniel Kahneman, Angus Deaton (2010): รายได้สูงช่วยปรับปรุงการประเมินชีวิต แต่ไม่ใช่ความเป็นอยู่ที่ดีทางอารมณ์ การดำเนินการของ National Academy of Sciences ก.ย. 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107

13 regression outliers

7

ความแตกต่างระหว่าง Anomaly และ Outlier

อะไรคือความแตกต่างระหว่าง Outlier และความผิดปกติในบริบทของการเรียนรู้ของเครื่อง ความเข้าใจของฉันคือทั้งคู่อ้างถึงสิ่งเดียวกัน

13 outliers terminology anomaly-detection

1

LARS เทียบกับโคตรของโคตร

ข้อดีและข้อเสียของการใช้ LARS [1] เมื่อเทียบกับการใช้โคตรของพิกัดสำหรับการถดถอยเชิงเส้นแบบ L1 ที่เหมาะสมคืออะไร ฉันสนใจในเรื่องของประสิทธิภาพเป็นหลัก (ปัญหาของฉันมักจะNอยู่ในหลักแสนและp<20) อย่างไรก็ตามข้อมูลเชิงลึกอื่น ๆ ก็จะได้รับการชื่นชมเช่นกัน แก้ไข: เนื่องจากฉันได้โพสต์คำถาม, chl ได้ชี้ให้เห็นกระดาษ [2] โดย Friedman และคณะที่พิกัดโคตรถูกแสดงว่าเร็วกว่าวิธีอื่นมาก หากเป็นกรณีนี้ฉันควรเป็นผู้ประกอบการเพียงแค่ลืมเกี่ยวกับ LARS ในความโปรดปรานของการสืบเชื้อสายมาประสานงาน? [1] Efron, Bradley; Hastie เทรเวอร์; Johnstone, Iain และ Tibshirani, Robert (2004) "การถดถอยมุมน้อยที่สุด" พงศาวดารของสถิติ 32 (2): pp 407–499 [2] Jerome H. Friedman, Trevor Hastie, Rob Tibshirani, "เส้นทางการทำให้เป็นมาตรฐานสำหรับตัวแบบเชิงเส้นทั่วไปผ่านพิกัดโคตร", วารสารซอฟท์แวร์สถิติ, อัตรา …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

4

แยกประชากรสองกลุ่มออกจากตัวอย่าง

ฉันพยายามแยกค่าสองกลุ่มออกจากชุดข้อมูลเดียว ฉันสามารถสมมติว่าหนึ่งในประชากรมีการกระจายตามปกติและมีขนาดอย่างน้อยครึ่งหนึ่งของตัวอย่าง ค่าของอันที่สองนั้นต่ำกว่าหรือสูงกว่าค่าจากอันแรก (ไม่ทราบการกระจาย) สิ่งที่ฉันพยายามทำคือค้นหาขีด จำกัด บนและล่างที่จะล้อมรอบประชากรที่กระจายตัวตามปกติจากอีกอัน สมมติฐานของฉันให้ฉันด้วยจุดเริ่มต้น: จุดทั้งหมดที่อยู่ในช่วง interquartile ของตัวอย่างนั้นมาจากประชากรที่กระจายตัวตามปกติ ฉันพยายามที่จะทดสอบหาผู้ผิดกฎหมายที่นำพวกเขาออกจากส่วนที่เหลือของกลุ่มตัวอย่างจนกว่าพวกเขาจะไม่เข้ากับ 3 st.dev ของประชากรที่กระจายตัวตามปกติ ซึ่งไม่เหมาะ แต่ดูเหมือนจะให้ผลลัพธ์ที่สมเหตุสมผล การสันนิษฐานของฉันเป็นไปตามสถิติหรือไม่ อะไรจะเป็นวิธีที่ดีกว่าที่จะไปเกี่ยวกับเรื่องนี้? ป.ล. โปรดแก้ไขแท็กใครบางคน

13 dataset outliers expectation-maximization

1

วิธีการบัญชีสำหรับผลกระทบของวันหยุดในการคาดการณ์

ฉันมีซีรีย์เวลารายวันที่สามารถคาดการณ์ได้ค่อนข้างมีฤดูกาลทุกสัปดาห์ ฉันสามารถหาคำทำนายที่ค่อนข้างแม่นยำ (ยืนยันโดยการตรวจสอบข้าม) เมื่อไม่มีวันหยุด อย่างไรก็ตามเมื่อมีวันหยุดฉันมีปัญหาดังต่อไปนี้: ฉันได้รับตัวเลขที่ไม่เป็นศูนย์สำหรับวันหยุดในการคาดการณ์ของฉันแม้ว่าวันหยุดประวัติศาสตร์ทั้งหมดจะเป็น 0 นี่ไม่ใช่ประเด็นหลักจริงๆ ปัญหาคือ ... เนื่องจากการประมวลผลที่ไม่ได้เกิดขึ้นในวันหยุด "หกล้นเกิน" ไปจนถึงวันถัดจากวันหยุดตัวแปรดัมมี่ที่เรียบง่ายไม่ได้ตัดมันเนื่องจากค่าผิดปกติเหล่านี้ดูเหมือนจะเป็นนวัตกรรมระยะสั้น หากไม่มีฤดูกาลประจำสัปดาห์ฉันอาจจะเกิดขึ้นกับการประมาณการสำหรับการกระจายข้อมูลที่ไม่ได้ประมวลผลในวันหยุดในช่วงห้าวันหรือมากกว่านั้นหลังจากวันหยุด (ดังที่แนะนำในวิธีทำคุณสร้างตัวแปรที่สะท้อนถึงโอกาสในการขาย ผลกระทบของปฏิทินในการวิเคราะห์อนุกรมเวลา? ) อย่างไรก็ตามการกระจายของ "การรั่วไหล" ขึ้นอยู่กับวันของสัปดาห์ที่เกิดขึ้นและไม่ว่าวันหยุดจะเป็นวันคริสต์มาสหรือวันขอบคุณพระเจ้าซึ่งคำสั่งซื้อจะถูกวางในอัตราที่ต่ำกว่าช่วงที่เหลือของปี ต่อไปนี้เป็นภาพรวมบางส่วนจากการตรวจสอบความถูกต้องไขว้ของฉันซึ่งแสดงผลลัพธ์ (สีน้ำเงิน) ที่คาดการณ์ไว้กับผลลัพธ์ที่แท้จริง (สีแดง) สำหรับวันหยุดที่ปรากฏในวันที่แตกต่างกันของสัปดาห์: ฉันยังกังวลว่าผลกระทบของคริสต์มาสจะขึ้นอยู่กับวันในสัปดาห์และฉันมีข้อมูลประวัติศาสตร์เพียงหกปีหรือมากกว่านั้น ไม่มีใครมีข้อเสนอแนะใด ๆ เกี่ยวกับวิธีจัดการกับค่าผิดปกติเชิงนวัตกรรมประเภทนี้ในบริบทของการพยากรณ์หรือไม่? (น่าเสียดายที่ฉันไม่สามารถแชร์ข้อมูลใด ๆ ได้)

12 time-series forecasting arima outliers

คำถามติดแท็ก outliers