บทบาทของ "การล้างข้อมูล" คือการระบุเมื่อ "กฎหมายของเรา (รุ่น) ไม่ทำงาน" การปรับค่า Outliers หรือจุดข้อมูลที่ผิดปกตินั้นมีไว้เพื่อให้เราได้รับ "การประมาณการที่มีประสิทธิภาพ" ของพารามิเตอร์ในรุ่นปัจจุบันที่เราให้ความบันเทิง "ค่าผิดปกติ" เหล่านี้หากไม่ได้รับการรักษาจะทำให้เกิดการบิดเบือนที่ไม่พึงประสงค์ในพารามิเตอร์ของแบบจำลองเนื่องจากการประเมินนั้นเป็น "การขับเคลื่อนเพื่ออธิบายจุดข้อมูลเหล่านี้" ซึ่งเป็น "ไม่ทำงานตามแบบจำลองที่เราตั้งสมมติฐานไว้" กล่าวอีกนัยหนึ่งมีการคืนทุนจำนวนมากในแง่ของผลรวมของ Squares ที่อธิบายโดยเน้นที่ "baddies" จุดที่ระบุชัดเจนซึ่งต้องมีการทำความสะอาดควรพิจารณาอย่างรอบคอบเพื่อพัฒนา / แนะนำปัจจัยที่เป็นสาเหตุซึ่งไม่ได้อยู่ในรูปแบบปัจจุบัน
จะประเมินผลของการแทรกแซงในรัฐหนึ่งกับอีกรัฐหนึ่งได้อย่างไรโดยใช้อัตราการเสียชีวิตรายปี
การทำวิทยาศาสตร์คือการค้นหารูปแบบซ้ำ ๆ
ในการตรวจสอบความผิดปกติคือการระบุค่าที่ไม่เป็นไปตามรูปแบบซ้ำ ๆ คุณจะรู้ได้อย่างไรอีกว่ามีบางจุดที่ละเมิดโมเดลนั้น? ในความเป็นจริงกระบวนการของการเติบโตทำความเข้าใจค้นหาและตรวจสอบค่าผิดปกติจะต้องทำซ้ำ นี่ไม่ใช่ความคิดใหม่
Sir Frances Bacon เขียนใน Novum Organum เมื่อประมาณ 400 ปีที่แล้วกล่าวว่า“ ข้อผิดพลาดของธรรมชาติกีฬาและสัตว์ประหลาดแก้ไขความเข้าใจในเรื่องสามัญและเปิดเผยรูปแบบทั่วไป สำหรับใครก็ตามที่รู้วิธีของธรรมชาติจะสังเกตเห็นความเบี่ยงเบนของเธอได้ง่ายขึ้น และในทางกลับกันใครก็ตามที่รู้ว่ากิจกรรมของเธอจะอธิบายวิถีชีวิตของเธอได้อย่างแม่นยำมากขึ้น”
เราเปลี่ยนกฎของเราโดยการสังเกตเมื่อกฎปัจจุบันล้มเหลว
หากค่าผิดปกติที่ระบุนั้นเป็นพัลส์ทั้งหมดและมีเอฟเฟกต์ที่คล้ายกัน (ขนาด) เราขอแนะนำสิ่งต่อไปนี้ (อ้างอิงจากโปสเตอร์อื่น)
"หนึ่ง" อย่างรวดเร็วและสกปรก "วิธีการทำเช่นนี้ในการตั้งค่าการถดถอยคือการรวมตัวบ่งชี้สำหรับปี / รอบระยะเวลาการแพร่ระบาดเป็นตัวแปร regressor ซึ่งจะทำให้คุณประมาณค่าเฉลี่ยของผลกระทบของโรคระบาด เหมือนกันสำหรับแต่ละโรคระบาด) อย่างไรก็ตามวิธีนี้ใช้ได้กับการอธิบายผลกระทบเท่านั้นเนื่องจากในการคาดการณ์ตัวแปรการถดถอยของคุณไม่เป็นที่รู้จัก (คุณไม่รู้ว่าช่วงเวลาใดในอนาคตจะเป็นโรคระบาด) "
ถ้าหลักสูตรนี้ต้องการให้ความผิดปกติของแต่ละบุคคล (ปีชีพจร) มีผลกระทบที่คล้ายกัน หากพวกเขาแตกต่างจากนั้นตัวแปรกระเป๋าหิ้วที่อธิบายข้างต้นจะไม่ถูกต้อง