การล้างข้อมูลสามารถทำให้ผลการวิเคราะห์เชิงสถิติแย่ลงได้หรือไม่?


17

การเพิ่มจำนวนผู้ป่วยและการเสียชีวิตเกิดขึ้นในช่วงที่มีการระบาดของโรค (เพิ่มจำนวนขึ้นอย่างกะทันหัน) เนื่องจากการไหลเวียนของไวรัส (เช่น West Nile Virus ในสหรัฐอเมริกาในปี 2545) หรือลดความต้านทานของผู้คนหรือการปนเปื้อนของอาหารหรือน้ำ ยุง โรคระบาดเหล่านี้จะปรากฏเป็นค่าผิดปกติซึ่งสามารถเกิดขึ้นได้ทุก 1 ถึง 5 ปี การลบค่าผิดปกติเหล่านี้ทำให้เราลบหลักฐานการระบาดซึ่งเป็นส่วนสำคัญในการพยากรณ์และการทำความเข้าใจเกี่ยวกับโรค

การทำความสะอาดข้อมูลจำเป็นหรือไม่เมื่อต้องรับมือกับผู้ผิดที่เกิดจากโรคระบาด?

มันจะปรับปรุงผลลัพธ์หรือทำให้แย่ลงจากการวิเคราะห์ทางสถิติ?

คำตอบ:


12

มันขึ้นอยู่กับวัตถุประสงค์ของการวิจัยของคุณ ในความคิดของฉันอาจมีหลาย:

  1. คุณต้องการที่จะเข้าใจว่าอะไรคือปัจจัยทั่วไปที่ทำให้ผู้ป่วยและผู้เสียชีวิตและไม่ได้รับผลกระทบจากช่วงเวลาการแพร่ระบาดและปัจจัยที่ทำให้เกิดโรคระบาด ช่วงเวลาจากข้อมูลเนื่องจากวัตถุประสงค์ของการวิจัยค่าผิดปกติไปจนถึงสิ่งที่คุณต้องการสรุป
  2. คุณอาจต้องการที่จะรวมการเปลี่ยนแปลงการแพร่ระบาดลงในแบบจำลองของคุณ (ตัวอย่างเช่นแบบจำลองการสลับระบอบการปกครอง, การเชื่อมโยงที่ดีและคำแนะนำแบบจำลองจากชุมชนยินดีต้อนรับที่นี่) เพราะคุณต้องการทราบความน่าจะเป็นของระยะเวลาการระบาด มันจะมีอายุการใช้งาน) เพื่อทดสอบความเสถียรและการคาดการณ์ - ในกรณีนี้คุณไม่ได้ยกเว้นระยะเวลาการแพร่ระบาด แต่ค้นหาแบบจำลองที่ซับซ้อนมากกว่าที่จะไปหาค้อน - เครื่องมือทางเศรษฐมิติหรืออะไรทำนองนั้นOLS
  3. เป้าหมายหลักของคุณคือการตรวจหาช่วงเวลาการแพร่ระบาดและติดตามพวกเขาแบบเรียลไทม์ - มันเป็นสาขาวิชาเศรษฐศาสตร์พิเศษที่เพื่อนร่วมงานของฉันจำนวนหนึ่งทำงานร่วมกับที่มหาวิทยาลัยวิลนีอุส (แน่นอนคุณต้องการให้มีการสังเกตโรคระบาดจำนวนมาก )

ดังนั้นหากเป้าหมายหลักของคุณคืออะไรเช่น 2 การล้างข้อมูลจะทำให้ข้อสรุปที่ไม่ถูกต้องเกี่ยวกับการคาดการณ์ในอนาคตเช่นประสิทธิภาพการพยากรณ์ที่ไม่ถูกต้อง เป็นความจริงที่ว่ากรณีที่ 2 ไม่จำเป็นต้องให้การคาดการณ์ที่ดีขึ้น แต่อย่างน้อยคุณก็สามารถสรุปเกี่ยวกับความน่าจะเป็นของการแพร่ระบาดของโรคและระยะเวลาของพวกเขา นี่เป็นสิ่งสำคัญอย่างยิ่งสำหรับนักคณิตศาสตร์ประกันภัยดังนั้นคุณอาจเป็นคนหนึ่งหรือไม่


คำตอบที่ยอดเยี่ยมและเรียบง่าย คุณมีความรู้ที่รู้คุณค่าตั้งแต่อายุยังน้อย
DrWho

15

โดยส่วนตัวฉันจะไม่เรียกสิ่งนี้ว่า "data cleaning" ฉันคิดว่าการล้างข้อมูลในแง่ของการแก้ไขข้อมูลมากขึ้น - การล้างข้อมูลที่ไม่สอดคล้องกันในชุดข้อมูล (เช่นบันทึกที่รายงานอายุ 1,000 หรือบุคคลอายุ 4 เป็นผู้ปกครองเดี่ยว ฯลฯ )

การปรากฏตัวของผลกระทบที่แท้จริงในข้อมูลของคุณไม่ได้ทำให้ "ยุ่งเหยิง" (ตรงกันข้ามการปรากฏตัวของผลกระทบที่แท้จริงจะทำให้รวย) - แม้ว่ามันจะทำให้งานทางคณิตศาสตร์ของคุณเกี่ยวข้องมากขึ้น ฉันขอแนะนำว่าข้อมูลจะ "ทำความสะอาด" ด้วยวิธีนี้หากเป็นวิธีเดียวที่เป็นไปได้ที่จะได้รับการทำนาย หากมีวิธีที่เป็นไปได้ที่ไม่ทิ้งข้อมูลให้ใช้วิธีนั้น

ดูเหมือนว่าคุณอาจได้รับประโยชน์จากการวิเคราะห์วัฏจักรบางประเภทเนื่องจากคุณบอกว่าผลกระทบนี้เกิดขึ้นเป็นระยะ ๆ (เช่น "วงจรธุรกิจ")

จากมุมมองของฉันหากคุณกำลังมองหาการคาดการณ์บางอย่างการลบเอฟเฟกต์ของแท้ออกจากแหล่งนั้นจะทำให้การคาดการณ์ของคุณแย่ลงเท่านั้น นี่เป็นเพราะคุณได้ "ทิ้ง" ข้อมูลที่คุณต้องการคาดเดาได้อย่างมีประสิทธิภาพ!

อีกจุดหนึ่งก็คือว่ามันอาจเป็นเรื่องยากที่จะกำหนดจำนวนชุดของความตายที่เกิดจากการแพร่ระบาดของโรคและเท่าไหร่ที่เกิดจากความผันผวนตามปกติ

ในคำศัพท์ทางสถิติการระบาดของโรคดูเหมือนว่าจากมุมมองของคุณมันเป็น "ความรำคาญ" ถึงสิ่งที่คุณต้องการวิเคราะห์ ดังนั้นคุณไม่ได้สนใจเป็นพิเศษ แต่คุณต้องคำนึงถึงมันในการวิเคราะห์ของคุณ วิธีหนึ่ง "ที่รวดเร็วและสกปรก" ในการทำเช่นนี้ในการตั้งค่าการถดถอยคือการรวมตัวบ่งชี้สำหรับปี / รอบระยะเวลาการแพร่ระบาดของโรคเป็นตัวแปร regressor สิ่งนี้จะทำให้คุณประเมินผลกระทบของการระบาดโดยเฉลี่ย (และโดยปริยายถือว่าผลกระทบนั้นเหมือนกันสำหรับการแพร่ระบาดแต่ละครั้ง) อย่างไรก็ตามวิธีนี้ใช้สำหรับอธิบายผลกระทบเท่านั้นเนื่องจากในการคาดการณ์ตัวแปรการถดถอยของคุณไม่เป็นที่รู้จัก (คุณไม่ทราบว่าช่วงเวลาใดในอนาคตที่จะแพร่ระบาด)

อีกวิธีในการอธิบายการแพร่ระบาดคือการใช้ตัวแบบผสมกับส่วนประกอบสองแบบ: แบบจำลองส่วนหนึ่งสำหรับการแพร่ระบาดและอีกแบบหนึ่งสำหรับส่วน "ธรรมดา" แบบจำลองนั้นดำเนินการในสองขั้นตอน: 1) จำแนกระยะเวลาเป็นโรคระบาดหรือปกติจากนั้น 2) ใช้แบบจำลองที่จำแนก


(+1) คำแนะนำที่ดีแม้ว่าอาจเป็นไปได้ที่เทคนิคสกปรกมาก
Dmitrij Celov

+1; สำหรับลูกหลานฉันต้องการแสดงความคิดเห็นต่อไปนี้: คุณระบุว่า "การลบเอฟเฟกต์ของแท้ ... สามารถทำให้การคาดการณ์ของคุณแย่ลง" ในบริบทคุณมีความชัดเจนอย่างไรก็ตามในกรณีทั่วไปสิ่งนี้ไม่จำเป็นต้องเป็นจริง (ฉันกำลังคิดถึง 'อคติความแปรปรวนทางการค้า' ซึ่งเป็นเรื่องใหญ่ในการสร้างแบบจำลองการทำนาย) อีกครั้งฉันคิดว่าคุณอยู่ที่นี่และฉันรู้ว่าคุณรู้เกี่ยวกับการแลกเปลี่ยนความแปรปรวนอคติ; ฉันต้องการพูดถึงมันสำหรับทุกคนที่เจอคำตอบนี้ในอนาคตและอาจตีความคำสั่งนั้นผิด
gung - Reinstate Monica

5

เพื่อให้คุณได้คำตอบสำหรับคำถามของคุณโดยทั่วไปฉันขอเสนอผู้จัดการทั่วไปคนหนึ่งของฉัน: โอกาสในการทำวิจัยในรูปแบบที่คุณเหมาะสม

สถานการณ์คล้ายกับการทดลองที่ทำโดย Robert Millikan ของฉันในการกำหนดหน้าที่ของอิเล็กตรอน ทศวรรษหลังจากชนะรางวัลโนเบลสำหรับการทดลองของเขาบันทึกของเขาถูกตรวจสอบและพบว่าเขาโยนจุดข้อมูลจำนวนมากออกมาเพราะพวกเขาไม่เห็นด้วยกับผลลัพธ์ที่เขามองหา นั่นเป็นวิทยาศาสตร์ที่ไม่ดีเหรอ?

หากคุณพบว่ามีค่าผิดปกติบางอย่างอาจเป็นเพราะ "ความผิดทางสถิติ" อย่างไรก็ตามหากคุณพบผู้ผิดมากกว่าสองสามรายคุณต้องสำรวจข้อมูลของคุณให้ละเอียดยิ่งขึ้น หากคุณไม่สามารถระบุสาเหตุของการแอบอ้างได้คุณไม่เข้าใจกระบวนการและตัวแบบสถิติจะไม่สามารถแก้ปัญหาของคุณได้ จุดประสงค์ของแบบจำลองคือการสรุปกระบวนการแบบจำลองจะไม่สรุปกระบวนการที่ผู้ทดลองไม่เข้าใจอย่างน่าอัศจรรย์


มันเป็นแนวโน้มของมนุษย์ Robert Millikan ก็ไม่มีข้อยกเว้น ฉันมีความสุขมากที่มีสิ่งใหม่ ๆ เกิดขึ้นมากมายและปรัชญาที่อยู่เบื้องหลังแบบจำลองทางสถิติได้ถูกเน้น
DrWho

5

บทบาทของ "การล้างข้อมูล" คือการระบุเมื่อ "กฎหมายของเรา (รุ่น) ไม่ทำงาน" การปรับค่า Outliers หรือจุดข้อมูลที่ผิดปกตินั้นมีไว้เพื่อให้เราได้รับ "การประมาณการที่มีประสิทธิภาพ" ของพารามิเตอร์ในรุ่นปัจจุบันที่เราให้ความบันเทิง "ค่าผิดปกติ" เหล่านี้หากไม่ได้รับการรักษาจะทำให้เกิดการบิดเบือนที่ไม่พึงประสงค์ในพารามิเตอร์ของแบบจำลองเนื่องจากการประเมินนั้นเป็น "การขับเคลื่อนเพื่ออธิบายจุดข้อมูลเหล่านี้" ซึ่งเป็น "ไม่ทำงานตามแบบจำลองที่เราตั้งสมมติฐานไว้" กล่าวอีกนัยหนึ่งมีการคืนทุนจำนวนมากในแง่ของผลรวมของ Squares ที่อธิบายโดยเน้นที่ "baddies" จุดที่ระบุชัดเจนซึ่งต้องมีการทำความสะอาดควรพิจารณาอย่างรอบคอบเพื่อพัฒนา / แนะนำปัจจัยที่เป็นสาเหตุซึ่งไม่ได้อยู่ในรูปแบบปัจจุบัน

จะประเมินผลของการแทรกแซงในรัฐหนึ่งกับอีกรัฐหนึ่งได้อย่างไรโดยใช้อัตราการเสียชีวิตรายปี

การทำวิทยาศาสตร์คือการค้นหารูปแบบซ้ำ ๆ

ในการตรวจสอบความผิดปกติคือการระบุค่าที่ไม่เป็นไปตามรูปแบบซ้ำ ๆ คุณจะรู้ได้อย่างไรอีกว่ามีบางจุดที่ละเมิดโมเดลนั้น? ในความเป็นจริงกระบวนการของการเติบโตทำความเข้าใจค้นหาและตรวจสอบค่าผิดปกติจะต้องทำซ้ำ นี่ไม่ใช่ความคิดใหม่

Sir Frances Bacon เขียนใน Novum Organum เมื่อประมาณ 400 ปีที่แล้วกล่าวว่า“ ข้อผิดพลาดของธรรมชาติกีฬาและสัตว์ประหลาดแก้ไขความเข้าใจในเรื่องสามัญและเปิดเผยรูปแบบทั่วไป สำหรับใครก็ตามที่รู้วิธีของธรรมชาติจะสังเกตเห็นความเบี่ยงเบนของเธอได้ง่ายขึ้น และในทางกลับกันใครก็ตามที่รู้ว่ากิจกรรมของเธอจะอธิบายวิถีชีวิตของเธอได้อย่างแม่นยำมากขึ้น”

เราเปลี่ยนกฎของเราโดยการสังเกตเมื่อกฎปัจจุบันล้มเหลว

หากค่าผิดปกติที่ระบุนั้นเป็นพัลส์ทั้งหมดและมีเอฟเฟกต์ที่คล้ายกัน (ขนาด) เราขอแนะนำสิ่งต่อไปนี้ (อ้างอิงจากโปสเตอร์อื่น)

"หนึ่ง" อย่างรวดเร็วและสกปรก "วิธีการทำเช่นนี้ในการตั้งค่าการถดถอยคือการรวมตัวบ่งชี้สำหรับปี / รอบระยะเวลาการแพร่ระบาดเป็นตัวแปร regressor ซึ่งจะทำให้คุณประมาณค่าเฉลี่ยของผลกระทบของโรคระบาด เหมือนกันสำหรับแต่ละโรคระบาด) อย่างไรก็ตามวิธีนี้ใช้ได้กับการอธิบายผลกระทบเท่านั้นเนื่องจากในการคาดการณ์ตัวแปรการถดถอยของคุณไม่เป็นที่รู้จัก (คุณไม่รู้ว่าช่วงเวลาใดในอนาคตจะเป็นโรคระบาด) "

ถ้าหลักสูตรนี้ต้องการให้ความผิดปกติของแต่ละบุคคล (ปีชีพจร) มีผลกระทบที่คล้ายกัน หากพวกเขาแตกต่างจากนั้นตัวแปรกระเป๋าหิ้วที่อธิบายข้างต้นจะไม่ถูกต้อง


@IrishStat: คำอธิบายที่ดีและคำพูดที่น่าจดจำ คุณรักษาระดับอาวุโสและความเชี่ยวชาญของคุณ คุณช่วยขยายแถลงการณ์ของคุณ "ความรู้ที่รอการค้นพบ" โดยอ้างอิงจากคำถามของฉันก่อนหน้านี้stats.stackexchange.com/questions/8358/…
DrWho

1
@DrWHO: การระบุระดับ SHIFT ที่ 2014 ซึ่งแก้ไขพล็อตที่ดูแย่มากเป็นตัวอย่างของ "ความรู้ที่รอการค้นพบ" เนื่องจากมันเปิดเผยความล่าช้าที่ชัดเจนระหว่างวันที่เปลี่ยนนโยบายและเป็นวันที่ดำเนินการ / รับรู้เต็ม คำแถลงว่าการเปลี่ยนแปลงระดับ (ขั้นตอน) แบบถาวรได้รับการตระหนักอย่างเต็มที่ในปี 2004 (ปีที่ 11 จาก 17) สะท้อนถึงวันที่ในความเป็นจริงซึ่งเป็นวันที่ทางนิตินัยเมื่อไม่กี่ปีก่อน
IrishStat

@IrishStat: ขอบคุณสำหรับการชี้แจง มันยากมากที่จะโน้มน้าวผู้กำหนดนโยบายแพทย์และสาธารณะว่าการรักษาแบบพิเศษอาจมีการเปลี่ยนแปลงอย่างรุนแรงต่อผลลัพธ์ของโรค มันใช้เวลาหลายสิบปี การเลื่อนระดับในปี 2547 สะท้อนให้เห็นถึงความล่าช้าในการยอมรับสิ่งใหม่ จะดีกว่าหรือไม่ที่จะออกจากการเลื่อนระดับหรือถือว่าเป็นค่าที่เหนือกว่าสำหรับการคำนวณอัตราการเสียชีวิตของผู้ป่วยรายที่ 1 ในขณะที่จัดการกับสถิติ
DrWho

1
ความคิดเห็นของฉันด้านบนควรเป็นระดับ SHIFT ในปี 2004 ขออภัยเกี่ยวกับความสับสน
IrishStat

1
@DWWHO: เพื่อตอบคำถามของคุณ "ดีกว่าหรือไม่ที่จะปล่อยระดับการเลื่อนระดับหรือถือเป็นค่าเริ่มต้นสำหรับการคำนวณอัตราการเสียชีวิตของผู้ป่วยรายที่ 1 ในขณะที่จัดการกับคำถาม" หากคุณไม่ปฏิบัติต่อสิ่งนี้คุณสามารถพูดได้ว่า STATE1 มีการเปลี่ยนระดับการเปลี่ยนในปี 2004 ในขณะที่ STATE2 ไม่ได้ทำให้แตกต่างกัน แต่ก็ไม่สามารถวางความน่าจะเป็นในข้อความนั้นได้ หลังจากรักษา STATE1 สำหรับ Level Shift หนึ่งได้ทำให้ข้อมูลเปลี่ยนสถานะเป็นปกติที่ 2004 ข้อมูลปกติ (ข้อมูลที่ถูกล้าง) สามารถนำมาเปรียบเทียบกับข้อมูลปกติของ STATE2 โดยไม่สูญเสียข้อมูลทั่วไป
IrishStat

5

หนึ่งในวิธีที่ใช้กันมากที่สุดในการค้นหาโรคระบาดในข้อมูลย้อนหลัง คือการมองหาผู้ผิดกฎหมาย - นักวิจัยไข้หวัดหลายคนเช่นโดยเฉพาะอย่างยิ่งการมุ่งเน้นไปที่การตกค้างของแบบจำลองที่ติดตั้งไว้ ในวันที่ออก "การคาดการณ์ของแบบจำลองล้มเหลว - หนึ่งในวิธีที่แบบจำลองสามารถล้มเหลวคือการปรากฏตัวของโรคระบาด

อย่างไรก็ตามมีความจำเป็นที่คุณต้องแยกแยะความแตกต่างระหว่างการไล่ล่าค่าผิดปกติในผลลัพธ์ของคุณ - อาจไม่ใช่ความคิดที่ยิ่งใหญ่ที่สุด - และสิ่งที่คนส่วนใหญ่เรียกว่า "การล้างข้อมูล" ที่นี่คุณกำลังมองหาค่าผิดปกติไม่ใช่เพราะพวกเขาแสดงถึงปัญหาทางสถิติ แต่เป็นเพราะพวกเขายกระดับปัญหาคุณภาพข้อมูล

ตัวอย่างเช่นในชุดข้อมูลที่ฉันมีมีตัวแปรสำหรับการโจมตีของโรค สำหรับหนึ่งวิชาวันที่นี้คือเดือนพฤศจิกายนปี 1929 ฉันคิดว่านี่ถูกต้องหรือไม่? ไม่นี่เป็นการระบุปัญหาคุณภาพของข้อมูลที่ต้องได้รับการแก้ไขในกรณีนี้การแก้ไขวันที่จะขึ้นอยู่กับข้อมูลอื่น ๆ เกี่ยวกับเรื่อง การล้างข้อมูลประเภทนี้จะปรับปรุงคุณภาพของผลลัพธ์ทางสถิติของคุณอย่างแข็งขัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.