ฉันได้ทำการวิจัยจำนวนมากเกี่ยวกับค่าผิดปกติโดยเฉพาะอย่างยิ่งเมื่อฉันทำงานเกี่ยวกับการตรวจสอบข้อมูลพลังงานที่ Oak Ridge ตั้งแต่ปี 1978 ถึง 1980 มีการทดสอบอย่างเป็นทางการสำหรับค่าผิดปกติแบบไม่แปรสำหรับข้อมูลปกติ (เช่นการทดสอบ Grubbs และการทดสอบอัตราส่วน Dixon) มีการทดสอบสำหรับค่าผิดปกติหลายตัวแปรและอนุกรมเวลา หนังสือของบาร์เน็ตต์และเลวิสเรื่อง "ค่าผิดปกติในข้อมูลทางสถิติ" เป็นคัมภีร์ไบเบิลของค่าผิดปกติและครอบคลุมทุกอย่าง
เมื่อฉันอยู่ที่ Oak Ridge กำลังตรวจสอบข้อมูลเรามีชุดข้อมูลหลายตัวแปรขนาดใหญ่ สำหรับค่าผิดปกติ univariate มีทิศทางสำหรับสุดขั้ว (สูงกว่าค่าเฉลี่ยและต่ำกว่าค่าเฉลี่ย) แต่สำหรับค่าผิดปกติหลายตัวแปรมีหลายทิศทางในการค้นหาค่าผิดปกติ ปรัชญาของเราคือการพิจารณาว่าการใช้ข้อมูลเป็นอย่างไร หากคุณพยายามประเมินพารามิเตอร์บางอย่างเช่นค่าสหสัมพันธ์แบบ bivariate หรือสัมประสิทธิ์การถดถอยคุณต้องการดูทิศทางที่ให้ผลที่ดีที่สุดต่อพารามิเตอร์ที่น่าสนใจ ในเวลานั้นฉันได้อ่านบทความที่ไม่ได้เผยแพร่ของ Mallows เกี่ยวกับฟังก์ชั่นอิทธิพล การใช้ฟังก์ชั่นอิทธิพลในการตรวจสอบค่าผิดปกตินั้นอยู่ในสมุดวิเคราะห์หลายตัวแปรของ Gnanadesikan แน่นอนคุณสามารถพบได้ในบาร์เน็ตต์และลูอิสด้วย
ฟังก์ชันอิทธิพลสำหรับพารามิเตอร์ถูกกำหนดไว้ที่จุดในพื้นที่หลายตัวแปรของการสังเกตการณ์และวัดความแตกต่างระหว่างการประมาณค่าพารามิเตอร์เมื่อจุดข้อมูลรวมอยู่ด้วยเมื่อเปรียบเทียบกับเมื่อมันถูกปล่อยออกมา คุณสามารถทำการประมาณเช่นนี้กับแต่ละจุดตัวอย่าง แต่โดยปกติแล้วคุณสามารถหารูปแบบการทำงานที่ดีสำหรับฟังก์ชันอิทธิพลที่ให้ข้อมูลเชิงลึกและการคำนวณที่เร็วขึ้น
ตัวอย่างเช่นในกระดาษของฉันในวารสารอเมริกันคณิตศาสตร์และวิทยาศาสตร์การจัดการในปี 1982 "ฟังก์ชั่นอิทธิพลและการประยุกต์ใช้ในการตรวจสอบข้อมูล" ฉันแสดงสูตรการวิเคราะห์สำหรับฟังก์ชั่นอิทธิพลสำหรับความสัมพันธ์ bivariate และรูปทรงของอิทธิพลคงที่เป็น hyperbolae ดังนั้นรูปทรงจะแสดงทิศทางในระนาบที่ฟังก์ชั่นอิทธิพลเพิ่มขึ้นเร็วที่สุด
ในบทความของฉันฉันแสดงให้เห็นว่าเราใช้ฟังก์ชั่นอิทธิพลสำหรับความสัมพันธ์แบบ bivariate กับข้อมูล FPC Form 4 ในการสร้างและการใช้พลังงานอย่างไร มีความสัมพันธ์เชิงบวกที่ชัดเจนสูงระหว่างทั้งสองและเราพบว่ามีค่าผิดปกติเล็กน้อยที่มีอิทธิพลอย่างสูงต่อการประมาณค่าความสัมพันธ์ การตรวจสอบเพิ่มเติมแสดงให้เห็นว่าอย่างน้อยหนึ่งในข้อผิดพลาดและเราสามารถแก้ไขได้
แต่ประเด็นสำคัญที่ฉันพูดถึงเสมอเมื่อพูดคุยกับคนนอกคือการปฏิเสธอัตโนมัติผิด ค่าผิดปกติไม่ได้เป็นข้อผิดพลาดเสมอไปและบางครั้งก็ให้ข้อมูลที่สำคัญเกี่ยวกับข้อมูล ข้อมูลที่ถูกต้องไม่ควรถูกลบเพียงเพราะมันไม่สอดคล้องกับทฤษฎีความเป็นจริงของเรา ไม่ว่าจะเป็นเรื่องยากหรือไม่เหตุผลที่ควรตรวจสอบข้อเท็จจริงที่เกิดขึ้น
ฉันควรพูดถึงว่านี่ไม่ใช่ครั้งแรกที่มีการพูดคุยเกี่ยวกับหลายตัวแปรในไซต์นี้ การค้นหาค่าผิดปกติอาจนำไปสู่คำถามหลายข้อที่มีการพิจารณาค่าผิดปกติหลายตัวแปร ฉันรู้ว่าฉันได้อ้างอิงเอกสารของฉันและหนังสือเหล่านี้มาก่อนและได้รับลิงก์ไปยังพวกเขา
นอกจากนี้เมื่อมีการกล่าวถึงการถูกปฏิเสธในวงกว้างพวกเราหลายคนในเว็บไซต์นี้ได้แนะนำต่อโดยเฉพาะอย่างยิ่งถ้ามันถูกสร้างขึ้นจากการทดสอบทางสถิติเพียงอย่างเดียว Peter Huber กล่าวถึงการประเมินที่มีประสิทธิภาพเป็นทางเลือกในการปฏิเสธค่าใช้จ่าย แนวคิดก็คือกระบวนการที่มีประสิทธิภาพจะลดน้ำหนักของผู้ผิดกฎหมายที่ลดผลกระทบต่อการประมาณค่าโดยไม่ต้องใช้ขั้นตอนที่หนักหน่วงในการปฏิเสธพวกเขา
ฟังก์ชั่นอิทธิพลได้รับการพัฒนาขึ้นโดย Frank Hampel ในวิทยานิพนธ์ปริญญาเอกของเขาในช่วงต้นทศวรรษ 1970 (1974 ฉันคิดว่า) ความคิดของเขาคือการใช้ฟังก์ชั่นอิทธิพลเพื่อระบุตัวประมาณที่ไม่ทนทานต่อค่าผิดปกติและเพื่อช่วยพัฒนาตัวประมาณค่า
นี่คือลิงค์ไปยังการสนทนาก่อนหน้าในหัวข้อนี้ที่ฉันกล่าวถึงงานของฉันในการตรวจสอบค่าผิดปกติในอนุกรมเวลาโดยใช้ฟังก์ชั่นอิทธิพล