มันเป็นมักจะโกงข้อสังเกตลบในการปรับปรุงรูปแบบการถดถอย คุณควรทิ้งการสังเกตก็ต่อเมื่อคุณคิดว่าแท้จริงแล้วสิ่งเหล่านี้เป็นค่าผิดปกติ
ตัวอย่างเช่นคุณมีอนุกรมเวลาจากจอภาพอัตราการเต้นหัวใจที่เชื่อมต่อกับนาฬิกาอัจฉริยะของคุณ หากคุณดูที่ซีรีส์เป็นเรื่องง่ายที่จะเห็นว่าจะมีการสังเกตที่ผิดพลาดด้วยการอ่านเช่น 300bps สิ่งเหล่านี้ควรถูกลบออก แต่ไม่ใช่เพราะคุณต้องการปรับปรุงแบบจำลอง (สิ่งที่มันหมายถึง) ข้อผิดพลาดในการอ่านซึ่งไม่เกี่ยวข้องกับอัตราการเต้นของหัวใจของคุณ
สิ่งหนึ่งที่ต้องระวังคือความสัมพันธ์ของข้อผิดพลาดกับข้อมูล ในตัวอย่างของฉันอาจเป็นที่ถกเถียงกันอยู่ว่าคุณมีข้อผิดพลาดเมื่อเครื่องวัดอัตราการเต้นของหัวใจถูกแทนที่ในระหว่างการออกกำลังกายเช่นวิ่งหรือกระโดด ซึ่งจะทำให้เกิดข้อผิดพลาดเหล่านี้สัมพันธ์กับอัตราฮาร์ต ในกรณีนี้จะต้องระมัดระวังในการลบค่าผิดพลาดและข้อผิดพลาดเหล่านี้เนื่องจากไม่สุ่ม
ฉันจะให้เป็นตัวอย่างที่สร้างขึ้นจากเมื่อจะไม่ลบค่าผิดปกติ สมมติว่าคุณวัดการเคลื่อนที่ของน้ำหนักในฤดูใบไม้ผลิ หากน้ำหนักมีขนาดเล็กเมื่อเทียบกับความแข็งแรงของน้ำหนักคุณจะสังเกตได้ว่ากฎของ Hookeนั้นทำงานได้ดีมาก: ที่Fคือแรง, k - สัมประสิทธิ์แรงตึงและΔ xคือตำแหน่งของน้ำหนัก .
F=−kΔx,
FkΔx
ตอนนี้ถ้าคุณวางน้ำหนักที่หนักมากหรือแทนที่น้ำหนักมากเกินไปคุณจะเริ่มเห็นการเบี่ยงเบน: ที่การกระจัดที่มีขนาดใหญ่พอการเคลื่อนที่จะดูเหมือนเบี่ยงเบนจากโมเดลเชิงเส้น ดังนั้นคุณอาจถูกล่อลวงให้ลบค่าผิดปกติเพื่อปรับปรุงตัวแบบเชิงเส้น นี่ไม่ใช่ความคิดที่ดีเพราะโมเดลนี้ทำงานได้ไม่ดีนักเนื่องจากกฎของฮุคนั้นถูกต้องโดยประมาณΔx
อัปเดตในกรณีของคุณฉันขอแนะนำให้ดึงจุดข้อมูลเหล่านั้นและมองดูให้ใกล้ยิ่งขึ้น มันอาจจะเป็นความล้มเหลวของเครื่องมือในห้องปฏิบัติการ? รบกวนจากภายนอก? ข้อบกพร่องตัวอย่าง? เป็นต้น
ต่อไปพยายามระบุว่าค่าความแปรปรวนของค่าผิดปกติเหล่านี้อาจสัมพันธ์กับสิ่งที่คุณวัดได้ในตัวอย่างที่ฉันให้หรือไม่ หากมีความสัมพันธ์กันก็ไม่มีวิธีง่าย ๆ ที่จะไปเกี่ยวกับเรื่องนี้ หากไม่มีความสัมพันธ์กันคุณสามารถลบค่าผิดปกติได้