อันดับแรกฉันควรระบุว่าฉันได้ค้นหาคำตอบในเว็บไซต์นี้ ฉันไม่พบคำถามที่ตอบคำถามหรือระดับความรู้ของฉันต่ำมากฉันไม่ทราบว่าฉันได้อ่านคำตอบแล้ว
ฉันกำลังศึกษาเพื่อสอบสถิติ AP ฉันต้องเรียนรู้การถดถอยเชิงเส้นและหนึ่งในหัวข้อคือส่วนที่เหลือ ฉันมีสำเนาของข้อมูลเบื้องต้นเกี่ยวกับสถิติและการวิเคราะห์ข้อมูลในหน้า 253
จุดที่ผิดปกติในชุดข้อมูล bivariate คือจุดที่หลุดออกจากจุดอื่น ๆ ส่วนใหญ่ใน scatterplot ในทิศทางหรือทิศทาง
การสังเกตอาจเป็นการสังเกตที่มีอิทธิพลถ้ามันมีค่าที่อยู่ห่างจากข้อมูลที่เหลือ (แยกออกจากส่วนที่เหลือของข้อมูลในทิศทาง ) ในการตรวจสอบว่าการสังเกตนั้นมีอิทธิพลจริงหรือไม่เราประเมินว่าการลบการสังเกตนี้มีผลกระทบอย่างมากต่อมูลค่าของความชันหรือจุดตัดของเส้นที่มีกำลังสองน้อยที่สุดหรือไม่
การสังเกตเป็นค่าผิดปกติหากมีสิ่งตกค้างขนาดใหญ่ การสังเกตการณ์ในระยะไกลอยู่ห่างจากเส้นที่มีกำลังสองน้อยที่สุดไปในทิศทาง
Stattreck.comระบุสี่วิธีในการกำหนดค่าผิดพลาดจากสิ่งตกค้าง:
จุดข้อมูลที่แตกต่างกันอย่างมากจากรูปแบบโดยรวมเรียกว่าค่าผิดปกติ มีสี่วิธีที่จุดข้อมูลอาจถูกพิจารณาว่าผิดปกติ
- มันอาจมีค่า X มากเมื่อเปรียบเทียบกับจุดข้อมูลอื่น
- มันอาจมีค่า Y มากเมื่อเปรียบเทียบกับจุดข้อมูลอื่น
- มันอาจมีค่า X และ Y มาก
- อาจอยู่ห่างจากข้อมูลที่เหลือแม้ไม่มีค่า X หรือ Y มาก
แหล่งที่มาทั้งสองนี้ดูเหมือนจะขัดแย้งกัน ใครสามารถช่วยกำจัดความสับสนของฉัน นอกจากนี้หนึ่งจะกำหนดวิธีการที่รุนแรง สถิติ AP ใช้กฎหากจุดข้อมูลอยู่นอก (Q1-1.5IQR, Q3 + 1.5IQR) ซึ่งเป็นค่าที่ผิดปกติ ฉันไม่รู้ว่าจะใช้มันอย่างไรจากกราฟที่เหลืออยู่