การลบค่าผิดปกติจากข้อมูล - จำนวนค่าผิดพลาดสูงสุดที่คุณสามารถลบได้หรือไม่


9

ฉันมีข้อมูลผิดปกติอยู่สองสามตัวและฉันต้องการแยกพวกเขาออกเพื่อดูว่าการเปลี่ยนแปลงนี้มีผลหรือไม่ ในความเห็นของคุณจำนวนสูงสุดของค่าผิดปกติที่หนึ่งควร จำกัด ตัวเองคืออะไร?

ขอบคุณ! ป้อนคำอธิบายรูปภาพที่นี่


กราฟของคุณมีหลายภาษาที่นี่: ป้ายกำกับตัวเลขบนแกน y หายไปและรายการคำอธิบายแผนภูมิไม่แตกต่างกัน (นั่นอาจเป็นวิธีการซ่อนข้อมูลที่ไม่ได้เผยแพร่ แต่มันก็ไม่ได้ช่วยให้เราให้คำแนะนำที่ดีแก่คุณได้) ตำนาน cryptic ไม่ส่งผลกระทบต่อคำถามของคุณ แต่ไม่รู้ว่าคุณกำลังทำงานในขอบเขตที่ จำกัด . ข้อมูลดังแสดงในภาพปานกลางซ้ายหรือลบเอียง นี่อาจเป็นเหตุผลและค่าผิดปกติที่เห็นได้ชัดก็เป็นผลมาจากสิ่งนั้น หรืออาจเป็นได้ว่าคุณมีการเปลี่ยนแปลงมากเกินไปเช่นใช้ลอการิทึมที่ข้อมูลไม่ได้ทำสิ่งนั้น
Nick Cox

คำตอบ:


9

ไม่มีสูงสุดหรือต่ำสุด ควรลบค่าผิดปกติหากเป็นข้อมูลที่ไม่ดีหรือมีเหตุผลสำคัญอื่น ๆ ในการลบออก หากไม่มีเหตุผลที่สำคัญฉันแนะนำให้ใช้วิธีที่มีความทนทานต่อค่าผิดปกติ ฉันจะไม่ลบค่าผิดปกติเพียงเพราะอยู่ห่างจากจุดอื่นเล็กน้อย


5
ตกลง หมายเหตุ tha Box, Hunter & Hunter: "Statistics for Experimenters" กล่าวว่าในอุตสาหกรรมเคมีมักมีค่าผิดปกติส่งผลให้เกิดสิทธิบัตรใหม่! ค่าผิดปกติอาจเป็นข้อมูลชิ้นเดียวที่สำคัญที่สุดในข้อมูลของคุณ! การลบออกไม่ควรใช้ง่าย
kjetil b halvorsen

3
นอกจากนี้ในฟิสิกส์ดาราศาสตร์ "ลองลบหลุมดำและดาวนิวตรอนออกจากข้อมูล" :-)
Peter Flom

1
Peter Flom: ใช่! และในหมู่มนุษย์หากไม่มีคนผิดเราก็จะยังคงอยู่ในยุคหิน!
kjetil b halvorsen

5
ในตัวอย่างนี้โปรดทราบว่า 7 ของค่าผิดปกติที่ติดป้ายกำกับทั้งหมดมีค่าต่ำในขณะที่ไม่มีค่าสูง นั่นอาจหมายถึงปัญหาเกี่ยวกับการวัดหรืออาจหมายถึงสิ่งที่น่าสนใจมาก ไม่ว่าจะด้วยวิธีใดเพียงแค่ลบค่าผิดปกติที่นี่โดยไม่พิจารณาว่าอะไรนำไปสู่ค่าต่ำจะไม่เหมาะสม
EdM

1
ฉันตีความคำถามแตกต่างกันเล็กน้อย มันไม่ได้เสนอให้ลบค่าผิดปกติออกจากการวิเคราะห์ซึ่งเป็นสิ่งที่คำตอบนี้ถือว่าโดยปริยาย โดยจะถามวิธีการวิเคราะห์ความอ่อนไหว "เพื่อดูว่าการเปลี่ยนแปลงนี้มีผลหรือไม่" แม้ว่าคำแนะนำที่ให้ไว้ที่นี่เกี่ยวกับการลบค่าผิดปกติเป็นสิ่งที่ดี - และชัดเจนว่าจะมีผลต่อการตัดสินใจในภายหลังหากปรากฏว่าการวิเคราะห์มีความอ่อนไหวต่อค่าผิดปกติ - ดูเหมือนว่าจะไม่ได้รับประโยชน์จาก OP ในกรณีนี้
whuber

1

ฉันจะเน้นสิ่งที่พูดในคำตอบและความคิดเห็นอื่น (ฉันคิดว่าคำตอบของ @Peter Flom นั้นถูกต้องและ EdM นั้นถูกต้องเกี่ยวกับการวัดและอื่น ๆ )

การวิเคราะห์ข้อมูลเป็นสิ่งที่ต้องทำอย่างรอบคอบ คุณจะต้องตระหนักถึงความหมายของค่าผิดปกติในการติดต่อของคุณ ตัวอย่างเช่นสมมติว่าขั้นตอนการวัดของคุณเสร็จสิ้น "ถูกต้อง" (ฉันหมายถึงคุณยังไม่ได้แนะนำอคติอุปกรณ์ที่คุณสอบเทียบบุคคลที่อ่านเครื่องมือทำอย่างถูกต้อง ฯลฯ ฯลฯ ) ค่าผิดปกติบางอย่างอาจบอกสิ่งที่น่าสนใจ และบางครั้งก็สำคัญมาก

นี่คือตัวอย่างที่ทำขึ้นโปรดทำตาม (ชี้ไปที่ความคิดเห็น) ถ้ามันไม่ถูกต้อง 100% ในทุกด้าน ;)

สมมติว่ามีใครบางคนกำลังทดสอบผลกระทบของการใช้สารจำนวนหนึ่งกับวัฒนธรรมบางอย่าง (ประชากร) ของแบคทีเรีย ตอนนี้ "โดยทั่วไป" ผลกระทบคือการทำให้จำนวนแบคทีเรียในประชากรคงที่ แต่มีค่าผิดปกติบางอย่างในวัฒนธรรมที่แตกต่างกัน

ลองนึกภาพคนผิดทั้งหมดของคุณระบุสถานการณ์ที่แบคทีเรียทั้งหมดตาย หรือว่าผู้ผิดทั้งหมดแสดงถึงวัฒนธรรมที่แบคทีเรียมีจำนวนเพิ่มมากขึ้น

สิ่งที่ฉันต้องการชี้ให้เห็นก็คือลักษณะของการผิดปกติที่คุณรับรู้อาจมีความหมายและผลของแต่ละคนแตกต่างกัน คุณอาจตกอยู่ในสถานการณ์ที่ทนไม่ได้เมื่อจำนวนแบคทีเรียเพิ่มขึ้นหรือลดลง

แน่นอนถ้าคุณสังเกตเห็นว่ามีประชากรบางส่วนที่ถูกกำจัดออกจากสารคุณอาจจะตรวจสอบเรื่องนี้เนื่องจากเป็นสถานการณ์ที่จดจำได้ง่าย แต่ไม่ใช่ทุกปรากฏการณ์ที่ตรวจพบได้ง่าย

ในการสรุปความคิดของผู้ผิดกฎเกณฑ์นั้นค่อนข้างที่จะเป็นไปตามอำเภอใจ แต่ความหมายของพวกเขานั้นมีความหลากหลายและมีความสำคัญต่างกัน หวังว่ามันจะทำให้คุณคิดในเรื่อง ... :)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.