ตกลงเพื่อลบค่าผิดปกติจากข้อมูลหรือไม่


33

ฉันมองหาวิธีที่จะลบค่าผิดปกติออกจากชุดข้อมูลและฉันพบคำถามนี้

ในความคิดเห็นและคำตอบสำหรับคำถามนี้บางคนกล่าวว่าเป็นการปฏิบัติที่ไม่ดีที่จะลบค่าผิดปกติออกจากข้อมูล

ในชุดข้อมูลของฉันฉันมีค่าผิดปกติหลายอย่างที่น่าจะเกิดจากข้อผิดพลาดในการวัด แม้ว่าบางส่วนจะไม่ฉันก็ไม่มีวิธีตรวจสอบเป็นกรณี ๆ ไปเนื่องจากมีจุดข้อมูลมากเกินไป มีความถูกต้องทางสถิติมากกว่าเพียงแค่ลบค่าผิดปกติหรือไม่ หรือถ้าไม่วิธีแก้ปัญหาอื่นอาจเป็นอย่างไร

หากฉันเพิ่งออกจากจุดเหล่านั้นพวกเขามีอิทธิพลต่อเช่นค่าเฉลี่ยในทางที่ไม่สะท้อนความเป็นจริง (เพราะส่วนใหญ่เป็นข้อผิดพลาดอยู่แล้ว)

แก้ไข: ฉันกำลังทำงานกับข้อมูลสื่อกระแสไฟฟ้าของผิวหนัง ค่าที่สุดขีดส่วนใหญ่เกิดจากสิ่งประดิษฐ์เช่นมีคนดึงสายไฟ

แก้ไข 2: ความสนใจหลักของฉันในการวิเคราะห์ข้อมูลคือการตรวจสอบว่ามีความแตกต่างระหว่างสองกลุ่ม


3
และคุณต้องการทำอะไร สรุปข้อมูล? การวิเคราะห์การทำนาย? การสร้างภาพข้อมูล? พิสูจน์ว่ามี (ไม่) แตกต่างกันอย่างมีนัยสำคัญระหว่างสองกลุ่มหรือไม่ เช่นเดียวกับการล้างข้อมูลทั้งหมดไม่มีคำตอบทั่วไป
Piotr Migdal


5
ฉันเป็นวิศวกรที่ทำงานกับสถิติมากมาย นั่นเป็นข้อจำกัดความรับผิดชอบและคำสารภาพซึ่งหมายความว่าฉันต้องส่งมอบผลิตภัณฑ์ เราได้รับอนุญาตให้ลบคะแนน "ไม่ดี" ที่ระบุอย่างสมบูรณ์เท่านั้น คุณสามารถพิสูจน์ได้ว่ามันมาจากใครบางคนที่ดึงลวด? หากคุณได้รับมาตรการหลายอย่างคุณสามารถผูกและรวมกลุ่มกันได้ จากนั้นคุณสามารถแยกข้อมูลในคลัสเตอร์ (ดึงกับไม่ดึง) และมันไม่เกี่ยวกับค่าผิดปกติอีกต่อไป หากคุณไม่สามารถพิสูจน์สาเหตุที่แท้จริงได้คุณต้อง (ต้อง) เก็บรักษาไว้ มันพูดถึงการแปรปรวนและนั่นเป็นการวิเคราะห์อันยิ่งใหญ่ คุณไม่สามารถกำจัดมันได้ถ้าคุณไม่ชอบมัน
EngrStudent - คืนสถานะโมนิก้า

4
ฉันคิดว่าคุณเริ่มต้นด้วยจุดจบที่ผิด คำถามแรกคือคุณจะระบุตัวผิดได้ตั้งแต่แรกอย่างไร?
user603

5
คุณควรพิจารณาบางอย่างเช่น "เนื่องจากฉันมีการปนเปื้อนจากปัญหาเช่นคนกำลังดึงสายไฟฉันสามารถใช้วิธีการใดที่ไม่ได้รับผลกระทบจากการปนเปื้อนดังกล่าว"
Glen_b -Reinstate Monica

คำตอบ:


26

ฉันไม่แนะนำให้ยกเว้นค่าผิดพลาดใด ๆ ในการวิเคราะห์หลัก (เว้นแต่คุณจะแน่ใจว่าพวกเขาเข้าใจผิด) คุณสามารถทำได้ในการวิเคราะห์ความอ่อนไหวและเปรียบเทียบผลลัพธ์ของการวิเคราะห์ทั้งสอง ในทางวิทยาศาสตร์บ่อยครั้งที่คุณค้นพบสิ่งใหม่ ๆ อย่างแม่นยำเมื่อมุ่งเน้นไปที่ค่าผิดปกติดังกล่าว

หากต้องการอธิบายเพิ่มเติมต่อไปให้นึกถึงการค้นพบเพนนิซิลินในน้ำเชื้อของ Seminal Fleming โดยพิจารณาจากการปนเปื้อนของการทดลองด้วยแม่พิมพ์:

http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1

เมื่อมองถึงอดีตหรือปัจจุบันการตรวจจับนอกขอบเขตมักใช้เพื่อเป็นแนวทางในการสร้างนวัตกรรมในวิทยาศาสตร์ชีวการแพทย์ ดูตัวอย่างบทความต่อไปนี้ (ด้วยรหัส R ที่เหมาะสม):

http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678

ในที่สุดหากคุณมีเหตุผลอันสมควรในการยกเว้นข้อมูลบางอย่างคุณอาจทำได้โดยเฉพาะอย่างยิ่งในการวิเคราะห์ความอ่อนไหวและไม่ใช่ข้อมูลหลัก ตัวอย่างเช่นคุณสามารถยกเว้นค่าทั้งหมดที่ไม่น่าเชื่อถือทางชีวภาพ (เช่นอุณหภูมิ 48 องศาเซลเซียสในผู้ป่วยติดเชื้อ) ในทำนองเดียวกันคุณสามารถยกเว้นการวัดครั้งแรกและครั้งสุดท้ายสำหรับผู้ป่วยที่ได้รับใด ๆ เพื่อลดสิ่งประดิษฐ์การเคลื่อนไหว อย่างไรก็ตามโปรดทราบว่าหากคุณทำโพสต์นี้ (ไม่ได้ขึ้นอยู่กับเกณฑ์ที่กำหนดไว้ล่วงหน้า) ความเสี่ยงนี้จะเกิดจากการนวดข้อมูล


5
เห็นด้วย แต่ฉันพบว่าคำตอบนี้จะสรุปให้ upvote บางทีคุณอาจให้ตัวอย่างที่ทำงานได้หรือแสดงสาเหตุและวิธีการค้นพบสิ่งใหม่เมื่อมุ่งเน้นไปที่ค่าผิดปกติ? สิ่งนี้อาจไม่ชัดเจนตั้งแต่แรกเห็น
ทิม

26

ทางเลือกหนึ่งคือการแยกค่าผิดปกติ แต่ IMHO ที่เป็นสิ่งที่คุณควรทำก็ต่อเมื่อคุณสามารถโต้แย้ง (ด้วยความมั่นใจเกือบ) ว่าทำไมคะแนนดังกล่าวจึงไม่ถูกต้อง (เช่นอุปกรณ์การวัดพังลงวิธีการวัดไม่น่าเชื่อถือด้วยเหตุผลบางประการ ... ) เช่นในการวัดโดเมนความถี่ DC มักจะถูกทิ้งเนื่องจากคำศัพท์ต่าง ๆ มีส่วนทำให้ DC ค่อนข้างบ่อยครั้งไม่เกี่ยวข้องกับปรากฏการณ์ที่คุณพยายามสังเกต

ปัญหาในการลบค่าผิดปกติคือการกำหนดว่าจุดใดเป็นค่าผิดปกติคุณต้องมีแบบจำลองที่ดีว่าอะไรคือหรือไม่ใช่ "ข้อมูลที่ดี" หากคุณไม่แน่ใจเกี่ยวกับแบบจำลอง (ปัจจัยใดที่ควรรวมอยู่ในแบบจำลองที่มีโครงสร้างอะไรคือข้อสันนิษฐานของเสียง ... ) ดังนั้นคุณจะไม่แน่ใจเกี่ยวกับค่าผิดปกติของคุณ ค่าผิดปกติเหล่านั้นอาจเป็นเพียงตัวอย่างที่พยายามบอกคุณว่าแบบจำลองของคุณผิด กล่าวอีกนัยหนึ่ง: การลบค่าผิดปกติจะช่วยเสริมโมเดลของคุณ (ไม่ถูกต้อง!) แทนที่จะให้คุณได้รับข้อมูลเชิงลึกใหม่!

ตัวเลือกอื่นคือการใช้สถิติที่มีประสิทธิภาพ เช่นค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานนั้นอ่อนไหวต่อค่าผิดปกติตัวชี้วัดอื่น ๆ ของ "สถานที่ตั้ง" และ "สเปรด" มีความแข็งแกร่งกว่า เช่นแทนที่จะใช้ค่าเฉลี่ยให้ใช้ค่ามัธยฐาน แทนที่จะเป็นค่าเบี่ยงเบนมาตรฐานให้ใช้ช่วงควอไทล์ แทนที่จะใช้การถดถอยกำลังสองน้อยสุดมาตรฐานคุณสามารถใช้การถดถอยที่มีประสิทธิภาพ วิธีการที่มีประสิทธิภาพทั้งหมดเหล่านี้จะไม่เน้นที่ค่าผิดปกติ แต่อย่างใด แต่โดยทั่วไปแล้วจะไม่ลบข้อมูลค่าผิดปกติทั้งหมดออก (เช่นสิ่งที่ดี)


5
คำตอบที่ดี คนส่วนใหญ่ไม่ทราบว่าไม่ทุกเทคนิคเหมาะสำหรับประเภทของข้อมูลทุก การมุ่งเน้นไปที่ค่าเฉลี่ยของข้อมูลที่ถูกขี่ด้วยค่าผิดปกติเป็นหนึ่งในผลลัพธ์ที่โชคร้าย ยิ่งโทรปลุกมากขึ้นเท่าไรพวกเขาจะได้รับจากคำตอบเช่นนี้ดีสำหรับทุกคน
rumtscho

16

คิดว่าฉันจะเพิ่มเรื่องเตือนเกี่ยวกับการลบค่าผิดปกติ:

จำปัญหาที่เกิดขึ้นกับหลุมในชั้นโอโซนขั้วโลก? มีดาวเทียมดวงหนึ่งที่โคจรรอบขั้วพิเศษเพื่อวัดความเข้มข้นของโอโซน ไม่กี่ปีที่ผ่านมาข้อมูลหลังการประมวลผลจากดาวเทียมรายงานว่าโอโซนมีขั้วอยู่ในระดับปกติแม้ว่าแหล่งอื่นจะแสดงให้เห็นอย่างชัดเจนว่าโอโซนนั้นหายไป ในที่สุดก็มีคนกลับไปตรวจสอบซอฟต์แวร์ดาวเทียม ปรากฎว่ามีคนเขียนรหัสเพื่อตรวจสอบว่าการวัดแบบดิบนั้นอยู่ในช่วงที่คาดหวังเกี่ยวกับระดับประวัติศาสตร์โดยทั่วไปหรือไม่และการสันนิษฐานว่าการวัดใด ๆ นอกช่วงนั้นเป็นเพียง 'เข็ม' (เช่นค่าผิดปกติ) อัตโนมัติ การแก้ไขค่า โชคดีที่พวกเขายังบันทึกการวัดแบบดิบ เมื่อตรวจสอบพวกเขาพวกเขาเห็นว่ามีการรายงานหลุมตลอด


12
มันเป็นการดีที่จะรวมการอ้างอิงถึงเหตุการณ์ : ทำไมพวกเขาไม่ค้นพบปรากฏการณ์ก่อนหน้านี้? น่าเสียดายที่ซอฟต์แวร์การวิเคราะห์ข้อมูลของ TOMS ได้รับการตั้งโปรแกรมให้ตั้งค่าสถานะและตั้งค่าจุดข้อมูลที่เบี่ยงเบนอย่างมากจากการวัดตามที่คาดหวัง ในระยะสั้นทีม TOMS ไม่สามารถตรวจจับการลดลงของโอโซนเมื่อหลายปีก่อนเพราะมันรุนแรงกว่าที่นักวิทยาศาสตร์คาดไว้
Johnny

3
นี่เป็นเรื่องที่ยอดเยี่ยม และอีกครั้งหนึ่งที่ทำซ้ำมาก แต่สำหรับฉันmath.uni-augsburg.de/stochastik/pukelsheim/1990c.pdfเชื่อมั่นว่ามันเป็นตำนานบนพื้นฐานของความเข้าใจผิด โปรดทราบโดยบังเอิญว่าเนื่องจากมีสองเสา "ชั้นโอโซนขั้วโลก" จึงจำเป็นต้องเขียนใหม่
Nick Cox

3
ดูบัญชี Christie ที่เชื่อถือได้เช่นกัน M. 2001. ปรัชญาชั้นโอโซน A ของมุมมองทางวิทยาศาสตร์ Cambridge: Cambridge UP
Nick Cox

7

'Outlier' เป็นคำที่สะดวกในการรวบรวมข้อมูลเข้าด้วยกันซึ่งไม่เหมาะกับสิ่งที่คุณคาดหวังว่ากระบวนการของคุณจะมีลักษณะเช่นนั้นเพื่อที่จะลบออกจากการวิเคราะห์

ฉันจะแนะนำไม่เคย (คำเตือนในภายหลัง) ลบค่าผิดปกติ พื้นหลังของฉันคือการควบคุมกระบวนการทางสถิติดังนั้นบ่อยครั้งที่จะจัดการกับข้อมูลอนุกรมเวลาที่สร้างขึ้นโดยอัตโนมัติจำนวนมากซึ่งถูกประมวลผลโดยใช้แผนภูมิ / พล็อตกล่องเคลื่อนไหว / ฯลฯ ขึ้นอยู่กับข้อมูลและการแจกจ่าย

สิ่งที่มีค่าผิดปกติคือพวกเขาจะให้ข้อมูลเกี่ยวกับ 'กระบวนการ' ของคุณเสมอ บ่อยครั้งที่สิ่งที่คุณคิดว่าเป็นกระบวนการเดียวจริง ๆ แล้วหลายกระบวนการและมันซับซ้อนกว่าที่คุณให้เครดิต

ใช้ตัวอย่างในคำถามของคุณฉันจะแนะนำว่าอาจมี 'กระบวนการ' จำนวนมาก จะมีการเปลี่ยนแปลงเนื่องจาก ...

  • ตัวอย่างที่ถ่ายโดยอุปกรณ์สื่อกระแสไฟฟ้าหนึ่งชิ้น
  • ตัวอย่างที่ถ่าย ระหว่างอุปกรณ์สื่อนำไฟฟ้า
  • เมื่อผู้ทดสอบลบโพรบ
  • เมื่อวัตถุเคลื่อนที่
  • ความแตกต่างภายในผิวหนังของบุคคลหนึ่งทั่วร่างกายหรือระหว่างวันสุ่มตัวอย่างที่แตกต่างกัน (เส้นผม, ความชื้น, น้ำมัน ฯลฯ )
  • ความแตกต่างระหว่างวิชา
  • การฝึกอบรมของบุคคลที่ทำการวัดและความแตกต่างระหว่างพนักงาน

กระบวนการทั้งหมดเหล่านี้จะสร้างรูปแบบเพิ่มเติมในข้อมูลและอาจจะย้ายค่าเฉลี่ยและเปลี่ยนรูปร่างของการกระจาย หลายสิ่งเหล่านี้คุณจะไม่สามารถแยกออกเป็นกระบวนการที่แตกต่างกันได้

ดังนั้นไปที่แนวคิดในการลบจุดข้อมูลออกเป็น 'ค่าผิดปกติ' ... ฉันจะลบจุดข้อมูลออกเท่านั้นเมื่อฉันสามารถกำหนดแอตทริบิวต์เหล่านั้นให้กับ 'กระบวนการ' ที่เฉพาะเจาะจงซึ่งฉันไม่ต้องการรวมไว้ในการวิเคราะห์ของฉัน จากนั้นคุณต้องแน่ใจว่าเหตุผลของการไม่รวมถูกบันทึกไว้เป็นส่วนหนึ่งของการวิเคราะห์ของคุณดังนั้นจึงเป็นที่ชัดเจน อย่าถือว่าที่มานั่นเป็นสิ่งสำคัญเกี่ยวกับการจดบันทึกเพิ่มเติมผ่านการสังเกตระหว่างการรวบรวมข้อมูลของคุณ

ฉันจะท้าทายข้อความของคุณ 'เพราะส่วนใหญ่เป็นข้อผิดพลาดอยู่แล้ว' เนื่องจากไม่ใช่ข้อผิดพลาด แต่เป็นเพียงส่วนหนึ่งของกระบวนการที่คุณระบุในการวัดของคุณว่าแตกต่างกัน

ในตัวอย่างของคุณฉันคิดว่ามันมีเหตุผลที่จะไม่รวมจุดข้อมูลที่คุณสามารถกำหนดเป็นกระบวนการแยกต่างหากที่คุณไม่ต้องการวิเคราะห์


6

หากคุณกำลังลบค่าผิดปกติในสถานการณ์ส่วนใหญ่คุณต้องจัดทำเอกสารว่าคุณกำลังทำเช่นนั้นและเพราะเหตุใด หากนี่เป็นรายงานทางวิทยาศาสตร์หรือเพื่อจุดประสงค์ด้านกฎระเบียบอาจส่งผลให้มีการลดและสรุปสถิติของคุณ

ทางออกที่ดีกว่าคือการระบุว่าเมื่อใดที่คุณคิดว่าคุณได้รับข้อมูลที่ไม่ดี (เช่นเมื่อมีคนดึงสาย) จากนั้นระบุว่าเมื่อใดที่คนดึงสายและดึงข้อมูลด้วยเหตุผลนั้น สิ่งนี้อาจส่งผลให้จุดข้อมูล 'ดี' บางจุดถูกทิ้ง แต่ตอนนี้คุณมีเหตุผล 'แท้จริง' ในการติดแท็กและลดจุดข้อมูลเหล่านั้นที่จุดรวบรวมแทนที่จะเป็นจุดสิ้นสุดการวิเคราะห์ ตราบใดที่คุณทำอย่างนั้นอย่างโปร่งใสและโปร่งใสมีแนวโน้มที่จะเป็นที่ยอมรับของบุคคลที่สาม หากคุณลบจุดข้อมูลที่เกี่ยวข้องกับสายไฟที่ดึงออกมาและคุณยังคงได้รับค่าผิดปกติข้อสรุปที่เป็นไปได้คือสายไฟที่ดึงออกมาไม่ใช่ปัญหา (เฉพาะ) - ปัญหาต่อไปอาจมาจากการออกแบบการทดลองของคุณหรือทฤษฎีของคุณ

หนึ่งในการทดลองครั้งแรกที่แม่ของฉันมีเมื่อกลับไปที่มหาวิทยาลัยเพื่อสำเร็จการศึกษาระดับปริญญาตรีของเธอคือการที่นักเรียนได้รับทฤษฎี 'ไม่ดี' เกี่ยวกับวิธีการทำงานของกระบวนการแล้วบอกให้ทำการทดสอบ นักเรียนที่ลบหรือแก้ไขจุดข้อมูลที่ 'ไม่ดี' เป็นผลให้การบ้านไม่สำเร็จ ผู้ที่รายงานอย่างถูกต้องว่าข้อมูลของพวกเขาไม่เห็นด้วยกับผลลัพธ์ที่ทำนายโดยทฤษฎี (เลว) ผ่านไปแล้ว จุดประสงค์ของการมอบหมายคือสอนนักเรียนไม่ให้ 'แก้ไข' (ปลอม) ข้อมูลของพวกเขาเมื่อไม่ใช่สิ่งที่คาดหวัง

สรุป: หากคุณกำลังสร้างข้อมูลที่ไม่ดีให้แก้ไขการทดสอบไม่ใช่ข้อมูล


5

มันเป็นประเด็นขัดแย้งทางศีลธรรมอย่างแน่นอน ในอีกแง่หนึ่งทำไมคุณควรปล่อยให้จุดข้อมูลที่น่าสงสัยสองสามแห่งทำลายโมเดลของคุณให้พอดีกับข้อมูลจำนวนมาก? ในทางกลับกันการลบการสังเกตที่ไม่เห็นด้วยกับแนวคิดของความเป็นจริงของแบบจำลองของคุณก็คือการเซ็นเซอร์ที่แปลก ๆ เมื่อถึงจุดของ @ Egon ผู้ที่พยายามจะบอกอะไรบางอย่างเกี่ยวกับความเป็นจริงนั้น

ในงานนำเสนอจากนักสถิติ Steve MacEachern เขาระบุว่าคนนอกเป็น "[ไม่ใช่ตัวแทนของปรากฏการณ์ภายใต้การศึกษา]" ภายใต้ทัศนะนั้นถ้าคุณรู้สึกว่าจุดข้อมูลที่น่าสงสัยเหล่านี้ไม่ได้เป็นตัวแทนของปรากฏการณ์ทางผิวหนังที่คุณพยายามศึกษา บางทีพวกเขาอาจไม่ได้อยู่ในการวิเคราะห์ หรือหากพวกเขาได้รับอนุญาตให้อยู่ควรใช้วิธีการที่ จำกัด อิทธิพลของพวกเขา ในงานนำเสนอเดียวกัน MacEachern ให้ตัวอย่างของวิธีการที่มีประสิทธิภาพและฉันจำได้ว่าในตัวอย่างสองสามตัวอย่างวิธีดั้งเดิมที่ลบค่าผิดปกติมักจะเห็นด้วยกับการวิเคราะห์ที่แข็งแกร่งด้วยค่าผิดปกติที่ยังรวมอยู่ด้วย โดยส่วนตัวแล้วฉันมักจะทำงานร่วมกับเทคนิคแบบคลาสสิกที่ฉันรู้สึกสบายใจและใช้ชีวิตอยู่กับความไม่แน่นอนทางศีลธรรมของการลบแบบผิดปกติ


8
ในกล่อง & เธ่ Hunter: "สถิติเพื่อการทดลอง" พวกเขาบอกว่าในอุตสาหกรรมเคมี, ค่าผิดปกติมักจะได้นำไปสู่การจดสิทธิบัตรใหม่ คุณต้องการที่จะทิ้งสิทธิบัตรใหม่ของคุณ?
kjetil b halvorsen

2
ไม่ฉันไม่ต้องการพลาดสิทธิบัตรใด ๆ เลย แต่ฉันไม่ต้องการหมุนรอบสิบสองรอบเพื่อให้แบบจำลองของฉันรองรับ "ใครบางคนกำลังดึงสาย" นั่นไม่ใช่ปรากฏการณ์ที่กำลังศึกษาอยู่ ฉันชอบความคิดของผู้ผิดเป็นโอกาสและสิ่งหนึ่งที่ต้องพูดถึงการลบอย่างตรงไปตรงมาก็คืออย่างน้อยโค้ดจะให้เอกสารเกี่ยวกับการลบเหล่านั้นในขณะที่วิธีการที่แข็งแกร่ง
Ben Ogorek

2
คุณมีสิทธิ์ที่จะต้องพิจารณาสถานการณ์ที่เฉพาะเจาะจง สิ่งที่ไม่ควรทำคือใช้ "กฎ" ที่ไม่มีบริบทเพื่อการปฏิเสธนอกขอบเขต ไม่มีกฎที่ดีเช่นนี้
kjetil b halvorsen

1
ประเด็นที่ฉันโปรดปรานเกี่ยวกับพลังของบริบทนั้นแสดงให้เห็นในคำถามว่า ถ้าคุณหลงทางในป่าเป็นเวลาสามวันและคุณเพิ่งพบบางอย่างบนพื้นดินมันกลับกลายเป็นว่าพวกเขามีสุขภาพที่ดี ฉันรู้สึกเหมือนคำตอบที่ได้รับความนิยมที่นี่บอกเราว่า "อย่ากินบาร์ Snickers เว้นแต่คุณจะแน่ใจอย่างแน่นอนว่าคุณจะตายถ้าคุณไม่ทำ"
Ben Ogorek

0

ถ้าฉันสุ่มตัวอย่างตัวอย่าง 100 คนและหนึ่งในนั้นคือบิลล์เกตส์เท่าที่ฉันสามารถบอกได้บิลเกตส์เป็นตัวแทนของ 1 ใน 100 ของประชากรทั้งหมด

ค่าเฉลี่ยที่ถูกตัดจะบอกรายได้ลอตเตอรี่โดยเฉลี่ยคือ $ 0


ไม่มีอะไรผิดปกติหมายถึงการตัดแต่งไม่เหมาะสำหรับการแจกแจงแบบเบ้
Yves Daoust

-2

แน่นอนคุณควรลบค่าผิดปกติตามคำจำกัดความพวกเขาไม่ปฏิบัติตามการกระจายภายใต้การตรวจสอบข้อเท็จจริงและเป็นปรากฏการณ์กาฝาก

คำถามที่แท้จริงคือ "ฉันจะตรวจจับค่าผิดปกติได้อย่างไร"!


เกิดอะไรขึ้นถ้าการกระจายเช่น Cauchy?
AdamO

@ Adamo: คำถามจริงยังคงอยู่แน่นอน
Yves Daoust

ทำไมต้องลงคะแนนนี้
Yves Daoust

3
(-1) เพราะฉันไม่คิดว่านี่เป็นผลงานอย่างเพียงพอที่ได้รับการบอกเล่าโดยทฤษฎีตัวอย่างหรือการปฏิบัติ "ปรากฏการณ์กาฝาก" คืออะไร แต่ความเข้าใจบทกวีของข้อมูล? ในการจัดการกับความดันโลหิตโซเดียมโซเดียมและการถ่ายภาพทางระบบประสาทฉันเห็น "ผิดปกติ" ในแต่ละวันซึ่งเป็นตัวแทนของประชากรภายใต้การพิจารณา การลบออกอาจเป็นแหล่งของอคติที่สำคัญ จะบอกว่าพวกเขาเป็น "ปรากฏการณ์ปรสิต" เป็นการชี้นำและหลอกลวงทำให้มีการปฏิบัติทางสถิติที่มีความเสี่ยง
AdamO

@adam: คุณเพียงแค่เรียกร้องให้เก็บ inliers ซึ่งฉันเห็นด้วยอย่างเต็มที่
Yves Daoust
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.