คำจำกัดความที่เข้มงวดของค่าผิดปกติ?


44

ผู้คนมักพูดคุยเกี่ยวกับการจัดการกับค่าผิดปกติในสถิติ สิ่งที่รบกวนจิตใจฉันเกี่ยวกับเรื่องนี้คือเท่าที่ฉันสามารถบอกได้นิยามของค่าผิดปกตินั้นเป็นไปโดยสิ้นเชิง ตัวอย่างเช่นหากการแจกแจงที่แท้จริงของตัวแปรสุ่มบางตัวนั้นมีความหนามากหรือ bimodal การสร้างภาพมาตรฐานหรือสถิติสรุปใด ๆ สำหรับการตรวจจับค่าผิดปกติจะลบส่วนต่าง ๆ ของการแจกแจงที่คุณต้องการสุ่มตัวอย่างออกอย่างไม่ถูกต้อง อะไรคือคำจำกัดความที่เข้มงวดของค่าผิดปกติถ้ามีอยู่และค่าผิดปกติสามารถจัดการได้อย่างไร


ถ้าคุณต้องการทราบว่ามีการแจกแจงที่เฉพาะเจาะจงแล้วถามเกี่ยวกับตัวอย่างของคุณ มันจะแตกต่างกันสำหรับสถานการณ์ที่แตกต่างกัน
จอห์น

8
ดีฉันคาดหวังว่าคุณจะมีrigorous definition of an outlierเวลาที่คุณจะสามารถกำหนดunreasonable amounts of subjectivityลักษณะวัตถุประสงค์ ;-) ขอบคุณ
กิน

1
แต่นิยามอาจแตกต่างกันไปตามการกระจายและสถานการณ์ ฉันสามารถพูดได้ว่า± 1.5 IQR หรือ 3 SD หรืออย่างนั้น แต่ฉันสามารถใช้วิธีการที่แตกต่างกันโดยสิ้นเชิงถ้าฉันมีมาตรการสองชนิดพูดเวลาตอบสนองและความแม่นยำ ฉันสามารถพูดได้ว่าเงื่อนไขของ RT อยู่ในระดับของความแม่นยำ พวกเขาทุกคนสามารถทำได้ดีและเข้มงวดในด้านคณิตศาสตร์
จอห์น

2
มีคำจำกัดความที่เข้มงวดจำนวนมาก แต่ตัวเลือกในหมู่คนเหล่านั้นอาจดูเป็นอิสระ แต่ฉันคิดว่านี่เป็นส่วนหนึ่งของความเข้าใจผิดว่าสถิติเป็นประเด็นที่แต่ละปัญหามีคำตอบที่ถูกต้องหนึ่งข้อ
Peter Flom - Reinstate Monica

คำตอบ:


23

ตราบใดที่ข้อมูลของคุณมาจากการแจกจ่ายที่รู้จักพร้อมคุณสมบัติที่เป็นที่รู้จักคุณสามารถกำหนดค่าผิดพลาดเป็นเหตุการณ์ที่ไม่น่าจะเกิดขึ้นจากกระบวนการที่สังเกตได้ (ถ้าคุณพิจารณาว่า "ไม่น่าจะเกินไป" ที่จะเข้มงวด การทดสอบสมมติฐานทั้งหมดคือ)

อย่างไรก็ตามวิธีการนี้มีปัญหาในสองระดับ: สันนิษฐานว่าข้อมูลมาจากการกระจายที่รู้จักพร้อมคุณสมบัติที่เป็นที่รู้จักและนำความเสี่ยงที่ค่าผิดปกติถูกมองว่าเป็นจุดข้อมูลที่ลักลอบนำเข้าสู่ข้อมูลของคุณ

ในกรณีที่ไม่มีแหล่งข้อมูลเวทมนต์ข้อมูลทั้งหมดมาจากการทดสอบของคุณและดังนั้นจึงเป็นไปไม่ได้ที่จะมีค่าผิดปกติซึ่งเป็นผลลัพธ์ที่แปลก สิ่งเหล่านี้อาจเกิดจากข้อผิดพลาดในการบันทึก (เช่นบ้าน 400,000 ห้องนอนสำหรับ 4 ดอลลาร์) ปัญหาการวัดอย่างเป็นระบบ (อัลกอริทึมการวิเคราะห์รูปภาพรายงานพื้นที่ขนาดใหญ่หากวัตถุอยู่ใกล้กับชายแดนมากเกินไป) ปัญหาการทดลอง (บางครั้งผลึกตกตะกอน ซึ่งให้สัญญาณสูงมาก) หรือคุณสมบัติของระบบของคุณ (เซลล์บางครั้งสามารถแบ่งออกเป็นสามส่วนแทนสอง) แต่พวกเขายังสามารถเป็นผลมาจากกลไกที่ไม่มีใครเคยพิจารณาเพราะมันหายากและคุณกำลังทำการวิจัย ซึ่งหมายความว่าบางสิ่งที่คุณทำนั้นยังไม่เป็นที่รู้จัก

เป็นการดีที่คุณใช้เวลาในการตรวจสอบทุกค่าใช้จ่ายและลบออกจากชุดข้อมูลของคุณเมื่อคุณเข้าใจว่าทำไมมันไม่เหมาะกับแบบจำลองของคุณ สิ่งนี้ใช้เวลานานและมีความรู้สึกว่าเหตุผลนั้นขึ้นอยู่กับการทดสอบเป็นอย่างมาก แต่ทางเลือกนั้นแย่กว่านั้นคือ: หากคุณไม่เข้าใจว่าค่าผิดปกติมาจากไหนคุณมีทางเลือกระหว่างการแจ้งค่าผิดปกติ หรือกำหนดวิธีการ "เข้มงวดทางคณิตศาสตร์" บางอย่างเพื่อซ่อนความไม่เข้าใจของคุณ ในคำอื่น ๆ โดยการใฝ่หา "ความเข้มงวดทางคณิตศาสตร์" คุณเลือกระหว่างไม่ได้รับผลกระทบที่สำคัญและไม่ได้เข้าสวรรค์

แก้ไข

หากสิ่งที่คุณมีคือรายการตัวเลขโดยไม่ทราบว่ามาจากไหนคุณจะไม่มีทางบอกได้ว่าจุดข้อมูลบางจุดเป็นค่าผิดปกติหรือไม่เพราะคุณสามารถสันนิษฐานได้ว่าการแจกแจงนั้นอยู่ที่ไหน


3
อย่างไรก็ตามไม่ใช่ค่าผิดปกติทั้งหมดที่ถูกสร้างขึ้นจากการทดสอบ ฉันทำงานกับชุดข้อมูลขนาดใหญ่ที่เกี่ยวข้องกับการรวบรวมข้อมูลอสังหาริมทรัพย์ในภูมิภาค (ราคาขาย, จำนวนห้องนอน, พื้นที่เป็นตารางฟุต, ฯลฯ ) และในตอนนี้จะมีข้อผิดพลาดในการป้อนข้อมูลและฉันมี บ้านห้องนอน 400,000 ห้องไป 4 ดอลลาร์หรืออะไรที่ไร้สาระแบบนั้น ฉันคิดว่าส่วนหนึ่งของเป้าหมายในการกำหนดค่าผิดปกติคือการดูว่าเป็นไปได้ที่จะสร้างจากข้อมูลหรือเป็นเพียงข้อผิดพลาดในการเข้าใช้
Christopher Aden

2
@Christopher Aden: ฉันคิดว่าเป็นส่วนหนึ่งของกระบวนการทดลอง โดยทั่วไปเพื่อให้สามารถลบค่าผิดปกติคุณต้องเข้าใจว่าข้อมูลถูกสร้างขึ้นอย่างไรเช่นไม่มีการลบค่าผิดพลาดโดยไม่มีเหตุผลที่ดี มิฉะนั้นคุณเพียงแค่จัดเก็บข้อมูลของคุณ ฉันได้แก้ไขคำตอบของฉันเพื่อให้สะท้อนถึงสิ่งนี้ดีขึ้นเล็กน้อย
Jonas

นี่คือเหตุผลที่สมบูรณ์แบบ แต่สมมติว่าคุณมีความรู้ก่อนหน้านี้จำนวนพอสมควรเกี่ยวกับการกระจายที่แท้จริงคืออะไร ฉันกำลังคิดในแง่ของสถานการณ์ที่คุณทำไม่ได้และมันอาจจะเทลด์หรือ bimodal หนักมาก
dsimcha

@dsimcha: ฉันไม่คิดว่าคุณสามารถระบุค่าผิดปกติในกรณีนั้น (ดูแก้ไขของฉันด้วย)
Jonas

2
@dsimcha - คุณมีความรู้มาก่อนเสมอ ! สำหรับข้อมูลที่ให้กับคุณเป็นอย่างไร? คุณมัก จะรู้ว่ามาก ข้อมูลไม่ได้แสดงขึ้นอย่างน่าอัศจรรย์ และคุณสามารถตั้งสมมติฐานเบื้องต้นได้ตลอดเวลา "ค่าผิดปกติ" ตามสมมติฐานเหล่านี้โดยทั่วไปให้เบาะแสว่ามีบางอย่างในสมมติฐานของคุณผิด โดยศึกษา "ผิดเพี้ยน" (ซึ่งสัมพันธ์กันเสมอ) คุณสามารถปรับปรุงแบบจำลองของคุณได้
ความน่าจะเป็นทาง

13

คุณถูกต้องว่าการลบค่าผิดปกติสามารถดูเหมือนการออกกำลังกายแบบอัตนัย แต่นั่นไม่ได้หมายความว่ามันผิด ความจำเป็นที่จะต้องมีเหตุผลทางคณิตศาสตร์อย่างเข้มงวดสำหรับทุก ๆ การตัดสินใจเกี่ยวกับการวิเคราะห์ข้อมูลของคุณนั้นมักจะเป็นเพียงความคลุมเครือบาง ๆ ของสิ่งที่กลายเป็นแบบฝึกหัดส่วนตัว นี่เป็นเรื่องจริงโดยเฉพาะถ้าคุณต้องการใช้เหตุผลทางคณิตศาสตร์แบบเดียวกันกับทุกสถานการณ์ที่คุณเจอ (ถ้ามีกฎทางคณิตศาสตร์ที่ชัดเจนสำหรับทุกสิ่งคุณก็ไม่จำเป็นต้องมีสถิติ)

ตัวอย่างเช่นในสถานการณ์การกระจายหางยาวของคุณไม่มีวิธีการรับประกันที่จะตัดสินใจจากตัวเลขว่าคุณมีการกระจายความสนใจพื้นฐานหนึ่งครั้งด้วยค่าผิดปกติหรือสองการแจกแจงความสนใจต้นแบบโดยมีค่าผิดพลาดเป็นส่วนหนึ่งของหนึ่งในนั้น หรือสวรรค์ห้ามเพียงแค่การกระจายข้อมูลที่แท้จริง

ยิ่งคุณรวบรวมข้อมูลได้มากเท่าไหร่คุณก็ยิ่งมีโอกาสในการกระจายน้อยลงเท่านั้น หากคุณเก็บตัวอย่าง 20 ตัวอย่างมันไม่น่าเป็นไปได้ที่คุณจะได้รับค่าที่มีคะแนน z เท่ากับ 3.5 หากคุณรวบรวม 10,000 ตัวอย่างมีโอกาสมากที่คุณจะได้หนึ่งและเป็นส่วนหนึ่งของการแจกแจงแบบธรรมชาติ จากที่กล่าวมาคุณจะตัดสินใจอย่างไรเพราะมีบางสิ่งบางอย่างที่เกินกว่าจะแยกออกได้

การเลือกวิธีที่ดีที่สุดโดยทั่วไปสำหรับการวิเคราะห์มักเป็นเรื่องส่วนตัว ขึ้นอยู่กับคำอธิบายสำหรับการตัดสินใจและนอกขอบเขต


+1 บาร์เน็ตต์และลูอิสผู้เขียนหนังสือเกี่ยวกับผู้ผิดกฎหมายระบุ "ค่าผิดพลาดในชุดข้อมูล [คือ] การสังเกต (หรือส่วนย่อยของการสังเกต) ซึ่งดูเหมือนจะไม่สอดคล้องกับส่วนที่เหลือของชุดข้อมูล " [at p . 7] พวกเขาพูดต่อว่า "มันเป็นเรื่องของการตัดสินส่วนตัวในส่วนของผู้สังเกตการณ์หรือไม่ว่าการสังเกตบางอย่าง ... ได้รับการพิจารณาอย่างถี่ถ้วน ... สิ่งที่เป็นลักษณะเฉพาะของ 'ค่าผิดปกติ' คือผลกระทบต่อผู้สังเกตการณ์ ... "
whuber

"หนังสือ" คลุมเครือเล็กน้อยที่นี่ ฉันจะพิจารณาบาร์เน็ตต์และลูอิสเป็นเอกสารสำคัญ แต่ไม่ใช่หนังสือเล่มเดียวที่ผิด amazon.com/Outlier-Analysis-Charu-C-Aggarwal/dp/1461463955ล่าสุด นอกจากนี้ยังมีหนังสือเล่มเก่าโดย DM Hawkins
Nick Cox

9

ฉันไม่คิดว่ามันเป็นไปได้ที่จะกำหนดค่าผิดพลาดโดยไม่ได้สมมติรูปแบบของกระบวนการพื้นฐานที่ทำให้ข้อมูล หากไม่มีโมเดลดังกล่าวเราไม่มีกรอบอ้างอิงในการตัดสินใจว่าข้อมูลผิดปกติหรือ "ผิด" คำจำกัดความของค่าผิดปกติที่ฉันพบว่ามีประโยชน์คือค่าผิดปกตินั้นเป็นการสังเกต (หรือการสังเกต) ที่ไม่สามารถปรับให้เข้ากับแบบจำลองที่ทำงานได้ดี


2
อืม ... ในข้อความ EDA ของเขา John Tukey เป็นผู้กำหนดค่าผิดปกติโดยไม่ใช้โมเดลใด ๆ เลย
whuber

7
คุณสามารถกำหนดค่าผิดปกติได้โดยไม่ต้องมีโมเดล แต่ฉันพบว่าคำจำกัดความดังกล่าวไม่มีประโยชน์ BTW ตามแบบจำลองฉันไม่จำเป็นต้องหมายถึงแบบจำลองทางสถิติที่สอดคล้องกับข้อมูลอย่างชัดเจน คำจำกัดความของค่าผิดปกติใด ๆ กำหนดให้คุณต้องตั้งสมมติฐานบางอย่างเกี่ยวกับประเภทของค่าที่คุณคาดหวังที่จะเห็นและค่าที่คุณไม่ต้องการเห็น ฉันคิดว่ามันจะดีกว่าถ้าสมมติฐานเหล่านี้ (เช่นตัวแบบ) ถูกทำให้ชัดเจน นอกจากนี้ยังมีประเด็นที่ใน EDA คุณกำลังสำรวจข้อมูลนิยามของค่าผิดปกติของคุณอาจแตกต่างกันมากสำหรับ EDA กว่าสำหรับการปรับรุ่นสุดท้ายให้เหมาะสม
Dikran Marsupial

6

มีคำตอบที่ยอดเยี่ยมมากมายที่นี่ อย่างไรก็ตามฉันต้องการชี้ให้เห็นว่าคำถามสองข้อกำลังสับสน สิ่งแรกคือ 'อะไรคือสิ่งผิดเพี้ยน' และอื่น ๆ โดยเฉพาะเพื่อให้คำจำกัดความที่เข้มงวดของสิ่งนี้ มันง่ายมาก:

Outlier คือจุดข้อมูลที่มาจากกระบวนการสร้างประชากร / การกระจาย / ข้อมูลที่แตกต่างจากกระบวนการที่คุณตั้งใจจะศึกษา / ส่วนที่เหลือของข้อมูล

คำถามที่สองคือ 'ฉันจะรู้ / ตรวจสอบว่าจุดข้อมูลเป็นค่าผิดปกติได้อย่างไร' น่าเสียดายที่มันยากมาก อย่างไรก็ตามคำตอบที่ได้รับที่นี่ (ซึ่งจริงๆดีมากและที่ฉันไม่สามารถปรับปรุงได้) จะมีประโยชน์มากกับงานนั้น


1
นี่คือคำตอบที่กระตุ้นความคิด ดังนั้นสมมติว่าฉันสร้างค่า iid จากการแจกแจงแบบปกติ - พวกมันมีแนวโน้มที่จะขยายช่วงจากประมาณถึง - และสร้างอีกหนึ่งค่าจากการกระจายแบบปกติและมัน เกิดขึ้นเท่ากับ (ซึ่งมีโอกาสใน ) ไม่น่าเป็นไปได้สูงที่จะมีการพิจารณาว่าจะเพิ่มเป็นค่าผิดปกติ คุณอ้างว่าเป็นจริงหรือ ใบเสนอราคาของคุณทำให้ฉันคิดอย่างนั้น แต่ฉันไม่เห็นว่าสิ่งนี้สามารถนำไปปฏิบัติได้จริง ( 0 , 1 ) - 2.5 2.5 ( 4 , 1 ) 2 1 40 299(0,1)2.52.5(4,1)21402
whuber

1
@whuber ใช่ ฉันบอกว่ามันเป็นเรื่องผิดปกติถึงแม้ว่าคุณจะไม่สังเกตเห็น (ซึ่งฉันสงสัยว่าเป็นสิ่งที่คุณหมายถึงโดยการปฏิบัติจริง)
gung - Reinstate Monica

1
ฉันขอขอบคุณความแตกต่างที่คุณทำ ฉันแค่ต้องการชี้ให้เห็นความแตกต่างที่คมชัดระหว่างคำจำกัดความของคุณกับคำจำกัดความอื่น ๆ หรือคำอธิบายของค่าผิดปกติในหัวข้อนี้ คุณดูเหมือนจะไม่สามารถนำไปสู่กระบวนการปฏิบัติที่น่าพอใจ: คุณจะต้องยอมรับเสมอว่าส่วนใหญ่ของชุดข้อมูลของคุณอาจ "อยู่นอก" แต่ไม่มีวิธีใดที่จะตรวจจับหรือแก้ไขได้
whuber

@ เมื่อฉันเห็นด้วยอย่างสุดใจ ฉันเห็นว่าสิ่งนี้คล้ายคลึงกับการทดสอบสมมติฐานอย่างหลวม ๆ ซึ่ง (เช่น) 2 กลุ่มอาจแตกต่างกันในปริมาณที่น้อยมากไม่สามารถตรวจจับได้หรืออาจแตกต่างกันในระดับปานกลาง แต่ตัวอย่างที่คุณพบมีความคล้ายคลึงกันมากโดยบังเอิญ อย่างไรก็ตามจากมุมมองทางทฤษฎีมันก็คุ้มค่าที่จะเข้าใจและรักษาความแตกต่าง
gung - Reinstate Monica

1
@whuber คุณพูดถูก บางคนสร้างความแตกต่างนี้ แต่หลายคนยังไม่ชัดเจนเกี่ยวกับแนวคิด ตำแหน่งของฉันคือว่าไม่มีความเป็นจริงที่มีความหมายของ "ขอบเขต" อื่น ๆ นอกเหนือจากสารปนเปื้อน อย่างไรก็ตามผู้คนควร / คิดเกี่ยวกับประเด็นที่เกี่ยวข้องกับประเด็นหากผลลัพธ์ของคุณถูกผลักดันโดยพวกเขาคนเดียว (ไม่ว่าพวกเขาจะ 'จริง' หรือไม่) และผลลัพธ์ของคุณจะบอบบางมาก กล่าวโดยสรุปไม่มีเหตุผลที่จะต้องกังวลเกี่ยวกับประเด็นที่มาจากประชากรของคุณและไม่ได้ขับเคลื่อนผลลัพธ์ของคุณอย่างเป็นเอกลักษณ์ เมื่อคุณจัดการกับปัญหาทั้งสองนี้แล้วจะไม่มีสิ่งใดเหลือให้ "เกินค่า"
gung - Reinstate Monica

6

คำจำกัดความที่ 1:ดังที่กล่าวไปแล้วค่าผิดพลาดในกลุ่มของข้อมูลที่สะท้อนกระบวนการเดียวกัน (กระบวนการพูด A) คือการสังเกต (หรือชุดการสังเกต) ที่ไม่น่าจะเป็นผลมาจากกระบวนการ A.

คำจำกัดความนี้แน่นอนเกี่ยวข้องกับการประเมินฟังก์ชั่นความน่าจะเป็นของกระบวนการ A (ดังนั้นแบบจำลอง) และการตั้งค่าสิ่งที่ไม่น่าจะหมายถึง (เช่นการตัดสินใจที่จะหยุด ... ) คำนิยามนี้เป็นที่รากของคำตอบที่ฉันให้ที่นี่ มันเป็นเรื่องที่เกี่ยวข้องกับความคิดของการทดสอบสมมติฐานที่มีความสำคัญหรือความดีของพอดี

คำนิยาม 2ค่าผิดปกติคือการสังเกตในกลุ่มการสังเกตเช่นเมื่อการสร้างแบบจำลองกลุ่มการสังเกตด้วยแบบจำลองที่กำหนดความแม่นยำจะสูงกว่าถ้าถูกเอาออกและรับการรักษาแยกจากกัน (ด้วยการผสมในจิตวิญญาณของสิ่งที่ )G xxGx

คำจำกัดความนี้เกี่ยวข้องกับ "รูปแบบที่กำหนด" และการวัดความแม่นยำ ฉันคิดว่าคำจำกัดความนี้มาจากทางปฏิบัติมากกว่าและเป็นจุดกำเนิดของค่าผิดปกติมากกว่า ที่จุดกำเนิดการตรวจสอบค่าผิดปกติเป็นเครื่องมือสำหรับสถิติที่แข็งแกร่ง

เห็นได้ชัดว่าคำจำกัดความเหล่านี้สามารถทำให้คล้ายกันมากถ้าคุณเข้าใจว่าการคำนวณความน่าจะเป็นในนิยามแรกนั้นเกี่ยวข้องกับการสร้างแบบจำลองและการคำนวณคะแนน :)


2

ค่าผิดปกติเป็นจุดข้อมูลที่ไม่สะดวกสำหรับฉันเนื่องจากความเข้าใจปัจจุบันของฉันเกี่ยวกับกระบวนการที่สร้างข้อมูลนี้

ฉันเชื่อว่าคำจำกัดความนี้เข้มงวดมากเท่าที่จะทำได้


เปรียบเทียบสิ่งนี้กับคำนิยามของ John Tukey (เขาใช้คำว่า "นอก"): "เมื่อเราดูค่าจำนวนหนึ่งเราจะเห็นค่าบางอย่างที่ชัดเจนว่าหลงทางไปไกลกว่าคนอื่น ๆ ... มันสะดวกที่จะมีกฎ นิ้วโป้งที่เลือกค่าบางอย่างว่าเป็น "นอก" ... "หลังจากนั้นเขาสรุปสิ่งนี้ว่า" ... การระบุค่าแต่ละค่าที่อาจผิดปกติ " [EDA บทที่ 2] เขาเน้นตลอดทั้งเล่มว่าเรากำลังอธิบายข้อมูลมากกว่าที่จะแกล้งทำเป็น "เข้าใจกระบวนการ" และคำอธิบายที่ถูกต้องหลายคำเป็นไปได้เสมอ
whuber

ในทำนองเดียวกัน "Outliers เป็นค่าตัวอย่างที่ทำให้เกิดความประหลาดใจเมื่อเทียบกับกลุ่มตัวอย่างส่วนใหญ่" (WN Venables และ BD Ripley 2002. สถิติประยุกต์สมัยใหม่ที่ใช้กับ S. New York: Springer, p.119) อย่างไรก็ตามความประหลาดใจอยู่ในใจของผู้ดูและขึ้นอยู่กับข้อมูลโดยปริยายหรือรูปแบบที่ชัดเจน อาจมีรูปแบบอื่นภายใต้ค่าผิดปกติที่ไม่น่าแปลกใจเลยก็คือข้อมูลจริงๆแล้วเป็น lognormal หรือ gamma มากกว่าปกติ
Nick Cox

@ Nick ที่สอดคล้องกับบาร์เน็ตต์และลูอิสซึ่งผมพูดในความคิดเห็นที่คำตอบของจอห์น
whuber

@whuber: คุณพูดว่า "Contrast this" ซึ่งฉันคิดว่าคุณไม่เห็นด้วย แต่ฉันไม่แน่ใจ ฉันขอยืนยันว่ารูปแบบการก่อตัว - โดยนัยและไร้เดียงสาบางที - เป็นเหตุผลที่เราเห็นรูปแบบในข้อมูลหรือคนในดวงจันทร์หรือค่าผิดปกติ ตัวแบบอาจไม่มีพื้นฐานทางฟิสิกส์ / เคมี / เศรษฐกิจ แต่เราได้ตั้งสมมติฐานแบบจำลอง มิฉะนั้นจะไม่แปลกใจไม่มี "นอก"
Wayne

Tukey ยืนยันว่าในการอธิบายข้อมูลเราไม่จำเป็นต้องสร้างแบบจำลองเหล่านั้น มีความเป็นธรรมที่จะขยายคำจำกัดความของ "รุ่น" เพื่อรวมคำอธิบายข้อมูล แต่คำนั้นกว้างเกินไปที่จะเป็นประโยชน์ จากมุมมองของ Tukey (แน่นอนว่าฉันตีความมัน) ไม่มีความกังวลเกี่ยวกับการสูญเสียใบหน้าและไม่มีคำถามใด ๆ เกี่ยวกับความสะดวกสบายหรือไม่ ดังนั้นแม้ว่าฉันจะเคารพแรงจูงใจของคุณ แต่ฉันคิดว่าทัศนคติของคุณ (ดังที่ปรากฏใน "การประหยัดใบหน้า" และ "ไม่สะดวก") นั้นสร้างสรรค์น้อยกว่าวิธีอื่น ๆ สำหรับคำถามนี้
whuber

0

กำหนดค่าผิดพลาดในฐานะสมาชิกของชุดองค์ประกอบขั้นต่ำสุดซึ่งจะต้องลบออกจากชุดข้อมูลขนาด n เพื่อให้มั่นใจว่าสอดคล้องกับการทดสอบ RUM 100% ที่ดำเนินการที่ระดับความเชื่อมั่น 95% สำหรับชุดย่อยเฉพาะทั้งหมด (2 ^ n -1) ข้อมูล. ดูข้อความ Karian และ Dudewicz ในข้อมูลการปรับให้เหมาะกับ PDF โดยใช้ R (ก.ย. 2010) สำหรับคำจำกัดความของการทดสอบ RUM


-2

ค่าผิดปกติมีความสำคัญเฉพาะในอาณาจักรที่พบบ่อย ถ้าดาต้าพอยน์ตัวเดียวเพิ่มอคติให้กับโมเดลของคุณซึ่งถูกกำหนดโดยการแจกแจงต้นแบบที่กำหนดไว้ล่วงหน้าตามทฤษฏีของคุณมันจะมีค่าเกินกว่าสำหรับโมเดลนั้น ความเป็นส่วนตัวอยู่ในความจริงที่ว่าถ้าทฤษฎีของคุณวางตัวแบบที่แตกต่างกันคุณก็สามารถมีคะแนนที่แตกต่างออกไป


1
คุณอ้างว่าค่าผิดปกติไม่สำคัญในการวิเคราะห์ข้อมูลแบบเบย์หรือไม่?
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.