มันเป็นการโกงที่จะปล่อยค่าผิดปกติตาม boxplot ของ Mean Absolute Error เพื่อปรับปรุงตัวแบบการถดถอยหรือไม่


15

ฉันมีแบบจำลองการทำนายทดสอบด้วยวิธีการสี่วิธีดังที่คุณเห็นในรูปแบบกล่องด้านล่าง แอตทริบิวต์ที่ตัวแบบทำนายนั้นอยู่ในช่วง 0-8

คุณอาจสังเกตเห็นว่ามีค่าผิดปกติที่มีขอบบนหนึ่งค่าและค่าผิดปกติที่ต่ำกว่าสามค่าที่ระบุโดยวิธีการทั้งหมด ฉันสงสัยว่าเหมาะสมที่จะลบอินสแตนซ์เหล่านี้ออกจากข้อมูลหรือไม่ หรือนี่เป็นการโกงเพื่อปรับปรุงตัวแบบการทำนาย?

ป้อนคำอธิบายรูปภาพที่นี่


1
(1) ฉันเห็นผลลัพธ์สำหรับสี่วิธีไม่ใช่สามวิธี (2) การลบหลักฐานของความสามารถในการทำนายอาจปรับปรุงวิธีการได้อย่างไร
whuber

@whuber (1) ได้รับการแก้ไข สำหรับ (2) เพื่อให้คุณหมายถึงการเอาอินสแตนซ์ที่มีการคาดการณ์มากไม่ถูกต้องที่จะไม่นำไปสู่ประสิทธิภาพที่ดีกว่าการคาดการณ์ในภาพรวม (นี่คือสิ่งที่ฉันหมายกับ"การปรับปรุงรุ่น" ?
renakre

7
การถอดการสังเกตไม่ว่าด้วยเหตุผลใด (บอกว่าจุดที่เหมาะสมน้อยที่สุด 4 ข้อ) เป็นตัวเลือกของแบบจำลอง คุณควรประเมินผลการดำเนินงานของการคาดการณ์นี้ทางเลือกรูปแบบที่สองเกินไป จุดสำคัญคือการรักษาความสมบูรณ์ของชุดทดสอบสุดท้ายที่ใช้ในการประเมินประสิทธิภาพของวิธีการทำนายโดยรวม ไม่ชัดเจนจากคำถามของคุณว่าคุณวางแผนที่จะดัดแปลงโมเดล (Lasso และอื่น ๆ ) หลังจากลบข้อมูลที่คาดการณ์ไว้ไม่ดี
user603

2
ในฐานะที่เป็นคำพูดด้านข้างฉันจะเพิ่มที่บางครั้งค่าที่ดีซ่อนอยู่ในค่าผิดปกติและมันก็คุ้มค่าที่จะดูอย่างระมัดระวัง
Dror Atariah

@DrorAtariah ขอบคุณ Dror ฉันเห็นด้วย กรณีที่รุนแรงมีค่า
renakre

คำตอบ:


22

มันเป็นมักจะโกงข้อสังเกตลบในการปรับปรุงรูปแบบการถดถอย คุณควรทิ้งการสังเกตก็ต่อเมื่อคุณคิดว่าแท้จริงแล้วสิ่งเหล่านี้เป็นค่าผิดปกติ

ตัวอย่างเช่นคุณมีอนุกรมเวลาจากจอภาพอัตราการเต้นหัวใจที่เชื่อมต่อกับนาฬิกาอัจฉริยะของคุณ หากคุณดูที่ซีรีส์เป็นเรื่องง่ายที่จะเห็นว่าจะมีการสังเกตที่ผิดพลาดด้วยการอ่านเช่น 300bps สิ่งเหล่านี้ควรถูกลบออก แต่ไม่ใช่เพราะคุณต้องการปรับปรุงแบบจำลอง (สิ่งที่มันหมายถึง) ข้อผิดพลาดในการอ่านซึ่งไม่เกี่ยวข้องกับอัตราการเต้นของหัวใจของคุณ

สิ่งหนึ่งที่ต้องระวังคือความสัมพันธ์ของข้อผิดพลาดกับข้อมูล ในตัวอย่างของฉันอาจเป็นที่ถกเถียงกันอยู่ว่าคุณมีข้อผิดพลาดเมื่อเครื่องวัดอัตราการเต้นของหัวใจถูกแทนที่ในระหว่างการออกกำลังกายเช่นวิ่งหรือกระโดด ซึ่งจะทำให้เกิดข้อผิดพลาดเหล่านี้สัมพันธ์กับอัตราฮาร์ต ในกรณีนี้จะต้องระมัดระวังในการลบค่าผิดพลาดและข้อผิดพลาดเหล่านี้เนื่องจากไม่สุ่ม

ฉันจะให้เป็นตัวอย่างที่สร้างขึ้นจากเมื่อจะไม่ลบค่าผิดปกติ สมมติว่าคุณวัดการเคลื่อนที่ของน้ำหนักในฤดูใบไม้ผลิ หากน้ำหนักมีขนาดเล็กเมื่อเทียบกับความแข็งแรงของน้ำหนักคุณจะสังเกตได้ว่ากฎของ Hookeนั้นทำงานได้ดีมาก: ที่Fคือแรง, k - สัมประสิทธิ์แรงตึงและΔ xคือตำแหน่งของน้ำหนัก .

F=kΔx,
FkΔx

ตอนนี้ถ้าคุณวางน้ำหนักที่หนักมากหรือแทนที่น้ำหนักมากเกินไปคุณจะเริ่มเห็นการเบี่ยงเบน: ที่การกระจัดที่มีขนาดใหญ่พอการเคลื่อนที่จะดูเหมือนเบี่ยงเบนจากโมเดลเชิงเส้น ดังนั้นคุณอาจถูกล่อลวงให้ลบค่าผิดปกติเพื่อปรับปรุงตัวแบบเชิงเส้น นี่ไม่ใช่ความคิดที่ดีเพราะโมเดลนี้ทำงานได้ไม่ดีนักเนื่องจากกฎของฮุคนั้นถูกต้องโดยประมาณΔx

อัปเดตในกรณีของคุณฉันขอแนะนำให้ดึงจุดข้อมูลเหล่านั้นและมองดูให้ใกล้ยิ่งขึ้น มันอาจจะเป็นความล้มเหลวของเครื่องมือในห้องปฏิบัติการ? รบกวนจากภายนอก? ข้อบกพร่องตัวอย่าง? เป็นต้น

ต่อไปพยายามระบุว่าค่าความแปรปรวนของค่าผิดปกติเหล่านี้อาจสัมพันธ์กับสิ่งที่คุณวัดได้ในตัวอย่างที่ฉันให้หรือไม่ หากมีความสัมพันธ์กันก็ไม่มีวิธีง่าย ๆ ที่จะไปเกี่ยวกับเรื่องนี้ หากไม่มีความสัมพันธ์กันคุณสามารถลบค่าผิดปกติได้


2
It is always a cheating to remove outliers to improve a regression model. คุณคิดว่าการถดถอยแบบ spline เป็นการโกงหรือไม่? FWIW มันทำการลดน้ำหนักเพื่อปรับปรุงรูปแบบการถดถอย [ท้องถิ่น] ~
603

1
ฉันไม่เห็นด้วย "มันเป็นการโกงเสมอที่จะลบผู้ผิดเพี้ยนเพื่อปรับปรุงตัวแบบการถดถอย" มีเครื่องมือมากมายที่จะทำการวินิจฉัยการถดถอยและเป้าหมายของมันคือการตรวจจับและ "ลบ" ค่าผิดปกติและปรับรูปแบบใหม่
Haitao Du

6
@ hxd1011 เครื่องมือเช่น Grubbs จะไม่ลบค่าผิดปกติโดยอัตโนมัติ พวกเขาเพียงระบุว่าอาจมีค่าผิดปกติจากนั้นคุณตัดสินใจว่าเป็นค่าผิดจริงหรือไม่ มันเป็นวิธีที่อันตรายมากในการปรับปรุงการวินิจฉัยให้พอดีโดยการลบค่าผิดปกติโดยอัตโนมัติ คุณต้องวิเคราะห์พวกเขาเป็นกรณี ๆ
Aksakal

2
ตกลงฉันเข้าใจแล้ว ภาษาดั้งเดิมของฉันแข็งเกินไป ฉันแก้ไขประโยคเปิด ขอบคุณสำหรับข้อเสนอแนะถึงผู้แสดงความคิดเห็น
Aksakal

1
@renakre หากคุณไม่คิดว่าสิ่งเหล่านี้เป็นค่าผิดปกติโปรดอย่าลบข้อสังเกตออก อย่างไรก็ตามสิ่งที่คุณอาจต้องพิจารณาคือการวัดความดีของการคาดการณ์อื่นที่ไม่ใช่ข้อผิดพลาดของสแควร์ ตัวอย่างเช่นหากอินสแตนซ์เหล่านี้ไม่สำคัญกับคุณคุณอาจไม่จำเป็นต้องชั่งน้ำหนักที่สแควร์และใช้การเบี่ยงเบนสัมบูรณ์แทนการวัดควรสะท้อนถึงความสำคัญของข้อผิดพลาดที่คาดการณ์เช่นการสูญเสียเงินดอลลาร์ในการคาดการณ์แต่ละข้อผิดพลาด . นอกจากนี้ความจริงที่ว่าสิ่งเหล่านี้นับไม่ได้หมายความว่าไม่มีข้อผิดพลาดโดยอัตโนมัติปลั๊กอินของหน้าเว็บที่นับจำนวนคลิกอาจล้มเหลว
Aksakal

4

ฉันต้องการโพสต์สิ่งนี้เป็นความคิดเห็นต่อคำตอบอื่น แต่มันยาวเกินไปที่จะตอบ

เมื่อฉันดูโมเดลของคุณมันไม่จำเป็นต้องมีกลุ่มใหญ่กลุ่มหนึ่งและมีค่าผิดปกติบางอย่าง ในความคิดของฉันมันมี 1 กลุ่มขนาดกลาง (1 ถึง -1) แล้ว 6 กลุ่มเล็ก ๆ แต่ละกลุ่มพบระหว่าง 2 จำนวนเต็ม คุณสามารถเห็นได้อย่างชัดเจนว่าเมื่อถึงจำนวนเต็มจะมีการสังเกตที่ความถี่เหล่านั้นน้อยลง จุดพิเศษเพียงอย่างเดียวคือ 0 ซึ่งไม่มีข้อสังเกตที่น่าสังเกต

ในความคิดของฉันมันคุ้มค่าที่จะอธิบายว่าทำไมการกระจายนี้แพร่กระจายแบบนี้:

  • เหตุใดการแจกแจงที่นับการสังเกตเหล่านี้จึงลดลงเป็นจำนวนเต็ม?
  • ทำไมจำนวนการสังเกตนี้ลดลงไม่เกิดขึ้นที่ 0
  • มีอะไรพิเศษเกี่ยวกับค่าผิดปกติเหล่านี้ว่าเป็นค่าผิดปกติหรือไม่

เมื่อวัดการกระทำของมนุษย์ที่ไม่ต่อเนื่องคุณจะมีค่าผิดปกติ เป็นเรื่องที่น่าสนใจที่จะเห็นว่าทำไมคนผิดเหล่านั้นไม่พอดีกับแบบจำลองของคุณและวิธีที่พวกเขาสามารถนำไปใช้เพื่อปรับปรุงการทำซ้ำแบบจำลองในอนาคตของคุณได้


+1 ดูเหมือนว่าช่องว่างจำนวนเต็มไม่ได้อยู่ที่ตัวเลขทั้งหมดเสมอไปดังนั้นเราอาจเห็นรูปแบบที่ไม่มีอยู่จริง แต่อาจเป็นสิ่งประดิษฐ์ของการรวบรวมข้อมูลการเข้ารหัสหรือการแยกส่วนที่อาจทำให้เกิดแสงสว่าง บนข้อมูลโดยรวม อาจมีช่องว่างที่ 0 ซึ่งถูกบดบังด้วยการทับซ้อนจำนวนมากและอาจทำให้เกิดจุดที่ซ้ำซ้อน คุ้มค่าที่จะติดตามต้นกำเนิดอย่างแน่นอนเพื่อดูว่าข้อมูลเป็นสิ่งที่เราคิดว่าเป็นอย่างไร
Wayne

2

มีข้อดีข้อเสียในการลบค่าผิดปกติและสร้างแบบจำลองสำหรับ "รูปแบบปกติ" เท่านั้น

  • ข้อดี: ประสิทธิภาพของโมเดลดีกว่า ปรีชาคือว่ามันยากมากที่จะใช้ ONE model ในการจับทั้ง "pattern ปกติ" และ "outlier pattern" ดังนั้นเราจึงลบค่าผิดปกติและพูดว่าเราสร้างแบบจำลองสำหรับ "รูปแบบปกติ" เท่านั้น

  • ข้อด้อย: เราจะไม่สามารถคาดการณ์ค่าผิดปกติได้ กล่าวอีกนัยหนึ่งคือสมมติว่าเราวางโมเดลของเราในการผลิตจะมีการคาดการณ์ที่ขาดหายไป

ฉันอยากจะแนะนำให้ลบค่าผิดปกติและสร้างแบบจำลองและหากเป็นไปได้ลองสร้างแบบแยกต่างหากสำหรับค่าเริ่มต้นเท่านั้น

สำหรับคำว่า "การโกง" หากคุณกำลังเขียนบทความและทำรายการอย่างชัดเจนว่าคุณจะกำหนดและลบค่าผิดปกติอย่างไรและการปรับปรุงที่กล่าวถึงนั้นเป็นข้อมูลที่สะอาดเท่านั้น มันไม่ได้โกง


3
ฉันไม่รังเกียจที่จะถูกลดระดับลง แต่มีคนบอกเหตุผลได้ไหม
Haitao Du

ฉันโหวตขึ้น :) คุณคิดว่ามันเป็นความคิดที่ดีที่จะลบค่าผิดปกติและจากนั้นทำการทดสอบข้อมูลอีกครั้งเพื่อทดสอบแบบจำลองการทำนายต่อไปหรือไม่?
renakre

1
@renakre ฉันอยากจะแนะนำให้คุณคิดเกี่ยวกับสิ่งที่ต้องทำในการผลิต สมมติว่าหากคุณพบว่าค่าเริ่มต้นมีเพียง 1% และเป็นเรื่องปกติที่จะไม่สร้างผลผลิตในการผลิต จากนั้นให้ลบออก หากคุณพบว่าค่าผิดปกติคือ 30% และไม่สามารถข้ามการคาดการณ์ในการผลิตได้ จากนั้นลองใช้โมเดลแยกต่างหาก
Haitao Du

เราส่วนใหญ่ทดสอบสิ่งต่าง ๆ เพื่อดูว่าเราสามารถทำนายตัวแปรผลลัพธ์บางอย่างได้หรือไม่ ไม่if it is fine to produce no output in productionได้หมายความว่าสิ่งเดียวกัน ดังนั้นหากเราเริ่มใช้แบบจำลองของเราในแอปพลิเคชันจริงเพื่อทดสอบตัวแปรผลลัพธ์และใช้คะแนนที่คาดการณ์ไว้ในแอปพลิเคชันมันจะไม่เป็นการดีที่จะลบค่าผิดปกติ (โดยเฉพาะอย่างยิ่ง นี่คือสิ่งที่คุณหมายถึง?
renakre

1
@renakre คุณตายไปแล้ว! นั่นคือสิ่งที่เราได้ทำเมื่อเร็ว ๆ นี้กับ AITOBOX ซึ่งข้อ จำกัด การคาดการณ์ไม่เพียงขึ้นอยู่กับน้ำหนัก psi แต่ข้อผิดพลาดที่สุ่มตัวอย่างอีกครั้งที่มีค่าผิดปกติ สิ่งนี้ทำไม่เพียง แต่สำหรับแบบจำลอง ARIMA เท่านั้น แต่ยังมีแบบจำลองเชิงสาเหตุที่ความไม่แน่นอนในตัวทำนายยังรวมอยู่ในแบบเดียวกัน
IrishStat

2

ฉันเชื่อว่ามีเหตุผลเท่านั้นที่จะลบค่าผิดปกติเมื่อมีเหตุผลเชิงคุณภาพที่ชัดเจนในการทำเช่นนั้น จากนี้ฉันหมายความว่ามีข้อมูลที่ตัวแปรอื่นที่ไม่ได้อยู่ในรูปแบบจะส่งผลกระทบต่อการสังเกตนอก จากนั้นหนึ่งมีตัวเลือกในการลบ outlier หรือเพิ่มตัวแปรเพิ่มเติม

ฉันพบว่าเมื่อฉันมีข้อสังเกตที่เกินขอบเขตในชุดข้อมูลของฉันโดยการศึกษาเพื่อพิจารณาว่าเหตุใดค่าที่มีอยู่จึงเรียนรู้เพิ่มเติมเกี่ยวกับข้อมูลของฉันและตัวแบบอื่น ๆ ที่เป็นไปได้ที่ต้องพิจารณา


1
ยินดีต้อนรับสู่ stats.SE! โปรดใช้เวลาสักครู่เพื่อดูของเราเกี่ยวกับการท่องเที่ยว มันจะมีประโยชน์ถ้าคุณขยายคำตอบของคุณเพื่อตอบคำถามอย่างเต็มที่มากขึ้น (เช่นการตัดสินใจนอกกรอบตามพล็อตบ็อตผลกระทบที่วิธีนี้อาจมีในตัวแบบการทำนาย & c.)
Tavrock

2

ฉันไม่เชื่อด้วยซ้ำว่าพวกเขาเป็น "คนผิด" คุณอาจต้องการสร้างพล็อตความน่าจะเป็นแบบปกติ พวกเขาเป็นข้อมูลหรือส่วนที่เหลือจากการติดตั้งแบบจำลองหรือไม่?


เป็นความแตกต่างระหว่างค่าที่คาดการณ์และค่าจริง
renakre
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.