จะทำการลบกรณีที่ถูกตั้งค่าสถานะเป็นค่าผิดปกติโดยซอฟต์แวร์ทางสถิติเมื่อทำการถดถอยหลายครั้งหรือไม่?


23

ฉันทำการวิเคราะห์การถดถอยหลายครั้งและฉันไม่แน่ใจว่าควรลบค่าผิดปกติในข้อมูลของฉันหรือไม่ ข้อมูลที่ฉันกังวลปรากฏเป็น "แวดวง" ในกล่องสี่เหลี่ยมของ SPSS อย่างไรก็ตามไม่มีเครื่องหมายดอกจัน (ซึ่งทำให้ฉันคิดว่าพวกเขาไม่ใช่ 'แย่') กรณีที่ฉันกังวลจะปรากฏภายใต้ตาราง "การวินิจฉัย casewise" ในผลลัพธ์ - ดังนั้นฉันควรลบกรณีเหล่านี้หรือไม่


ขอบคุณ Charlie และ Epigrad มาก คุณช่วยแนะนำกราฟที่ฉันใช้ในการประเมิน SPSS ว่ามีค่าผิดปกติหรือไม่? Scatterplot ดูยุ่งมาก! ฉันไม่มีปัญหาใด ๆ กับข้อมูลดังกล่าว (เช่นในพวกเขายังไม่ได้ป้อนอย่างไม่ถูกต้อง) ฉันแค่คิดว่าผู้เข้าร่วมของฉันบางคนมีคะแนนที่สูงขึ้นมากในระดับของฉันบางส่วนเช่นเพราะพวกเขาวิตกกังวลทางสังคมมากกว่า ส่วนที่เหลือของกลุ่มตัวอย่าง
Anon

3
คุณควรพล็อตค่าทำนายของ y (หนึ่งที่ได้รับตามรูปแบบที่คุณประเมิน) บนแกน x และส่วนที่เหลือในแกน y แทนที่จะเป็นค่าที่คาดการณ์ของ y คุณสามารถใส่หนึ่งในตัวทำนาย / ตัวแปรอิสระของคุณบนแกน x คุณสามารถสร้างแปลงได้หลายแปลงแต่ละอันมีตัวทำนายที่แตกต่างกันบนแกน x เพื่อดูว่าค่า x ใดที่นำไปสู่พฤติกรรมที่ผิดปกติ อีกครั้งฉันจะระมัดระวังไม่ให้มีการลบค่าผิดปกติ วิเคราะห์ว่าทำไมค่าผิดปกติจึงเกิดขึ้นแทน
ชาร์ลี

1
คำแถลงของชาร์ลีมันสะท้อนถึง "ทำไม" ที่สำคัญมากกว่า "ถ้า" และฉันก็จะเตือนพวกเขาให้ถอดถอน ฉันไม่คุ้นเคยกับ SPSS แต่คุณลักษณะอะไรก็ตามที่คุณใช้ในการดำเนินการถดถอยควรให้พล็อตเรื่องที่เหลือหรืออย่างน้อยมูลค่าของสิ่งที่คุณสามารถใช้ในการทำพล็อตที่ Charlie แนะนำ
Fomite

@Anon ฉันได้รวมบัญชีทั้งสองของคุณเข้าด้วยกัน กรุณาลงทะเบียนเพื่อให้คุณสามารถอัปเดตและ / หรือแสดงความคิดเห็นคำถามของคุณ
chl

3
@ user603 ไม่คุณอ่านไม่ถูกต้อง "Outlier" ไม่ได้มีความหมายอะไร - โดยเฉพาะเมื่อตั้งค่าสถานะโดยขั้นตอนอัตโนมัติในซอฟต์แวร์ทางสถิติ มีตัวอย่างมากมายของการค้นพบที่สำคัญของการศึกษาที่อยู่ใน "ค่าผิดปกติ" เมื่อใดก็ตามที่คุณมีข้อมูลที่คุณกำลังลบมันควรจะมีเหตุผล "พวกเขาไม่สะดวก" ไม่ใช่เหตุผล
Fomite

คำตอบ:


25

การตั้งค่าสถานะผิดปกติไม่ใช่การตัดสินใจ (หรือในกรณีใด ๆ ที่ไม่จำเป็นต้องเป็นหนึ่ง) ได้รับแบบจำลองทางสถิติค่าผิดปกติมีความแม่นยำนิยามวัตถุประสงค์: พวกเขามีข้อสังเกตที่ไม่ปฏิบัติตามรูปแบบของเสียงส่วนใหญ่ของข้อมูล การสังเกตดังกล่าวจะต้องแยกจากกันเมื่อเริ่มการวิเคราะห์ใด ๆ เพียงเพราะระยะห่างจากข้อมูลจำนวนมากทำให้มั่นใจได้ว่าพวกเขาจะออกแรงดึงที่ไม่สมสัดส่วนบนแบบจำลองหลายตัวแปรใด ๆ ที่เหมาะสมโดยความเป็นไปได้สูงสุด

มันเป็นเรื่องสำคัญที่จะต้องชี้ให้เห็นว่าตัวแปรที่หลากหลายนั้นไม่สามารถตรวจพบได้อย่างน่าเชื่อถือโดยใช้สิ่งตกค้างจากรูปสี่เหลี่ยมจัตุรัสที่น้อยที่สุด (หรือแบบจำลองอื่นใดที่ประมาณโดย ML หรือฟังก์ชันการสูญเสียแบบนูนอื่น ๆ ) เพียงแค่ใส่ค่าผิดปกติหลายตัวแปรสามารถตรวจพบได้อย่างน่าเชื่อถือโดยใช้ส่วนที่เหลือของพวกเขาจากรูปแบบการติดตั้งโดยใช้ขั้นตอนการประเมินที่ไม่ไวต่อการถูกอิทธิพลจากพวกเขา

ความเชื่อที่ว่าคนนอกจะจำเป็นต้องโดดเด่นในแบบคลาสสิกจัดอันดับที่ไหนสักแห่งกับคนอื่นยากที่จะหักล้างข้อมูลเชิงสถิติเช่นการตีความค่า p เป็นการวัดหลักฐานหรือการอนุมานจากประชากรจากตัวอย่างลำเอียง ยกเว้นบางทีว่าอันนี้อาจแก่กว่ามาก: เกาส์เองแนะนำให้ใช้ตัวประมาณที่แข็งแกร่งเช่นค่ามัธยฐานและค่าบ้า (แทนที่จะเป็นค่าเฉลี่ยคลาสสิกและค่าเบี่ยงเบนมาตรฐาน) เพื่อประมาณค่าพารามิเตอร์ของการแจกแจงแบบปกติจากการสังเกตที่มีเสียงดัง เท่าที่ได้รับปัจจัยความมั่นคงของคนบ้า (1)

เพื่อให้เป็นตัวอย่างภาพง่ายขึ้นอยู่กับข้อมูลจริงพิจารณาน่าอับอายข้อมูล CYG ดาว เส้นสีแดงที่นี่แสดงให้เห็นถึงรูปสี่เหลี่ยมจัตุรัสที่น้อยที่สุดเส้นสีฟ้าที่พอดีที่ได้รับโดยใช้ชุดการถดถอยเชิงเส้นที่มีประสิทธิภาพ ความพอดีที่นี่คือ FastLTS (2) fit ซึ่งเป็นทางเลือกแทน LS fit ที่สามารถใช้ในการตรวจจับค่าผิดปกติ (เพราะใช้ขั้นตอนการประมาณค่าที่ทำให้มั่นใจได้ว่าอิทธิพลของการสังเกตใด ๆ ที่มีต่อค่าสัมประสิทธิ์โดยประมาณ) รหัส R ที่จะทำซ้ำคือ:

library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)

ข้อมูล starsCYG

ที่น่าสนใจการสำรวจรอบด้านซ้ายทั้งสี่ด้านนั้นไม่ได้มีสิ่งตกค้างที่ใหญ่ที่สุดในส่วนของ LS fit และ QQ plot ของส่วนที่เหลือของ LS fit (หรือเครื่องมือวินิจฉัยใด ๆ ที่ได้มาจากพวกมันเช่นระยะห่างของ Cook หรือ dfbeta) ล้มเหลวในการแสดงว่ามีปัญหาใด ๆ นี่เป็นเรื่องปกติ: ไม่จำเป็นต้องมีค่าผิดปกติเกินสองตัว (ไม่คำนึงถึงขนาดตัวอย่าง) เพื่อดึงค่าประมาณ LS ในลักษณะที่ค่าผิดปกติจะไม่โดดเด่นในพล็อตที่เหลือ นี้เรียกว่าผลกำบังและเป็นเอกสารที่ดี บางทีสิ่งเดียวที่น่าทึ่งเกี่ยวกับชุดข้อมูล CYGstars ก็คือมันเป็นแบบ bivariate (ดังนั้นเราสามารถใช้การตรวจสอบด้วยตาเปล่าเพื่อยืนยันผลของการฟิตร่างกาย) และมีคำอธิบายที่ดีว่าทำไมการสังเกตทั้งสี่ทางซ้ายจึงผิดปกติ

นี่คือ btw ข้อยกเว้นมากกว่ากฎ: ยกเว้นในการศึกษานำร่องขนาดเล็กที่เกี่ยวข้องกับกลุ่มตัวอย่างขนาดเล็กและตัวแปรน้อยและที่บุคคลที่ทำการวิเคราะห์ทางสถิติมีส่วนร่วมในกระบวนการเก็บข้อมูลฉันไม่เคยพบกรณีที่ความเชื่อเดิมเกี่ยวกับ ตัวตนของผู้ผิดเป็นจริงจริง นี่คือวิธีที่เงียบสงบง่ายต่อการตรวจสอบ ไม่ว่าจะมีการระบุค่าผิดปกติโดยใช้อัลกอริธึมการตรวจหาค่าผิดปกติหรือความรู้สึกของลำไส้ของผู้วิจัยหรือไม่ค่าผิดปกตินั้นเกิดจากการสังเกตแบบนิยามที่มีค่าผิดปกติ (หรือ 'ดึง') มากกว่าค่าสัมประสิทธิ์ กล่าวอีกนัยหนึ่งค่าผิดปกติคือการสังเกตซึ่งการลบออกจากตัวอย่างควรส่งผลกระทบอย่างรุนแรงกับ LS

แม้ว่าฉันจะไม่เคยมีประสบการณ์นี้มาก่อน แต่ก็มีบางกรณีที่มีการบันทึกไว้อย่างดีในวรรณคดีซึ่งการสังเกตที่ทำเครื่องหมายเป็นค่าผิดปกติโดยอัลกอริทึมการตรวจจับค่าผิดปกตินั้นพบว่าเป็นข้อผิดพลาดขั้นต้น ไม่ว่าในกรณีใดก็ตามไม่รับประกันทางวิทยาศาสตร์และฉลาดพอที่จะลบค่าผิดปกติหากพวกเขาสามารถเข้าใจหรืออธิบายได้ ถ้าการสังเกตการณ์ขนาดเล็กนั้นถูกลบออกไปจากตัวหลักของข้อมูลที่มันสามารถดึงผลลัพธ์ของกระบวนการทางสถิติได้ด้วยตัวมันเองก็เป็นเรื่องที่ฉลาด (และฉันอาจเพิ่มความเป็นธรรมชาติ) เพื่อแยกมันออกจากกันโดยไม่คำนึงว่า ไม่ใช่จุดข้อมูลเหล่านี้ที่จะต้องสงสัยในบริเวณอื่น

(1): ดู Stephen M. Stigler, ประวัติความเป็นมาของสถิติ: การวัดความไม่แน่นอนก่อนปี 1900

(2): การคำนวณการถดถอย LTS สำหรับชุดข้อมูลขนาดใหญ่ (2006) PJ Rousseeuw, K. van Driessen

(3): วิธีวิเคราะห์หลายตัวแปรที่มีความทนทานสูง (2008) Hubert M. , Rousseeuw PJ และ Van Aelst S. ที่มา: นักสถิติ วิทย์ เล่มที่ 23, 92-119


6
นี่คือสิ่งที่ดี (+1) อย่างไรก็ตามฉันคิดว่าคุณใช้คำศัพท์ธรรมดาในทางที่ผิดและเลือกใช้ "ค่าผิดปกติ" ร่วมเพื่ออ้างถึง "การสังเกตที่มีอิทธิพล" แนวคิดมีทั้งคุณค่าและคุณปฏิบัติต่อสิ่งเหล่านี้ได้ดี แต่สิ่งเหล่านี้ไม่สามารถแลกเปลี่ยนกันได้อย่างที่คุณเห็น ตัวอย่างมีข้อสังเกตที่มีอิทธิพลที่เป็นที่สอดคล้องกับเสียงส่วนใหญ่ของข้อมูลที่จะพอดีกับตัวละครของคุณของ "ข้อสังเกตที่มีการใช้ประโยชน์จากความผิดปกติ (หรือ 'ดึง') มากกว่าค่าสัมประสิทธิ์ที่ได้รับจาก LS พอดี" แต่จะไม่ได้รับการพิจารณาโดยนักเขียนส่วนใหญ่ ที่จะเป็น "ผิดเพี้ยน" ต่อ se
whuber

2
@whuber: จุดดี แน่นอนฉันพิจารณาเช่นเดียวกับตำราเรียนล่าสุดเกี่ยวกับสถิติที่มีประสิทธิภาพ (ตัวอย่างเช่นสถิติที่แข็งแกร่ง: ทฤษฎีและวิธีการไวลีย์) การสังเกตเช่นนี้ (เรียกว่า 'คะแนนเลเวอเรจที่ดี') เป็นอันตราย เหตุผลก็คือพวกเขาทำให้ข้อผิดพลาดมาตรฐานของสัมประสิทธิ์โดยประมาณทำให้ผู้ใช้มั่นใจในความแข็งแกร่งของความสัมพันธ์ที่สังเกต พิจารณาจุดการใช้ประโยชน์ที่ดีเป็นค่าผิดปกตินอกจากนี้ยังทำให้วิธีการที่สอดคล้องกันมากขึ้นอย่างเป็นทางการ: หลังจากที่ทุกจุดที่ดีงัดทำมีอิทธิพลโคร่งใน SE ซึ่งเป็นส่วนประกอบของ LS A / ML พอดี
user603

3
+1 เป็นตัวอย่างที่ดีมาก ข้อมูลจริงที่แสดงให้เห็นถึงสองชุดที่เกือบจะตั้งฉากและที่สี่มีอิทธิพลอย่างมากในด้านซ้ายบนจะไม่เหลือส่วนที่ใหญ่ที่สุดหลังจากที่ OLS พอดี
Wayne

19

โดยทั่วไปฉันระมัดระวังในการลบ "ค่าผิดปกติ" การวิเคราะห์การถดถอยสามารถนำไปใช้ได้อย่างถูกต้องในการปรากฏตัวของข้อผิดพลาดที่ไม่ปกติกระจายข้อผิดพลาดที่แสดง heteroskedasticity หรือค่าของตัวทำนาย / ตัวแปรอิสระที่เป็น "ไกล" จากส่วนที่เหลือ ปัญหาที่แท้จริงของผู้ผิดคือพวกเขาไม่ทำตามตัวแบบเชิงเส้นที่จุดข้อมูลอื่น ๆ คุณจะรู้ได้อย่างไรว่านี่เป็นกรณี? คุณทำไม่ได้

หากมีสิ่งใดคุณไม่ต้องการค้นหาค่าของตัวแปรที่เป็นค่าผิดปกติ แต่คุณต้องการค้นหาค่าของเงินคงเหลือที่เป็นค่าผิดปกติแทน ดูจุดข้อมูลเหล่านี้ ตัวแปรของพวกเขาถูกบันทึกอย่างถูกต้องหรือไม่? มีเหตุผลใดที่พวกเขาจะไม่ปฏิบัติตามรูปแบบเดียวกันกับข้อมูลส่วนที่เหลือของคุณหรือไม่

แน่นอนเหตุผลที่การสังเกตเหล่านี้อาจปรากฏเป็นค่าผิดปกติ (ตามการวินิจฉัยส่วนที่เหลือ) อาจเป็นเพราะโมเดลของคุณผิด ฉันมีศาสตราจารย์คนหนึ่งที่ชอบพูดว่าถ้าเราทิ้งคนนอกเรายังเชื่อว่าดาวเคราะห์หมุนรอบดวงอาทิตย์ในวงกลมที่สมบูรณ์แบบ เคปเลอร์อาจโยนดาวอังคารออกไปและเรื่องราววงโคจรทรงกลมก็ดูดีทีเดียว ดาวอังคารให้ข้อมูลเชิงลึกที่สำคัญว่าแบบจำลองนี้ไม่ถูกต้องและเขาจะพลาดผลลัพธ์นี้หากเขาไม่สนใจดาวเคราะห์ดวงนั้น

คุณพูดถึงว่าการลบค่าผิดปกตินั้นจะไม่เปลี่ยนแปลงผลลัพธ์ของคุณอย่างมาก อาจเป็นเพราะคุณมีจำนวนการสังเกตที่น้อยมากที่คุณลบออกเมื่อเทียบกับตัวอย่างของคุณหรือมีความสอดคล้องกับแบบจำลองของคุณอย่างสมเหตุสมผล สิ่งนี้อาจชี้ให้เห็นว่าในขณะที่ตัวแปรเองอาจดูแตกต่างจากส่วนที่เหลือ แต่ส่วนที่เหลือจะไม่โดดเด่น ฉันจะปล่อยให้พวกเขาเข้าและไม่พยายามที่จะปรับการตัดสินใจของฉันที่จะลบบางจุดให้กับนักวิจารณ์ของฉัน


6
+1 อย่าโยนข้อมูลทิ้งเพราะสิ่งสำคัญ ค้นหาสาเหตุที่ข้อมูลบางอย่างอยู่ห่างไกล
Fomite

2
นี่เป็นคำแนะนำที่แย่มาก เป็นเรื่องธรรมดามากที่ผู้ผิดจะอยู่ห่างจากส่วนที่เหลือของข้อมูลเพื่อดึงสายการถดถอยเข้าหาพวกเขาในลักษณะที่พวกเขาจะไม่โดดเด่นในพล็อตที่เหลือ (หรือเลวร้ายที่สุด: ให้ส่วนที่เหลือจำนวนมากสำหรับของแท้ จุดข้อมูล). ในความเป็นจริงมันสามารถแสดงให้เห็นว่าทันทีที่คุณมีมากกว่าหนึ่งครั้งเดียวก็ไม่สามารถตรวจพบได้อย่างน่าเชื่อถือโดยใช้พล็อตที่เหลือจากการถดถอยแบบดั้งเดิม สิ่งนี้เรียกว่าเอฟเฟ็กต์การพรางแสงและฉันบันทึกไว้เป็นอย่างดีในตัวอย่างข้อมูลจริงจำนวนมาก
user603

โดยวิธีการนี่คือเหตุผลที่ฉันหลีกเลี่ยงการใช้ตัวอย่าง Mars: มันแสดงให้เห็นถึงขั้นตอนที่ใช้งานได้เฉพาะถ้าคุณกำลังจัดการกับค่าเดียว ในแอปพลิเคชันส่วนใหญ่ไม่มีการรับประกันดังกล่าว มันให้ความรู้สึกผิดในความเชื่อมั่นในวิธีการที่มีข้อบกพร่องโดยทั่วไป (ซึ่งในฐานะนักสถิติเป็นสิ่งที่เราควรเจริญเติบโตเพื่อป้องกัน)
user603

15

+1 ถึง @Charlie และ @PeterFlom; คุณได้รับข้อมูลที่ดีที่นั่น บางทีฉันสามารถมีส่วนร่วมเล็ก ๆ ที่นี่โดยการท้าทายหลักฐานของคำถาม Boxplotจะมัก (ซอฟต์แวร์สามารถแตกต่างกันและผมไม่ทราบว่าสิ่งที่จะทำ SPSS) จุดฉลากมากกว่า 1.5 เท่า Inter-Quartile ช่วงดังกล่าวข้างต้น (ด้านล่าง) ที่สาม (ตอนแรก) ควอไทล์เป็น 'ผิดปกติ' อย่างไรก็ตามเราสามารถถามความถี่ที่เราควรคาดหวังว่าจะพบจุดดังกล่าวอย่างน้อยหนึ่งจุดเมื่อเรารู้ว่าทุกจุดมาจากการกระจายแบบเดียวกัน การจำลองอย่างง่ายสามารถช่วยเราตอบคำถามนี้:

set.seed(999)                                     # this makes the sim reproducable

outVector = vector(length=10000)                  # to store the results
N = 100                                           # amount of data per sample

for(i in 1:10000){                                # repeating 10k times
  X = rnorm(N)                                    # draw normal sample
  bp = boxplot(X, plot=FALSE)                     # make boxplot
  outVector[i] = ifelse(length(bp$out)!=0, 1, 0)  # if there are 'outliers', 1, else 0
}

mean(outVector)                                   # the % of cases w/ >0 'outliers'
[1] 0.5209

สิ่งนี้แสดงให้เห็นว่าคะแนนดังกล่าวสามารถเกิดขึ้นได้ตามปกติ (> 50% ของเวลา) พร้อมตัวอย่างขนาด 100 แม้ว่าจะไม่มีอะไรผิดปกติก็ตาม ตามประโยคสุดท้ายที่บอกไว้ความน่าจะเป็นในการค้นหา 'ค่าผิดเพี้ยน' ผ่านกลยุทธ์ boxplot จะขึ้นอยู่กับขนาดตัวอย่าง:

   N    probability
  10    [1] 0.2030
  50    [1] 0.3639
 100    [1] 0.5209
 500    [1] 0.9526
1000    [1] 0.9974

มีกลยุทธ์อื่น ๆ สำหรับการระบุค่าผิดปกติโดยอัตโนมัติ แต่บางครั้งวิธีดังกล่าวจะทำให้คะแนนที่ถูกต้องเป็น 'ผิดพลาด' และบางครั้งอาจระบุค่าผิดพลาดที่แท้จริงเป็น 'คะแนนที่ถูกต้อง' (คุณสามารถคิดว่าสิ่งเหล่านี้เป็นข้อผิดพลาดประเภท I และ type II ) การคิดเกี่ยวกับปัญหานี้ (สำหรับสิ่งที่คุ้มค่า) คือการมุ่งเน้นไปที่ผลกระทบของการรวม / ไม่รวมประเด็นที่เป็นปัญหา หากเป้าหมายของคุณคือการทำนายคุณสามารถใช้การตรวจสอบความถูกต้องไขว้เพื่อกำหนดว่า / รวมคะแนนที่มีปัญหาเพิ่มรากค่าเฉลี่ยของข้อผิดพลาดกำลังสองของการทำนายหรือไม่ หากเป้าหมายของคุณคือคำอธิบายคุณสามารถดูdfBeta(กล่าวคือดูว่าค่าประมาณเบต้าของแบบจำลองของคุณเปลี่ยนไปโดยขึ้นอยู่กับว่าประเด็นนั้นมีอยู่หรือไม่) อีกมุมมองหนึ่ง (ที่ดีที่สุดคือเนื้อหา) คือการหลีกเลี่ยงการเลือกว่าควรจะโยนคะแนนผิดปกติหรือไม่และใช้การวิเคราะห์ที่มีประสิทธิภาพแทน


ขั้นตอนที่คุณแนะนำจะใช้งานได้อย่างน่าเชื่อถือหากมีค่าที่เกินขอบเขตเดียว (โดยไม่คำนึงถึงขนาดของชุดข้อมูลของคุณ) ซึ่งเป็นข้อสมมติที่ไม่สมจริง Tukey ปรับกฎของมัสสุให้ยกเว้น 1% ของการสำรวจที่ปลายแต่ละด้านถ้าดึงข้อมูลจากการแจกแจงแบบเกาส์ แบบจำลองของคุณยืนยันว่า ความเห็นของ Tukey คือการสูญเสียที่เกิดจากการไม่สนใจข้อมูลส่วนน้อยในกรณีที่การสังเกตนั้นมีพฤติกรรมที่ดีสำหรับความกังวลในทางปฏิบัติทั้งหมด พิเศษเกี่ยวกับผลประโยชน์ในกรณีที่ข้อมูลไม่ได้
user603

2
ขอบคุณสำหรับความคิดเห็นของคุณ @ user603; นั่นคือตำแหน่งที่กระตุ้นความคิด ขั้นตอนใดที่ฉันแนะนำให้คุณคัดค้าน: การใช้เช่น dfbeta เพื่อตรวจหาค่าผิดปกติที่เป็นไปได้หรือการใช้การวิเคราะห์ที่มีประสิทธิภาพ (ต้นแบบของ Tukey bisquare เป็นฟังก์ชันการสูญเสียทางเลือก) เป็นการป้องกันอิทธิพลของพวกเขาแทนที่จะเลือกจุดข้อมูลใด
gung - Reinstate Monica

ขอบคุณที่ชี้ให้เห็นว่าการขาดความชัดเจนในความคิดเห็นของฉัน (ฉันถูก จำกัด ด้วยความยาวสูงสุด) แน่นอนฉันหมายถึงเฉพาะคนแรก: dfbetaและการตรวจสอบข้าม (หลังเป็นปัญหาเฉพาะในกรณีที่การสังเกตที่ใช้ในการดำเนินการตรวจสอบข้ามจะถูกสุ่มจากตัวอย่างเดิมตัวอย่างของกรณีที่การตรวจสอบข้ามสามารถใช้จะ อยู่ในการตั้งค่าการควบคุมคุณภาพที่ซึ่งการสังเกตที่ใช้สำหรับการทดสอบนั้นมาจากตัวอย่างที่แยกจากกันชั่วคราว
user603

ขอบคุณสำหรับการชี้แจง, @ user603 ฉันจะต้องเล่นด้วยความคิดเหล่านี้เพื่อทำความเข้าใจให้ละเอียดยิ่งขึ้น สัญชาตญาณของฉันคือว่ามันค่อนข้างยากที่จะไม่สังเกตเห็นค่าผิดปกติที่บิดเบือนผลลัพธ์ของคุณ ดูเหมือนว่าคุณจะต้องมีผู้ผิดเพี้ยนบิดเบือนผลลัพธ์ของคุณทั้งสองด้านเท่า ๆ กันซึ่งในกรณีนี้ betas ของคุณจะจบลงด้วยความเป็นกลางโดยประมาณและผลลัพธ์ของคุณก็จะ 'สำคัญ' น้อยกว่า
gung - Reinstate Monica

1
สัญชาตญาณของฉันคือว่ามันค่อนข้างยากที่จะไม่สังเกตเห็นค่าผิดปกติที่บิดเบือนผลลัพธ์ของคุณแต่น่าเสียดายที่ความจริงก็คือมันไม่ได้เป็นเช่นนั้น ดูตัวอย่างที่ฉันให้ไว้ในคำตอบด้วย
user603

12

คุณควรดูที่เนื้อเรื่องของสิ่งที่เหลืออยู่ก่อน: พวกมันติดตามการกระจายตัวแบบปกติหรือไม่? พวกเขาแสดงสัญญาณของความแตกต่าง heteroskedasticity? ดูแปลงอื่น ๆ ด้วย (ฉันไม่ใช้ SPSS ดังนั้นไม่สามารถพูดได้อย่างแน่นอนว่าจะทำอย่างไรในโปรแกรมนั้นและไม่ได้ใช้ boxplots ที่คุณกำลังดูอยู่อย่างไรก็ตามมันยากที่จะจินตนาการว่าเครื่องหมายดอกจันแปลว่า "ไม่แย่" พวกเขาอาจหมายถึง ว่าสิ่งเหล่านี้เป็นจุดที่ผิดปกติอย่างมากโดยเกณฑ์บางอย่าง)

จากนั้นหากคุณมีค่าผิดปกติให้ดูที่พวกเขาและพยายามหาสาเหตุ

จากนั้นคุณสามารถลองถดถอยด้วยและไม่มีค่าผิดปกติ หากผลลัพธ์นั้นคล้ายคลึงกันชีวิตก็ดี รายงานผลเต็มรูปแบบด้วยเชิงอรรถ หากไม่เหมือนกันคุณควรอธิบายการถดถอยทั้งสอง


1
ขอบคุณมากปีเตอร์ ฉันได้ตรวจสอบแปลง QQ และข้อมูลดูเหมือนจะไม่ได้อยู่ในสภาพที่ไม่ปกติ เมื่อฉันลบค่าผิดปกติพวกเขาดูเหมือนจะไม่ได้สร้างความแตกต่างให้กับผลลัพธ์มากนัก ดังนั้นฉันควรทิ้งพวกเขาไว้หรือไม่ ฉันจะยังคงสนใจที่จะรับฟังความคิดเห็นของผู้อื่นในตารางการวินิจฉัยแบบ casewise ใน SPSS ขอบคุณมาก.
Anon

1
ใช่แล้วฉันจะปล่อยพวกเขาไว้ในเชิงอรรถเช่น "การวิเคราะห์ด้วยการลบค่าผิดพลาดหลายรายการแสดงผลลัพธ์ที่คล้ายกันมาก"
Peter Flom - Reinstate Monica

2
แม้จะสมมติว่าใคร ๆ สามารถหาคนผิดได้โดยใช้ขั้นตอนดังกล่าว (และส่วนใหญ่แล้วก็ทำไม่ได้ ) ที่ยังคงไม่ได้รับการแก้ไขปัญหาที่ต้องทำเมื่อคุณไม่สามารถ "เข้าใจ" / อธิบายคนผิดได้ ฉันสองคำแนะนำเพื่อให้ชัดเจนของ SPSS -
user603
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.