ความหมายที่แม่นยำและการเปรียบเทียบระหว่างจุดที่มีอิทธิพลจุดยกระดับสูงและค่าผิดปกติ?


15

จากวิกิพีเดีย

การสังเกตที่มีอิทธิพลคือการสังเกตที่มีผลกระทบค่อนข้างมากต่อการทำนายของตัวแบบการถดถอย

จากวิกิพีเดีย

คะแนนการใช้ประโยชน์คือการสังเกตเหล่านั้นถ้าทำที่ค่าสุดขีดหรือค่าที่อยู่ภายนอกของตัวแปรอิสระเช่นการขาดการสังเกตที่อยู่ใกล้เคียงหมายความว่าแบบจำลองการถดถอยที่เหมาะสมจะผ่านเข้าใกล้การสังเกตนั้น

ทำไมการเปรียบเทียบดังต่อไปนี้จาก Wikipedia

แม้ว่าจะเป็นจุดที่มีอิทธิพลโดยทั่วไปแล้วจะมีการยกระดับสูงซึ่งเป็นจุดที่ยกระดับสูงไม่จำเป็นต้องเป็นจุดที่มีอิทธิพล


2
คำตอบด้านล่างนั้นดี นอกจากนี้ยังอาจช่วยให้การอ่านคำตอบของฉันที่นี่: ล่าม plot.lm ()
gung - Reinstate Monica

คำตอบ:


13

ลองจินตนาการถึงเส้นการถดถอยที่พอดีกับข้อมูลบางอย่าง

ทีนี้ลองนึกถึงจุดข้อมูลเพิ่มเติมระยะห่างที่ห่างจากตัวหลักของข้อมูล แต่มีจุดหนึ่งที่อยู่ที่ไหนสักแห่งตามแนวการถดถอยนั้น

หากต้องนำบรรทัดการถดถอยมาใช้ใหม่ค่าสัมประสิทธิ์จะไม่เปลี่ยนแปลง ในทางกลับกันการลบค่าผิดปกติพิเศษจะไม่มีผลต่อสัมประสิทธิ์

ดังนั้นจุดนอกหรือจุดงัดจะมีอิทธิพลเป็นศูนย์ถ้ามันสอดคล้องอย่างสมบูรณ์กับส่วนที่เหลือของข้อมูลและรูปแบบที่เหลือหมายถึง

สำหรับ "line" read "plane" หรือ "hyperplane" หากต้องการ แต่ตัวอย่างที่ง่ายที่สุดของตัวแปรสองตัวและพล็อตกระจายที่เพียงพอ

อย่างไรก็ตามในขณะที่คุณชื่นชอบคำจำกัดความ - บ่อยครั้งที่ดูเหมือนว่ามีแนวโน้มที่จะอ่านมากเกินไป - นี่คือคำจำกัดความของค่าผิดปกติที่ฉันชอบ:

"Outliers เป็นค่าตัวอย่างที่ทำให้เกิดความประหลาดใจเมื่อเทียบกับกลุ่มตัวอย่างส่วนใหญ่" (WN Venables และ BD Ripley 2002 สถิติที่ใช้ในปัจจุบันกับ S. New York: Springer, p.119)

สิ่งที่สำคัญอย่างยิ่งคือความประหลาดใจที่อยู่ในใจของผู้ดูและขึ้นอยู่กับรูปแบบของข้อมูลโดยปริยายหรือชัดเจน อาจมีรูปแบบอื่นภายใต้ค่าผิดปกติที่ไม่น่าแปลกใจเลยถ้าข้อมูลจริงๆเป็น lognormal หรือ gamma มากกว่าปกติ

ป.ล. ฉันไม่คิดว่าคะแนนยกระดับจำเป็นต้องขาดการสังเกตใกล้เคียง ตัวอย่างเช่นพวกเขาอาจเกิดขึ้นเป็นคู่


ขอบคุณ! ค่าผิดปกติและค่างัดสูงนั้นเป็นแนวคิดเดียวกันหรือไม่? โปรดทราบว่า "เลเวอเรจนั้นถูกกำหนดให้เป็นแนวทแยงของเมทริกซ์ของหมวก" จากen.wikipedia.org/wiki/Partial_leverage
ทิม

1
ไม่มี คุณไม่ได้แสดงคำจำกัดความของ "ค่าใช้จ่าย" แต่ให้เป็นไปตามคำจำกัดความของคะแนนการใช้ประโยชน์ที่พวกเขาไม่จำเป็นต้องเป็นsensu Venables และ Ripley ค่าผิดปกติ (ฉันแนะนำให้พยายามหย่านมตัวเองใน Wikipedia) ดูคำตอบของ @ Gael
Nick Cox

1
"สิ่งสำคัญที่สุดคือความประหลาดใจที่อยู่ในใจของคนดูและขึ้นอยู่กับรูปแบบของข้อมูลโดยปริยายหรือโดยชัดแจ้งอาจมีรูปแบบอื่นที่ค่าผิดปกติไม่น่าแปลกใจเลยถ้าข้อมูลจริง lognormal หรือแกมมามากกว่า ปกติ." ดังนั้นค่าผิดปกติจึงถูกกำหนดให้กับรุ่นบางรุ่นในขณะที่คะแนนเลเวอเรจสูงและคะแนนที่มีอิทธิพลไม่ใช่?
ทิม

1
Venables และ Ripley เป็นในขณะที่ฉันอ่านทำให้เป็นจุดอัจฉริยะในลักษณะที่มีไหวพริบและได้ทำลายความคิดที่ไร้เดียงสาว่าค่าผิดปกติสามารถกำหนดโดยคำสั่งที่เป็นทางการที่แน่นอน แต่การรักษาอื่น ๆ สามารถพบได้ในรูปแบบที่แตกต่างกัน ในทางตรงกันข้ามการใช้ประโยชน์และอิทธิพลนั้นสามารถกำหนดได้อย่างเป็นทางการในรูปแบบของวิธีการวัด รูปแบบการใช้คำศัพท์สองรูปแบบไม่สอดคล้องกันจริงๆ เพื่อให้ได้แนวคิดที่ดีขึ้นเกี่ยวกับค่าผิดปกติและไม่ใช่ประสบการณ์การวิเคราะห์ข้อมูลจริงจะสอนมากกว่าการอ่านรายการสารานุกรม
Nick Cox

Gael อ้างถึงความคิดเห็นที่ 29 กรกฎาคม 2013 ขณะนี้ใช้ตัวระบุ @Gala ในขณะที่เขียนมีเพียงคำตอบเดียวเท่านั้น แต่อาจมีการเปลี่ยนแปลง
Nick Cox

20

มันง่ายที่จะแสดงให้เห็นว่าจุดยกระดับสูงอาจไม่มีอิทธิพลในกรณีของตัวแบบเชิงเส้นอย่างง่าย:

เลเวอเรจสูง แต่ไม่ชี้ถึงจุดที่มีอิทธิพลมากเกินไป

เส้นสีน้ำเงินเป็นเส้นถดถอยตามข้อมูลทั้งหมดเส้นสีแดงจะไม่สนใจจุดที่มุมขวาบนของพล็อต

จุดนี้เหมาะกับนิยามของจุดยกระดับสูงที่คุณให้ไว้เนื่องจากอยู่ไกลจากส่วนที่เหลือของข้อมูล เพราะเหตุนั้นเส้นถดถอย (เส้นสีน้ำเงิน) จึงต้องผ่านเข้าใกล้มัน แต่เนื่องจากตำแหน่งของมันเหมาะสมกับรูปแบบที่สังเกตได้ในส่วนที่เหลือของข้อมูลโมเดลอื่น ๆ จึงทำนายได้ดีมาก (เช่นเส้นสีแดงผ่านเข้าไปใกล้กับมันไม่ว่าในกรณีใด) และดังนั้นจึงไม่มีอิทธิพลโดยเฉพาะ

เปรียบเทียบสิ่งนี้กับ scatterplot ต่อไปนี้:

เลเวอเรจสูงจุดที่มีอิทธิพลสูง

ที่นี่จุดทางด้านขวาของพล็อตยังคงเป็นจุดยกระดับสูง แต่คราวนี้มันไม่พอดีกับรูปแบบที่สังเกตได้ในส่วนที่เหลือของข้อมูล เส้นสีน้ำเงิน (เส้นตรงที่ยึดตามข้อมูลทั้งหมด) ผ่านไปใกล้มาก แต่เส้นสีแดงไม่ได้ การรวมหรือไม่รวมจุดนี้จะเปลี่ยนแปลงการประมาณค่าพารามิเตอร์อย่างมาก: มีอิทธิพลมาก

โปรดทราบว่าคำจำกัดความที่คุณอ้างถึงและตัวอย่างที่ฉันเพิ่งให้อาจดูเหมือนเป็นการบ่งบอกว่าคะแนนยกระดับ / ผู้มีอิทธิพลในระดับสูงนั้นในแง่หนึ่งก็คือ "ค่าผิดปกติ" ที่แยกจากกันและเส้นถดถอยที่ติดตั้งจะผ่านจุดที่มีอิทธิพลสูงสุด ไม่เป็นกรณี

จุดซ่อนเร้นที่มีอิทธิพลสูง

ในตัวอย่างสุดท้ายนี้การสังเกตที่มุมล่างขวามีเอฟเฟกต์ค่อนข้างมาก (พอดี) ของแบบจำลอง (มองเห็นได้อีกครั้งผ่านความแตกต่างระหว่างเส้นสีแดงและเส้นสีฟ้า) แต่มันก็ดูเหมือนจะอยู่ห่างจากเส้นถดถอย ในขณะที่ตรวจไม่พบในการแจกแจงแบบไม่แปร (แสดงโดย "พรม" ตามแกน)


ขอบคุณ! จุดยกระดับสูงที่เราใช้ตรงนี้สอดคล้องกับ "leverage ถูกกำหนดให้เป็นเส้นทแยงมุมของหมวกเมทริกซ์" จากen.wikipedia.org/wiki/Partial_leverageหรือไม่
ทิม

คำอธิบายที่ยอดเยี่ยม ขอขอบคุณอย่างสูงหากคุณให้ข้อมูลทั้งสามกรณี ขอบคุณ
MYaseen208
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.