ส่วนที่เหลือที่มีอิทธิพลกับค่าผิดปกติ


10

อันดับแรกฉันควรระบุว่าฉันได้ค้นหาคำตอบในเว็บไซต์นี้ ฉันไม่พบคำถามที่ตอบคำถามหรือระดับความรู้ของฉันต่ำมากฉันไม่ทราบว่าฉันได้อ่านคำตอบแล้ว

ฉันกำลังศึกษาเพื่อสอบสถิติ AP ฉันต้องเรียนรู้การถดถอยเชิงเส้นและหนึ่งในหัวข้อคือส่วนที่เหลือ ฉันมีสำเนาของข้อมูลเบื้องต้นเกี่ยวกับสถิติและการวิเคราะห์ข้อมูลในหน้า 253

จุดที่ผิดปกติในชุดข้อมูล bivariate คือจุดที่หลุดออกจากจุดอื่น ๆ ส่วนใหญ่ใน scatterplot ในทิศทางหรือทิศทางxy

การสังเกตอาจเป็นการสังเกตที่มีอิทธิพลถ้ามันมีค่าที่อยู่ห่างจากข้อมูลที่เหลือ (แยกออกจากส่วนที่เหลือของข้อมูลในทิศทาง ) ในการตรวจสอบว่าการสังเกตนั้นมีอิทธิพลจริงหรือไม่เราประเมินว่าการลบการสังเกตนี้มีผลกระทบอย่างมากต่อมูลค่าของความชันหรือจุดตัดของเส้นที่มีกำลังสองน้อยที่สุดหรือไม่xx

การสังเกตเป็นค่าผิดปกติหากมีสิ่งตกค้างขนาดใหญ่ การสังเกตการณ์ในระยะไกลอยู่ห่างจากเส้นที่มีกำลังสองน้อยที่สุดไปในทิศทางy

Stattreck.comระบุสี่วิธีในการกำหนดค่าผิดพลาดจากสิ่งตกค้าง:

จุดข้อมูลที่แตกต่างกันอย่างมากจากรูปแบบโดยรวมเรียกว่าค่าผิดปกติ มีสี่วิธีที่จุดข้อมูลอาจถูกพิจารณาว่าผิดปกติ

  1. มันอาจมีค่า X มากเมื่อเปรียบเทียบกับจุดข้อมูลอื่น
  2. มันอาจมีค่า Y มากเมื่อเปรียบเทียบกับจุดข้อมูลอื่น
  3. มันอาจมีค่า X และ Y มาก
  4. อาจอยู่ห่างจากข้อมูลที่เหลือแม้ไม่มีค่า X หรือ Y มาก

แหล่งที่มาทั้งสองนี้ดูเหมือนจะขัดแย้งกัน ใครสามารถช่วยกำจัดความสับสนของฉัน นอกจากนี้หนึ่งจะกำหนดวิธีการที่รุนแรง สถิติ AP ใช้กฎหากจุดข้อมูลอยู่นอก (Q1-1.5IQR, Q3 + 1.5IQR) ซึ่งเป็นค่าที่ผิดปกติ ฉันไม่รู้ว่าจะใช้มันอย่างไรจากกราฟที่เหลืออยู่

คำตอบ:


5

ไซต์ stattrek ดูเหมือนจะมีคำอธิบายที่ดีกว่าเกี่ยวกับค่าผิดปกติและคะแนนที่มีอิทธิพลมากกว่าตำราเรียนของคุณ แต่คุณได้อ้างข้อความสั้น ๆ ที่อาจทำให้เข้าใจผิด ฉันไม่มีหนังสือเล่มนั้นดังนั้นฉันจึงไม่สามารถตรวจสอบได้ในบริบท โปรดจำไว้ว่าตำราเรียนที่คุณยกมาพูดว่า "เป็นไปได้" มันไม่ได้พิเศษอย่างใดอย่างหนึ่ง เมื่อคำนึงถึงประเด็นเหล่านั้นแล้ว stattrek และหนังสือของคุณไม่จำเป็นต้องขัดแย้งกัน แต่ดูเหมือนว่าหนังสือของคุณจะทำให้เข้าใจผิดในแง่ที่ว่ามันหมายถึง (จากข้อความสั้น ๆ นี้) ว่าความแตกต่างเพียงอย่างเดียวระหว่างค่าผิดปกติและจุดที่มีอิทธิพลคือว่าพวกมันเบี่ยงเบนไปบนแกน x หรือ y มันไม่ถูกต้อง

"กฎ" สำหรับค่าผิดปกติแตกต่างกันไปตามบริบท กฎที่คุณอ้างถึงเป็นเพียงกฎของหัวแม่มือและใช่ไม่ได้ออกแบบมาสำหรับการถดถอยจริง ๆ มีวิธีการใช้งานไม่กี่วิธี มันอาจจะง่ายกว่าที่จะมองเห็นถ้าคุณจินตนาการค่า y หลายค่าในแต่ละ x และตรวจสอบค่าส่วนที่เหลือ ตัวอย่างการถดถอยของตำราเรียนทั่วไปนั้นง่ายเกินไปที่จะดูว่ากฎนอกนั้นอาจใช้งานได้อย่างไรและในกรณีส่วนใหญ่มันไร้ประโยชน์เลยทีเดียว หวังว่าในชีวิตจริงคุณเก็บรวบรวมข้อมูลได้มากขึ้น หากจำเป็นที่คุณอาจต้องใช้กฎ quantile สำหรับค่าผิดปกติกับปัญหาการถดถอยพวกเขาควรจะให้ข้อมูลที่เหมาะสม


ขอบคุณสำหรับคำตอบมันน่ารำคาญที่หนังสือหลายเล่มพยายามระบุกฎเหล่านี้โดยไม่บอกว่าจริง ๆ แล้วมันขึ้นอยู่กับข้อมูลตามที่คุณพูด
MaoYiyi

1
ที่จริงฉันพูดผิดเช่นกัน ... มันขึ้นอยู่กับทฤษฎีวิธีการและข้อมูล ... การศึกษาทั้งหมด
John

5

ฉันเห็นด้วยกับจอห์น นี่คือจุดอีกไม่กี่ การสังเกตที่ทรงอิทธิพลคือสิ่งที่มีอิทธิพลต่อการประมาณค่าพารามิเตอร์ ค่าเบี่ยงเบนเล็ก ๆ ในค่า Y ให้การเปลี่ยนแปลงใหญ่ในพารามิเตอร์เบต้าโดยประมาณ ในการถดถอยอย่างง่ายของตัวแปร 1 ตัวกับอีกตัวแปรที่มีอิทธิพลนั้นเป็นตัวแปรที่มีค่า X อยู่ไกลจากค่าเฉลี่ยของ X ในการถดถอยหลายครั้ง (ตัวแปรอิสระหลายตัว) สถานการณ์มีความซับซ้อนมากขึ้น คุณต้องดูเส้นทแยงมุมของหมวกเมทริกซ์ที่เรียกว่าและซอฟต์แวร์การถดถอยจะให้สิ่งนี้กับคุณ Google "ยกระดับ"X(XX)1X

Influence เป็นฟังก์ชั่นของจุดการออกแบบ (ค่า X) ตามตำราเรียนของคุณ

โปรดทราบว่าอิทธิพลคือพลัง ในการทดสอบที่ออกแบบมาคุณต้องการค่า X ที่มีอิทธิพลโดยสมมติว่าคุณสามารถวัดค่า Y ที่สอดคล้องกันได้อย่างถูกต้อง คุณได้รับผลตอบแทนมากขึ้นสำหรับเจ้าชู้ด้วยวิธีนี้

สำหรับฉันแล้วค่าผิดปกตินั้นเป็นความผิดพลาด - นั่นคือการสังเกตที่ไม่เป็นไปตามรูปแบบเดียวกันกับส่วนที่เหลือของข้อมูล สิ่งนี้อาจเกิดขึ้นเนื่องจากข้อผิดพลาดในการรวบรวมข้อมูลหรือเนื่องจากเรื่องนั้น ๆ ผิดปกติอย่างใด

ฉันไม่ชอบคำจำกัดความของ stattrek มากเกินไปด้วยเหตุผลหลายประการ การถดถอยนั้นไม่สมมาตรใน Y และ X. Y ถูกสร้างแบบจำลองเป็นตัวแปรสุ่มและ X จะถือว่าเป็นค่าคงที่และเป็นที่รู้จัก ความแปลกประหลาดในตัว Y นั้นไม่เหมือนกับความแปลกในตัว X อิทธิพลและค่าผิดปกติหมายถึงสิ่งต่าง ๆ ไม่มีการตรวจพบอิทธิพลในการถดถอยหลายครั้งโดยดูที่แปลงที่เหลือ คำอธิบายที่ดีเกี่ยวกับค่าผิดปกติและอิทธิพลสำหรับกรณีตัวแปรเดียวควรตั้งค่าให้คุณเข้าใจหลายกรณีเช่นกัน

ฉันไม่ชอบตำราเรียนของคุณมากขึ้นด้วยเหตุผลที่จอห์นให้

บรรทัดล่างค่าผิดปกติที่มีอิทธิพลเป็นอันตราย พวกเขาจะต้องตรวจสอบอย่างใกล้ชิดและจัดการกับ


คุณไม่ชอบคำอธิบายการถดถอยของ stattrek นั้นเหมาะสมถ้าคุณมาจากพื้นหลังที่การทดลองจริงเป็นบรรทัดฐาน เหตุผลของคุณทั้งหมดนำไปใช้ที่นั่น แต่ถ้าคุณมาจากพื้นหลังที่มีการออกแบบเสมือนทดลองมากกว่าไซต์ stattrek นั้นมีความเกี่ยวข้องมากกว่า ในกรณีเหล่านั้นค่า x และ y มักจะเป็นเพียงตัวอย่างแบบสุ่ม
John

@ John วิธีการเกี่ยวกับพื้นหลังของที่ต้องการผ่านการสอบสถิติ AP หรือไม่ การออกแบบกึ่งทดลองคืออะไร นั่นคือการใช้ตารางตัวเลขแบบสุ่มสำหรับการจำลองหรือไม่?
MaoYiyi

1
ฉันไม่รู้อะไรเลยเกี่ยวกับการสอบสถิติ AP การทดลองจริงเป็นสิ่งที่คุณจัดการกับตัวแปรทำนายและจัดกลุ่มเพื่อทดสอบสมมติฐานหรือการควบคุมและกลุ่มการทดลองหลายรายการ ฯลฯ การออกแบบการทดลองแบบกึ่งทดลองนั้นแทบจะทุกอย่างอื่นที่ดูเหมือนกับการทดลอง ลองจินตนาการถึงการถดถอยที่ค่า x คือน้ำหนักและค่า y คือทักษะกีฬาบางอย่าง คุณไม่ได้จัดการกับตัวแปรใดคุณสุ่มตัวอย่างทั้งสองอย่าง ดังนั้นการวิพากษ์วิจารณ์ของ Placidia เกี่ยวกับ stattrek ค่อนข้างถูกต้องสำหรับการทดลองจริง แต่ไม่มากสำหรับกึ่ง
John

@ จอห์น ... ฉันมาจากพื้นหลังที่การทดลองที่ออกแบบมาถูกมองว่าเป็นมาตรฐานทองคำ ในทางปฏิบัติฉันรู้ว่า X และ Y มักจะเป็นทั้งกลุ่มตัวอย่างแบบสุ่มซึ่งทำให้เกิดคำถามว่าทำไมการถดถอยจึงถูกนำมาใช้ไม่ใช่รูปแบบการวิเคราะห์ตัวแปรแฝง
Placidia

เมื่อคุณมีตัวแปรสองตัวเท่านั้น ... :) บางครั้งคุณมีทฤษฎีที่ดีที่จะแนะนำสิ่งหนึ่งที่ทำนายสิ่งอื่นเช่นความสูงและความน่าจะเป็นในการเข้าสู่ NBA ... ทั้งสองตัวอย่างแบบสุ่ม ในกรณีที่มีการถดถอยความสัมพันธ์เชิงเส้นหนึ่งหรือสองสามอัน (โดยเฉพาะที่ไม่เกี่ยวข้อง) เป็นสิ่งที่ดี
John
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.