คำถามติดแท็ก winsorizing

4
ข้อดีของการ Winsorizing กับการตัดแต่งข้อมูลคืออะไร
ข้อมูลการล้างข้อมูลหมายถึงการแทนที่ค่าสูงสุดของชุดข้อมูลด้วยค่าเปอร์เซ็นไทล์ที่แน่นอนจากปลายแต่ละด้านในขณะที่การตัดหรือตัดทอนนั้นเกี่ยวข้องกับการลบค่าสุดขีดเหล่านั้นออก ฉันมักจะเห็นวิธีการทั้งสองที่กล่าวถึงเป็นตัวเลือกที่ทำงานได้เพื่อลดผลกระทบของค่าผิดปกติเมื่อคำนวณสถิติเช่นค่าเฉลี่ยหรือส่วนเบี่ยงเบนมาตรฐาน แต่ฉันไม่เห็นว่าทำไมจึงมีวิธีหนึ่งที่เลือกได้ มีข้อดีหรือข้อเสียที่เกี่ยวข้องกับการใช้ Winsorizing หรือ Trimming หรือไม่? มีสถานการณ์บางอย่างที่จะใช้วิธีใดวิธีหนึ่งดีกว่า มีการใช้บ่อยครั้งในทางปฏิบัติหรือใช้แทนกันโดยทั่วไปหรือไม่?

8
แทนที่ค่าผิดปกติด้วยค่าเฉลี่ย
คำถามนี้ถามโดยเพื่อนของฉันที่ไม่เข้าใจอินเทอร์เน็ต ฉันไม่มีภูมิหลังด้านสถิติและฉันได้ทำการค้นหาข้อมูลในอินเทอร์เน็ตจากคำถามนี้ คำถามคือเป็นไปได้ไหมที่จะแทนที่ค่าผิดปกติด้วยค่าเฉลี่ย? ถ้าเป็นไปได้มีหนังสืออ้างอิง / วารสารเพื่อสำรองข้อความนี้หรือไม่?

5
วิธีการสหสัมพันธ์ที่แข็งแกร่งแบบใดที่ใช้จริง
ฉันวางแผนที่จะทำการศึกษาแบบจำลองที่ฉันเปรียบเทียบประสิทธิภาพของเทคนิคความสัมพันธ์ที่แข็งแกร่งหลายอย่างกับการแจกแจงที่ต่างกัน (เบ้กับค่าผิดปกติ ฯลฯ ) ด้วยความแข็งแกร่งฉันหมายถึงกรณีในอุดมคติของการมีความแข็งแกร่งต่อก) การแจกแจงแบบเบ้, b) ค่าผิดปกติและ c) ก้อยที่หนัก นอกจากความสัมพันธ์ของเพียร์สันในฐานะที่เป็นพื้นฐานแล้วฉันยังคิดที่จะรวมมาตรการที่แข็งแกร่งกว่านี้ไว้ด้วย: Spearman's ρρ\rho เปอร์เซ็นต์ความสัมพันธ์โค้ง (Wilcox, 1994, [1]) รูปไข่ปริมาณต่ำสุด, ปัจจัยแปรปรวนร่วมขั้นต่ำ ( cov.mve/ cov.mcdพร้อมกับcor=TRUEตัวเลือก) อาจจะเป็นความสัมพันธ์ที่ได้รับรางวัล แน่นอนมีตัวเลือกมากมาย (โดยเฉพาะถ้าคุณรวมเทคนิคการถดถอยที่แข็งแกร่งเช่นกัน) แต่ฉันต้องการ จำกัด ตัวเองกับวิธีที่ใช้ส่วนใหญ่ / เป็นแนวโน้ม ตอนนี้ฉันมีสามคำถาม (อย่าลังเลที่จะตอบคำถามเดียวเท่านั้น): มีวิธีสหสัมพันธ์ที่แข็งแกร่งอื่น ๆ ที่ฉันสามารถ / ควรรวมไว้หรือไม่ เทคนิคการสหสัมพันธ์ที่แข็งแกร่งแบบใดที่ใช้ จริง ในสาขาของคุณ (การพูดเพื่อการวิจัยทางจิตวิทยายกเว้นสเปียร์แมนผมไม่เคยเห็นใด ๆ ที่แข็งแกร่งนอกเทคนิคความสัมพันธ์ของกระดาษเทคนิคร่วมมือจะได้รับความนิยมมากขึ้น แต่สถิติที่แข็งแกร่งอื่น ๆ มีมากหรือน้อยไม่ได้มีอยู่เพื่อให้ห่างไกล.)ρρ\rho มีการเปรียบเทียบเชิงเทคนิคของเทคนิคสหสัมพันธ์ที่คุณรู้จักหรือไม่? นอกจากนี้โปรดแสดงความคิดเห็นรายการวิธีการที่ระบุด้านบน [1] Wilcox, …

4
ควรใช้ค่าเฉลี่ยเมื่อข้อมูลเบี่ยงเบนหรือไม่
บ่อยครั้งที่ตำราสถิติประยุกต์ที่นำมาใช้แยกแยะความแตกต่างของค่าเฉลี่ยจากค่ามัธยฐาน (มักจะอยู่ในบริบทของสถิติเชิงพรรณนาและกระตุ้นการสรุปแนวโน้มกลางโดยใช้ค่าเฉลี่ยมัธยฐานและโหมด) โดยอธิบายว่าค่าเฉลี่ยนั้นอ่อนไหวต่อค่าผิดปกติในข้อมูลตัวอย่างและ / หรือ เพื่อการแจกแจงแบบเบ้ของประชากรและนี่ใช้เป็นข้ออ้างสำหรับการยืนยันว่าค่ามัธยฐานจะเป็นที่ต้องการเมื่อข้อมูลไม่สมมาตร ตัวอย่างเช่น: การวัดแนวโน้มศูนย์กลางที่ดีที่สุดสำหรับชุดข้อมูลที่กำหนดมักขึ้นอยู่กับวิธีการกระจายค่า ... เมื่อข้อมูลไม่สมมาตรค่ามัธยฐานมักเป็นตัวชี้วัดที่ดีที่สุดของแนวโน้มกลาง เพราะหมายถึงการมีความไวต่อการสังเกตมากก็จะถูกดึงไปในทิศทางของค่าข้อมูลที่ห่างไกลและเป็นผลจะจบลงที่สูงเกินจริงมากเกินไปหรือมากเกินไปกิ่ว." -Pagano และ Gauvreau, (2000) หลักการชีวสถิติ 2 เอ็ด (พีแอนด์จีอยู่ในมือ BTW ไม่แยกพวกเขาออกต่อกัน) ผู้เขียนกำหนด "แนวโน้มกลาง" ดังนี้: "ลักษณะการตรวจสอบที่พบบ่อยที่สุดของชุดข้อมูลคือศูนย์กลางของมันหรือจุดที่การสังเกตมักจะรวมกลุ่มกัน" สิ่งนี้ทำให้ฉันเป็นวิธีที่ตรงไปตรงมาน้อยกว่าการพูดเพียงใช้ค่ามัธยฐานระยะเวลาเพราะใช้ค่าเฉลี่ยเมื่อข้อมูล / การแจกแจงสมมาตรเป็นสิ่งเดียวกับที่บอกว่าใช้ค่าเฉลี่ยเมื่อเท่ากับค่ามัธยฐาน แก้ไข: whuber ชี้ให้เห็นอย่างถูกต้องว่าฉันกำลังพูดถึงมาตรการที่แข็งแกร่งของแนวโน้มกลางกับค่ามัธยฐาน ดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องจำไว้ว่าฉันกำลังพูดถึงกรอบเฉพาะของค่าเฉลี่ยเลขคณิตเทียบกับค่ามัธยฐานในสถิติประยุกต์เบื้องต้น (ที่, โหมดกัน, มาตรการอื่น ๆ ของแนวโน้มกลางไม่ได้รับแรงจูงใจ) แทนที่จะตัดสินว่าค่าเฉลี่ยของยูทิลิตี้ลดลงเท่าใดจากพฤติกรรมของค่ามัธยฐานเราไม่ควรเข้าใจสิ่งเหล่านี้ว่าเป็นมาตรการสองอย่างที่แตกต่างกันของการเป็นศูนย์กลาง? ในคำอื่น ๆ ที่มีความไวต่อความเบ้เป็นคุณสมบัติของค่าเฉลี่ย เราสามารถโต้แย้งได้อย่างถูกต้องว่า "ค่ามัธยฐานนั้นไม่ดีเพราะส่วนใหญ่ไม่ไวต่อความเบ้ดังนั้นควรใช้เมื่อมันเท่ากับค่าเฉลี่ยเท่านั้น" (โหมดค่อนข้างสมเหตุสมผลไม่ได้เกี่ยวข้องกับคำถามนี้)

5
วิธีแก้ไขค่าผิดปกติที่ตรวจพบเมื่อทำการพยากรณ์ข้อมูลอนุกรมเวลา?
ฉันพยายามหาวิธีแก้ไขค่าผิดปกติเมื่อฉันค้นหา / ตรวจจับพวกมันในข้อมูลอนุกรมเวลา วิธีการบางอย่างเช่น nnetar ใน R ให้ข้อผิดพลาดบางประการสำหรับอนุกรมเวลาที่มีค่าผิดปกติจำนวนมาก / มาก ฉันจัดการเพื่อแก้ไขค่าที่หายไปแล้ว แต่ผู้นอกองค์กรยังคงสร้างความเสียหายต่อการคาดการณ์ของฉัน ...
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.