มีลักษณะทั่วไปของกล่องแปลงมาตรฐานที่ฉันรู้ซึ่งความยาวของหนวดถูกปรับให้บัญชีสำหรับข้อมูลที่เบ้ รายละเอียดมีการอธิบายที่ดีขึ้นในกระดาษสีขาวที่ชัดเจนและรัดกุมมาก (Vandervieren, E. , Hubert, M. (2004) "พล็อตบ็อกซ์ที่ปรับสำหรับการแจกแจงเบ้" ดูที่นี่ )
มีการใช้งานของ ( ) นี้รวมถึง matlab one (ในไลบรารีที่เรียกว่า )robustbase :: adjbox () libraRrobustbase :: adjbox ()ราศีตุล
ฉันเองพบว่ามันเป็นทางเลือกที่ดีกว่าการแปลงข้อมูล (แม้ว่ามันจะขึ้นอยู่กับกฎ Ad-hoc ดูเอกสารทางเทคนิค)
บังเอิญฉันพบว่าฉันมีบางอย่างที่จะเพิ่มในตัวอย่างของผู้หญิงที่นี่ เพื่อขยายขอบเขตที่เรากำลังพูดถึงพฤติกรรมของเคราเราควรพิจารณาสิ่งที่เกิดขึ้นเมื่อพิจารณาข้อมูลที่ปนเปื้อนด้วย:
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
ในรูปแบบการปนเปื้อนนี้ B1 มีการกระจายบันทึกปกติเป็นหลักสำหรับ 20 เปอร์เซ็นต์ของข้อมูลที่เหลือครึ่งครึ่งค่าผิดครึ่งขวา (จุดแตกหักของ adjbox นั้นเหมือนกับของ boxplots ปกตินั่นคือสันนิษฐานว่ามากที่สุด ข้อมูล 25 เปอร์เซ็นต์อาจไม่ถูกต้อง)
กราฟแสดงให้เห็นถึง boxplots แบบคลาสสิกของข้อมูลที่ถูกแปลง (ใช้การแปลงรากที่สอง)
และกล่องปรับของข้อมูลที่ไม่ได้แปลง
เปรียบเทียบกับ boxplots ที่ปรับแล้วตัวเลือกในอดีตจะปกปิดค่าผิดจริงและติดป้ายกำกับข้อมูลที่ดีว่าเป็นค่าผิดพลาด โดยทั่วไปแล้วมันจะมีส่วนร่วมในการซ่อนหลักฐานของความไม่สมดุลในข้อมูลโดยการจำแนกจุดที่ผิดเป็นค่าผิดปกติ
ในตัวอย่างนี้วิธีการใช้ boxplot มาตรฐานในรากที่สองของข้อมูลพบ 13 ค่าผิดพลาด (ทั้งหมดอยู่ทางขวา) ในขณะที่ boxplot ที่ปรับแล้วพบ 10 ค่าขวาและ 14 ค่าผิดพลาดซ้าย
แก้ไข: แปลงกล่องแปลงที่สั้น
ใน boxplots 'คลาสสิค' หนวดจะถูกวางไว้ที่:
Q 3Q1 -1.5 * IQR และ + 1.5 * IQRQ3
โดยที่ IQR เป็นช่วงคคือ 25 เปอร์เซ็นไทล์และคือ 75 เปอร์เซ็นไทล์ของข้อมูล กฎของหัวแม่มือคือการพิจารณาทุกอย่างนอกรั้วเป็นข้อมูลที่น่าสงสัย (รั้วเป็นช่วงเวลาระหว่างเคราทั้งสอง)Q 3Q1Q3
กฎของหัวแม่มือนี้เป็นแบบเฉพาะกิจ: เหตุผลคือถ้าส่วนที่ไม่มีการปนเปื้อนของข้อมูลอยู่ที่ประมาณเกาส์เซียนข้อมูลที่ดีจะน้อยกว่า 1% ของข้อมูลที่ดีจะถูกจำแนกว่าไม่ดีโดยใช้กฎนี้
จุดอ่อนของกฎรั้วนี้ตามที่ OP ชี้ให้เห็นคือความยาวของหนวดทั้งสองนั้นเหมือนกันหมายถึงกฎของรั้วนั้นมีความหมายเฉพาะในกรณีที่ส่วนที่ไม่มีการปนเปื้อนของข้อมูลมีการกระจายแบบสมมาตร
วิธีที่ได้รับความนิยมคือการรักษากฎของรั้วและการปรับข้อมูล แนวคิดคือการแปลงข้อมูลโดยใช้การแปลงการแก้ไขความจำเจแบบเบ้ (สแควร์รูทหรือล็อกหรือการแปลงบ็อกซ์ทั่วไปมากขึ้น) นี่เป็นวิธีที่ยุ่งเหยิง: ขึ้นอยู่กับตรรกะวงกลม (ควรเลือกการแปลงเพื่อแก้ไขความเบ้ของส่วนที่ไม่มีการปนเปื้อนของข้อมูลซึ่งอยู่ในขั้นตอนนี้เป็นสิ่งที่สังเกตไม่ได้) และมีแนวโน้มที่จะตีความข้อมูลได้ยากขึ้น สายตา ไม่ว่าในกรณีใดก็ตามกระบวนการนี้ยังคงเป็นขั้นตอนที่แปลกประหลาดซึ่งจะมีการเปลี่ยนแปลงข้อมูลเพื่อรักษาสิ่งที่อยู่หลังกฎเฉพาะกิจทั้งหมด
อีกทางเลือกหนึ่งคือปล่อยให้ข้อมูลไม่ถูกแตะต้องและเปลี่ยนกฎมัสสุ กล่องแปลงที่ปรับแล้วอนุญาตให้ความยาวของมัสสุแต่ละอันแตกต่างกันไปตามดัชนีที่วัดความเบ้ของส่วนที่ไม่มีการปนเปื้อนของข้อมูล:
exp ( M , α ) Q 3 exp ( M , β )Q1 - 1.5 * IQR และ + 1.5 * IQRประสบการณ์( M, α )Q3ประสบการณ์( M, β)
โดยที่เป็นดัชนีของความเบ้ของส่วนที่ไม่มีการปนเปื้อนของข้อมูล (เช่นเดียวกับค่ามัธยฐานคือการวัดตำแหน่งสำหรับส่วนที่ไม่มีการปนเปื้อนของข้อมูลหรือ MAD เป็นมาตรวัดการแพร่กระจายสำหรับส่วนที่ไม่มีการปนเปื้อนของข้อมูล) และเป็นตัวเลขที่ถูกเลือกเพื่อการกระจายที่ไม่มีการปนเปื้อนความน่าจะเป็นของการนอนอยู่นอกรั้วนั้นค่อนข้างเล็กในชุดการแจกแจงแบบเบ้จำนวนมาก (นี่คือส่วนหนึ่งของกฎรั้ว)อัลฟ่าบีตาMα β
สำหรับกรณีที่ส่วนที่ดีของข้อมูลนั้นสมมาตรและเรากลับไปที่เคราแบบดั้งเดิมM≈ 0
ผู้เขียนแนะนำให้ใช้คู่สามีภรรยาเป็นตัวประมาณค่าของ (ดูการอ้างอิงภายในกระดาษสีขาว) เนื่องจากมีประสิทธิภาพสูง (แม้ว่าในหลักการแล้วดัชนีการเอียงที่แข็งแกร่งสามารถใช้งานได้) ด้วยตัวเลือกนี้พวกเขาจึงคำนวณและเหมาะสมที่สุด(โดยใช้การแจกแจงแบบเบ้จำนวนมาก) เป็น:เอ็มอัลฟ่าบีตาMMαβ
exp ( - 4 M ) Q 3 exp ( 3 M ) M ≥ 0Q1 - 1.5 * IQR และ + 1.5 * IQR ถ้าexp(−4M)Q3exp(3M)M≥0
exp ( - 3 M ) Q 3 exp ( 4 M ) M < 0Q1 - 1.5 * IQR และ + 1.5 * IQR ถ้าexp(−3M)Q3exp(4M)M<0