ฉันจะตีความพล็อตเปอร์เซ็นต์การตัดแต่งเทียบกับค่าเฉลี่ยที่ถูกตัดได้อย่างไร


12

สำหรับคำถามการบ้านฉันถูกขอให้คำนวณค่าเฉลี่ยที่ถูกตัดสำหรับชุดข้อมูลโดยการลบการสังเกตที่เล็กที่สุดและใหญ่ที่สุดและตีความผลลัพธ์ ค่าเฉลี่ยที่ถูกตัดนั้นต่ำกว่าค่าเฉลี่ยที่ไม่ได้รับการตัดต่อ

การตีความของฉันคือว่านี่เป็นเพราะการแจกแจงพื้นฐานนั้นเบ้ในทางบวกดังนั้นหางซ้ายจึงทึบกว่าหางขวา ผลที่ตามมาจากความเบ้นี้การลบตัวเลขที่สูงจะลากค่าเฉลี่ยลงมากกว่าการลบค่าต่ำที่ผลักมันขึ้นเพราะการพูดอย่างไม่เป็นทางการมีข้อมูลต่ำมาก "รอให้เกิดขึ้น" (มันสมเหตุสมผลหรือไม่)

จากนั้นฉันก็เริ่มสงสัยว่าเปอร์เซ็นต์การตัดแต่งมีผลต่อสิ่งนี้อย่างไรดังนั้นฉันคำนวณค่าเฉลี่ยที่ถูกตัดสำหรับต่าง ๆ n ฉันมีรูปโค้งที่น่าสนใจ: x¯tr(k)k=1/n,2/n,,(n21)/nพล็อตเปอร์เซ็นต์การตัดแต่งเทียบกับค่าเฉลี่ยที่ถูกตัด  รูปแบบโค้งเว้าขึ้นที่ดูเป็นรูปโค้งประมาณ

ฉันค่อนข้างไม่แน่ใจว่าจะตีความสิ่งนี้อย่างไร โดยสังหรณ์ใจดูเหมือนว่าความชันของกราฟควรเป็น (สัดส่วน) ความเบ้ลบของส่วนการกระจายภายในจุดข้อมูลของค่ามัธยฐาน (สมมติฐานนี้ตรวจสอบกับข้อมูลของฉัน แต่ฉันมีเพียงดังนั้นฉันไม่มั่นใจมาก)kn=11

กราฟประเภทนี้มีชื่อหรือใช้กันทั่วไปหรือไม่ เราสามารถรวบรวมข้อมูลอะไรจากกราฟนี้ มีการตีความมาตรฐานหรือไม่?


สำหรับการอ้างอิงข้อมูลคือ: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80

คำตอบ:


11

@gung และ @kjetil b. halvorsen ถูกต้องทั้งคู่

ฉันพบกราฟดังกล่าวแล้ว

Rosenberger, JL และ M. Gasko 2526. การเปรียบเทียบตัวประมาณตำแหน่ง: วิธีตัดแบ่ง, ค่ามัธยฐาน, และไตรมาแนน ในการทำความเข้าใจการวิเคราะห์ข้อมูลที่แข็งแกร่งและเชิงสำรวจชั้นเลิศ DC Hoaglin, F. Mosteller และ JW Tukey, 297–338 นิวยอร์ก: ไวลีย์

และ

Davison, AC และ DV Hinkley 1997. วิธี Bootstrap และการใช้งาน Cambridge: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์

และยกตัวอย่างเพิ่มเติมใน

Cox, NJ 2013 ตัดแต่งเพื่อลิ้มรส Stata Journal 13: 640–666 http://www.stata-journal.com/article.html?article=st0313 [เข้าใช้ pdf ได้ฟรี]

ซึ่งกล่าวถึงหลายแง่มุมของวิธีการที่ถูกตัดทอน

เท่าที่ฉันรู้กราฟไม่มีชื่อแตกต่างกัน ชื่อที่แตกต่างสำหรับพล็อตที่เป็นไปได้จริง ๆ แล้วจะเป็นฝันร้ายเล็ก ๆ : คำศัพท์ทางกราฟิกมีอยู่แล้วเป็นระเบียบที่น่ากลัว ฉันจะเรียกมันว่าพล็อตของค่าเฉลี่ยที่ถูกตัดกับจำนวนที่ถูกตัดเศษส่วนหรือร้อยละ

สำหรับความคิดเห็นเล็ก ๆ เพิ่มเติมเกี่ยวกับ "กับ" ดูคำตอบของฉันในHeteroscedasticity in Regression

แก้ไข: สำหรับ ๆ เพิ่มเติมเกี่ยวกับ (mavens ภาษาเท่านั้น) ดูที่นี่


10

ฉันไม่เคยได้ยินกราฟนี้มาก่อน แต่ฉันคิดว่ามันค่อนข้างเรียบร้อย อาจมีบางคนทำสิ่งนี้มาก่อน สิ่งที่คุณสามารถทำได้คือดูว่าค่าเฉลี่ยการเปลี่ยนแปลงและ / หรือความเสถียรถ้าคุณพิจารณาสัดส่วนที่แตกต่างกันของข้อมูลของคุณเป็นค่าผิดปกติ เหตุผลที่คุณได้รับรูปร่างพาราโบลาคือการกระจาย (เริ่มต้น) ของคุณเอียงไปทางขวาทั้งหมด แต่ระดับความเบ้ไม่เหมือนกันในกึ่งกลางของการกระจาย สำหรับการเปรียบเทียบให้พิจารณาแปลงความหนาแน่นของเคอร์เนลด้านล่าง

ป้อนคำอธิบายรูปภาพที่นี่

ด้านซ้ายเป็นข้อมูลของคุณเมื่อมีการตัดแต่งข้อมูลทีละรายการ ด้านขวาคือข้อมูลเหล่านี้: y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416)ซึ่งเป็นปริมาณของการแจกแจงล็อกมาตรฐานปกติที่นำมาจากเปอร์เซนต์ที่เว้นระยะเท่ากันและคูณด้วย 20 เพื่อทำให้ช่วงของค่าใกล้เคียงกัน

ข้อมูลของคุณเริ่มเอียงไปทางขวา แต่ตามแถวที่ 5 จะเอียงไปทางซ้ายดังนั้นการตัดข้อมูลเพิ่มเติมจึงเริ่มนำค่าเฉลี่ยกลับมา ข้อมูลทางด้านขวาจะรักษาความเบ้คล้ายกับการตัดต่ออย่างต่อเนื่อง

ด้านล่างนี้เป็นเนื้อเรื่องของคุณสำหรับข้อมูล lognormal และข้อมูลสม่ำเสมอ ( z = 1:11ไม่เบ้ - สมมาตรสมบูรณ์แบบ)

ป้อนคำอธิบายรูปภาพที่นี่ ป้อนคำอธิบายรูปภาพที่นี่


4

ฉันไม่คิดว่ากราฟชนิดนี้มีชื่อ แต่สิ่งที่คุณกำลังทำมีเหตุผลและการตีความของคุณฉันคิดว่าถูกต้อง ฉันคิดว่าสิ่งที่คุณกำลังทำเกี่ยวข้องกับฟังก์ชั่นอิทธิพลของ Hampel ดูที่https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function โดยเฉพาะอย่างยิ่งส่วนที่เกี่ยวกับฟังก์ชั่นอิทธิพลเชิงประจักษ์ และพล็อตของคุณอาจเกี่ยวข้องกับการวัดความเบ้ของข้อมูลอย่างแน่นอนเนื่องจากถ้าข้อมูลของคุณสมมาตรอย่างสมบูรณ์พล็อตก็จะแบน คุณควรตรวจสอบสิ่งนั้น!

            EDIT     

ส่วนขยายหนึ่งของพล็อตนี้คือการแสดงผลของการใช้การตัดแต่งที่แตกต่างกันทางซ้ายและขวา เนื่องจากสิ่งนี้ไม่ได้ถูกนำมาใช้ในmeanฟังก์ชั่นปกติโดยมีข้อโต้แย้งtrimใน R ฉันจึงเขียนฟังก์ชั่นค่าเฉลี่ยของตัวเอง ในการรับพล็อตที่ราบรื่นขึ้นฉันใช้การแก้ไขเชิงเส้นเมื่อส่วนการตัดแต่งแสดงถึงการลบจำนวนจุดที่ไม่ใช่จำนวนเต็ม สิ่งนี้จะทำให้ฟังก์ชั่น:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

จากนั้นฉันจำลองข้อมูลและแสดงผลลัพธ์เป็นโครงร่างของเส้น:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

ให้ผลลัพธ์นี้:

โครงร่างแสดงผลของการตัดแต่ง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.