เป็นไปได้ไหมที่จะแบ่งชั้นข้อมูลที่กำหนดโดยขนาดของส่วนที่เหลือและทำการเปรียบเทียบสองตัวอย่าง?


16

นี่คือสิ่งที่ฉันเห็นทำในรูปแบบของการเฉพาะกิจและดูเหมือนว่าจะคาวมากสำหรับฉัน แต่บางทีฉันอาจขาดอะไรบางอย่าง ฉันเคยเห็นสิ่งนี้ทำในหลาย ๆ การถดถอย แต่ลองทำมันให้ง่าย:

yi=β0+β1xi+εi

ตอนนี้นำส่วนที่เหลือจากรุ่นที่ติดตั้ง

ei=yi(β^0+β^1xi)

และจัดกลุ่มตัวอย่างตามขนาดของสารตกค้าง ตัวอย่างเช่นสมมติว่าตัวอย่างแรกคือ 90% ด้านล่างของส่วนที่เหลือและตัวอย่างที่สองคือด้านบน 10% จากนั้นดำเนินการเปรียบเทียบสองตัวอย่าง - ฉันเคยเห็นสิ่งนี้ทำทั้งในตัวทำนายในโมเดลxและ เกี่ยวกับตัวแปรที่ไม่ได้อยู่ในแบบจำลอง ตรรกะที่ไม่เป็นทางการที่ใช้คือบางทีจุดที่มีค่าสูงกว่าสิ่งที่คุณคาดหวังภายใต้แบบจำลอง (เช่นส่วนที่เหลือขนาดใหญ่) จะแตกต่างกันในบางวิธีและมีการตรวจสอบความแตกต่างด้วยวิธีนี้

ความคิดของฉันเกี่ยวกับเรื่องนี้คือ:

  • หากคุณเห็นความแตกต่าง 2 ตัวอย่างกับตัวทำนายในแบบจำลองนั้นจะมีผลกระทบของตัวทำนายที่ไม่ได้รับการพิจารณาโดยตัวแบบในสถานะปัจจุบัน (เช่นผลที่ไม่ใช่เชิงเส้น)
  • หากคุณเห็นความแตกต่าง 2 ตัวอย่างในตัวแปรที่ไม่ได้อยู่ในแบบจำลองบางทีมันควรจะอยู่ในรูปแบบในตอนแรก

สิ่งหนึ่งที่ฉันได้พบโดยสังเกตุ (ผ่านการจำลอง) คือถ้าคุณเปรียบเทียบค่าเฉลี่ยของตัวทำนายในโมเดลและแบ่งชั้นด้วยวิธีนี้เพื่อสร้างค่าเฉลี่ยตัวอย่างสองตัวอย่างคือ¯ x 1และ¯ x 2พวกมันคือ มีความสัมพันธ์เชิงบวกกับแต่ละอื่น ๆ นี้ทำให้รู้สึกตั้งแต่ตัวอย่างทั้งขึ้นอยู่กับ¯ Y , ¯ x , σ x , σ Yและρ x Yxx¯1x¯2y¯,x¯,σ^x,σ^yρ^xy. ความสัมพันธ์นั้นจะเพิ่มขึ้นเมื่อคุณเลื่อนจุดตัดลง (นั่นคือ% ที่คุณใช้เพื่อแบ่งตัวอย่าง) อย่างน้อยที่สุดถ้าคุณจะทำการเปรียบเทียบสองตัวอย่างข้อผิดพลาดมาตรฐานในตัวส่วนของ -statistic จำเป็นต้องปรับให้เข้ากับความสัมพันธ์ (แม้ว่าฉันจะไม่ได้สูตรที่ชัดเจนสำหรับ แปรปรวน)t

อย่างไรก็ตามคำถามพื้นฐานของฉันคือมีเหตุผลในการทำเช่นนี้? ถ้าเป็นเช่นนั้นในสถานการณ์ใดสิ่งนี้จะเป็นประโยชน์ที่จะทำ? เห็นได้ชัดว่าฉันไม่คิดว่ามี แต่อาจมีบางสิ่งที่ฉันไม่ได้คิดอย่างถูกวิธี


การเปรียบเทียบตัวอย่างสองรายการใช้IVs เดียวกันหรือไม่ ถ้าเป็นเช่นนั้นฉันไม่เห็นจุดนี้เนื่องจากการแยกส่วนที่เหลือกำลังใช้ข้อมูลนั้นอยู่แล้ว คุณช่วยยกตัวอย่างตำแหน่งที่คุณเห็นนี่มันใหม่สำหรับฉันได้ไหม
มิเชล

1
อย่างหนึ่งอาจเป็นไปได้ว่ามันสามารถใช้เป็นเครื่องวินิจฉัยเพื่อดูว่าคุณมีการสะกดผิดแบบ - คุณคิดอย่างไร
มาโคร

3
ฉันไม่เห็นจุดใด ๆ ในการทำสิ่งนี้นอกจากเป็นเครื่องมือวินิจฉัยเพื่อระบุจุดที่เป็นปัญหาหรือไม่มีเอฟเฟ็กต์ที่ไม่ใช่เชิงเส้นตามที่แนะนำโดยความคิดเห็นด้านบน ฉันคิดว่าจุดสองจุดใน OP ("ความคิดในเรื่อง ... ") เป็นเสียงที่ค่อนข้างสวย
Peter Ellis

1
เทคนิคนี้ใช้โดย Loh และผู้เขียนร่วมของเขาในการกำหนดตัวแปรแบบแยกส่วนในอัลกอริทึมแบบต้นไม้ของเขา SUPPORT และฉันคิดว่า GUIDE เนื่องจากชุดข้อมูลได้รับการแบ่งพาร์ติชันด้วยวิธีนี้จึงสามารถคิดได้ว่ากำลังมองหาอิทธิพลที่ไม่เป็นเชิงเส้น (พร็อกซีด้วยฟังก์ชันทีละขั้นตอน) และเพื่อพิจารณาว่าตัวแปรถูกลืมหรือไม่ ฉันจำได้ว่าสงสัยว่าสิ่งนั้นฉลาดเช่นกันบางทีคุณอาจพบคำอธิบายเพิ่มเติมในเอกสารของพวกเขา (ฉันจำไม่ได้)
Momo

1
แน่นอนไม่มีปัญหา. นี่คือ Chaudhuri และคณะ www3.stat.sinica.edu.tw/statistica/j4n1/j4n18/j4n18.htm www3.stat.sinica.edu.tw/statistica/j5n2/j5n217/j5n217.htmอ้างอิงสำหรับการสนับสนุนและ Loh et al, หน้าสำหรับ GUIDE สถิติ wisc.edu/~loh/guide.html
Momo

คำตอบ:


8

การเปรียบเทียบค่าเฉลี่ยนั้นอ่อนเกินไป: เปรียบเทียบการแจกแจงแทน

นอกจากนี้ยังมีคำถามเกี่ยวกับว่ามันเป็นที่พึงปรารถนาที่จะเปรียบเทียบขนาดของส่วนที่เหลือ (ตามที่ระบุ) หรือเปรียบเทียบตัวเอง ดังนั้นฉันประเมินทั้งสองอย่าง

จะเฉพาะเจาะจงเกี่ยวกับสิ่งที่มีความหมายและนี่คือบางRรหัสเพื่อเปรียบเทียบข้อมูล (รับในอาร์เรย์แบบขนานและ) โดยถอยYบนxหารเหลือเข้าไปในสามกลุ่มโดยการตัดพวกเขาด้านล่าง quantile Q 0และเหนือ quantile Q 1 > q 0และ (โดยใช้พล็อต qq) เปรียบเทียบการแจกแจงของค่าx ที่เกี่ยวข้องกับสองกลุ่มเหล่านั้น(x,y)xyyxq0q1>q0x

test <- function(y, x, q0, q1, abs0=abs, ...) {
  y.res <- abs0(residuals(lm(y~x)))
  y.groups <- cut(y.res, quantile(y.res, c(0,q0,q1,1)))
  x.groups <- split(x, y.groups)
  xy <- qqplot(x.groups[[1]], x.groups[[3]], plot.it=FALSE)
  lines(xy, xlab="Low residual", ylab="High residual", ...)
}

อาร์กิวเมนต์ที่ห้าของฟังก์ชันนี้ abs0โดยค่าเริ่มต้นจะใช้ขนาด (ค่าสัมบูรณ์) ของเศษเหลือเพื่อจัดกลุ่ม ต่อมาเราสามารถแทนที่ด้วยฟังก์ชั่นที่ใช้ของเหลือเอง

ส่วนที่เหลือจะถูกใช้เพื่อตรวจสอบหลายสิ่ง: ค่าผิดปกติ, ความสัมพันธ์ที่เป็นไปได้กับตัวแปรภายนอก, ความดีของความพอดีและความเป็นเนื้อเดียวกัน คนนอกโดยธรรมชาติของพวกเขาควรมีจำนวนน้อยและโดดเดี่ยวดังนั้นจึงไม่มีบทบาทที่มีความหมายที่นี่ เพื่อให้การวิเคราะห์นี้ง่ายขึ้นให้สำรวจสองสิ่งสุดท้าย: ความดีของความพอดี (นั่นคือความเป็นเส้นตรงของความสัมพันธ์ - y ) และความเป็นเนื้อเดียวกัน (นั่นคือความคงตัวของขนาดที่เหลือ) เราสามารถทำได้ผ่านการจำลองสถานการณ์:xy

simulate <- function(n, beta0=0, beta1=1, beta2=0, sd=1, q0=1/3, q1=2/3, abs0=abs,
                     n.trials=99, ...) {
  x <- 1:n - (n+1)/2
  y <- beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd)
  plot(x,y, ylab="y", cex=0.8, pch=19, ...)
  plot(x, res <- residuals(lm(y ~ x)), cex=0.8, col="Gray", ylab="", main="Residuals")
  res.abs <- abs0(res)
  r0 <- quantile(res.abs, q0); r1 <- quantile(res.abs, q1)
  points(x[res.abs < r0], res[res.abs < r0], col="Blue")
  points(x[res.abs > r1], res[res.abs > r1], col="Red")
  plot(x,x, main="QQ Plot of X",
       xlab="Low residual", ylab="High residual",
       type="n")
  abline(0,1, col="Red", lwd=2)
  temp <- replicate(n.trials, test(beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd), 
                             x, q0=q0, q1=q1, abs0=abs0, lwd=1.25, lty=3, col="Gray"))
  test(y, x, q0=q0, q1=q1, abs0=abs0, lwd=2, col="Black")
}

yβ0+β1x+β2x2sdq0q1abs0n.trialsn(x,y)ข้อมูลของเหลือใช้ของพวกเขาและแปลง qq ของการทดสอบหลายครั้ง - เพื่อช่วยให้เราเข้าใจว่าการทดสอบที่นำเสนอนั้นทำงานอย่างไรสำหรับแบบจำลองที่กำหนด (ตามที่กำหนดโดยnเบต้าและ s sd) ตัวอย่างของแปลงเหล่านี้ปรากฏอยู่ด้านล่าง

ให้เราใช้เครื่องมือเหล่านี้เพื่อสำรวจการผสมผสานระหว่างความไม่เชิงเส้นและความแตกต่างแบบสมจริงโดยใช้ค่าสัมบูรณ์ของส่วนที่เหลือ:

n <- 100
beta0 <- 1
beta1 <- -1/n
sigma <- 1/n

size <- function(x) abs(x)
set.seed(17)
par(mfcol=c(3,4))
simulate(n, beta0, beta1, 0, sigma*sqrt(n), abs0=size, main="Linear Homoscedastic")
simulate(n, beta0, beta1, 0, 0.5*sigma*(n:1), abs0=size, main="Linear Heteroscedastic")
simulate(n, beta0, beta1, 1/n^2, sigma*sqrt(n), abs0=size, main="Quadratic Homoscedastic")
simulate(n, beta0, beta1, 1/n^2, 5*sigma*sqrt(1:n), abs0=size, main="Quadratic Heteroscedastic")

xxx

Absolute values

xxxค่า

ลองทำสิ่งเดียวกันโดยใช้ข้อมูลเดียวกันแต่วิเคราะห์ส่วนที่เหลือเอง เมื่อต้องการทำเช่นนี้บล็อกของรหัสก่อนหน้านี้จะรันใหม่อีกครั้งหลังจากทำการปรับเปลี่ยนนี้:

size <- function(x) x

Residuals

การเปลี่ยนแปลงนี้ตรวจไม่พบ heteroscedasticity ดี: ดูความคล้ายคลึงกันของแปลง qq ในสองคอลัมน์แรก อย่างไรก็ตามมันทำงานได้ดีในการตรวจจับความไม่เชิงเส้น นี่เป็นเพราะเศษที่เหลือแยกxแบ่งออกเป็นส่วนตรงกลางและส่วนนอกซึ่งจะค่อนข้างแตกต่างกัน ดังที่แสดงในคอลัมน์ด้านขวาสุดอย่างไรก็ตามความแตกต่างของความยืดหยุ่นสามารถปิดบังความไม่เชิงเส้นได้

บางทีอาจรวมกันทั้งคู่เทคนิคนี้เข้าด้วยกัน การจำลองเหล่านี้ (และการเปลี่ยนแปลงของพวกเขาซึ่งผู้อ่านที่สนใจสามารถทำงานได้ในยามว่าง) แสดงให้เห็นว่าเทคนิคเหล่านี้ไม่ได้ทำโดยปราศจากบุญ

โดยทั่วไปแล้วจะมีการให้บริการที่ดีกว่าโดยการตรวจสอบสิ่งตกค้างในรูปแบบมาตรฐาน สำหรับงานอัตโนมัติการทดสอบอย่างเป็นทางการได้รับการพัฒนาขึ้นเพื่อตรวจจับสิ่งต่าง ๆ ที่เรามองหาในแปลงที่เหลือ ยกตัวอย่างเช่นการทดสอบ Breusch-Pagan จะลดค่าเศษกำลังสอง (แทนที่จะเป็นค่าสัมบูรณ์)x. การทดสอบที่เสนอในคำถามนี้สามารถเข้าใจได้ในวิญญาณเดียวกัน อย่างไรก็ตามโดยการ binning ข้อมูลเป็นเพียงสองกลุ่มและทำให้ละเลยข้อมูลbivariateส่วนใหญ่ที่จ่ายโดย(x,Y^-x)คู่เราสามารถคาดหวังการทดสอบเสนอให้มีประสิทธิภาพน้อยกว่าการทดสอบการถดถอยตามเช่น Breusch


2

ฉันเห็นด้วยกับคะแนนทั้งสองของคุณ ถ้าแบบจำลองไม่เพียงพอส่วนที่เหลืออาจไม่อิสระโดยประมาณและกระจายตัวเหมือนกัน ตัวแปรสำคัญอาจถูกละไว้หรือรูปแบบการทำงานของตัวแปร regressor อาจผิด หากเป็นกรณีนี้ฉันจะใช้การวินิจฉัยการถดถอยมาตรฐานเพื่อระบุปัญหามากกว่านี้ นอกจากนี้คุณสามารถมีตัวแปรที่ถูกต้องในแบบจำลองด้วยแบบฟอร์มการทำงานที่ถูกต้อง แต่ยังคงมีความแปรปรวนแบบไม่คงที่ สิ่งนี้อาจชัดเจนเพียงแค่วางแผนอีผม ต่อต้าน xผม. ฉันสามารถเห็นจุดที่จะบอกว่าต้องการหาผู้ผิดเพี้ยนในรูปแบบผ่านรูปแบบของการตกค้างบ้าง แต่จากนั้นฉันจะแนะนำวิธีการทำงานของฟังก์ชั่นอิทธิพลในการตรวจจับพวกมัน ฉันไม่เห็นว่ากระบวนการนี้สำเร็จ

คนอื่น ๆ ให้ความเห็นว่านี่อาจเป็นเพียงเครื่องมือสำรวจเพื่อตรวจสอบว่าชุดข้อมูลสองชุดควรทำตัวเป็นแบบแยกกันหรือไม่ หากเป็นกรณีนี้และวิธีการสำรวจอื่น ๆ อาจไม่เป็นไร แต่คำถามก็กลายเป็นว่าคุณจะทำอะไรต่อไป หากคุณกำลังจะทำสองวิธีแยกกันและวาดการอนุมานเกี่ยวกับตัวอย่างฉันคิดว่าคุณต้องคำนึงถึงวิธีที่คุณแยกตัวอย่าง


0

ฉันเดาว่าอาจมีแรงจูงใจหลายประการที่จะทำเช่นสมมติว่าส่วนที่เหลือมีความสอดคล้องกันแล้ววิธีที่คุณพูดถึงอาจช่วยระบุการสังเกตจากภายนอกดังนั้นขั้นตอนที่สองให้ตัวประมาณ "แก้ไข" แต่มีเทคนิคที่เข้มงวดมากขึ้นที่ดำเนินการตรวจหา outlyers หรือให้ตัวประมาณที่มีความแข็งแกร่งต่อการสังเกตเช่นการถดถอยเชิงปริมาณ LMS (ค่ามัธยฐานของกำลังสองน้อยที่สุด) หรือ M-estimators เป็นต้นซึ่งวิธีการเหล่านี้ทั้งหมดได้กำหนดไว้อย่างดี และคุณสมบัติทางสถิติที่เป็นที่รู้จัก (ถูกเพิ่มโดย @Michael Chernik)

แรงจูงใจอื่น ๆ อาจเป็นการระบุคลัสเตอร์ แต่สิ่งนี้เป็นสิ่งดั้งเดิมเมื่อเปรียบเทียบกับเทคนิคที่มีอยู่สำหรับการตรวจจับคลัสเตอร์ซึ่งมีการกำหนดไว้อย่างดีและมีการนำไปใช้อย่างกว้างขวาง

ในทั้งสองกรณีการใช้สารตกค้างดูเหมือนไม่เป็นทางการและดั้งเดิม แต่อาจยังคงได้รับการยอมรับว่าเป็นเครื่องมือสำรวจ นอกจากนี้ยังขึ้นอยู่กับโดเมนของผู้อ่าน ฉันพบว่าสิ่งนี้เป็นที่ยอมรับได้สำหรับนักสังคมศาสตร์บางคนซึ่งเครื่องมือเชิงปริมาณอาจได้รับความนิยมน้อยกว่า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.