แบบจำลอง Bayesian ที่แข็งแกร่งสำหรับการประมาณขนาดของการแจกแจงแบบปกติเป็นอย่างไร


32

มีจำนวนของที่มีอยู่ประมาณที่แข็งแกร่งของขนาด เป็นตัวอย่างที่น่าสังเกตคือการเบี่ยงเบนสัมบูรณ์เฉลี่ยที่เกี่ยวข้องกับค่าเบี่ยงเบนมาตรฐานเป็นσ=MAD1.4826 1.4826 ในกรอบการทำงานแบบเบย์มีหลายวิธีที่จะประเมินตำแหน่งของการกระจายตัวแบบปกติอย่างคร่าวๆ (เช่นการปนเปื้อนที่ผิดปกติโดยค่าผิดปกติ) ตัวอย่างเช่นใคร ๆ สามารถสันนิษฐานได้ว่าข้อมูลนั้นถูกแจกจ่าย ณ การแจกแจงหรือการแจก Laplace ตอนนี้คำถามของฉัน:

แบบจำลองแบบเบย์สำหรับการวัดขนาดของการแจกแจงแบบปกติอย่างคร่าวๆในลักษณะที่แข็งแกร่งจะแข็งแกร่งในแง่เดียวกับ MAD หรือตัวประมาณที่คล้ายกัน

เช่นเดียวกับกรณีของ MAD มันจะเป็นระเบียบถ้าโมเดล Bayesian สามารถเข้าใกล้ SD ของการแจกแจงแบบปกติในกรณีที่การกระจายของข้อมูลกระจายตามปกติ

แก้ไข 1:

ตัวอย่างทั่วไปของแบบจำลองที่มีความทนทานต่อการปนเปื้อน / ค่าผิดปกติเมื่อสมมติว่าข้อมูลYผมเป็นเรื่องปกติประมาณใช้ในการแจกแจงเช่น:

Yผม~เสื้อ(ม.,s,ν)

โดยที่ม.คือค่าเฉลี่ยsคือขนาดและνคือระดับความอิสระ สำหรับนักบวชที่เหมาะสมบนม.,sและν , ม.จะเป็นการประมาณค่าเฉลี่ยของYผมที่จะทนทานต่อค่าผิดปกติ อย่างไรก็ตามsจะไม่เป็นประมาณการที่สอดคล้องกันของ SD ของyiเป็นsขึ้นอยู่กับννตัวอย่างเช่นถ้าνจะได้รับการแก้ไขเป็น 4.0 และโมเดลด้านบนจะถูกติดตั้งกับตัวอย่างจำนวนมากจากการแจกแจงจากนั้น sจะอยู่ที่ประมาณ 0.82 สิ่งที่ฉันกำลังมองหาคือโมเดลที่แข็งแกร่งเช่นโมเดล t แต่สำหรับ SD แทนที่จะเป็น (หรือเพิ่มเติมจาก) ค่าเฉลี่ยNorm(μ=0,σ=1)s

แก้ไข 2:

ต่อไปนี้เป็นตัวอย่างโค้ดใน R และ JAGS ว่าโมเดล t ที่กล่าวถึงข้างต้นมีความแข็งแกร่งมากขึ้นเมื่อเทียบกับค่าเฉลี่ย

# generating some contaminated data
y <- c( rnorm(100, mean=10, sd=10), 
        rnorm(10, mean=100, sd= 100))

#### A "standard" normal model ####
model_string <- "model{
  for(i in 1:length(y)) {
    y[i] ~ dnorm(mu, inv_sigma2)
  }

  mu ~ dnorm(0, 0.00001)
  inv_sigma2 ~ dgamma(0.0001, 0.0001)
  sigma <- 1 / sqrt(inv_sigma2)
}"

model <- jags.model(textConnection(model_string), list(y = y))
mcmc_samples <- coda.samples(model, "mu", n.iter=10000)
summary(mcmc_samples)

### The quantiles of the posterior of mu
##  2.5%   25%   50%   75% 97.5% 
##   9.8  14.3  16.8  19.2  24.1 

#### A (more) robust t-model ####
library(rjags)
model_string <- "model{
  for(i in 1:length(y)) {
    y[i] ~ dt(mu, inv_s2, nu)
  }

  mu ~ dnorm(0, 0.00001)
  inv_s2 ~ dgamma(0.0001,0.0001)
  s <- 1 / sqrt(inv_s2)
  nu ~ dexp(1/30) 
}"

model <- jags.model(textConnection(model_string), list(y = y))
mcmc_samples <- coda.samples(model, "mu", n.iter=1000)
summary(mcmc_samples)

### The quantiles of the posterior of mu
## 2.5%   25%   50%   75% 97.5% 
##8.03  9.35  9.99 10.71 12.14 

บางทีมันอาจไม่แข็งแรงพอ แต่การแจกแจงแบบไคสแควร์เป็นรูปแบบคอนจูเกตที่มักเลือกก่อนหน้าค่าผกผันของความแปรปรวน
Mike Dunlavey

คุณอาจต้องการดูว่าคำตอบแรกสำหรับคำถามนี้stats.stackexchange.com/questions/6493/…นั้นเพียงพอสำหรับคุณหรือไม่ มันอาจจะไม่ดี แต่อาจจะเป็น
jbowman

สิ่งที่คุณก่อนสำหรับระดับของการปนเปื้อน? การปนเปื้อนจะเป็นระบบหรือไม่ สุ่ม? มันจะถูกสร้างขึ้นโดยการกระจายครั้งเดียวหรือหลายการกระจาย? เรารู้อะไรบ้างเกี่ยวกับการกระจายเสียงหรือไม่ ถ้าอย่างน้อยก็มีบางสิ่งที่กล่าวมาข้างต้นเราสามารถใส่โมเดลผสม ไม่เช่นนั้นฉันไม่แน่ใจว่าความเชื่อของคุณเกี่ยวกับปัญหานี้คืออะไรจริง ๆ และถ้าคุณไม่มีอะไรมากกว่านี้ดูเหมือนว่าจะเป็นเรื่องคลุมเครือ คุณต้องแก้ไขบางอย่างไม่เช่นนั้นคุณสามารถเลือกจุดสุ่มและประกาศให้เป็นจุดเดียวที่สร้างขึ้นด้วยแบบเกาส์ด้วย
หมายถึงความหมาย

แต่โดยทั่วไปคุณสามารถใส่การกระจายตัวแบบ t ซึ่งทนต่อค่าผิดได้มากกว่าหรือการรวมตัวของการกระจายตัวแบบ t ฉันแน่ใจว่ามีเอกสารมากมายนี่คือเอกสารโดย Bishop research.microsoft.com/en-us/um/people/cmbishop/downloads/ …และนี่คือแพ็คเกจ R- ที่เหมาะกับการผสม: maths.uq.edu au / ~ gjm / mix_soft / EMMIX_R / EMMIX-manual.pdf
หมายถึงความหมาย

1
คุณเป็นจริงสำหรับประชากรกระจายตามปกติ แต่ไม่ได้สำหรับการแจกแจงอื่น ๆ มากที่สุดσ=MAD1.4826
เฮนรี่

คำตอบ:


10

การอนุมานแบบเบย์ในรูปแบบ T noise ที่มีความเหมาะสมก่อนจะให้การประมาณตำแหน่งและสเกลที่มีประสิทธิภาพ เงื่อนไขที่แม่นยำที่ความน่าจะเป็นและความต้องการก่อนที่จะพึงพอใจจะได้รับในการสร้างแบบจำลองความทนทานแบบเบย์ของพารามิเตอร์ตำแหน่งและสเกลโดย Andrade และ O'Hagan (2011) การประมาณการมีความแข็งแกร่งในแง่ที่ว่าการสังเกตเพียงครั้งเดียวไม่สามารถทำให้การประมาณการมีขนาดใหญ่โดยพลการตามที่แสดงในรูปที่ 2 ของกระดาษ

เมื่อข้อมูลมีการกระจายตามปกติ, SD ของการกระจาย T ติดตั้ง (สำหรับถาวร ) ไม่ตรงกับ SD ของการกระจายการสร้างที่ แต่มันง่ายต่อการแก้ไข ให้σเป็นส่วนเบี่ยงเบนมาตรฐานของการกระจายการสร้างและปล่อยให้sเป็นส่วนเบี่ยงเบนมาตรฐานของการกระจาย T ติดตั้ง หากข้อมูลที่มีการปรับสัดส่วน 2 แล้วจากรูปแบบของความเป็นไปได้ที่เรารู้ว่าsต้องปรับขนาดโดย 2 นี่ก็หมายความว่าs = σ ( ννσssสำหรับฟังก์ชั่นบางอย่างคงที่ฉ ฟังก์ชั่นนี้สามารถคำนวณเป็นตัวเลขได้โดยการจำลองจากปกติ นี่คือรหัสการทำเช่นนี้:s=σ(ν)

library(stats)
library(stats4)
y = rnorm(100000, mean=0,sd=1)
nu = 4
nLL = function(s) -sum(stats::dt(y/s,nu,log=TRUE)-log(s))
fit = mle(nLL, start=list(s=1), method="Brent", lower=0.5, upper=2)
# the variance of a standard T is nu/(nu-2)
print(coef(fit)*sqrt(nu/(nu-2)))

ยกตัวอย่างเช่นที่ฉันจะได้รับF ( ν ) = 1.18 ประมาณการที่ต้องการแล้วσ = s / F ( ν )ν=4(ν)=1.18σ^=s/(ν)


1
คำตอบที่ดี (+1) 'ในแง่ที่ว่าการสังเกตการณ์เพียงครั้งเดียวไม่สามารถทำการประมาณค่าได้ตามอำเภอใจดังนั้นจุดแตกหักคือ 2 / n (ฉันสงสัยเกี่ยวกับเรื่องนี้) .... เป็นจุดเปรียบเทียบสำหรับกระบวนการที่แสดงในคำตอบของฉันมันคือ n / 2
user603

ว้าวขอบคุณ! คำถามติดตามฟัซซี จริง ๆ แล้วมันสมเหตุสมผลหรือไม่ที่จะ "แก้ไข" สเกลดังนั้นจึงสอดคล้องกับ SD ในกรณีปกติหรือไม่ กรณีการใช้งานที่ฉันคิดว่าเป็นเมื่อรายงานการวัดการแพร่กระจาย ฉันจะไม่มีปัญหากับมาตราส่วนการรายงาน แต่ควรรายงานสิ่งที่สอดคล้องกับ SD เนื่องจากเป็นการวัดที่แพร่หลายที่สุด (อย่างน้อยในด้านจิตวิทยา) คุณเห็นสถานการณ์ที่การแก้ไขนี้นำไปสู่การประมาณการที่แปลกและไม่สอดคล้องหรือไม่?
Rasmus Bååth

6

ในขณะที่คุณกำลังถามคำถามเกี่ยวกับปัญหาที่แม่นยำมาก (การประเมินที่มีประสิทธิภาพ) ฉันจะให้คำตอบที่แม่นยำอย่างเท่าเทียมกัน อย่างไรก็ตามก่อนอื่นฉันจะเริ่มพยายามปัดเป่าข้อสันนิษฐานที่ไม่มีเหตุผล มันไม่เป็นความจริงเลยที่มีการประมาณตำแหน่งของเบย์ที่แข็งแกร่ง (มีตัวประมาณเบย์ที่ตั้ง แต่เมื่อฉันแสดงด้านล่างพวกเขาจะไม่แข็งแกร่งและเห็นได้ชัดว่าแม้แต่ตัวประมาณตำแหน่งที่ง่ายที่สุดไม่ใช่เบย์) ในความคิดของฉันเหตุผลที่ไม่มีการทับซ้อนกันระหว่างกระบวนทัศน์ 'Bayesian' และ 'แข็งแรง' ในกรณีที่ตั้งไปไกลมากในการอธิบายว่าทำไมยังไม่มีการประมาณของการกระจายที่มีทั้งความแข็งแกร่งและ Bayesian

สำหรับนักบวชที่เหมาะสมบนและν , mจะเป็นการประมาณค่าเฉลี่ยของy iที่จะทนทานต่อค่าผิดปกติm,sνmyi

จริงๆแล้วไม่มี การประมาณการที่เกิดขึ้นจะมีความแข็งแกร่งในแง่ที่อ่อนแอมากของคำที่มีประสิทธิภาพ อย่างไรก็ตามเมื่อเราพูดว่าค่ามัธยฐานนั้นมีความทนทานต่อค่าผิดปกติเราหมายถึงคำที่มีความทนทานในระดับที่แข็งแกร่งกว่ามาก นั่นคือในสถิติที่มีความทนทานความแกร่งของค่ามัธยฐานหมายถึงคุณสมบัติที่ถ้าคุณคำนวณค่ามัธยฐานในชุดข้อมูลของการสังเกตที่ดึงมาจากแบบจำลองแบบต่อเนื่องแบบโมนิมอลและต่อมาแทนที่การสังเกตเหล่านี้น้อยกว่าครึ่ง ค่าของค่ามัธยฐานที่คำนวณจากข้อมูลที่ปนเปื้อนนั้นใกล้เคียงกับค่าที่คุณมีหากคุณคำนวณบนชุดข้อมูลต้นฉบับ (ไม่มีการปนเปื้อน) จากนั้นเป็นเรื่องง่ายที่จะแสดงให้เห็นว่ากลยุทธ์การประเมินที่คุณเสนอในย่อหน้าที่ฉันอ้างถึงข้างต้นนั้นไม่แน่นอนแข็งแกร่งในแง่ของวิธีการที่คำนั้นเข้าใจได้โดยทั่วไปสำหรับค่ามัธยฐาน

ฉันไม่คุ้นเคยกับการวิเคราะห์แบบเบย์ทั้งหมด อย่างไรก็ตามฉันสงสัยว่ามีอะไรผิดปกติกับกลยุทธ์ต่อไปนี้เนื่องจากดูเหมือนว่าง่ายมีประสิทธิภาพและยังไม่ได้รับการพิจารณาในคำตอบอื่น ๆ ก่อนหน้านี้คือส่วนที่ดีของข้อมูลมาจากการกระจายแบบสมมาตรและอัตราการปนเปื้อนน้อยกว่าครึ่ง จากนั้นกลยุทธ์ง่ายๆก็คือ:F

  1. คำนวณค่ามัธยฐาน / ค่าบ้าของชุดข้อมูลของคุณ จากนั้นคำนวณ:
    zi=|ximed(x)|mad(x)
  2. ไม่รวมการสังเกตที่ (นี่คือα quantile ของการกระจายของzเมื่อx F ) ปริมาณนี้มีให้เลือกมากมายสำหรับFzi>qα(z|xF)αzxFFและสามารถ bootstrapped สำหรับคนอื่น ๆ
  3. เรียกใช้การวิเคราะห์แบบเบย์ (ปกติและไม่ทนทาน) ในการสังเกตที่ไม่ถูกปฏิเสธ

แก้ไข:

ขอบคุณ OP ที่ให้รหัส R ที่มีอยู่ในตัวเองเพื่อทำการวิเคราะห์ปัญหาแบบเบส์น่านับถือ

โค้ดด้านล่างนี้เปรียบเทียบวิธีการแบบเบย์ที่แนะนำโดย OP เพื่อเป็นทางเลือกจากเอกสารทางสถิติที่มีประสิทธิภาพ (เช่นวิธีการที่เหมาะสมที่เสนอโดย Gauss สำหรับกรณีที่ข้อมูลอาจมี ค่าผิดปกติมากที่สุดเท่าที่และการกระจายของ ส่วนที่ดีของข้อมูลคือ Gaussian)n/22

ส่วนกลางของข้อมูลคือ :N(1000,1)

n<-100
set.seed(123)
y<-rnorm(n,1000,1)

เพิ่มสารปนเปื้อนจำนวนหนึ่ง:

y[1:30]<-y[1:30]/100-1000 
w<-rep(0,n)
w[1:30]<-1

ดัชนี w รับค่า 1 สำหรับค่าผิดปกติ ฉันเริ่มต้นด้วยวิธีการที่แนะนำโดย OP:

library("rjags")
model_string<-"model{
  for(i in 1:length(y)){
    y[i]~dt(mu,inv_s2,nu)
  }
  mu~dnorm(0,0.00001)
  inv_s2~dgamma(0.0001,0.0001)
  s<-1/sqrt(inv_s2)
  nu~dexp(1/30) 
}"

model<-jags.model(textConnection(model_string),list(y=y))
mcmc_samples<-coda.samples(model,"mu",n.iter=1000)
print(summary(mcmc_samples)$statistics[1:2])
summary(mcmc_samples)

ฉันเข้าใจ:

     Mean        SD 
384.2283  97.0445 

และ:

2. Quantiles for each variable:

 2.5%   25%   50%   75% 97.5% 
184.6 324.3 384.7 448.4 577.7 

(เงียบมากจากค่าเป้าหมาย)

สำหรับวิธีการที่แข็งแกร่ง

z<-abs(y-median(y))/mad(y)
th<-max(abs(rnorm(length(y))))
print(c(mean(y[which(z<=th)]),sd(y[which(z<=th)])))

หนึ่งได้รับ:

 1000.149 0.8827613

(ใกล้เคียงกับค่าเป้าหมายมาก)

ผลที่สองนั้นใกล้เคียงกับค่าจริงมาก แต่มันแย่ที่สุด หากเราจัดประเภทเป็นค่าผิดปกติการสังเกตการณ์ที่ -score โดยประมาณนั้นใหญ่กว่า(โปรดจำไว้ว่าก่อนหน้านี้คือFคือ Gaussian) จากนั้นวิธีการแบบเบส์พบว่าการสังเกตทั้งหมดเป็นค่าผิดปกติ (กระบวนการที่มีประสิทธิภาพในทางตรงกันข้าม เฉพาะค่าผิดปกติเช่นนี้) นี่ก็หมายความว่าหากคุณต้องทำการวิเคราะห์แบบเบย์ (ไม่คงทน) ตามปกติในข้อมูลที่ไม่ได้จัดว่าเป็นค่าผิดปกติตามขั้นตอนที่มีประสิทธิภาพคุณควรทำเช่นนั้น (เช่นทำตามวัตถุประสงค์ที่ระบุไว้ในคำถามของคุณ)zthF
นี่เป็นเพียงตัวอย่าง แต่จริงๆแล้วมันค่อนข้างตรงไปตรงมาเพื่อแสดงว่า และสามารถทำได้อย่างเป็นทางการดูตัวอย่างในบทที่ 2 ของ [1]) พารามิเตอร์ของการแจกแจงแบบนักเรียนที่พอดีกับข้อมูลที่ปนเปื้อนไม่สามารถขึ้นอยู่กับการเปิดเผยค่าผิดปกติ t

  • [1] Ricardo A. Maronna, Douglas R. Martin, Victor J. Yohai (2006) สถิติที่แข็งแกร่ง: ทฤษฎีและวิธีการ (ซีรี่ส์ไวลีย์ในความน่าจะเป็นและสถิติ)
  • ฮูเบอร์, PJ (1981) สถิติที่แข็งแกร่ง นิวยอร์ก: John Wiley และ Sons

1
ทีนี้ t มักถูกเสนอเป็นทางเลือกที่ดีสำหรับการกระจายตัวแบบปกติ ฉันไม่รู้ว่านี่เป็นความอ่อนแอหรือไม่ ดูตัวอย่าง: Lange, KL, Little, RJ, & Taylor, JM (1989) การสร้างแบบจำลองทางสถิติที่ทนทานโดยใช้การแจกแจงแบบ t วารสารสมาคมสถิติอเมริกัน , 84 (408), 881-896 pdf
Rasmus Bååth

1
นี่คือความรู้สึกอ่อนแอ หากคุณมีรหัส R ที่ใช้ขั้นตอนที่คุณแนะนำฉันยินดีที่จะอธิบายคำตอบของฉันด้วยตัวอย่าง มิฉะนั้นคุณจะได้รับคำอธิบายเพิ่มเติมในบทที่ 2 ของนี้ตำราเรียน
user603

The procedure I suggest is basically described here: indiana.edu/~kruschke/BEST including R code. I will have to think about your solution! It does not, however, seem Bayesian in the sense that it does not model all the data, just the subset that "survives" step 2.
Rasmus Bååth

I thank you for your interesting discussion! Your answer is not that I seek, however, because (1) you don't describe a Bayesian procedure, you describe more of a data preparation step for how to remove outliers (2) your procedure does not result in a consistent estimator of SD, that is, if you sample from a normal distribution and the number of datapoints คุณจะไม่เข้าใกล้ SD "จริง" แต่การประมาณการของคุณจะต่ำไปหน่อย ฉันยังไม่ได้ซื้อคำจำกัดความของคุณอย่างสมบูรณ์ (คำจำกัดความของคุณไม่ใช่วิธีที่ฉันได้เห็นในวรรณกรรม Bayesian ส่วนใหญ่ที่ฉันเคยเจอ)
Rasmus Bååth

1
ฉันทำไปแล้ว!
Rasmus Bååth

1

ในการวิเคราะห์แบบเบย์โดยใช้การแจกแจงแกมม่าแบบผกผันก่อนความแม่นยำ (ค่าผกผันของความแปรปรวน) เป็นตัวเลือกทั่วไป หรือการกระจายของ Wishart แบบผกผันสำหรับโมเดลหลายตัวแปร การเพิ่มค่าความแปรปรวนก่อนหน้าช่วยเพิ่มความทนทานต่อค่าผิดปกติ

There is a nice paper by Andrew Gelman: "Prior distributions for variance parameters in hierarchical models" where he discusses what good choices for the priors on the variances can be.


4
ฉันขอโทษ แต่ฉันไม่เห็นว่าสิ่งนี้ตอบคำถามได้อย่างไร ฉันไม่ได้ขอที่แข็งแกร่งก่อน แต่สำหรับที่มีประสิทธิภาพรุ่น
Rasmus Bååth

0

ตัวประมาณที่มีประสิทธิภาพสำหรับพารามิเตอร์ตำแหน่ง μ ของชุดข้อมูลบางขนาด ยังไม่มีข้อความ จะได้รับเมื่อหนึ่งมอบหมาย Jeffreys ก่อนที่จะแปรปรวน σ2 ของการแจกแจงแบบปกติและคำนวณส่วนต่างสำหรับ μยอมแพ้ เสื้อ จัดจำหน่ายด้วย ยังไม่มีข้อความ ระดับความอิสระ.

ในทำนองเดียวกันหากคุณต้องการตัวประมาณที่มีประสิทธิภาพสำหรับค่าเบี่ยงเบนมาตรฐาน σ ของข้อมูลบางส่วน Dเราสามารถทำสิ่งต่อไปนี้:

อันดับแรกเราคิดว่าข้อมูลจะถูกกระจายตามปกติเมื่อทราบค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน ดังนั้น,

D|μ,σN(μ,σ2)
and if D(d1,,dN) then
p(D|μ,σ2)=1(2πσ)Nexp(N2σ2((mμ2)+s2))
where the sufficient statistics m and s2 are
m=1Ni=1Ndis2=1Ni=1Ndi2m2
In addition, using Bayes' theorem, we have
p(μ,σ2|D)p(D|μ,σ2)p(μ,σ2)
A convenient prior for (μ,σ2) is the Normal-invese-gamma family, which covers a wide range of shapes and is conjugate to this likelihood. This means that the posterior distribution p(μ,σ2|D) still belongs to the normal-inverse-gamma family, and its marginal p(σ2|D) is an inverse gamma distribution parameterized as
σ2|DIG(α+N/2,2β+Ns2)α,β>0
From this distribution, we can take the mode, which will give us an estimator for σ2. This estimator will be more or less tolerant to small excursions from misspecifications on the model by varying α and/or β. The variance of this distribution will then provide some indication on the fault-tolerance of the estimate. Since the tails of the inverse gamma are semi-heavy, you get the kind of behaviour you would expect from the t distribution estimate for μ that you mention.

1
"A robust estimator for the location parameter μ of some dataset of size N is obtained when one assigns a Jeffreys prior to the variance σ2 of the normal distribution." Isn't this Normal model you describe a typical example of a non-robust model? That is, a single value that is off can have great influence on the parameters of the model. There is a big difference between the posterior over the mean being a t-distribution (as in your case) and the distribution for the data being a t-distribution (as is a common example of a robust Bayesian model for estimating the mean).
Rasmus Bååth

1
It all depends on what you mean by robust. What you are saying right now is that you would like robustness wrt data. What I was proposing was robustness wrt model mis-specification. They are both different types of robustness.
yannick

2
I would say that the examples I gave, MAD and using a t distribution as the distribution for the data are examples of robustness with respect to data.
Rasmus Bååth

I would say Rasmus is right and so would Gelman er al in BDA3, as would a basic understanding that th t distribution has fatter tails than the normal for the same location parameter
Brash Equilibrium

0

I have followed the discussion from the original question. Rasmus when you say robustness I am sure you mean in the data (outliers, not miss-specification of distributions). I will take the distribution of the data to be Laplace distribution instead of a t-distribution, then as in normal regression where we model the mean, here we will model the median (very robust) aka median regression (we all know). Let the model be:

Y=βX+ϵ, ϵ has laplace(0,σ2).

Of course our goal is to estimate model parameters. We expect our priors to be vague to have an objective model. The model at hand has a posterior of the form f(β,σ,Y,X). Giving β a normal prior with large variance makes such a prior vague and a chis-squared prior with small degrees of freedom to mimic a jeffrey's prior(vague prior) is given to to σ2. With a Gibbs sampler what happens? normal prior+laplace likehood=???? we do know. Also chi-square prior +laplace likelihood=??? we do not know the distribution. Fortunately for us there is a theorem in (Aslan,2010) that transforms a laplace likelihood to a scale mixture of normal distributions which then enable us to enjoy the conjugate properties of our priors. I think the whole process described is fully robust in terms of outliers. In a multivariate setting chi-square becomes a a wishart distribution, and we use multivariate laplace and normal distributions.


2
Your solution seems to be focused on robust estimation of the location(mean/median). My question was rather about estimation of scale with the property of consistency with respect to retrieving the SD when the data generating distribution actually is normal.
Rasmus Bååth

With a robust estimate of the location, the scale as function of the location immediately benefits from the robustness of the location. There is no other way of making the scale robust.
Chamberlain Foncha

Anyway I must say I am eagerly waiting to see how this problem will be tackled most especially with a normal distribution as you emphasized.
Chamberlain Foncha

0

Suppose that you have K groups and you want to model the distribution of their sample variances, perhaps in relation to some covariates x. That is, suppose that your data point for group k1K is Var(yk)[0,). The question here is, "What is a robust model for the likelihood of the sample variance?" One way to approach this is to model the transformed data ln[Var(yk)] as coming from a t distribution, which as you have already mentioned is a robust version of the normal distribution. If you don't feel like assuming that the transformed variance is approximately normal as n, then you could choose a probability distribution with positive real support that is known to have heavy tails compared to another distribution with the same location. For example, there is a recent answer to a question on Cross Validated about whether the lognormal or gamma distribution has heavier tails, and it turns out that the lognormal distribution does (thanks to @Glen_b for that contribution). In addition, you could explore the half-Cauchy family.

Similar reasoning applies if instead you are assigning a prior distribution over a scale parameter for a normal distribution. Tangentially, the lognormal and inverse-gamma distributions are not advisable if you want to form a boundary avoiding prior for the purposes of posterior mode approximation because they peak sharply if you parameterize them so that the mode is near zero. See BDA3 chapter 13 for discussion. So in addition to identifying a robust model in terms of tail thickness, keep in mind that kurtosis may matter to your inference, too.

I hope this helps you as much as your answer to one of my recent questions helped me.


1
My question was about the situation when you have one group and how to robustly estimate the scale of that group. In the case of outliers I don't believe the sample variance is considered robust.
Rasmus Bååth

If you have one group, and you are estimating its normal distribution, then your question applies to the form of the prior over its scale parameter. As my answer implies, you can use a t distribution over its log transformation or choose a fat tailed distribution with positive real support, being careful about other aspects of that distribution such as its kurtosis. Bottom line, if you wan a robust model for a scale parameter, use a t distribution over its log transform or some other fat tailed distribution.
Brash Equilibrium
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.