อะไรคือดัชนีที่ดีของระดับของการละเมิดกฎเกณฑ์และฉลากที่สื่อความหมายสามารถแนบกับดัชนีนั้นได้?


12

บริบท:

ในคำถามก่อนหน้านี้ @Robbie ถามในการศึกษามีประมาณ 600 กรณีว่าทำไมการทดสอบภาวะปกติอย่างมีนัยสำคัญปัญหาที่ไม่ปกติยังแปลงปัญหาการแจกแจงปกติ หลายคนระบุว่าการทดสอบความสำคัญของภาวะปกตินั้นไม่มีประโยชน์มากนัก ด้วยตัวอย่างขนาดเล็กการทดสอบดังกล่าวไม่มีอำนาจมากพอที่จะตรวจจับการละเมิดกฎเกณฑ์และตัวอย่างที่มีขนาดใหญ่พวกเขาจะตรวจพบการละเมิดกฎเกณฑ์ที่มีขนาดเล็กเพียงพอไม่ต้องกังวล

สำหรับฉันแล้วดูเหมือนว่าปัญหานี้จะคล้ายกับการอภิปรายเกี่ยวกับการทดสอบที่สำคัญและขนาดผลกระทบ หากคุณมุ่งเน้นเฉพาะการทดสอบที่สำคัญเมื่อคุณมีกลุ่มตัวอย่างขนาดใหญ่คุณสามารถตรวจจับเอฟเฟ็กต์เล็ก ๆ ที่ไม่เกี่ยวข้องกับการใช้งานจริงและตัวอย่างขนาดเล็กคุณไม่มีพลังเพียงพอ

ในบางกรณีที่ฉันเคยเห็นหนังสือแนะนำคนที่คุณสามารถมีตัวอย่าง "ใหญ่เกินไป" เพราะเอฟเฟกต์ขนาดเล็กจะมีความสำคัญทางสถิติ

ในบริบทของการทดสอบอย่างมีนัยสำคัญและขนาดของเอฟเฟ็กต์การแก้ปัญหาอย่างง่ายอย่างหนึ่งคือการมุ่งเน้นไปที่การประเมินขนาดของเอฟเฟกต์ที่น่าสนใจแทนที่จะหมกมุ่นอยู่กับกฎการตัดสินใจแบบไบนารีว่ามีหรือไม่มีผล ช่วงความเชื่อมั่นที่มีต่อขนาดเอฟเฟกต์เป็นหนึ่งในวิธีการดังกล่าวหรือคุณสามารถใช้วิธีการแบบเบย์บางรูปแบบ ยิ่งไปกว่านั้นโดเมนงานวิจัยต่าง ๆ สร้างความคิดเกี่ยวกับขนาดของเอฟเฟกต์ที่กำหนดในทางปฏิบัติสำหรับดีขึ้นหรือแย่ลงการใช้ฮิวริสติกฉลากเช่น "เล็ก", "ปานกลาง" และ "เอฟเฟ็กต์ขนาดใหญ่" สิ่งนี้ยังนำไปสู่การแนะนำอย่างชาญฉลาดในการเพิ่มขนาดตัวอย่างเพื่อให้ได้ความแม่นยำสูงสุดในการประมาณค่าพารามิเตอร์ที่กำหนด

นี่ทำให้ฉันสงสัยว่าทำไมวิธีการที่คล้ายกันโดยยึดตามช่วงความเชื่อมั่นของขนาดเอฟเฟกต์นั้นไม่ได้ดำเนินการอย่างกว้างขวางมากขึ้นในการทดสอบสมมติฐาน

คำถาม:

  • อะไรคือดัชนีเดี่ยวที่ดีที่สุดของระดับที่ข้อมูลละเมิดกฎเกณฑ์?
  • หรือเป็นเรื่องที่ดีกว่าถ้าพูดถึงดัชนีการฝ่าฝืนกฎเกณฑ์หลาย ๆ อย่าง (เช่นความเบ้, เคิร์ตซีส, ความแพร่หลายในค่าผิดปกติ)
  • จะคำนวณช่วงความมั่นใจได้อย่างไร (หรืออาจใช้วิธีการแบบเบย์) สำหรับดัชนี?
  • คุณสามารถกำหนดป้ายกำกับด้วยวาจาแบบใดให้กับดัชนีนั้นเพื่อระบุระดับของการละเมิดกฎเกณฑ์ (เช่นอ่อนปานกลางปานกลางแข็งแรงมาก ฯลฯ ) จุดประสงค์ของฉลากดังกล่าวอาจช่วยนักวิเคราะห์ที่มีประสบการณ์น้อยลงในการฝึกอบรมสัญชาตญาณว่าการละเมิดกฎเกณฑ์เป็นปัญหาหรือไม่

5
คำถามที่น่าสนใจ
rolando2

1
@ Jeromy มันเป็นคำถามที่ดี แต่ให้ฉันเพิ่มการตรวจสอบรูปแบบกราฟิกมาตรฐานเช่น qqplot หรือพล็อตที่เหลือในการถดถอยทำในใจของฉันมุ่งเน้นไปที่ "ขนาดผล" มากกว่าค่า ใน qqplot ฉันจะมองหาประเภทและขนาดของการเบี่ยงเบนจากเส้นตรงเพื่อเป็นแนวทางในการสร้างแบบจำลองของฉันไม่ใช่แค่การตรวจจับความเบี่ยงเบน ที่มีความเสี่ยงในเรื่องที่มีความซับซ้อนมากกว่านั้นอาจเป็นประโยชน์ในการเสริม qqplot ด้วย "รูปร่างที่สำคัญ" และผลที่ตามมาโดยทั่วไป p
NRH

1
@NRH ฉันเห็นด้วย; นี่คือสิ่งที่ฉันทำ อย่างไรก็ตามฉันมักจะให้คำปรึกษาทางสถิติแก่นักวิจัยที่มีประสบการณ์น้อยกว่าในการตัดสินระดับความไม่ปกติจากโครงเรื่อง ฉันคิดว่าดัชนีที่มีป้ายกำกับเชิงคุณภาพหลากหลายสามารถเสริมการฝึกอบรมของสัญชาตญาณภาพ
Jeromy Anglim

คำตอบ:


13

A) ดัชนีเดี่ยวที่ดีที่สุดของระดับที่ข้อมูลละเมิดกฎเกณฑ์คืออะไร?

B) หรือจะเป็นการดีกว่าที่จะพูดคุยเกี่ยวกับดัชนีการฝ่าฝืนกฎเกณฑ์หลาย ๆ อย่าง (เช่นความเบ้, เคิร์ตทิสซึ่งเป็นเรื่องธรรมดา)?

ฉันจะลงคะแนนให้ B. การละเมิดที่แตกต่างกันมีผลที่แตกต่างกัน ตัวอย่างเช่นการแจกแจงแบบสมมาตรและสมมาตรพร้อมกับหางที่หนักทำให้ซีไอเอของคุณกว้างมากและอาจลดพลังงานในการตรวจจับผลกระทบใด ๆ อย่างไรก็ตามค่าเฉลี่ยยังคงได้รับมูลค่า "ปกติ" สำหรับการแจกแจงที่เบ้มากค่าเฉลี่ยตัวอย่างอาจไม่ใช่ดัชนีที่สมเหตุสมผลมากของ "ค่าทั่วไป"

C) สามารถคำนวณช่วงความมั่นใจได้อย่างไร (หรืออาจใช้วิธีการแบบเบย์) สำหรับดัชนี?

ฉันไม่รู้เกี่ยวกับสถิติแบบเบย์ แต่เกี่ยวกับการทดสอบตามปกติแบบดั้งเดิมฉันต้องการอ้างถึง Erceg-Hurn และคณะ (2008) [2]:

ปัญหาอีกข้อคือการทดสอบสมมติฐานมีสมมติฐานของตนเอง การทดสอบตามปกติมักจะคิดว่าข้อมูลเป็นแบบ homoscedastic การทดสอบความเป็นเนื้อเดียวกันถือว่าข้อมูลปกติมีการกระจาย หากมีการฝ่าฝืนกฎเกณฑ์และข้อผิดพลาดของความเหมือนจริงความถูกต้องของการทดสอบสมมติฐานจะถูกทำลายอย่างจริงจัง นักสถิติที่มีชื่อเสียงได้อธิบายถึงการทดสอบสมมติฐาน (เช่นการทดสอบของ Levene, การทดสอบ Kolmogorov – Smirnov) ที่สร้างขึ้นในซอฟต์แวร์เช่น SPSS ซึ่งมีข้อบกพร่องร้ายแรงและแนะนำว่าไม่ควรใช้การทดสอบเหล่านี้ (D'Agostino, 1986; Glass & Hopkins, 1996)

D) ป้ายกำกับด้วยวาจาแบบใดที่คุณสามารถกำหนดให้กับดัชนีนั้นเพื่อระบุระดับของการละเมิดกฎเกณฑ์ (เช่นอ่อนปานกลางปานกลางแข็งแรงมาก ฯลฯ )

Micceri (1989) [1] ทำการวิเคราะห์ชุดข้อมูลขนาดใหญ่จำนวน 440 ชุดในด้านจิตวิทยา เขาประเมินความสมมาตรและน้ำหนักหางและเกณฑ์และฉลากที่กำหนดไว้ ฉลากสำหรับช่วงอสมมาตรตั้งแต่ 'ค่อนข้างสมมาตร' ถึง 'ปานกลาง -> รุนแรง -> ไม่สมมาตรแบบเอ็กซ์โปเนนเชียล' ฉลากสำหรับน้ำหนักหางอยู่ในช่วง 'Uniform -> น้อยกว่า Gaussian -> เกี่ยวกับ Gaussian -> Moderate -> Extreme -> การปนเปื้อนแบบทวีคูณ' การจำแนกแต่ละประเภทขึ้นอยู่กับเกณฑ์หลายข้อและมีประสิทธิภาพ

เขาพบว่าจากชุดข้อมูล 440 ชุดนี้มีเพียง 28% เท่านั้นที่มีความสมมาตรและมีเพียง 15% เท่านั้นที่มีน้ำหนักแบบเกาส์ที่เกี่ยวข้องกับเกาส์เซียน ดังนั้นชื่อที่ดีของกระดาษ:

ยูนิคอร์นโค้งปกติและสิ่งมีชีวิตอื่น ๆ ที่ไม่น่าจะเป็นไปได้

ฉันเขียนRฟังก์ชันที่ประเมินเกณฑ์ของ Micceri โดยอัตโนมัติและพิมพ์ฉลาก:

# This function prints out the Micceri-criteria for tail weight and symmetry of a distribution
micceri <- function(x, plot=FALSE) {
    library(fBasics)
    QS <- (quantile(x, prob=c(.975, .95, .90)) - median(x)) / (quantile(x, prob=c(.75)) - median(x))

    n <- length(x)
    x.s <- sort(x)
    U05 <- mean(x.s[(.95*n ):n])
    L05 <- mean(x.s[1:(.05*n)])
    U20 <- mean(x.s[(.80*n):n])
    L20 <- mean(x.s[1:(.20*n)])
    U50 <- mean(x.s[(.50*n):n])
    L50 <- mean(x.s[1:(.50*n)])
    M25 <- mean(x.s[(.375*n):(.625*n)])
    Q <- (U05 - L05)/(U50 - L50)
    Q1 <- (U20 - L20)/(U50 - L50)
    Q2 <- (U05 - M25)/(M25 - L05)

    # mean/median interval
    QR <- quantile(x, prob=c(.25, .75)) # Interquartile range
    MM <- abs(mean(x) - median(x)) / (1.4807*(abs(QR[2] - QR[1])/2))

    SKEW <- skewness(x)
    if (plot==TRUE) plot(density(x))

    tail_weight <- round(c(QS, Q=Q, Q1=Q1), 2)
    symmetry <- round(c(Skewness=SKEW, MM=MM, Q2=Q2), 2)

    cat.tail <- matrix(c(1.9, 2.75, 3.05, 3.9, 4.3,
                         1.8, 2.3, 2.5, 2.8, 3.3,
                        1.6, 1.85, 1.93, 2, 2.3,
                        1.9, 2.5, 2.65, 2.73, 3.3,
                        1.6, 1.7, 1.8, 1.85, 1.93), ncol=5, nrow=5)

    cat.sym <- matrix(c(0.31, 0.71, 2,
                        0.05, 0.18, 0.37,
                        1.25, 1.75, 4.70), ncol=3, nrow=3)


    ts <- c()
    for (i in 1:5) {ts <- c(ts, sum(abs(tail_weight[i]) > cat.tail[,i]) + 1)}

    ss <- c()
    for (i in 1:3) {ss <- c(ss, sum(abs(symmetry[i]) > cat.sym[,i]) + 1)}

    tlabels <- c("Uniform", "Less than Gaussian", "About Gaussian", "Moderate contamination", "Extreme contamination", "Double exponential contamination")

    slabels <- c("Relatively symmetric", "Moderate asymmetry", "Extreme asymmetry", "Exponential asymmetry")

    cat("Tail weight indexes:\n")
    print(tail_weight)
    cat(paste("\nMicceri category:", tlabels[max(ts)],"\n"))
    cat("\n\nAsymmetry indexes:\n")
    print(symmetry)
    cat(paste("\nMicceri category:", slabels[max(ss)]))

    tail.cat <- factor(max(ts), levels=1:length(tlabels), labels=tlabels, ordered=TRUE)
    sym.cat  <- factor(max(ss), levels=1:length(slabels), labels=slabels, ordered=TRUE)

    invisible(list(tail_weight=tail_weight, symmetry=symmetry, tail.cat=tail.cat, sym.cat=sym.cat))
}

นี่คือการทดสอบสำหรับการแจกแจงแบบปกติมาตรฐาน aมี 8 df และ log-normal:t

> micceri(rnorm(10000))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 2.86  2.42  1.88  2.59  1.76 

Micceri category: About Gaussian 


Asymmetry indexes:
Skewness   MM.75%       Q2 
    0.01     0.00     1.00 

Micceri category: Relatively symmetric



> micceri(rt(10000, 8))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 3.19  2.57  1.94  2.81  1.79 

Micceri category: Extreme contamination 


Asymmetry indexes:
Skewness   MM.75%       Q2 
   -0.03     0.00     0.98 

Micceri category: Relatively symmetric



> micceri(rlnorm(10000))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 6.24  4.30  2.67  3.72  1.93 

Micceri category: Double exponential contamination 


Asymmetry indexes:
Skewness   MM.75%       Q2 
    5.28     0.59     8.37 

Micceri category: Exponential asymmetry

[1] Micceri, T. (1989) ยูนิคอร์นโค้งปกติและสิ่งมีชีวิตอื่น ๆ ที่ไม่น่าจะเป็นไปได้ กระดานข่าวทางจิตวิทยา, 105 , 156-166 ดอย: 10.1037 / 0033-2909.105.1.156

[2] Erceg-Hurn, DM, & Mirosevich, VM (2008) วิธีการทางสถิติที่ทันสมัย: วิธีที่ง่ายที่สุดในการเพิ่มความแม่นยำและพลังของการวิจัยของคุณ นักจิตวิทยาอเมริกัน, 63 , 591-601


3
+1 นี่เป็นคำตอบที่ดีจริงๆ อย่างไรก็ตามฉันต้องการที่จะพูดคลุมเครือ w / 1 จุด คุณระบุว่า "การกระจายแบบสมมาตรและสมมาตรพร้อมกับหางที่หนักทำให้ซีไอเอของคุณกว้างมากและลดพลังงานในการตรวจจับเอฟเฟกต์" เว้นแต่ว่าพวกเขาถูก bootstrapped, CI มีแนวโน้มที่จะขึ้นอยู่กับ asymptotics (สมมติฐานปกติ) ดังนั้นความจริงที่ว่า dist ของคุณมีหางไขมันไม่มีผลต่อความกว้างของ CI หรือพลังงาน แต่จะหมายความว่าความน่าจะเป็นของการครอบคลุมเชิงประจักษ์จะไม่ตรงกับความน่าจะเป็นของการครอบคลุมที่สันนิษฐาน
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.