นอกเหนือจาก Durbin-Watson แล้วการทดสอบสมมติฐานใดบ้างที่สามารถสร้างผลลัพธ์ที่สรุปไม่ได้?


10

สถิติทดสอบ Durbin-Watsonสามารถนอนในภูมิภาคที่สรุปไม่ได้ที่มันเป็นไปไม่ได้อย่างใดอย่างหนึ่งที่จะปฏิเสธหรือล้มเหลวที่จะปฏิเสธสมมติฐาน (ในกรณีนี้ศูนย์อัต)

การทดสอบทางสถิติอื่นใดที่สามารถให้ผลลัพธ์ที่ "สรุปไม่ได้"?

มีคำอธิบายทั่วไป (การโบกมือเป็นไร) เพราะเหตุใดชุดทดสอบนี้จึงไม่สามารถทำการตัดสินใจไบนารี "ปฏิเสธ" / "ไม่สามารถปฏิเสธ" ได้?

มันจะเป็นโบนัสถ้ามีใครสามารถพูดถึงผลกระทบของการตัดสินใจเชิงทฤษฎีซึ่งเป็นส่วนหนึ่งของคำตอบของพวกเขาในแบบสอบถามหลัง - การมีหมวดหมู่เพิ่มเติมของข้อสรุป (ใน) หมายความว่าเราต้องพิจารณาค่าใช้จ่ายของ Type I และ Type II ข้อผิดพลาดในวิธีที่ซับซ้อนมากขึ้น?


2
บิตนอกหัวข้อ แต่การทดสอบแบบสุ่มมีรสชาติ สำหรับค่าบางอย่างของข้อมูลคุณต้องสุ่มการยอมรับและการปฏิเสธ
Christoph Hanck

@ChristophHanck ขอบคุณนั่นคือการเชื่อมต่อที่น่าสนใจที่ฉันจะไม่สังเกตเห็น ไม่ใช่สิ่งที่ฉันตั้งใจ แต่ฉันก็ยังคงรักษาคำถามที่คลุมเครือในความหวังว่ามันจะเป็นเรื่องที่จับได้ - ขึ้นอยู่กับคำตอบ
Silverfish

คำตอบ:


10

บทความวิกิพีเดียอธิบายว่าการกระจายของสถิติทดสอบภายใต้สมมติฐานขึ้นอยู่กับการออกแบบเมทริกซ์โดยเฉพาะอย่างยิ่งการกำหนดค่าของค่าใช้ในการทำนายการถดถอย Durbin & Watson คำนวณขอบเขตที่ต่ำกว่าสำหรับสถิติการทดสอบภายใต้การทดสอบสำหรับความสัมพันธ์เชิงบวกอัตโนมัติต้องปฏิเสธในระดับนัยสำคัญสำหรับเมทริกซ์การออกแบบใด ๆ & ขอบเขตบนที่การทดสอบต้องไม่ปฏิเสธสำหรับเมทริกซ์การออกแบบใด ๆ "ภูมิภาคที่สรุปไม่ได้" เป็นเพียงภูมิภาคที่คุณต้องคำนวณค่าวิกฤตที่แน่นอนโดยคำนึงถึงเมทริกซ์การออกแบบของคุณเพื่อรับคำตอบที่ชัดเจน

สถานการณ์แบบอะนาล็อกจะต้องทำการทดสอบแบบตัวต่อตัวหนึ่งตัวอย่างเมื่อคุณรู้เพียงสถิติ t และไม่ใช่ขนาดตัวอย่าง : 1.645 และ 6.31 (สอดคล้องกับองศาอิสระไม่สิ้นสุดและเพียงอันเดียว) ขอบเขตสำหรับการทดสอบขนาด 0.05

เท่าที่ทฤษฎีการตัดสินใจดำเนินไป - คุณมีแหล่งที่มาใหม่ของความไม่แน่นอนที่จะต้องคำนึงถึงนอกเหนือจากความแตกต่างของการสุ่มตัวอย่าง แต่ฉันไม่เห็นว่าทำไมมันจึงไม่ควรนำมาใช้ในแบบเดียวกันเช่นเดียวกับสมมติฐานว่างเชิงประกอบ คุณอยู่ในสถานการณ์เดียวกับคนที่มีพารามิเตอร์ที่ไม่รู้จักไม่ว่าคุณจะไปถึงที่นั่นได้อย่างไร ดังนั้นหากคุณจำเป็นต้องตัดสินใจปฏิเสธ / คงไว้ซึ่งการตัดสินใจในขณะที่ควบคุมความผิดพลาดประเภทที่ 1 กับความเป็นไปได้ทั้งหมดให้ปฏิเสธแบบอนุรักษ์นิยม (เช่นเมื่อสถิติของเดอร์บิน - วัตสันอยู่ภายใต้ขอบเขตล่างหรือสถิติของ t-6.31)

†หรือบางทีคุณอาจทำตารางหาย แต่สามารถจดจำค่าวิกฤตบางอย่างสำหรับ Gaussian มาตรฐานและสูตรสำหรับฟังก์ชัน Cauchy quantile


(+1) ขอบคุณ ฉันรู้ว่านี่เป็นกรณีสำหรับการทดสอบ Durbin-Watson (ควรพูดถึงในคำถามของฉันจริง ๆ ) แต่สงสัยว่านี่เป็นตัวอย่างของปรากฏการณ์ทั่วไปที่มากขึ้นและถ้าเป็นเช่นนั้นพวกเขาทั้งหมดทำงานในลักษณะเดียวกันหรือไม่ ฉันเดาว่ามันสามารถเกิดขึ้นได้ตัวอย่างเช่นเมื่อทำการทดสอบบางอย่างในขณะที่เพียงการเข้าถึงข้อมูลสรุป (ไม่จำเป็นในการถดถอย) แต่ DW เป็นกรณีเดียวที่ฉันสามารถจำได้ว่าเห็นค่าวิกฤตที่สูงและต่ำรวบรวมและ tabulated . หากคุณมีความคิดใด ๆ เกี่ยวกับวิธีที่ฉันสามารถทำให้คำถามกำหนดเป้าหมายได้ดีขึ้นซึ่งจะได้รับการต้อนรับอย่างมาก
Silverfish

คำถามแรกค่อนข้างคลุมเครือ ("การทดสอบทางสถิติอื่น ๆ [... ]?") แต่ฉันไม่คิดว่าคุณจะชี้แจงได้โดยไม่ตอบคำถามที่สอง ("มีคำอธิบายทั่วไป [... ]?") ตัวคุณเอง - โดยรวมแล้วฉันคิดว่ามันไม่เป็นไร
Scortchi - Reinstate Monica

7

อีกตัวอย่างหนึ่งของการทดสอบที่มีผลลัพธ์ที่สรุปไม่ได้คือการทดสอบแบบทวินามสำหรับสัดส่วนเมื่อมีเพียงสัดส่วนไม่ใช่ขนาดตัวอย่าง นี่ไม่ใช่เรื่องไม่สมจริงอย่างสมบูรณ์ - เรามักจะเห็นหรือได้ยินคำกล่าวอ้างที่ไม่ดีในแบบฟอร์ม "73% ของผู้คนยอมรับว่า ... " และอื่น ๆ โดยที่ไม่มีตัวหาร

สมมติว่าตัวอย่างเช่นเรารู้เพียงว่าสัดส่วนตัวอย่างกลมที่ถูกต้องร้อยละที่ใกล้ที่สุดทั้งหมดและเราต้องการที่จะทดสอบกับที่ระดับH0:π=0.5H1:π0.5α=0.05

หากสัดส่วนสังเกตของเราคือ แล้วขนาดตัวอย่างสำหรับสัดส่วนที่สังเกตจะต้องได้รับอย่างน้อย 19 ตั้งแต่เป็นส่วนที่มีส่วนที่ต่ำที่สุดรอบเพื่อจะ\% เราไม่รู้ว่าจำนวนความสำเร็จที่สังเกตได้จริงเป็น 1 จาก 19, 1 จาก 20, 1 จาก 21, 1 จาก 22, 2 จาก 37, 2 จาก 37, 2 จาก 38, 3 จาก 55, 5 จาก 100 หรือ 50 ออกจาก 1000 ... แต่แล้วแต่จำนวนใดของเหล่านี้เป็นผลที่ได้จะมีความสำคัญที่ระดับp=5%1195%α=0.05

ในทางกลับกันถ้าเรารู้ว่าสัดส่วนตัวอย่างคือแล้วเราไม่รู้ว่าจำนวนความสำเร็จที่สังเกตได้คือ 49 จาก 100 (ซึ่งจะไม่สำคัญในระดับนี้) หรือ 4900 จาก 10,000 (ซึ่ง บรรลุความสำคัญ) ดังนั้นในกรณีนี้ผลลัพธ์ไม่สามารถสรุปได้p=49%

โปรดทราบว่าด้วยเปอร์เซ็นต์ที่ปัดเศษจะไม่มีภูมิภาค "ล้มเหลวในการปฏิเสธ": แม้แต่นั้นสอดคล้องกับตัวอย่างเช่น 49,500 สำเร็จจาก 100,000 ซึ่งจะส่งผลให้เกิดการปฏิเสธรวมถึงตัวอย่างเช่น 1 สำเร็จจากการทดลอง 2 ครั้ง ซึ่งจะส่งผลในความล้มเหลวที่จะปฏิเสธH_0p=50%H0

ซึ่งแตกต่างจากการทดสอบ Durbin-Watson ฉันไม่เคยเห็นผลลัพธ์ที่เป็นตารางซึ่งเปอร์เซ็นต์มีนัยสำคัญ สถานการณ์นี้มีความละเอียดมากกว่าเนื่องจากไม่มีขอบเขตบนและล่างสำหรับค่าวิกฤต ผลลัพธ์ของจะไม่สามารถสรุปได้อย่างชัดเจนเนื่องจากความสำเร็จเป็นศูนย์ในการทดลองหนึ่งครั้งจะไม่มีนัยสำคัญ แต่ไม่มีความสำเร็จในการทดลองหนึ่งล้านครั้งจะมีนัยสำคัญสูง เราได้เห็นแล้วว่าคือสรุปไม่ได้ แต่ที่มีผลอย่างมีนัยสำคัญเช่นในระหว่าง นอกจากนี้การขาดการตัดไม่ได้เป็นเพียงเพราะในกรณีที่ความผิดปกติของและ\% เล่นรอบ ๆ ตัวอย่างที่มีนัยสำคัญน้อยที่สุดที่สอดคล้องกับp=0%p=50%p=5%p=0%p=100%p=16%คือ 3 ความสำเร็จในตัวอย่าง 19 ซึ่งในกรณีนี้ดังนั้นจะมีความหมาย; สำหรับเราอาจประสบความสำเร็จ 1 ครั้งในการทดลอง 6 ครั้งซึ่งไม่มีนัยสำคัญดังนั้นกรณีนี้จึงไม่สามารถสรุปได้ (เนื่องจากมีตัวอย่างอื่นที่ชัดเจนด้วยซึ่ง จะมีนัยสำคัญ); สำหรับอาจมี 2 ความสำเร็จในการทดลอง 11 ครั้ง (ไม่มีนัยสำคัญ ) ดังนั้นกรณีนี้จึงไม่สามารถสรุปได้เช่นกัน แต่สำหรับตัวอย่างที่มีนัยสำคัญน้อยที่สุดที่เป็นไปได้คือ 3 ความสำเร็จในการทดลอง 19 ครั้งด้วยดังนั้นนี่จึงมีความหมายอีกครั้งPr(X3)0.00221<0.025p=17%Pr(X1)0.109>0.025p=16%p=18%Pr(X2)0.0327>0.025p=19%Pr(X3)0.0106<0.025

ในความเป็นจริงเป็นเปอร์เซ็นต์ที่ถูกปัดเศษต่ำกว่า 50% อย่างมีนัยสำคัญอย่างไม่น่าสงสัยที่ระดับ 5% (ค่า p-value สูงสุดจะเป็น 4 สำหรับความสำเร็จในการทดลอง 17 ครั้งและมีนัยสำคัญ) ในขณะที่เป็นผลลัพธ์ที่ไม่เป็นศูนย์ต่ำสุดซึ่งไม่สามารถสรุปได้ (เพราะสามารถตรงกับความสำเร็จ 1 ครั้งในการทดลอง 8 ครั้ง) ดังที่เห็นได้จากตัวอย่างข้างต้นสิ่งที่เกิดขึ้นระหว่างนั้นมีความซับซ้อนมากขึ้น! กราฟด้านล่างมีเส้นสีแดงที่ : จุดที่อยู่ใต้เส้นนั้นมีความสำคัญอย่างชัดเจน แต่ที่อยู่เหนือเส้นนั้นไม่สามารถสรุปได้ รูปแบบของค่า p เป็นเช่นนั้นจะไม่มีขีด จำกัด ล่างและบนเดี่ยวในอัตราร้อยละที่สังเกตได้สำหรับผลลัพธ์ที่มีนัยสำคัญอย่างไม่น่าสงสัยp=24%p=13%α=0.05

ค่า p สำคัญน้อยที่สุดของการทดสอบทวินามด้วยขนาดตัวอย่างที่ไม่รู้จัก

รหัส R

# need rounding function that rounds 5 up
round2 = function(x, n) {
  posneg = sign(x)
  z = abs(x)*10^n
  z = z + 0.5
  z = trunc(z)
  z = z/10^n
  z*posneg
}

# make a results data frame for various trials and successes
results <- data.frame(successes = rep(0:100, 100),
    trials = rep(1:100, each=101))
results <- subset(results, successes <= trials)
results$percentage <- round2(100*results$successes/results$trials, 0)
results$pvalue <- mapply(function(x,y) {
    binom.test(x, y, p=0.5, alternative="two.sided")$p.value}, results$successes, results$trials)

# make a data frame for rounded percentages and identify which are unambiguously sig at alpha=0.05
leastsig <- sapply(0:100, function(n){
    max(subset(results, percentage==n, select=pvalue))})
percentages <- data.frame(percentage=0:100, leastsig)
percentages$significant <- percentages$leastsig
subset(percentages, significant==TRUE)

# some interesting cases
subset(results, percentage==13) # inconclusive at alpha=0.05
subset(results, percentage==24) # unambiguously sig at alpha=0.05

# plot graph of greatest p-values, results below red line are unambiguously significant at alpha=0.05
plot(percentages$percentage, percentages$leastsig, panel.first = abline(v=seq(0,100,by=5), col='grey'),
    pch=19, col="blue", xlab="Rounded percentage", ylab="Least significant two-sided p-value", xaxt="n")
axis(1, at = seq(0, 100, by = 10))
abline(h=0.05, col="red")

(รหัสการปัดเศษถูกตัดออกจากคำถาม StackOverflowนี้)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.