Goodness of fit test: คำถามเกี่ยวกับเกณฑ์ทดสอบ Anderson – Darling และCramér – von Mises


10

ฉันอ่านหน้าเว็บสำหรับความดีของการทดสอบพอดีเมื่อฉันมาถึงการทดสอบแอนเดอ-ดาร์ลิ่งและเกณฑ์Cramér-von Mises

จนถึงตอนนี้ฉันก็ได้ประเด็นแล้ว ดูเหมือนว่าการทดสอบแอนเดอ-ดาร์ลิ่งและเกณฑ์Cramér-von Mises จะคล้ายกันเพียงขึ้นอยู่กับฟังก์ชั่นที่แตกต่างกันถ่วงน้ำหนักนอกจากนี้ยังมีความแตกต่างจากเกณฑ์Cramér-von Mises ชื่อการทดสอบวัตสันw

โดยทั่วไปฉันมีสองคำถามที่นี่

  1. มีผลลัพธ์ของ Google ไม่มากนักเกี่ยวกับสองวิธีนี้ พวกเขายังคงสถานะของศิลปะ? หรือถูกแทนที่ด้วยวิธีที่ดีกว่าอยู่แล้ว?

    เป็นบิตของความประหลาดใจเป็นไปตามบทความนี้เกี่ยวกับการเปรียบเทียบอำนาจของ Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors และแอนเดอ-ดาร์ลิ่งทดสอบ , AD มีประสิทธิภาพค่อนข้างดี; ดีกว่า Lilliefors และ KS เสมอและใกล้เคียงกับการทดสอบ SW ซึ่งได้รับการออกแบบมาโดยเฉพาะสำหรับการแจกแจงแบบปกติ

  2. ช่วงความมั่นใจสำหรับการทดสอบดังกล่าวคืออะไร?

    สำหรับการทดสอบ AD, CM และ Watson ฉันเห็นตัวแปรสถิติการทดสอบที่กำหนดไว้ในหน้า wiki แต่ไม่พบช่วงความมั่นใจ

    สิ่งที่เป็นเพียงตรงไปตรงมามากขึ้นสำหรับการทดสอบ KS: บนหน้าวิกิพีเดีย , ช่วงความเชื่อมั่นจะถูกกำหนดโดยซึ่งถูกกำหนดจากฟังก์ชันการกระจายสะสมของKKαK

คำตอบ:


4

ไม่มีสิ่งใดที่ล้ำสมัยสำหรับความเหมาะสม (ตัวอย่างเช่นไม่มีการทดสอบ UMP ในทางเลือกทั่วไปและไม่มีสิ่งใดเข้ามาใกล้จริงๆ - การทดสอบรถโดยสารที่ได้รับการยกย่องอย่างสูงมีอำนาจที่น่ากลัวในบางสถานการณ์)

โดยทั่วไปเมื่อเลือกสถิติการทดสอบคุณเลือกชนิดของการเบี่ยงเบนที่สำคัญที่สุดในการตรวจจับและใช้สถิติการทดสอบที่ดีสำหรับงานนั้น การทดสอบบางอย่างทำได้ดีมากในทางเลือกที่น่าสนใจมากมายทำให้เป็นตัวเลือกเริ่มต้นที่เหมาะสม แต่นั่นไม่ได้ทำให้พวกเขา "ทันสมัย"

Anderson Darling ยังคงเป็นที่นิยมมากและมีเหตุผลที่ดี การทดสอบ Cramer-von Mises ใช้น้อยกว่ามากในทุกวันนี้ (เพื่อความประหลาดใจของฉันเพราะโดยปกติแล้วจะดีกว่า Kolmogorov-Smirnov แต่ง่ายกว่า Anderson-Darling - และมักจะมีพลังที่ดีกว่าในความแตกต่าง "ตรงกลาง" ของ การกระจาย)

การทดสอบทั้งหมดเหล่านี้ประสบกับอคติต่อทางเลือกบางประเภทและเป็นเรื่องง่ายที่จะค้นพบกรณีที่ Anderson-Darling ทำได้แย่กว่ามาก (แย่มากจริงๆ) กว่าการทดสอบอื่น ๆ (ตามที่ฉันแนะนำคือ 'ม้าสำหรับหลักสูตร' มากกว่าหนึ่งการทดสอบเพื่อควบคุมทั้งหมด) มักจะมีการพิจารณาเล็กน้อยเกี่ยวกับปัญหานี้ (สิ่งที่ดีที่สุดในการรับการเบี่ยงเบนที่สำคัญที่สุดสำหรับฉัน?) โชคไม่ดี

คุณอาจพบค่าบางอย่างในบางโพสต์เหล่านี้:

ชาปิโร่ - วิลค์เป็นแบบทดสอบปกติที่ดีที่สุดหรือไม่? ทำไมมันจะดีกว่าการทดสอบอื่น ๆ เช่น Anderson-Darling

2 ตัวอย่าง Kolmogorov-Smirnov vs. Anderson-Darling เทียบกับ Cramer-von-Mises (ทดสอบประมาณสองตัวอย่าง แต่มีหลายข้อความที่มี

แรงจูงใจสำหรับระยะทาง Kolmogorov ระหว่างการแจกแจง (การอภิปรายเชิงทฤษฎีมากกว่า แต่มีหลายจุดที่สำคัญเกี่ยวกับผลกระทบในทางปฏิบัติ)


ฉันไม่คิดว่าคุณจะสามารถสร้างช่วงความเชื่อมั่นสำหรับ cdf ในสถิติ Cramer-von Mises และ Anderson Darline ได้เนื่องจากเกณฑ์จะขึ้นอยู่กับการเบี่ยงเบนทั้งหมดมากกว่าแค่ค่าที่ใหญ่ที่สุด


ฉันใช้ "state of the art" เพื่อหมายถึงสิ่งที่พบการใช้ที่ไม่ล้าสมัย การมีอยู่ของคำจำกัดความของความพอดีหลายประการควรเป็นสัญญาณให้เราเห็นว่าความดีงามที่พอดีไม่ใช่แนวคิดเดียว พิจารณาว่า "ดี" ขึ้นอยู่กับ "ทำไม" เรากำลังทำการถดถอย สมมติว่าเราเหมาะสมกับโมเดล A กับข้อมูล B เพื่อให้ได้ตัวทำนายผลที่ดีที่สุด C. จากนั้น "ดี" เป็นตัวพยากรณ์ที่ดีที่สุดของ C ไม่ใช่ B อย่างไรก็ตามคำถามส่วนใหญ่ที่ว่า B และ C แตกต่างกันอย่างไร
Carl

1
@Carl คุณอาจต้องการตรวจสอบพจนานุกรม (หรือวิกิพีเดีย) เกี่ยวกับสถานะของศิลปะที่มักจะหมายถึง - การตีความวลีของคุณไม่ใช่วิธีที่คนส่วนใหญ่อ่านวลี พจนานุกรมพูดแบบนี้: " ขั้นตอนล่าสุดในการพัฒนาผสมผสานแนวคิดล่าสุด " และ " ระดับสูงสุดของการพัฒนาในเวลาที่กำหนด " และ " ล้ำสมัยโดยใช้เทคโนโลยีล่าสุด " ในบริบทนี้ - การทดสอบความเหมาะสม - วลีหมายถึง "สิ่งที่ดีที่สุดที่เราสามารถทำได้ในตอนนี้" ฉันยืนยันว่าไม่ใช่สิ่งที่คุณสามารถพูดได้เกี่ยวกับการทดสอบใด ๆ ... ctd
Glen_b -Reinstate Monica

2
... เช่นเราสามารถพูดได้ว่าการทดสอบที่ได้รับความนิยมเช่น Shapiro-Wilk (ในขณะที่ได้รับความนิยมอย่างมากในการทดสอบภาวะปกติ) มีคู่แข่งที่มีพลังดีกว่า (เช่นดู Shapiro & Chen 1995) - แต่ไม่ใช่ในทุกสถานการณ์ ไม่มีทางเลือกที่ดีที่สุดในการทดสอบ (และด้วยเหตุนี้ไม่มี 'สถานะของศิลปะ' จริง) แน่นอนฉันยอมรับว่าสิ่งที่ดีที่สุด (ทันสมัย) ขึ้นอยู่กับสถานการณ์ --- นั่นคือประเด็นของคำตอบของฉัน; คำตอบที่เป็นไปได้คือมากมาย - สิ่งที่ดีในสถานการณ์หนึ่งอาจจะแย่มากในอีกสถานการณ์หนึ่ง มันจ่ายให้รู้ว่าเมื่อการทดสอบทำงานได้ดีแทนที่จะถามหา "สิ่งที่ดีที่สุด" ราวกับว่ามันเป็นสิ่งเดียว
Glen_b -Reinstate Monica

จริงคำจำกัดความของคุณถูกต้องมากขึ้น อย่างไรก็ตามมีวิธีการมากมายกว่าการทดสอบวิธีการและ "state of the art" นั้นส่วนใหญ่เป็นนิยายคือ "ศิลปะ" ไม่มี "state" ทั้งหมดที่เป็นตัวละครเอก การตอบสนองใด ๆ ต่อตำแหน่งที่คลุมเครือนั้นเป็นอะไรที่ชัดเจน ฉันพูดว่า 'ใช่' และคุณพูดว่า 'ไม่' และเราทั้งคู่ก็พูดสิ่งเดียวกัน
คาร์ล

BTW คำถามคือ "ทันสมัย" หรือ "แทนที่" ซึ่งฉันเอาไปหมายถึง "ล้าสมัยหรือไม่ล้าสมัย" ดังนั้นจึงมีบริบทสำหรับคำตอบของฉันซึ่งบริบทคือ "โปรดสมมติว่า 'ทันสมัย' และ 'แทนที่' เป็นคำตรงกันข้ามและโปรดเลือกหนึ่งในนั้น" คุณถูกต้องว่าสิ่งเหล่านั้นไม่ใช่คำตรงข้ามฉันตอบในบริบทและคุณเลือกที่จะถามคำถาม ดังนั้นฉันเป็นคำตอบที่สุภาพ และฉันจะลงคะแนนให้คำตอบของคุณเพราะฉันคิดว่ามันเป็นข้อมูลถ้าไม่สุภาพเกินไป
คาร์ล

2

การทดสอบแอนเดอร์สัน - ดาร์ลิ่งไม่สามารถใช้ได้กับการแจกแจงทั้งหมด แต่มีพลังที่ดีและใกล้เคียงกับพลังสำหรับการทดสอบชาปิโร - วิลค์ยกเว้นตัวอย่างจำนวนเล็กน้อยเพื่อให้ทั้งสองมีค่าเท่ากับ Razali NM, WY YB เปรียบเทียบพลังของการทดสอบ Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors และ Anderson-Darling วารสารการสร้างแบบจำลองทางสถิติและการวิเคราะห์ 2011; 2: 21-33 อย่างไรก็ตามการทดสอบ Shapiro-Wilkนั้นใช้สำหรับการทดสอบการกระจายแบบปกติเท่านั้น การทดสอบCramér – von Mises และ Pearson Chi-squared นั้นเป็นเรื่องปกติสำหรับการแจกแจงทั้งหมดที่เหมาะกับฮิสโตแกรมและฉันคิดว่าการทดสอบCramér – von Mises นั้นมีพลังมากกว่า Pearson Chi-squared การทดสอบCramér – von Misesn=400 เป็นการทดสอบความหนาแน่นของฟังก์ชันความหนาแน่นแบบทรงพลังที่มีประสิทธิภาพมากกว่าการทดสอบ Kolmogorov-Smirnov และสามารถมีกำลังมากกว่าหรือน้อยกว่าการทดสอบที Chi-squared มีความยากลำบากในการนับจำนวนเซลล์ต่ำดังนั้นจึงมีข้อ จำกัด ในการใช้งานสำหรับหางที่เหมาะสม

** คำถามที่ 1: ... สองวิธีนี้ ... ยังคงทันสมัยอยู่ใช่ไหม? หรือถูกแทนที่ด้วยวิธีที่ดีกว่าอยู่แล้ว? คำถามที่ 2 ช่วงเวลาความมั่นใจสำหรับการทดสอบดังกล่าวคืออะไร? **

คำตอบ: พวกเขามีความทันสมัย อย่างไรก็ตามบางครั้งเราต้องการช่วงความมั่นใจไม่ใช่ความน่าจะเป็น เมื่อเปรียบเทียบวิธีการเหล่านี้กับแต่ละอื่น ๆ เราพูดถึงพลังมากกว่าช่วงความมั่นใจ บางครั้งความดีของความพอดีนั้นถูกวิเคราะห์โดยใช้ AIC, BIC และเกณฑ์อื่น ๆ เมื่อเทียบกับความน่าจะเป็นของการปรับที่ดีและบางครั้งเกณฑ์ความดีของการฟิตนั้นไม่เกี่ยวข้องตัวอย่างเช่นเมื่อ . ในกรณีหลังกำหนดเป้าหมายการถดถอยของเราอาจจะเป็นปริมาณทางกายภาพไม่เกี่ยวข้องกับการที่เหมาะสมเช่นดูTK-GV


NB การทดสอบแอนเดอร์สัน - ดาร์ลิ่งเป็นเวอร์ชั่นถ่วงน้ำหนักของการทดสอบ Cramer-von Mises; & ชอบมันเหมาะสำหรับการกระจายอย่างต่อเนื่อง
Scortchi - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.