วิธีการทดสอบว่าตัวอย่างของข้อมูลที่เหมาะกับครอบครัวของการกระจายแกมม่าหรือไม่?


13

ฉันมีตัวอย่างของข้อมูลซึ่งสร้างจากตัวแปรสุ่มแบบต่อเนื่อง X และจากฮิสโตแกรมที่ฉันวาดด้วย R ฉันเดาว่าบางทีการกระจายของ X เป็นไปตามการแจกแจงแกมม่าบางอย่าง แต่ฉันไม่รู้พารามิเตอร์ที่แน่นอนของการกระจายแกมม่านี้

คำถามของฉันคือวิธีทดสอบว่าการแจกแจง X เป็นของตระกูลการแจกแจงแกมมาหรือไม่? มีความดีของการทดสอบแบบพอดีเช่นการทดสอบ Kolmogorov-Smirnov การทดสอบ Anderson-Darling และอื่น ๆ แต่ข้อ จำกัด อย่างหนึ่งเมื่อใช้การทดสอบเหล่านี้คือพารามิเตอร์ของการแจกแจงทางทฤษฎีควรทราบล่วงหน้า ใครช่วยกรุณาบอกวิธีแก้ปัญหานี้ได้ไหม


บางทีฉันอาจขาดอะไรบางอย่างไป แต่ถ้าคุณรู้แล้วว่าการทดสอบเพื่อทดสอบความพอดีของการกระจายและสิ่งที่คุณต้องรู้คือค่าของการแจกแจงเชิงทฤษฎีคุณก็สามารถใช้ตัวประมาณโอกาสสูงสุดของพารามิเตอร์ของแกมม่า กระจายข้อมูลของคุณเพื่อรับค่าประมาณของพารามิเตอร์ จากนั้นคุณสามารถใช้ค่าประมาณเหล่านี้เพื่อกำหนดการกระจายตัวเชิงทฤษฎีในแบบทดสอบของคุณ
David

เดวิดขอบคุณสำหรับคำตอบของคุณ คำตอบคือสิ่งที่ฉันคิด แต่ฉันไม่แน่ใจว่ามีทฤษฎีบางอย่างที่สามารถรองรับความคิดนี้ได้หรือไม่คุณสามารถตอบได้ไหม
user8363

ถ้าคุณใช้ R คุณอาจสนใจดูแพ็คเกจ fitdistrplusซึ่งมีสิ่งอำนวยความสะดวกสำหรับทำสิ่งนี้
gung - Reinstate Monica

คำตอบ:


8

ฉันคิดว่าคำถามนั้นขอการทดสอบทางสถิติที่แม่นยำไม่ใช่การเปรียบเทียบฮิสโตแกรม เมื่อใช้การทดสอบ Kolmogorov-Smirnov กับพารามิเตอร์ที่ประมาณการกระจายตัวของสถิติการทดสอบภายใต้ null จะขึ้นอยู่กับการกระจายการทดสอบเมื่อเทียบกับกรณีที่ไม่มีพารามิเตอร์โดยประมาณ ตัวอย่างเช่นการใช้ (ใน R)

x <- rnorm(100)
ks.test(x, "pnorm", mean=mean(x), sd=sd(x))

นำไปสู่

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.0701, p-value = 0.7096
alternative hypothesis: two-sided

ในขณะที่เราได้รับ

> ks.test(x, "pnorm")

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.1294, p-value = 0.07022
alternative hypothesis: two-sided 

สำหรับตัวอย่างเดียวกัน x ระดับนัยสำคัญหรือค่า p จึงต้องถูกกำหนดโดยการจำลองมอนติคาร์โลภายใต้โมฆะทำให้เกิดการกระจายตัวของสถิติ Kolmogorov-Smirnov จากตัวอย่างที่จำลองภายใต้การกระจายโดยประมาณ (ด้วยการประมาณเล็กน้อยในผลลัพธ์ที่ทำให้ตัวอย่างที่สังเกตเห็น มาจากการกระจายอื่นแม้ภายใต้ค่า null)


1
(+1) ฉันไม่เข้าใจว่าทำไมการจำลองตัวอย่างภายใต้การแจกแจงโดยประมาณนั้นถูกต้อง ฉันคิดว่าเราจำเป็นต้องมีพารามิเตอร์ก่อนหน้าและตัวอย่างจากการแจกแจงที่เป็นไปได้ทั้งหมด ... คุณช่วยอธิบายอีกเล็กน้อยได้ไหม
Elvis

1
ซีอานคำตอบของคุณคือสิ่งที่ฉันเป็นห่วง คุณหมายถึงว่า "เมื่อใช้การทดสอบ Kolmogorov-Smirnov กับพารามิเตอร์โดยประมาณการกระจายตัวของสถิติการทดสอบภายใต้ null จะขึ้นอยู่กับการแจกแจงทดสอบ" อย่างไรก็ตามเราไม่ทราบการกระจายตัวของ X อย่างแม่นยำมากขึ้นเราไม่รู้พารามิเตอร์การกระจายตัวของ X ภายใต้สมมติฐานว่างดังนั้นการกระจายตัวของสถิติการทดสอบดังนั้นเราใช้ monte carlo คุณมีวิธีอื่นในการแก้ปัญหาโดยไม่ใช้ monte carlo เพื่อรับค่า P หรือไม่? ขอบคุณ
user8363

เพื่อที่จะคำนึงถึงข้อเท็จจริงที่ว่า "ตัวอย่างที่สังเกตมาจากการแจกแจงแบบอื่นแม้จะอยู่ภายใต้ค่า Null" มันจะเหมาะสมหรือไม่ที่จะบูตตัวอย่างเก็บข้อมูลใหม่
Elvis

1
@Elvis (1): นี่คือสถิติแบบดั้งเดิมไม่ใช่การแก้ปัญหาแบบเบย์ของความดีของปัญหาพอดี สำหรับการแจกแจงที่มีพารามิเตอร์ระดับตำแหน่งการเลือกพารามิเตอร์ที่ใช้ในการจำลองตัวอย่างที่จำลองนั้นไม่สำคัญ
ซีอาน

1
@Elvis (2): สิ่งที่ฉันเพิ่งพูดคุยกับนักเรียนของฉันอีกครั้ง! Bootstrap จะช่วยในการประเมินพฤติกรรมของระยะทาง Kolmogorov-Smirnov ภายใต้การกระจายที่แท้จริงของข้อมูลไม่ใช่ภายใต้ null! หลักการฟิชเชอร์ - เนย์แมน - เพียร์สันคือสิ่งที่สำคัญคือพฤติกรรมของระยะทาง Kolmogorov-Smirnov ภายใต้โมฆะดังนั้นมันจะถูกปฏิเสธถ้าระยะห่างที่สังเกตเห็นมากเกินไปการกระจายนี้ภายใต้โมฆะ
ซีอาน

4

คำนวณ MLE ของพารามิเตอร์ที่สมมติว่ามีการแจกแจงแกมม่าสำหรับข้อมูลของคุณและเปรียบเทียบความหนาแน่นเชิงทฤษฎีกับฮิสโตแกรมของข้อมูลของคุณ หากทั้งสองมีความแตกต่างกันมากการกระจายของรังสีแกมม่าคือการประมาณข้อมูลของคุณไม่ดี สำหรับการทดสอบอย่างเป็นทางการคุณสามารถคำนวณได้เช่นสถิติการทดสอบ Kolmogorov-Smirnoff เปรียบเทียบการแจกแจงแกมมาที่เหมาะสมที่สุดกับการกระจายเชิงประจักษ์และการทดสอบเพื่อความสำคัญ


3
+1 นี่คือคำตอบที่มั่นคง อย่างไรก็ตามฉันขอแนะนำให้ตรวจสอบ qq-plot กับแกมม่าเชิงทฤษฎีมากกว่าฮิสโตแกรม - มันจะง่ายกว่าที่จะประเมินการเบี่ยงเบน
gung - Reinstate Monica

1
ปัญหาคือว่าการทดสอบ KS ถือว่าการกระจายทางทฤษฎีที่จะได้รับล่วงหน้าไม่ได้ประเมินจากข้อมูล ซีอาน (บางส่วน) ตอบไปยังจุดที่ ...
เอลวิส

คุณหมายความว่าตอนแรกเราใช้ตัวอย่างของข้อมูลนี้เพื่อให้ได้ตัวประเมิน MLS และใช้ค่าของตัวประมาณ MLS ในการแจกแจงแกมม่าแล้วเปรียบเทียบข้อมูลกับการแจกแจงแกมม่า (กับพารามิเตอร์โดยประมาณ) โดยใช้การทดสอบ KS หรือไม่
user8363

เอลวิสคุณช่วยบอกฉันทีว่าจะแก้ปัญหาได้อย่างไรเมื่อพารามิเตอร์ของการแจกแจงเชิงทฤษฎีไม่เป็นที่ทราบและจะต้องมีการประมาณ ในกรณีนี้เราจะใช้การทดสอบ KS เพื่อตัดสินสมมติฐานที่ถูกต้องได้อย่างไรขอบคุณ!
user8363

1
@Elvis: ฉันไม่คิดว่าเป็นไปได้ที่แน่นอนในกรณีของการกระจายแกมมา cdf นั้นไม่สามารถใช้ได้ในรูปแบบปิด นอกจากความจริงที่ว่าพารามิเตอร์รูปร่างไม่เป็นขนาดที่ตั้งมิได้หมายความว่าจะมีการกระจายแตกต่างกันสำหรับค่าของพารามิเตอร์รูปร่างแต่ละ ...
ซีอาน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.