วิธีการเลือกแบบที่ดีที่สุดโดยไม่มีข้อมูลที่เหมาะสมมากเกินไป? การสร้างแบบจำลองการกระจาย bimodal ด้วยฟังก์ชั่นปกติ N ฯลฯ


11

ฉันมีการกระจายของค่านิยมแบบ bimodal อย่างชัดเจนซึ่งฉันพยายามที่จะปรับให้เหมาะสม ข้อมูลสามารถเข้ากันได้ดีกับทั้ง 2 ฟังก์ชั่นปกติ (bimodal) หรือฟังก์ชั่นปกติ 3 อย่าง นอกจากนี้ยังมีเหตุผลทางกายภาพที่เป็นไปได้สำหรับการปรับข้อมูลด้วย 3

ยิ่งมีการแนะนำพารามิเตอร์มากเท่าใดความพอดีที่สมบูรณ์แบบก็จะยิ่งมากขึ้นเช่นเดียวกับค่าคงที่ที่เพียงพอหนึ่งสามารถ " พอดีช้าง "

นี่คือการกระจายตัวพอดีกับผลรวมของ 3 เส้นโค้ง (Gaussian):

จัดจำหน่ายด้วย

เหล่านี้คือข้อมูลสำหรับการฟิต ฉันไม่แน่ใจว่าควรใช้แบบทดสอบแบบใดเพื่อตรวจสอบความเหมาะสม ข้อมูลประกอบด้วย 91 คะแนน

1 ฟังก์ชั่นปกติ:

  • RSS: 1.06231
  • X ^ 2: 3.1674
  • F.Test: 0.3092

2 ฟังก์ชั่นปกติ:

  • RSS: 0.010939
  • X ^ 2: 0.053896
  • F.Test: 0.97101

3 ฟังก์ชั่นปกติ:

  • RSS: 0.00536
  • X ^ 2: 0.02794
  • F.Test: 0.99249

การทดสอบทางสถิติที่ถูกต้องที่สามารถนำมาใช้เพื่อกำหนดว่าแบบทดสอบใดที่เหมาะที่สุด เห็นได้ชัดว่าฟังก์ชั่นปกติ 1 แบบไม่เพียงพอ ดังนั้นฉันจะแยกแยะระหว่าง 2 และ 3 ได้อย่างไร

เพื่อเพิ่มฉันส่วนใหญ่ทำเช่นนี้กับ Excel และ Python เล็กน้อย ฉันยังไม่คุ้นเคยกับ R หรือภาษาทางสถิติอื่น ๆ


มีคนแนะนำว่าฉันใช้chi squared ที่ลดลง X ^ 2 / (Nn-1) โดยที่ N คือจำนวนจุดข้อมูลและ n คือจำนวนของพารามิเตอร์ที่ได้รับการติดตั้ง อย่างไรก็ตาม pentalty ขนาดเล็ก (+/- 3) ที่สัมพันธ์กับจำนวนของจุดข้อมูล (91) นั้นดูเหมือนจะไม่ได้รับโทษที่สูงชันสำหรับการเพิ่มแบบเกาส์อื่น
MurphysLab

คุณอาจต้องการตรวจสอบคำตอบนี้ (ในกรณีที่คุณจะตัดสินใจไปRเส้นทาง) มีการกล่าวถึงเกณฑ์การเลือกแบบจำลองบางอย่างในคำตอบนี้ ในที่สุดคุณอาจต้องการพิจารณาวิธีการรวมกลุ่มซึ่งฉันกล่าวถึงสั้น ๆ ในคำตอบนี้ซึ่งยังมีลิงค์ไปยังข้อมูลที่มุ่งเน้นงูหลาม คุณสามารถค้นหารายละเอียดเพิ่มเติมเกี่ยวกับการเลือกรุ่นและค่าเฉลี่ยในคำตอบนี้
Aleksandr Blekh

คำตอบ:


5

ต่อไปนี้เป็นสองวิธีที่คุณสามารถแก้ไขปัญหาในการเลือกการกระจายของคุณ:

  1. สำหรับการเปรียบเทียบแบบจำลองใช้การวัดที่ลงโทษโมเดลโดยขึ้นอยู่กับจำนวนพารามิเตอร์ เกณฑ์ข้อมูลทำเช่นนี้ ใช้เกณฑ์ข้อมูลเพื่อเลือกรุ่นที่จะเก็บไว้เลือกโมเดลที่มีเกณฑ์ข้อมูลต่ำสุด (ตัวอย่างเช่น AIC) กฎของหัวแม่มือสำหรับการเปรียบเทียบว่าความแตกต่างใน AIC นั้นสำคัญหรือไม่หากความแตกต่างใน AIC มากกว่า 2 (นี่ไม่ใช่การทดสอบสมมติฐานอย่างเป็นทางการดูการทดสอบความแตกต่างใน AIC ของแบบจำลองที่ไม่ซ้อนกันสองแบบ )

    AIC =โดยที่คือจำนวนพารามิเตอร์โดยประมาณและคือโอกาสสูงสุดและเป็นฟังก์ชั่นความน่าจะเป็นและความน่าจะเป็นของข้อมูลที่สังเกตเงื่อนไขในการกระจายพารามิเตอร์\2k2ln(L)kLL=maxθL(θ|x)L(θ|x)=Pr(x|θ)Pr(x|θ)xθ

  2. หากคุณต้องการทดสอบสมมติฐานอย่างเป็นทางการคุณสามารถดำเนินการต่อไปอย่างน้อยสองวิธี สิ่งที่ง่ายกว่าสำหรับเนื้อหาก็คือให้เหมาะสมกับการแจกแจงของคุณโดยใช้ตัวอย่างของคุณและทดสอบว่าการแจกแจงส่วนที่เหลือนั้นแตกต่างกันอย่างมากโดยใช้ Chi-squared หรือ Kolgomorov-Smirnov ในส่วนที่เหลือของข้อมูล วิธีนี้คุณไม่ได้ใช้ข้อมูลเดียวกันเพื่อปรับและทดสอบโมเดลของคุณตามที่ AndrewM ระบุไว้ในความคิดเห็น

    นอกจากนี้คุณยังสามารถทำการทดสอบอัตราส่วนความน่าจะเป็นที่มีการปรับการแจกแจงแบบ null เวอร์ชันนี้อธิบายไว้ใน Lo Y. et al. (2013) "การทดสอบจำนวนองค์ประกอบในส่วนผสมปกติ" Biometrikaแต่ฉันไม่มีสิทธิ์เข้าถึงบทความดังนั้นฉันจึงไม่สามารถให้รายละเอียดเพิ่มเติมแก่คุณเกี่ยวกับวิธีการทำเช่นนี้

    ไม่ว่าด้วยวิธีใดหากการทดสอบไม่มีนัยสำคัญให้คงการแจกแจงด้วยจำนวนพารามิเตอร์ที่ต่ำกว่าหากการทดสอบมีนัยสำคัญให้เลือกการทดสอบที่มีจำนวนพารามิเตอร์สูงกว่า


@Momo ขอบคุณเปลี่ยนไปและเพิ่มสมการสำหรับ AIC
Chris Novak

ฉันไม่แน่ใจ 100% แต่ AIC มาตรฐานอาจไม่ทำงานตามที่คาดไว้ในโมเดลผสมเนื่องจากการกำหนดค่าที่แตกต่างกันของส่วนผสมอาจให้แบบจำลองเดียวกัน
Cagdas Ozgenc

สิ่งที่ฉันหมายถึงคือคุณสามารถสลับ gaussians 2 (โดยการตั้งค่าเฉลี่ย / ความแปรปรวนของ 1 ถึง 2 และ 2 ถึง 1 และสำหรับ wights ผสม) และยังได้รับแบบเดียวกัน เท่าที่ฉันรู้ AIC ไม่ทำงานตามที่คาดไว้ในสถานการณ์เช่นนี้
Cagdas Ozgenc

1
@CagdasOzgenc ฉันเห็นประเด็นของคุณแล้ว แต่ดูเหมือนว่า AIC และ BIC มาตรฐานนั้นแสดงให้เห็นว่าเพียงพอสำหรับการเลือกรูปแบบในรูปแบบผสม gaussian ดูตัวอย่างกระดาษprojecteuclid.org/download/pdf_1/euclid.aos/1176348772
Chris Novak

1
@ChrisNovak ใช่การทดสอบอัตราส่วนความน่าจะเป็น (ที่มีการปรับการกระจายการสุ่มตัวอย่างเป็นโมฆะจากมี DOF เท่ากับความแตกต่างในมิติของพื้นที่พารามิเตอร์) เป็นความคิดที่ดี ฉันไม่ทราบว่าการปรับเปลี่ยนซับซ้อนแค่ไหน แต่การรวมกันของเป็นเรื่องปกติในกรณีนี้ จำเป็นต้องทำการปรับค่าเนื่องจากคุณกำลังทดสอบจุดที่ขอบเขตของพื้นที่พารามิเตอร์ χ2χ2
Andrew M
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.