วิธีที่ดีที่สุดในการสร้างแผนภูมิการเติบโต


10

ฉันต้องสร้างแผนภูมิ (คล้ายกับแผนภูมิการเจริญเติบโต) สำหรับเด็กอายุ 5 ถึง 15 ปี (เพียง 5,6,7 และอื่น ๆ ไม่มีค่าเศษส่วนเช่น 2.6 ปี) สำหรับตัวแปรสุขภาพที่ไม่เป็นลบต่อเนื่องและใน ช่วง 50-150 (มีเพียงไม่กี่ค่าที่อยู่นอกช่วงนี้) ฉันต้องสร้างกราฟไทล์เปอร์ไทล์ 90th, 95 และ 99 และสร้างตารางสำหรับเปอร์เซนต์เหล่านี้ ขนาดตัวอย่างประมาณ 8000

ฉันตรวจสอบและพบวิธีที่เป็นไปได้ดังต่อไปนี้:

  1. ค้นหา quantiles แล้วใช้วิธีเหลืองเพื่อให้ได้เส้นโค้งที่ราบรื่นจาก quantiles เหล่านี้ ระดับของความนุ่มนวลสามารถปรับได้โดยใช้พารามิเตอร์ 'span'

  2. ใช้วิธี LMS (Lambda-Mu-Sigma) (เช่นใช้ gamlss หรือแพ็คเกจ VGAM ใน R)

  3. ใช้การถดถอยเชิงปริมาณ

  4. ใช้ค่าเฉลี่ยและค่า SD ของแต่ละกลุ่มอายุในการประมาณเปอร์เซ็นต์ไทล์สำหรับอายุนั้นและสร้างกราฟไทล์ไทล์ไทล์

วิธีที่ดีที่สุดที่จะทำคืออะไร? โดย 'ดีที่สุด' ฉันหมายถึงวิธีอุดมคติซึ่งเป็นวิธีมาตรฐานสำหรับการสร้างเส้นโค้งการเติบโตดังกล่าวและจะเป็นที่ยอมรับของทุกคน หรือวิธีที่ง่ายกว่าและง่ายกว่าในการใช้วิธีการซึ่งอาจมีข้อ จำกัด บางอย่าง แต่เป็นวิธีที่ยอมรับได้รวดเร็วกว่า (ตัวอย่างเช่นการใช้เหลืองกับค่าเปอร์เซ็นต์ไทล์จะเร็วกว่าการใช้ LMS ของแพ็คเกจ gamlss)

นอกจากนี้สิ่งที่จะเป็นรหัส R พื้นฐานสำหรับวิธีการนั้น

ขอบคุณสำหรับความช่วยเหลือของคุณ.


2
คุณกำลังขอคำว่า "ดีที่สุด" ซึ่งมักจะอยู่ระหว่างยากและเป็นไปไม่ได้ที่จะพูดคุยอย่างชัดเจน (การวัดระดับ "ดีที่สุด" นั้นยากพอ) คุณผูกคำถามของคุณไว้กับการเปลี่ยนแปลงด้านสุขภาพในเด็กอย่างชัดเจน แต่เกณฑ์ของคุณเกี่ยวกับ "ดีที่สุด" นั้นไม่ชัดเจนโดยเฉพาะอย่างยิ่งสิ่งที่ยอมรับหรือยอมรับได้
Nick Cox

ฉันยินดีต้อนรับความพยายาม แต่ก) ไม่มีอยู่อย่างชัดเจนเหตุใดจึงมีวิธีแก้ปัญหาการแข่งขันหรือเหตุใดเรื่องนี้จึงไม่ปรากฏให้เห็นในวรรณกรรมที่คุณกำลังอ่าน ความสนใจในปัญหานี้แน่นอนว่าเป็นเวลาหลายสิบปีหากไม่ใช่ศตวรรษเก่า หมายถึงง่ายขึ้น: เข้าใจง่ายขึ้นอธิบายได้ง่ายขึ้นสำหรับแพทย์หรือผู้เชี่ยวชาญที่ไม่มีความรู้ทางสถิติโดยทั่วไปง่ายต่อการนำไปใช้ ... ? ฉันไม่มีข้อสงสัยดูเหมือนจู้จี้จุกจิก แต่ทำไมคุณควรใส่ใจเรื่องความเร็วที่นี่? ไม่มีวิธีการใดที่เรียกร้องได้จากการคำนวณ
Nick Cox

@NickCox: ฉันได้แก้ไขคำถามตามความคิดเห็นของคุณ ฉันจะขอบคุณคำตอบจริง
rnso

1
ขออภัยฉันไม่ได้ทำงานในสาขานี้และฉันคิดว่าคำถามของคุณจะตอบยากเกินไป มีความคิดเห็นอยู่เพราะผู้คนอาจไม่สามารถตอบคำถามได้ แต่ก็ยังมีบางสิ่งที่จะพูด ฉันไม่ได้เขียนคำตอบสำหรับการสั่งซื้อ
Nick Cox

คำตอบ:


6

มีวรรณคดีขนาดใหญ่เกี่ยวกับเส้นโค้งการเจริญเติบโต ในใจของฉันมีสามวิธี "ยอดนิยม" ในทั้งสามเวลาถูกจำลองเป็นลูกบาศก์อิสระที่มีจำนวนน็อตเพียงพอ (เช่น 6) นี่คือพารามิเตอร์ที่ราบรื่นยิ่งขึ้นพร้อมประสิทธิภาพที่ยอดเยี่ยมและการตีความที่ง่ายดาย

  1. โมเดลโค้งการเจริญเติบโตแบบคลาสสิก (สี่เหลี่ยมทั่วไปน้อยที่สุด) สำหรับข้อมูลระยะยาวที่มีรูปแบบความสัมพันธ์ที่สมเหตุสมผลเช่น AR1 แบบต่อเนื่อง หากคุณสามารถแสดงให้เห็นว่าส่วนที่เหลือเป็นแบบเกาส์เซียนคุณสามารถรับ MLEs ของปริมาณโดยใช้วิธีการประมาณและส่วนเบี่ยงเบนมาตรฐานทั่วไป
  2. การถดถอยแบบ Quantile นี้ไม่ได้เป็นที่มีประสิทธิภาพสำหรับการไม่ใหญ่nแม้ว่าความแม่นยำจะไม่เหมาะสม แต่วิธีนี้ทำให้สมมติฐานน้อยที่สุด (เนื่องจากการประมาณสำหรับหนึ่งควอไทล์ไม่ได้เชื่อมต่อกับการประเมินควอนไทล์ที่ต่างกัน) และไม่มีความเป็นกลางn
  3. การถดถอยตามลำดับ สิ่งนี้ถือว่าต่อเนื่องเป็นลำดับเพื่อให้แข็งแกร่งโดยใช้โมเดลกึ่งพารามิเตอร์เช่นโมเดลอัตราต่อรองแบบสัดส่วน จากโมเดลอันดับที่คุณสามารถประเมินค่าเฉลี่ยและปริมาณใด ๆ หลังเท่านั้นถ้าเป็นแบบต่อเนื่องYYY

เมื่อคุณใช้อัตราต่อรองแบบสัดส่วนคุณรองรับสมมติฐาน PO อย่างไร (สมมติว่าล้มเหลว) กับผลลัพธ์ในระดับต่างๆ ขอบคุณ
julieth

2
แม้ว่ามันจะล้มเหลวแบบจำลองอาจทำงานได้ดีกว่าบางรุ่นอื่น ๆ เนื่องจากสมมติฐานโดยรวมน้อยลง หรือเปลี่ยนเป็นหนึ่งในตระกูลลำดับความน่าจะเป็นแบบสะสมอื่น ๆ เช่นอันตรายตามสัดส่วน (ลิงก์บันทึกการสะสมบันทึกการทำงาน)
Frank Harrell

1

การถดถอยกระบวนการเสียน เริ่มต้นด้วยเคอร์เนลเอ็กซ์โปเนนเชียลกำลังสองและลองและปรับพารามิเตอร์ด้วยตา ต่อมาหากคุณต้องการทำสิ่งต่าง ๆ อย่างถูกต้องให้ทดลองกับเมล็ดที่แตกต่างกันและใช้ความเป็นไปได้เล็กน้อยในการปรับพารามิเตอร์ให้เหมาะสมที่สุด

หากคุณต้องการรายละเอียดมากกว่าการกวดวิชาเชื่อมโยงดังกล่าวให้หนังสือเล่มนี้เป็นที่ดี


ขอบคุณสำหรับคำตอบ. คุณให้คะแนนการถดถอยของกระบวนการแบบเกาส์เมื่อเปรียบเทียบกับวิธีอื่น ๆ ที่กล่าวถึง พล็อต Gaussian ที่สองบนscikit-learn.org/0.11/auto_examples/gaussian_process/ …ปรากฏคล้ายกับพล็อตสุดท้ายที่สองในหน้านี้ของ LOESS (การถดถอยในพื้นที่): princeofslides.blogspot.in/2011/05/ … การแสดงนั้นง่ายกว่ามาก
rnso

โดยส่วนตัวแล้วฉันชอบ GPR สำหรับชุดข้อมูลใด ๆ ที่มีขนาดเล็กพอที่จะให้คุณพอดี เช่นเดียวกับการที่ "ดีกว่า" มากจากมุมมองเชิงทฤษฎีมันมีความยืดหยุ่นแข็งแกร่งและให้ผลลัพธ์ความน่าจะเป็นที่สอบเทียบได้ดี ถ้าข้อมูลของคุณหนาแน่นและมีมารยาทดีผู้ชมของคุณอาจจะไม่สามารถบอกความแตกต่างระหว่าง LOESS และ GPR ได้เว้นแต่ว่าพวกเขาเป็นนักสถิติ
Andy Jones

3
Yx

1
@Nick: คำแนะนำที่ตั้งใจไว้ของฉันคือการสร้างแบบจำลองข้อมูลของคุณแล้วใช้แบบจำลองเพื่อสร้างเส้นโค้งเปอร์เซ็นไทล์ (ราบรื่น) ตอนนี้คุณพูดถึงแล้วใช่ฉันพลาดองค์ประกอบที่สองทั้งหมด (เช่นคำถามจริง)
Andy Jones

1
1.96
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.