การวินิจฉัยรุ่นเชิงเส้น (แบบผสม) ทั่วไป (ส่วนที่เหลือโดยเฉพาะ)


25

ฉันกำลังดิ้นรนกับการหารูปแบบที่เหมาะสมสำหรับข้อมูลการนับยาก (ตัวแปรตาม) ฉันลองรุ่นที่แตกต่างหลากหลาย (โมเดลเอฟเฟ็กต์แบบผสมมีความจำเป็นสำหรับข้อมูลชนิดของฉัน) เช่นlmerและlme4(พร้อมการแปลงล็อก) รวมถึงโมเดลเอฟเฟกต์แบบผสมเชิงเส้นทั่วไปกับครอบครัวต่างๆเช่น Gaussian หรือ Binomial เชิงลบ

อย่างไรก็ตามฉันค่อนข้างไม่แน่ใจในวิธีการวินิจฉัยอย่างถูกต้องเหมาะสมกับผลลัพธ์ ฉันพบความคิดเห็นที่แตกต่างกันมากมายในหัวข้อนั้นบนเว็บ ฉันคิดว่าการวินิจฉัยการถดถอยเชิงเส้น (แบบผสม) ค่อนข้างตรงไปตรงมา คุณสามารถไปข้างหน้าและวิเคราะห์ส่วนที่เหลือ (ปกติ) รวมทั้งศึกษา heteroscedasticity โดยการวางแผนค่าติดตั้งเปรียบเทียบกับส่วนที่เหลือ

อย่างไรก็ตามคุณจะทำอย่างนั้นสำหรับรุ่นทั่วไปได้อย่างไร ให้เรามุ่งเน้นการถดถอยแบบทวินามลบ (แบบผสม) ในตอนนี้ ฉันเห็นข้อความคัดค้านที่เกี่ยวข้องกับสิ่งที่เหลืออยู่ที่นี่:

  1. ในการตรวจสอบค่าคงที่สำหรับค่าปกติในโมเดลเชิงเส้นทั่วไปมันจะถูกชี้ให้เห็นในคำตอบแรกว่าส่วนที่เหลือจะไม่แจกแจงแบบปกติสำหรับ GLM; ฉันคิดว่านี่ชัดเจน อย่างไรก็ตามมันก็ชี้ให้เห็นว่าเพียร์สันและส่วนเบี่ยงเบนเบี่ยงเบนก็ไม่ควรจะเป็นปกติ กระนั้นคำตอบที่สองระบุว่าควรแจกแจกส่วนเบี่ยงเบนปกติ (รวมกับการอ้างอิง)

  2. โดยปกติแล้วความเบี่ยงเบนที่เหลืออยู่นั้นควรจะมีการบอกกล่าวไว้ในเอกสารประกอบสำหรับ? glm.diag.plots (จากbootแพ็คเกจของ R )

  3. ในบล็อกโพสต์นี้ผู้เขียนได้ทำการศึกษาเรื่องปกติของสิ่งที่ฉันคิดว่าเป็นของเพียร์สันสำหรับแบบจำลองการถดถอยแบบผสมผลกระทบ NB ตามที่คาดไว้ (ตามความเห็นของฉัน) เศษซากไม่ได้แสดงให้เห็นว่าเป็นเรื่องปกติและผู้เขียนสันนิษฐานว่าแบบจำลองนี้ไม่เหมาะสม อย่างไรก็ตามตามที่ระบุไว้ในความคิดเห็นที่เหลือควรกระจายตามการกระจายทวินามลบ ในความคิดของฉันสิ่งนี้ใกล้เคียงกับความจริงมากที่สุดเนื่องจากส่วนที่เหลือของ GLM สามารถมีการแจกแจงแบบอื่นที่ไม่ใช่แบบปกติ ถูกต้องหรือไม่ จะตรวจสอบสิ่งต่าง ๆ เช่น heteroscedasticity ที่นี่ได้อย่างไร

  4. จุดสุดท้าย (พล็อตที่เหลือกับ quantiles ของการกระจายโดยประมาณ) จะเน้นในBen & Yohai (2004) ปัจจุบันนี้ดูเหมือนจะเป็นหนทางสำหรับฉัน

โดยสรุป: คุณจะศึกษารูปแบบที่เหมาะสมกับโมเดลการถดถอยเชิงเส้นแบบทั่วไป (แบบผสม) โดยเฉพาะอย่างยิ่งโดยมุ่งเน้นที่ส่วนที่เหลือได้อย่างไร


1
ส่วนที่เหลือสำหรับ GLM ไม่ได้อยู่ในเกณฑ์ปกติทั่วไป (cf ที่นี่ ) แต่โปรดทราบว่ามีจำนวนมากมายสำหรับ GLMs เช่นglm.diag.plotsบอกว่าเป็นเพราะความเบี่ยงเบนแบบJackknifed (ฉันสงสัยว่าความแตกต่างเป็นสิ่งสำคัญ) นอกจากนี้ฉันรวบรวมคุณมีข้อมูลนับ ; คุณอาจต้องการมุ่งเน้นไปที่ข้อเท็จจริงนั้น เช่นจำนวนนั้นควรจะเป็นแบบ heteroscedastic แผนการวินิจฉัยสำหรับการนับถอยหลังจะมีประโยชน์สำหรับคุณ (แม้ว่าจะไม่ได้ระบุถึงลักษณะพิเศษแบบผสม)
gung - Reinstate Monica

ฉันคุ้นเคยกับโพสต์ที่คุณพูดถึง อย่างไรก็ตามยังมีข้อความที่ชี้ให้เห็นว่าส่วนที่เหลือ (เบี่ยงเบน) ควรเป็นเรื่องปกติ "เราเห็นจำนวนมากที่เหลืออยู่และความเบี่ยงเบนที่สำคัญของส่วนเบี่ยงเบนความเบี่ยงเบนจากปกติ (ทั้งหมดพูดกับปัวซอง)"
fsociety

คำตอบ:


18

คำตอบนี้ไม่ได้ขึ้นอยู่กับความรู้ของฉัน แต่เป็นคำพูดสิ่งที่Bolker และคณะ (2009)เขียนไว้ในกระดาษที่มีอิทธิพลในวารสารแนวโน้มในนิเวศวิทยาและวิวัฒนาการ เนื่องจากบทความไม่สามารถเข้าถึงได้ (แม้ว่าการค้นหาบนGoogle scholarอาจพิสูจน์ว่าประสบความสำเร็จฉันคิดว่าฉันอ้างถึงข้อความสำคัญที่อาจเป็นประโยชน์ในการตอบคำถามบางส่วนดังนั้นอีกครั้งมันไม่ใช่สิ่งที่ฉันคิดขึ้นมาเอง แต่ฉันคิดว่า มันแสดงถึงข้อมูลย่อที่ดีที่สุดใน GLMMs (การวินิจฉัยแบบ inlcuding) ออกมาตรงไปตรงมาและง่ายต่อการเข้าใจรูปแบบการเขียนถ้าโดยวิธีใดคำตอบนี้ไม่เหมาะกับเหตุผลใด ๆ ฉันจะลบมันสิ่งที่ฉันพบ มีประโยชน์สำหรับคำถามที่เกี่ยวข้องกับการวินิจฉัยจะถูกเน้นด้วยกล้า

หน้า 127:

นักวิจัยต้องเผชิญกับข้อมูลที่ไม่ปกติมักจะลองใช้ทางลัดเช่นการแปลงข้อมูลเพื่อให้เกิดความปกติและความสม่ำเสมอของความแปรปรวนโดยใช้การทดสอบแบบไม่มีพารามิเตอร์หรืออาศัยความทนทานของ ANOVA แบบดั้งเดิมกับการไม่สมดุลสำหรับการออกแบบที่สมดุล พวกเขาอาจไม่สนใจเอฟเฟกต์แบบสุ่มทั้งหมด (เช่นกระทำการปลอมแปลงปลอม) หรือปฏิบัติต่อพวกเขาเป็นปัจจัยคงที่ [16] อย่างไรก็ตามทางลัดดังกล่าวสามารถล้มเหลวได้ (เช่นการนับข้อมูลที่มีค่าเป็นศูนย์จำนวนมากไม่สามารถทำการเปลี่ยนรูปแบบได้ตามปกติ) แม้ว่าพวกเขาจะประสบความสำเร็จพวกเขาอาจละเมิดสมมติฐานทางสถิติ (แม้การทดสอบแบบไม่มีพารามิเตอร์ให้สมมติฐานเช่นความสม่ำเสมอของความแปรปรวนข้ามกลุ่ม) หรือ จำกัด ขอบเขตของการอนุมาน (หนึ่งไม่สามารถคาดการณ์การประเมินผลกระทบถาวรกับกลุ่มใหม่) แทนที่จะใส่ข้อมูลลงในกรอบสถิติแบบดั้งเดิม นักวิจัยควรใช้วิธีการทางสถิติที่ตรงกับข้อมูลของพวกเขา โมเดลเชิงเส้นผสมแบบทั่วไป (GLMM) รวมคุณสมบัติของกรอบสถิติสองแบบที่ใช้กันอย่างแพร่หลายในระบบนิเวศและวิวัฒนาการตัวแบบเชิงเส้นผสม (ซึ่งรวมเอฟเฟกต์แบบสุ่ม) และตัวแบบเส้นตรงทั่วไป (ซึ่งจัดการข้อมูลที่ไม่ปกติโดยใช้ฟังก์ชันลิงก์ การแจกแจงปกติปัวซองหรือทวินาม) GLMM เป็นเครื่องมือที่ดีที่สุดสำหรับการวิเคราะห์ข้อมูลที่ไม่ปกติที่เกี่ยวข้องกับเอฟเฟ็กต์แบบสุ่ม: โดยหลักการแล้วทั้งหมดจะต้องระบุการกระจายการเชื่อมโยงฟังก์ชั่นและโครงสร้างของเอฟเฟกต์แบบสุ่ม โมเดลผสมเชิงเส้น (ซึ่งรวมเอฟเฟกต์แบบสุ่ม) และโมเดลเชิงเส้นทั่วไป (ซึ่งจัดการข้อมูลที่ไม่ปกติโดยใช้ฟังก์ชันลิงก์และตระกูลเลขชี้กำลัง [เช่นปกติการแจกแจงปัวซองหรือทวินาม]) GLMM เป็นเครื่องมือที่ดีที่สุดสำหรับการวิเคราะห์ข้อมูลที่ไม่ปกติที่เกี่ยวข้องกับเอฟเฟ็กต์แบบสุ่ม: โดยหลักการแล้วทั้งหมดจะต้องระบุการกระจายการเชื่อมโยงฟังก์ชั่นและโครงสร้างของเอฟเฟกต์แบบสุ่ม โมเดลผสมเชิงเส้น (ซึ่งรวมเอฟเฟกต์แบบสุ่ม) และโมเดลเชิงเส้นทั่วไป (ซึ่งจัดการข้อมูลที่ไม่ปกติโดยใช้ฟังก์ชันลิงก์และตระกูลเลขชี้กำลัง [เช่นปกติการแจกแจงปัวซองหรือทวินาม]) GLMM เป็นเครื่องมือที่ดีที่สุดสำหรับการวิเคราะห์ข้อมูลที่ไม่ปกติที่เกี่ยวข้องกับเอฟเฟ็กต์แบบสุ่ม: โดยหลักการแล้วทั้งหมดจะต้องระบุการกระจายการเชื่อมโยงฟังก์ชั่นและโครงสร้างของเอฟเฟกต์แบบสุ่ม

หน้า 129, ช่อง 1:

ส่วนที่เหลือแสดงถึงการกระจายเกินเหตุดังนั้นเราจึงทำการปรับปรุงข้อมูลด้วยแบบจำลองกึ่งปัวซอง แม้จะมีพารามิเตอร์มาตราส่วนขนาดใหญ่โดยประมาณ (10.8) แต่กราฟสำรวจก็ไม่พบหลักฐานว่ามีค่าผิดปกติในระดับบุคคลจีโนมหรือประชากร เราใช้ quasi-AIC (QAIC) โดยใช้หนึ่งระดับของความอิสระสำหรับเอฟเฟกต์แบบสุ่ม [49] สำหรับ randomeffect แล้วสำหรับการเลือกรูปแบบเอฟเฟกต์คงที่

หน้า 133, กล่อง 4:

ที่นี่เราร่างกรอบงานทั่วไปสำหรับการสร้างแบบจำลอง (ซับซ้อนที่สุด) ซึ่งเป็นขั้นตอนแรกในการวิเคราะห์ GLMM หลังจากทำตามขั้นตอนนี้เราสามารถประเมินพารามิเตอร์และเปรียบเทียบ submodels ตามที่อธิบายไว้ในข้อความหลักและในรูปที่ 1

  1. ระบุการแก้ไข (การรักษาหรือ covariates) และเอฟเฟกต์แบบสุ่ม (บล็อกการทดลองเชิงพื้นที่หรือเชิงเวลาบุคคล ฯลฯ ) รวมการโต้ตอบที่สำคัญเท่านั้น จำกัด แบบจำลองให้อยู่ในระดับความซับซ้อนที่เป็นไปได้ตามกฎของหัวแม่มือ (> 5-6 ระดับสุ่มผลกระทบต่อผลกระทบแบบสุ่มและ> 10-20 ตัวอย่างต่อระดับการรักษาหรือหน่วยทดลอง) และความรู้เกี่ยวกับขนาดตัวอย่างที่ได้รับเพียงพอจาก การศึกษาก่อนหน้า [64,65]

  2. เลือกฟังก์ชันการแจกแจงข้อผิดพลาดและลิงก์ (เช่นการแจกแจงปัวซองและลิงค์บันทึกสำหรับข้อมูลการนับการแจกแจงทวินามและลิงค์บันทึกสำหรับข้อมูลสัดส่วน)

  3. การตรวจสอบแบบกราฟิก : ความแปรปรวนของข้อมูล (แปลงโดยฟังก์ชันลิงก์) เป็นเนื้อเดียวกันในทุกหมวดหมู่หรือไม่ การตอบสนองของข้อมูลที่ถูกแปลงเป็นเชิงเส้นเทียบกับตัวทำนายอย่างต่อเนื่องหรือไม่? มีบุคคลหรือกลุ่มบุคคลที่ผิดปกติหรือไม่? การแจกแจงภายในกลุ่มตรงกับการแจกแจงที่สมมติขึ้นหรือไม่

  4. ติดตั้ง GLM ที่มีเอฟเฟกต์คงที่ทั้งกับชุดข้อมูลแบบเต็ม (พูล) และภายในแต่ละระดับของปัจจัยสุ่ม [28,50] พารามิเตอร์ที่ประมาณควรกระจายโดยทั่วไปประมาณข้ามกลุ่ม (พารามิเตอร์ระดับกลุ่มสามารถมีความไม่แน่นอนมากโดยเฉพาะสำหรับกลุ่มที่มีขนาดตัวอย่างเล็ก) ปรับโมเดลตามความจำเป็น (เช่นเปลี่ยนฟังก์ชั่นลิงค์หรือเพิ่ม covariates)

  5. พอดีกับ GLMM แบบเต็ม หน่วยความจำคอมพิวเตอร์ไม่เพียงพอหรือช้าเกินไป: ลดความซับซ้อนของแบบจำลอง หากการประมาณค่าสำเร็จบนเซตย่อยของข้อมูลลองอัลกอริทึมการประมาณค่าที่มีประสิทธิภาพมากขึ้น (เช่น PQL ถ้าเหมาะสม) ความล้มเหลวในการบรรจบกัน (คำเตือนหรือข้อผิดพลาด): ลดความซับซ้อนของแบบจำลองหรือเปลี่ยนการตั้งค่าการเพิ่มประสิทธิภาพ (ตรวจสอบให้แน่ใจว่าคำตอบที่ได้นั้นสมเหตุสมผล) ลองใช้อัลกอริทึมการประมาณค่าอื่น ๆ ส่วนประกอบความแปรปรวนเป็นศูนย์หรือภาวะเอกฐาน (คำเตือนหรือข้อผิดพลาด): ตรวจสอบว่าแบบจำลองนั้นได้รับการกำหนดอย่างเหมาะสมและสามารถระบุตัวตนได้ (เช่นส่วนประกอบทั้งหมดสามารถประมาณในทางทฤษฎี) ลดความซับซ้อนของแบบจำลอง การเพิ่มข้อมูลลงในโมเดล (covariates เพิ่มเติมหรือการจัดกลุ่มใหม่สำหรับเอฟเฟกต์แบบสุ่ม) สามารถบรรเทาปัญหาได้เช่นเดียวกับการรวมศูนย์ covariates ต่อเนื่องโดยการลบค่าเฉลี่ย [50] หากจำเป็นให้กำจัดเอฟเฟกต์แบบสุ่มจากโมเดลเต็ม การตกลง (i) ข้อตกลงของผลประโยชน์ทางชีวภาพที่แท้จริงน้อยกว่า (ii) ข้อตกลงที่มีความแปรปรวนโดยประมาณน้อยมากและ / หรือความไม่แน่นอนที่มีขนาดใหญ่หรือ (iii) ข้อกำหนดการโต้ตอบ (ข้อผิดพลาดการคอนเวอร์เจนซ์หรือความแปรปรวนเป็นศูนย์สามารถระบุข้อมูลไม่เพียงพอ)

  6. ตรวจสอบสมมติฐานใหม่สำหรับรุ่นสุดท้าย (เช่นในขั้นตอนที่ 3) และตรวจสอบว่าการประมาณการพารามิเตอร์และช่วงเวลาความเชื่อมั่นนั้นสมเหตุสมผล (ช่วงความเชื่อมั่นขนาดยักษ์อาจบ่งบอกถึงปัญหาที่เหมาะสม) ขนาดของสารตกค้างมาตรฐานควรเป็นอิสระจากค่าติดตั้ง ประเมินการกระจายเกินเหตุ(ผลรวมของส่วนที่เหลือเพียร์สันกำลังสองควรเป็นกระจาย [66,67]) หากจำเป็นให้เปลี่ยนการแจกแจงหรือประมาณค่าพารามิเตอร์ของสเกล χ2ตรวจสอบว่าแบบจำลองเต็มรูปแบบที่มีเอฟเฟกต์แบบสุ่มลดลงพร้อมส่วนเบี่ยงเบนมาตรฐานขนาดเล็กให้ผลลัพธ์ที่คล้ายกับรุ่นสุดท้าย หากโมเดลที่แตกต่างกันนำไปสู่การประมาณค่าพารามิเตอร์ที่แตกต่างกันอย่างมากให้พิจารณาค่าเฉลี่ยของโมเดล

ควรใช้พล็อตส่วนที่เหลือเพื่อประเมินการกระจายตัวเกินและความแปรปรวนที่แปลงแล้วควรเป็นเนื้อเดียวกันในทุกหมวดหมู่ ไม่มีที่ไหนในบทความที่ถูกกล่าวถึงว่ามีการแจกจ่ายสารตกค้างตามปกติ

ฉันคิดว่าเหตุผลที่ทำให้มีข้อความที่ตัดกันสะท้อนให้เห็นว่า GLMM (หน้า 127-128) ...

... เป็นเรื่องที่ท้าทายอย่างยิ่งที่จะใช้กับนักสถิติ แม้ว่าแพคเกจซอฟต์แวร์หลายรายการสามารถจัดการ GLMM ได้ (ตารางที่ 1) นักนิเวศวิทยาและนักชีววิทยาวิวัฒนาการจำนวนน้อยก็ตระหนักถึงช่วงของตัวเลือกหรือจากข้อผิดพลาดที่เป็นไปได้ ในการตรวจสอบเอกสารเกี่ยวกับนิเวศวิทยาและวิวัฒนาการตั้งแต่ปี 2005 พบโดย Google Scholar, 311 จาก 537 การวิเคราะห์ GLMM (58%) ใช้เครื่องมือเหล่านี้อย่างไม่เหมาะสมในบางวิธี (ดูวัสดุเสริมออนไลน์)

และนี่คือตัวอย่างการทำงานที่สมบูรณ์โดยใช้ GLMM รวมถึงการวินิจฉัย

ฉันรู้ว่าคำตอบนี้เป็นเหมือนความคิดเห็นมากกว่าและควรได้รับการปฏิบัติเช่นนี้ แต่ส่วนความคิดเห็นไม่อนุญาตให้ฉันเพิ่มความคิดเห็นยาว ๆ นอกจากนี้เนื่องจากฉันเชื่อว่าบทความนี้มีประโยชน์สำหรับการอภิปรายนี้ (แต่น่าเสียดายที่อยู่เบื้องหลังกำแพงจ่ายเงิน) ฉันคิดว่ามันจะมีประโยชน์ในการอ้างอิงข้อความสำคัญที่นี่

อ้างถึงเอกสาร:

[15] - GP Quinn, MJ Keough (2002): การออกแบบการทดลองและการวิเคราะห์ข้อมูลสำหรับนักชีววิทยาสำนักพิมพ์มหาวิทยาลัยเคมบริดจ์

[16] - MJ Crawley (2002): การคำนวณทางสถิติ: ความรู้เบื้องต้นเกี่ยวกับการวิเคราะห์ข้อมูลโดยใช้ S-PLUS, John Wiley & Sons

[28] - JC Pinheiro, DM Bates (2000): โมเดลผสมเอฟเฟกต์ใน S และ S-PLUS, สปริงเกอร์

[49] - F. Vaida, S. Blanchard (2005): ข้อมูล Akaike แบบมีเงื่อนไขสำหรับโมเดลผสมผลกระทบ Biometrika, 92, pp. 351–370

[50] - A. Gelman, J. Hill (2006): การวิเคราะห์ข้อมูลโดยใช้การถดถอยและแบบจำลองหลายระดับ / ลำดับชั้นสำนักพิมพ์มหาวิทยาลัยเคมบริดจ์

[64] - NJ Gotelli, AM Ellison (2004): Primer ของสถิติเชิงนิเวศน์, Sinauer Associates

[65] - FJ Harrell (2001): กลยุทธ์การสร้างแบบจำลองการถดถอยสปริงเกอร์

[66] - JK Lindsey (1997): การใช้โมเดลเชิงเส้นทั่วไป, สปริงเกอร์

[67] - W. Venables, BD Ripley (2002): สถิติประยุกต์สมัยใหม่กับ S, Springer


ขอบคุณที่เป็นประโยชน์จริง ๆ ฉันรู้เกี่ยวกับตัวอย่างโค้ดของ Bolker แต่ไม่ใช่กระดาษจริง สิ่งที่ฉันยังคงสงสัยอยู่คือวิธีการตรวจสอบกราฟิกที่ใช้กับข้อมูลขนาดใหญ่มากที่มีหลายพันกลุ่ม เอกสารสองสามฉบับ (เช่นเอกสารฉบับนั้น) ที่พยายามให้แนวทางบางอย่างเกี่ยวกับวิธีตรวจสอบแบบจำลองของคุณอย่างถูกต้องทั้งหมดจะใช้กับข้อมูลขนาดเล็กมากเท่านั้น จากนั้นมันง่ายกว่ามากในการเลือกเช่นกลุ่มและมองเห็นบางสิ่งบางอย่าง ฉันคิดว่าการมีส่วนร่วมทางวิทยาศาสตร์ที่ดีสามารถเกิดขึ้นได้หากใครบางคนผ่านตัวอย่างที่ซับซ้อนมากขึ้นในอนาคต
fsociety

1
ฉันดีใจที่มันมีประโยชน์! ฉันคิดว่าตัวอย่างที่นำเสนอมีความซับซ้อนอยู่แล้ว (อย่างน้อยสำหรับฉัน) ฉันเดาว่าปัญหาที่ใหญ่กว่าคือชุดข้อมูลที่มีขนาดใหญ่ขึ้นและตัวแบบที่ซับซ้อนมากขึ้นอาจกลายเป็นไปไม่ได้ที่จะคำนวณตามที่กล่าวไว้ในข้อความ: "[... ] เพื่อหาค่าประมาณ ML เราต้องรวมความเป็นไปได้ทั้งหมด การคำนวณนี้ช้าที่สุดและที่แย่ที่สุด (เช่นสำหรับเอฟเฟกต์สุ่มจำนวนมาก) ไม่สามารถคำนวณได้ " สิ่งที่ฉันพบว่าน่าทึ่งและสิ่งที่ควรทราบคือเราใช้เครื่องมือที่อยู่ภายใต้การวิจัยที่ใช้งานอยู่!
สเตฟาน

9

นี่เป็นคำถามเก่า แต่ฉันคิดว่ามันจะเป็นประโยชน์ในการเพิ่มตัวเลือก 4 ที่ OP แนะนำโดยขณะนี้มีอยู่ในแพ็คเกจ DHARMa R (พร้อมใช้งานจาก CRAN ดูที่นี่ )

แพคเกจทำให้การตรวจสอบสิ่งตกค้างที่มองเห็นได้ซึ่งแนะนำโดยคำตอบที่ยอมรับเชื่อถือได้ / ง่ายขึ้น

จากคำอธิบายแพคเกจ:

แพคเกจ DHARMa ใช้วิธีการจำลองที่ใช้ในการสร้างสเกลเศษที่สามารถตีความได้อย่างง่ายดายจากโมเดลเชิงเส้นผสมทั่วไป ปัจจุบันได้รับการสนับสนุนคือคลาส 'merMod' ทั้งหมดจาก 'lme4' ('lmerMod', 'glmerMod'), 'glm' (รวมถึง 'negbin' จาก 'MASS' แต่ไม่รวมถึงการกระจายกึ่ง) และคลาสโมเดล 'lm' อีกวิธีหนึ่งคือการจำลองที่สร้างขึ้นจากภายนอกเช่นการจำลองการคาดการณ์หลังจากซอฟต์แวร์ Bayesian เช่น 'JAGS', 'STAN' หรือ 'BUGS' สามารถดำเนินการได้เช่นกัน ค่าผลลัพธ์ที่เหลือจะได้มาตรฐานตามค่าระหว่าง 0 ถึง 1 และสามารถตีความได้ว่าเป็นค่าส่วนที่เหลือจากการถดถอยเชิงเส้น แพคเกจนี้ยังมีพล็อตและฟังก์ชั่นการทดสอบจำนวนมากสำหรับปัญหาการระบุผิดพลาดของโมเดลทั่วไป


1
นอกจากนี้ดีมากในหัวข้อนี้!
สเตฟาน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.