คำตอบนี้ไม่ได้ขึ้นอยู่กับความรู้ของฉัน แต่เป็นคำพูดสิ่งที่Bolker และคณะ (2009)เขียนไว้ในกระดาษที่มีอิทธิพลในวารสารแนวโน้มในนิเวศวิทยาและวิวัฒนาการ เนื่องจากบทความไม่สามารถเข้าถึงได้ (แม้ว่าการค้นหาบนGoogle scholarอาจพิสูจน์ว่าประสบความสำเร็จฉันคิดว่าฉันอ้างถึงข้อความสำคัญที่อาจเป็นประโยชน์ในการตอบคำถามบางส่วนดังนั้นอีกครั้งมันไม่ใช่สิ่งที่ฉันคิดขึ้นมาเอง แต่ฉันคิดว่า มันแสดงถึงข้อมูลย่อที่ดีที่สุดใน GLMMs (การวินิจฉัยแบบ inlcuding) ออกมาตรงไปตรงมาและง่ายต่อการเข้าใจรูปแบบการเขียนถ้าโดยวิธีใดคำตอบนี้ไม่เหมาะกับเหตุผลใด ๆ ฉันจะลบมันสิ่งที่ฉันพบ มีประโยชน์สำหรับคำถามที่เกี่ยวข้องกับการวินิจฉัยจะถูกเน้นด้วยกล้า
หน้า 127:
นักวิจัยต้องเผชิญกับข้อมูลที่ไม่ปกติมักจะลองใช้ทางลัดเช่นการแปลงข้อมูลเพื่อให้เกิดความปกติและความสม่ำเสมอของความแปรปรวนโดยใช้การทดสอบแบบไม่มีพารามิเตอร์หรืออาศัยความทนทานของ ANOVA แบบดั้งเดิมกับการไม่สมดุลสำหรับการออกแบบที่สมดุล พวกเขาอาจไม่สนใจเอฟเฟกต์แบบสุ่มทั้งหมด (เช่นกระทำการปลอมแปลงปลอม) หรือปฏิบัติต่อพวกเขาเป็นปัจจัยคงที่ [16] อย่างไรก็ตามทางลัดดังกล่าวสามารถล้มเหลวได้ (เช่นการนับข้อมูลที่มีค่าเป็นศูนย์จำนวนมากไม่สามารถทำการเปลี่ยนรูปแบบได้ตามปกติ) แม้ว่าพวกเขาจะประสบความสำเร็จพวกเขาอาจละเมิดสมมติฐานทางสถิติ (แม้การทดสอบแบบไม่มีพารามิเตอร์ให้สมมติฐานเช่นความสม่ำเสมอของความแปรปรวนข้ามกลุ่ม) หรือ จำกัด ขอบเขตของการอนุมาน (หนึ่งไม่สามารถคาดการณ์การประเมินผลกระทบถาวรกับกลุ่มใหม่) แทนที่จะใส่ข้อมูลลงในกรอบสถิติแบบดั้งเดิม นักวิจัยควรใช้วิธีการทางสถิติที่ตรงกับข้อมูลของพวกเขา โมเดลเชิงเส้นผสมแบบทั่วไป (GLMM) รวมคุณสมบัติของกรอบสถิติสองแบบที่ใช้กันอย่างแพร่หลายในระบบนิเวศและวิวัฒนาการตัวแบบเชิงเส้นผสม (ซึ่งรวมเอฟเฟกต์แบบสุ่ม) และตัวแบบเส้นตรงทั่วไป (ซึ่งจัดการข้อมูลที่ไม่ปกติโดยใช้ฟังก์ชันลิงก์ การแจกแจงปกติปัวซองหรือทวินาม) GLMM เป็นเครื่องมือที่ดีที่สุดสำหรับการวิเคราะห์ข้อมูลที่ไม่ปกติที่เกี่ยวข้องกับเอฟเฟ็กต์แบบสุ่ม: โดยหลักการแล้วทั้งหมดจะต้องระบุการกระจายการเชื่อมโยงฟังก์ชั่นและโครงสร้างของเอฟเฟกต์แบบสุ่ม โมเดลผสมเชิงเส้น (ซึ่งรวมเอฟเฟกต์แบบสุ่ม) และโมเดลเชิงเส้นทั่วไป (ซึ่งจัดการข้อมูลที่ไม่ปกติโดยใช้ฟังก์ชันลิงก์และตระกูลเลขชี้กำลัง [เช่นปกติการแจกแจงปัวซองหรือทวินาม]) GLMM เป็นเครื่องมือที่ดีที่สุดสำหรับการวิเคราะห์ข้อมูลที่ไม่ปกติที่เกี่ยวข้องกับเอฟเฟ็กต์แบบสุ่ม: โดยหลักการแล้วทั้งหมดจะต้องระบุการกระจายการเชื่อมโยงฟังก์ชั่นและโครงสร้างของเอฟเฟกต์แบบสุ่ม โมเดลผสมเชิงเส้น (ซึ่งรวมเอฟเฟกต์แบบสุ่ม) และโมเดลเชิงเส้นทั่วไป (ซึ่งจัดการข้อมูลที่ไม่ปกติโดยใช้ฟังก์ชันลิงก์และตระกูลเลขชี้กำลัง [เช่นปกติการแจกแจงปัวซองหรือทวินาม]) GLMM เป็นเครื่องมือที่ดีที่สุดสำหรับการวิเคราะห์ข้อมูลที่ไม่ปกติที่เกี่ยวข้องกับเอฟเฟ็กต์แบบสุ่ม: โดยหลักการแล้วทั้งหมดจะต้องระบุการกระจายการเชื่อมโยงฟังก์ชั่นและโครงสร้างของเอฟเฟกต์แบบสุ่ม
หน้า 129, ช่อง 1:
ส่วนที่เหลือแสดงถึงการกระจายเกินเหตุดังนั้นเราจึงทำการปรับปรุงข้อมูลด้วยแบบจำลองกึ่งปัวซอง แม้จะมีพารามิเตอร์มาตราส่วนขนาดใหญ่โดยประมาณ (10.8) แต่กราฟสำรวจก็ไม่พบหลักฐานว่ามีค่าผิดปกติในระดับบุคคลจีโนมหรือประชากร เราใช้ quasi-AIC (QAIC) โดยใช้หนึ่งระดับของความอิสระสำหรับเอฟเฟกต์แบบสุ่ม [49] สำหรับ randomeffect แล้วสำหรับการเลือกรูปแบบเอฟเฟกต์คงที่
หน้า 133, กล่อง 4:
ที่นี่เราร่างกรอบงานทั่วไปสำหรับการสร้างแบบจำลอง (ซับซ้อนที่สุด) ซึ่งเป็นขั้นตอนแรกในการวิเคราะห์ GLMM หลังจากทำตามขั้นตอนนี้เราสามารถประเมินพารามิเตอร์และเปรียบเทียบ submodels ตามที่อธิบายไว้ในข้อความหลักและในรูปที่ 1
ระบุการแก้ไข (การรักษาหรือ covariates) และเอฟเฟกต์แบบสุ่ม (บล็อกการทดลองเชิงพื้นที่หรือเชิงเวลาบุคคล ฯลฯ ) รวมการโต้ตอบที่สำคัญเท่านั้น จำกัด แบบจำลองให้อยู่ในระดับความซับซ้อนที่เป็นไปได้ตามกฎของหัวแม่มือ (> 5-6 ระดับสุ่มผลกระทบต่อผลกระทบแบบสุ่มและ> 10-20 ตัวอย่างต่อระดับการรักษาหรือหน่วยทดลอง) และความรู้เกี่ยวกับขนาดตัวอย่างที่ได้รับเพียงพอจาก การศึกษาก่อนหน้า [64,65]
เลือกฟังก์ชันการแจกแจงข้อผิดพลาดและลิงก์ (เช่นการแจกแจงปัวซองและลิงค์บันทึกสำหรับข้อมูลการนับการแจกแจงทวินามและลิงค์บันทึกสำหรับข้อมูลสัดส่วน)
การตรวจสอบแบบกราฟิก : ความแปรปรวนของข้อมูล (แปลงโดยฟังก์ชันลิงก์) เป็นเนื้อเดียวกันในทุกหมวดหมู่หรือไม่ การตอบสนองของข้อมูลที่ถูกแปลงเป็นเชิงเส้นเทียบกับตัวทำนายอย่างต่อเนื่องหรือไม่? มีบุคคลหรือกลุ่มบุคคลที่ผิดปกติหรือไม่? การแจกแจงภายในกลุ่มตรงกับการแจกแจงที่สมมติขึ้นหรือไม่
ติดตั้ง GLM ที่มีเอฟเฟกต์คงที่ทั้งกับชุดข้อมูลแบบเต็ม (พูล) และภายในแต่ละระดับของปัจจัยสุ่ม [28,50] พารามิเตอร์ที่ประมาณควรกระจายโดยทั่วไปประมาณข้ามกลุ่ม (พารามิเตอร์ระดับกลุ่มสามารถมีความไม่แน่นอนมากโดยเฉพาะสำหรับกลุ่มที่มีขนาดตัวอย่างเล็ก) ปรับโมเดลตามความจำเป็น (เช่นเปลี่ยนฟังก์ชั่นลิงค์หรือเพิ่ม covariates)
พอดีกับ GLMM แบบเต็ม หน่วยความจำคอมพิวเตอร์ไม่เพียงพอหรือช้าเกินไป: ลดความซับซ้อนของแบบจำลอง หากการประมาณค่าสำเร็จบนเซตย่อยของข้อมูลลองอัลกอริทึมการประมาณค่าที่มีประสิทธิภาพมากขึ้น (เช่น PQL ถ้าเหมาะสม) ความล้มเหลวในการบรรจบกัน (คำเตือนหรือข้อผิดพลาด): ลดความซับซ้อนของแบบจำลองหรือเปลี่ยนการตั้งค่าการเพิ่มประสิทธิภาพ (ตรวจสอบให้แน่ใจว่าคำตอบที่ได้นั้นสมเหตุสมผล) ลองใช้อัลกอริทึมการประมาณค่าอื่น ๆ ส่วนประกอบความแปรปรวนเป็นศูนย์หรือภาวะเอกฐาน (คำเตือนหรือข้อผิดพลาด): ตรวจสอบว่าแบบจำลองนั้นได้รับการกำหนดอย่างเหมาะสมและสามารถระบุตัวตนได้ (เช่นส่วนประกอบทั้งหมดสามารถประมาณในทางทฤษฎี) ลดความซับซ้อนของแบบจำลอง การเพิ่มข้อมูลลงในโมเดล (covariates เพิ่มเติมหรือการจัดกลุ่มใหม่สำหรับเอฟเฟกต์แบบสุ่ม) สามารถบรรเทาปัญหาได้เช่นเดียวกับการรวมศูนย์ covariates ต่อเนื่องโดยการลบค่าเฉลี่ย [50] หากจำเป็นให้กำจัดเอฟเฟกต์แบบสุ่มจากโมเดลเต็ม การตกลง (i) ข้อตกลงของผลประโยชน์ทางชีวภาพที่แท้จริงน้อยกว่า (ii) ข้อตกลงที่มีความแปรปรวนโดยประมาณน้อยมากและ / หรือความไม่แน่นอนที่มีขนาดใหญ่หรือ (iii) ข้อกำหนดการโต้ตอบ (ข้อผิดพลาดการคอนเวอร์เจนซ์หรือความแปรปรวนเป็นศูนย์สามารถระบุข้อมูลไม่เพียงพอ)
ตรวจสอบสมมติฐานใหม่สำหรับรุ่นสุดท้าย (เช่นในขั้นตอนที่ 3) และตรวจสอบว่าการประมาณการพารามิเตอร์และช่วงเวลาความเชื่อมั่นนั้นสมเหตุสมผล (ช่วงความเชื่อมั่นขนาดยักษ์อาจบ่งบอกถึงปัญหาที่เหมาะสม) ขนาดของสารตกค้างมาตรฐานควรเป็นอิสระจากค่าติดตั้ง ประเมินการกระจายเกินเหตุ(ผลรวมของส่วนที่เหลือเพียร์สันกำลังสองควรเป็นกระจาย [66,67]) หากจำเป็นให้เปลี่ยนการแจกแจงหรือประมาณค่าพารามิเตอร์ของสเกล χ2ตรวจสอบว่าแบบจำลองเต็มรูปแบบที่มีเอฟเฟกต์แบบสุ่มลดลงพร้อมส่วนเบี่ยงเบนมาตรฐานขนาดเล็กให้ผลลัพธ์ที่คล้ายกับรุ่นสุดท้าย หากโมเดลที่แตกต่างกันนำไปสู่การประมาณค่าพารามิเตอร์ที่แตกต่างกันอย่างมากให้พิจารณาค่าเฉลี่ยของโมเดล
ควรใช้พล็อตส่วนที่เหลือเพื่อประเมินการกระจายตัวเกินและความแปรปรวนที่แปลงแล้วควรเป็นเนื้อเดียวกันในทุกหมวดหมู่ ไม่มีที่ไหนในบทความที่ถูกกล่าวถึงว่ามีการแจกจ่ายสารตกค้างตามปกติ
ฉันคิดว่าเหตุผลที่ทำให้มีข้อความที่ตัดกันสะท้อนให้เห็นว่า GLMM (หน้า 127-128) ...
... เป็นเรื่องที่ท้าทายอย่างยิ่งที่จะใช้กับนักสถิติ แม้ว่าแพคเกจซอฟต์แวร์หลายรายการสามารถจัดการ GLMM ได้ (ตารางที่ 1) นักนิเวศวิทยาและนักชีววิทยาวิวัฒนาการจำนวนน้อยก็ตระหนักถึงช่วงของตัวเลือกหรือจากข้อผิดพลาดที่เป็นไปได้ ในการตรวจสอบเอกสารเกี่ยวกับนิเวศวิทยาและวิวัฒนาการตั้งแต่ปี 2005 พบโดย Google Scholar, 311 จาก 537 การวิเคราะห์ GLMM (58%) ใช้เครื่องมือเหล่านี้อย่างไม่เหมาะสมในบางวิธี (ดูวัสดุเสริมออนไลน์)
และนี่คือตัวอย่างการทำงานที่สมบูรณ์โดยใช้ GLMM รวมถึงการวินิจฉัย
ฉันรู้ว่าคำตอบนี้เป็นเหมือนความคิดเห็นมากกว่าและควรได้รับการปฏิบัติเช่นนี้ แต่ส่วนความคิดเห็นไม่อนุญาตให้ฉันเพิ่มความคิดเห็นยาว ๆ นอกจากนี้เนื่องจากฉันเชื่อว่าบทความนี้มีประโยชน์สำหรับการอภิปรายนี้ (แต่น่าเสียดายที่อยู่เบื้องหลังกำแพงจ่ายเงิน) ฉันคิดว่ามันจะมีประโยชน์ในการอ้างอิงข้อความสำคัญที่นี่
อ้างถึงเอกสาร:
[15] - GP Quinn, MJ Keough (2002): การออกแบบการทดลองและการวิเคราะห์ข้อมูลสำหรับนักชีววิทยาสำนักพิมพ์มหาวิทยาลัยเคมบริดจ์
[16] - MJ Crawley (2002): การคำนวณทางสถิติ: ความรู้เบื้องต้นเกี่ยวกับการวิเคราะห์ข้อมูลโดยใช้ S-PLUS, John Wiley & Sons
[28] - JC Pinheiro, DM Bates (2000): โมเดลผสมเอฟเฟกต์ใน S และ S-PLUS, สปริงเกอร์
[49] - F. Vaida, S. Blanchard (2005): ข้อมูล Akaike แบบมีเงื่อนไขสำหรับโมเดลผสมผลกระทบ Biometrika, 92, pp. 351–370
[50] - A. Gelman, J. Hill (2006): การวิเคราะห์ข้อมูลโดยใช้การถดถอยและแบบจำลองหลายระดับ / ลำดับชั้นสำนักพิมพ์มหาวิทยาลัยเคมบริดจ์
[64] - NJ Gotelli, AM Ellison (2004): Primer ของสถิติเชิงนิเวศน์, Sinauer Associates
[65] - FJ Harrell (2001): กลยุทธ์การสร้างแบบจำลองการถดถอยสปริงเกอร์
[66] - JK Lindsey (1997): การใช้โมเดลเชิงเส้นทั่วไป, สปริงเกอร์
[67] - W. Venables, BD Ripley (2002): สถิติประยุกต์สมัยใหม่กับ S, Springer
glm.diag.plots
บอกว่าเป็นเพราะความเบี่ยงเบนแบบJackknifed (ฉันสงสัยว่าความแตกต่างเป็นสิ่งสำคัญ) นอกจากนี้ฉันรวบรวมคุณมีข้อมูลนับ ; คุณอาจต้องการมุ่งเน้นไปที่ข้อเท็จจริงนั้น เช่นจำนวนนั้นควรจะเป็นแบบ heteroscedastic แผนการวินิจฉัยสำหรับการนับถอยหลังจะมีประโยชน์สำหรับคุณ (แม้ว่าจะไม่ได้ระบุถึงลักษณะพิเศษแบบผสม)