ฉันบันทึกการแปลงตัวแปรตามของฉันฉันสามารถใช้การกระจายปกติ GLM กับฟังก์ชั่นการเชื่อมโยงเข้าสู่ระบบ?


10

ฉันมีคำถามเกี่ยวกับโมเดลเชิงเส้นทั่วไป (GLM) ตัวแปรตามของฉัน (DV) นั้นต่อเนื่องและไม่ปกติ ดังนั้นฉันเข้าสู่ระบบเปลี่ยนมัน (ยังไม่ปกติ แต่ปรับปรุงมัน)

ฉันต้องการเชื่อมโยง DV กับตัวแปรเด็ดขาดสองรายการและหนึ่งตัวแปรแปรปรวนต่อเนื่อง สำหรับสิ่งนี้ฉันต้องการดำเนินการ GLM (ฉันใช้ SPSS) แต่ฉันไม่แน่ใจว่าจะตัดสินใจเกี่ยวกับการกระจายและฟังก์ชั่นที่จะเลือกได้อย่างไร

ฉันได้ทำการทดสอบแบบไม่มีพารามิเตอร์ของ Levene และฉันมีความแปรปรวนเหมือนกันดังนั้นฉันจึงอยากใช้การแจกแจงแบบปกติ ฉันได้อ่านว่าสำหรับการถดถอยเชิงเส้นข้อมูลไม่จำเป็นต้องเป็นปกติส่วนที่เหลือทำ ดังนั้นฉันได้พิมพ์ส่วนที่เหลือของเพียร์สันที่ได้มาตรฐานและค่าทำนายสำหรับตัวทำนายเชิงเส้นจากแต่ละ GLM แยกกัน (ฟังก์ชั่นประจำตัวปกติ GLM และฟังก์ชั่นบันทึกปกติ) ฉันได้ทำการทดสอบภาวะปกติ (ฮิสโตแกรมและชาปิโร - วิลค์) และวางแผนส่วนที่เหลือกับค่าที่คาดการณ์ไว้ (เพื่อตรวจสอบการสุ่มและความแปรปรวน) สำหรับทั้งสองแบบแยกกัน ส่วนที่เหลือจากฟังก์ชั่นตัวตนไม่ปกติ แต่ส่วนที่เหลือจากฟังก์ชั่นบันทึกเป็นเรื่องปกติ ฉันมีแนวโน้มที่จะเลือกปกติด้วยฟังก์ชั่นบันทึกการเชื่อมโยงเพราะเพียร์สันส่วนที่เหลือมีการกระจายตามปกติ

ดังนั้นคำถามของฉันคือ:

  • ฉันสามารถใช้การกระจายปกติ GLM กับฟังก์ชั่นบันทึกการเชื่อมโยงใน DV ที่ได้รับการแปลงบันทึกได้หรือไม่?
  • การทดสอบความสม่ำเสมอของความแปรปรวนเพียงพอที่จะพิสูจน์การใช้การแจกแจงแบบปกติหรือไม่?
  • ขั้นตอนการตรวจสอบส่วนที่เหลือถูกต้องหรือไม่เพื่อปรับการเลือกรุ่นฟังก์ชั่นลิงก์?

รูปภาพของการกระจาย DV ทางด้านซ้ายและส่วนที่เหลือจาก GLM ปกติพร้อมฟังก์ชั่นบันทึกลิงค์ทางด้านขวา

การกระจาย DV ทางด้านซ้ายและส่วนที่เหลือจาก GLM ปกติด้านขวา


ยังไม่ชัดเจนว่าคุณหมายถึงอะไร: " ดังนั้นฉันได้เปรียบเทียบเพียร์สันเพียร์สันจาก GLM กับฟังก์ชั่นตัวตนปกติและฟังก์ชั่นบันทึกปกติ "
Glen_b -Reinstate Monica

ขอบคุณสำหรับความคิดเห็นของคุณ. ฉันหมายความว่าฉันได้พิมพ์ส่วนที่เหลือและค่าที่คาดการณ์จากแต่ละ GLM (ข้อมูลประจำตัวและบันทึก) เป็นรายบุคคลและตรวจสอบความเป็นมาตรฐานและพล็อตเพียร์สันที่ได้มาตรฐานตามที่วางแผนไว้กับค่าที่ทำนายสำหรับแต่ละรุ่น สำหรับฟังก์ชั่นประจำตัวที่เหลือไม่ปกติในขณะที่ฟังก์ชั่นเข้าสู่ระบบที่เหลือปกติ
นักวิทยาศาสตร์

พล็อตของเพียร์สันที่เหลือเป็นมาตรฐานเทียบกับค่าที่คาดการณ์ระบุได้อย่างไรว่าข้อมูลเป็นปกติจริงหรือไม่?
Glen_b -Reinstate Monica

ฉันตรวจสอบความเป็นมาตรฐานด้วยการพล็อตกราฟฮิสโตแกรมของเศษเหลือและดำเนินการ Shapiro-Wilk (P> 0.05 สำหรับฟังก์ชันบันทึก) จากนั้นฉันวางแผนส่วนที่เหลือเทียบกับค่าที่คาดการณ์ไว้เพื่อดูว่าพวกมันกระจายแบบสุ่มหรือไม่และตรวจสอบความแปรปรวน (ขออภัยที่ไม่ได้บอกข้อมูลสำคัญเป็นครั้งแรกที่ฉันโพสต์)
นักวิทยาศาสตร์

ฉันเดาว่า "ฟังก์ชั่นเอกลักษณ์" เป็นคำพ้องเสียงที่นี่สำหรับ "ฟังก์ชั่นความหนาแน่น"
Nick Cox

คำตอบ:


7

ฉันสามารถใช้การกระจายปกติ GLM กับฟังก์ชั่นบันทึกการเชื่อมโยงใน DV ที่ได้รับการแปลงบันทึกได้หรือไม่?

ใช่; หากสมมติฐานมีความพึงพอใจในระดับนั้น

การทดสอบความสม่ำเสมอของความแปรปรวนเพียงพอที่จะพิสูจน์การใช้การแจกแจงแบบปกติหรือไม่?

ทำไมความเท่าเทียมกันของความแปรปรวนถึงเป็นปกติ?

ขั้นตอนการตรวจสอบส่วนที่เหลือถูกต้องหรือไม่เพื่อปรับการเลือกรุ่นฟังก์ชั่นลิงก์?

คุณควรระวังในการใช้ทั้งฮิสโทแกรมและการทดสอบความพอดีเพื่อตรวจสอบความเหมาะสมของสมมติฐานของคุณ:

1) ระวังการใช้ฮิสโตแกรมในการประเมินความเป็นมาตรฐาน (ดูที่นี่ด้วย )

ในระยะสั้นขึ้นอยู่กับสิ่งที่ง่ายเหมือนการเปลี่ยนแปลงเล็กน้อยในทางเลือกของคุณของความกว้างหรือแม้กระทั่งที่ตั้งของขอบเขตของถังขยะคุณอาจได้รับการแสดงผลที่แตกต่างกันของรูปร่างของข้อมูล:

ฮิสโทแกรมที่เหลือสองครั้ง

นั่นคือสองฮิสโตแกรมของชุดข้อมูลเดียวกัน การใช้แบนด์วิดท์ที่แตกต่างกันหลายอย่างอาจมีประโยชน์ในการดูว่าการแสดงผลนั้นไวต่อสิ่งนั้นหรือไม่

2) ระวังการใช้ความดีของการทดสอบพอดีเพื่อสรุปว่าข้อสันนิษฐานของความมีเหตุผลนั้นสมเหตุสมผล การทดสอบสมมติฐานอย่างเป็นทางการไม่ได้ตอบคำถามที่ถูกต้อง

เช่นดูลิงก์ภายใต้ข้อ2 ที่นี่

เกี่ยวกับความแปรปรวนที่ถูกกล่าวถึงในเอกสารบางฉบับที่ใช้ชุดข้อมูลที่คล้ายกัน "เพราะการแจกแจงมีความแปรปรวนแบบเอกพันธ์ที่ GLM พร้อมกับการแจกแจงแบบเกาส์ถูกใช้" หากไม่ถูกต้องฉันจะปรับหรือตัดสินใจการกระจายได้อย่างไร

ในสถานการณ์ปกติคำถามไม่ได้เป็นข้อผิดพลาดของฉัน (หรือการแจกแจงตามเงื่อนไข) ปกติหรือไม่ - พวกเขาจะไม่เป็นเราไม่จำเป็นต้องตรวจสอบ คำถามที่เกี่ยวข้องมากขึ้นคือ 'ระดับของความไม่เป็นมาตรฐานที่มีอยู่ในปัจจุบันส่งผลกระทบต่อการอ้างถึงของฉันอย่างไร "

ฉันแนะนำการประเมินความหนาแน่นของเคอร์เนลหรือ QQplot ปกติ (พล็อตของส่วนที่เหลือเทียบกับคะแนนปกติ) หากการแจกแจงนั้นดูเป็นเรื่องปกติคุณก็ไม่ต้องกังวลอะไร ในความเป็นจริงแม้ว่ามันจะไม่ธรรมดา แต่ก็อาจไม่สำคัญมากขึ้นอยู่กับสิ่งที่คุณต้องการ (ช่วงเวลาการคาดการณ์ปกติจริง ๆ จะขึ้นอยู่กับความเป็นปกติตัวอย่างเช่น แต่สิ่งอื่น ๆ อีกมากมายมักจะทำงานในขนาดกลุ่มตัวอย่างขนาดใหญ่ )

พอสนุกในกลุ่มตัวอย่างขนาดใหญ่ปกติจะมีความสำคัญน้อยลง (นอกเหนือจาก PIs ตามที่ได้กล่าวไว้ข้างต้น) แต่ความสามารถของคุณในการปฏิเสธภาวะปกติจะยิ่งใหญ่ขึ้นเรื่อย ๆ

แก้ไข: จุดที่เกี่ยวกับความเท่าเทียมกันของความแปรปรวนคือจริง ๆสามารถส่งผลกระทบต่อการอนุมานของคุณแม้ในขนาดตัวอย่างที่มีขนาดใหญ่ แต่คุณอาจไม่ควรประเมินด้วยการทดสอบสมมติฐานเช่นกัน การคาดเดาความแปรปรวนผิดนั้นเป็นปัญหาไม่ว่าการกระจายตัวของคุณจะเป็นอะไร

ฉันอ่านว่าค่าเบี่ยงเบนมาตรฐานที่ปรับขนาดควรอยู่ที่ Np สำหรับแบบจำลองเพื่อให้พอดีใช่ไหม?

เมื่อคุณพอดีกับโมเดลปกติจะมีพารามิเตอร์สเกลซึ่งในกรณีนี้ความเบี่ยงเบนที่ปรับขนาดของคุณจะอยู่ที่ Np แม้ว่าการกระจายของคุณจะไม่ปกติ

ในความเห็นของคุณการกระจายปกติพร้อมลิงค์บันทึกเป็นตัวเลือกที่ดี

ในกรณีที่ไม่มีการรู้สิ่งที่คุณกำลังวัดหรือสิ่งที่คุณใช้ในการอนุมานฉันยังคงไม่สามารถตัดสินได้ว่าจะแนะนำการกระจายอื่นสำหรับ GLM หรือไม่

อย่างไรก็ตามหากสมมติฐานอื่น ๆ ของคุณมีความสมเหตุสมผล (อย่างน้อยควรมีการตรวจสอบความเป็นเส้นตรงและความเท่าเทียมกันของความแปรปรวนและแหล่งที่มาของการพึ่งพาอาศัยกัน) ในสถานการณ์ส่วนใหญ่ฉันจะทำสิ่งต่าง ๆ เช่นการใช้ - มีเพียงความประทับใจเล็กน้อยของการเบ้ในส่วนที่เหลือซึ่งแม้ว่าจะเป็นผลกระทบที่แท้จริงแล้วก็ไม่ควรมีผลกระทบอย่างมีนัยสำคัญต่อการอนุมานเหล่านั้น

ในระยะสั้นคุณควรจะสบายดี

(ในขณะที่ฟังก์ชั่นการกระจายและลิงค์อื่นอาจทำได้ดีขึ้นเล็กน้อยในแง่ของความเหมาะสม แต่ในสถานการณ์ที่ จำกัด พวกเขาก็มีแนวโน้มที่จะเข้าใจมากขึ้นด้วย)


ขอบคุณอีกครั้ง! เกี่ยวกับความแปรปรวนที่ถูกกล่าวถึงในเอกสารบางฉบับที่ใช้ชุดข้อมูลที่คล้ายกัน "เพราะการแจกแจงมีความแปรปรวนแบบเอกพันธ์ที่ GLM พร้อมกับการแจกแจงแบบเกาส์ถูกใช้" หากไม่ถูกต้องฉันจะปรับหรือตัดสินใจการกระจายได้อย่างไร เกี่ยวกับการกระจายตัวแบบปกติที่เหลือก็หมายความว่ามันเหมาะสมกว่าใช่ไหม ฉันอ่านว่าค่าเบี่ยงเบนมาตรฐานที่ปรับขนาดควรอยู่ที่ Np สำหรับแบบจำลองเพื่อให้พอดีใช่ไหม? ค่าจะเหมือนกันสำหรับทั้ง GLM และรอบ Np ฉันยังระบุรุ่นที่เหมาะสมที่สุดในโมเดลโดยใช้เกณฑ์ AIC ไม่แน่ใจว่านี่คือสิ่งที่คุณหมายถึง
นักวิทยาศาสตร์

ดูการสนทนาในการแก้ไขของฉันด้านบน
Glen_b -Reinstate Monica

ขอบคุณ @Glen_b สำหรับคำอธิบายที่ดี ฮิสโตแกรมที่ฉันทดสอบด้วย Shapiro-Wilk จะไม่พิจารณาทุกสิ่งหรือไม่ ฉันวางแผน QQ คาดว่าจะปกติและสังเกตค่าที่เหลือของเพียร์สันและคะแนน + - พอดีกับบรรทัดยกเว้นในเคล็ดลับที่พวกเขาไปขึ้นเล็กน้อย นี่คือสิ่งที่คุณหมายถึง? การกระจายตัวของสารตกค้างดูเหมือนปกติดังนั้นฉันสามารถดำเนินการต่อได้หรือไม่ (แม้ว่า DV ที่บันทึกไว้ไม่ปกติ) (ฉันยังคงอ่านลิงก์ แต่ต้องการถามสิ่งนี้)
นักวิทยาศาสตร์

1
" เนื่องจากพล็อต QQ ปกติกระจายตามปกติสำหรับรุ่นนี้? " ... ฉันอาจจะพูดว่า "พล็อต QQ ของส่วนที่เหลือแสดงให้เห็นว่าการสันนิษฐานของ normality นั้นสมเหตุสมผล" หรือ "ส่วนที่เหลือจะปรากฏขึ้นใกล้เคียงปกติ" หากผู้ชมของคุณคาดหวังว่าการทดสอบสมมติฐานคุณยังอาจเสนอราคาหนึ่ง (แต่นั่นไม่ได้เปลี่ยนความจริงที่ว่าพวกเขาไม่เป็นประโยชน์โดยเฉพาะ) " ปัญหาของชุดข้อมูลคือในฮิสโตแกรมของ DV " ... ไม่มีข้อสันนิษฐานเกี่ยวกับการแจกแจงของ DV แบบไม่มีเงื่อนไขหรือ IV ใด ๆ
Glen_b -Reinstate Monica

1
ดูการสนทนาเพิ่มเติมที่ด้านล่างของคำตอบของฉัน ขอโทษฉันไม่ได้ตอบก่อนหน้านี้ แต่ฉันหลับ ในคำถามอื่น ๆ เหตุผลที่ฉันถามก็คือว่าทั้งสองรุ่นแบ่งปันสมมติฐานส่วนใหญ่ของพวกเขาและการสนทนาทั้งหมดนี้ค่อนข้างเกี่ยวข้องกับคำถามนั้น - แม้ว่า DV จะแตกต่างกัน มันไม่ได้ว่าสถานการณ์เดียวกัน (และดังนั้นจึงไม่ควรจะเป็นคำถามใหม่) แต่คำถามนี้ควรจะเชื่อมโยงจากมันเพื่อให้คุณสามารถถามคำถามในบริบทของการสนทนานี้เช่นว่ามีปัญหาที่แตกต่างกันหรือเพิ่มเติมใด ๆ
Glen_b -Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.