เป็นที่ยอมรับหรือไม่ที่เรียกใช้โมเดลเชิงเส้นสองชุดในชุดข้อมูลเดียวกัน

สำหรับการถดถอยเชิงเส้นที่มีหลายกลุ่ม (กลุ่มธรรมชาติที่กำหนดเบื้องต้น) เป็นที่ยอมรับหรือไม่ที่จะเรียกใช้สองรุ่นที่แตกต่างกันในชุดข้อมูลเดียวกันเพื่อตอบคำถามสองข้อต่อไปนี้

แต่ละกลุ่มมีความชันที่ไม่เป็นศูนย์และการสกัดกั้นที่ไม่ใช่ศูนย์และพารามิเตอร์สำหรับแต่ละกลุ่มภายในการถดถอยกลุ่มคืออะไร?
มีไม่ว่าจะเป็นสมาชิกกลุ่มแนวโน้มที่ไม่เป็นศูนย์และการสกัดกั้นที่ไม่เป็นศูนย์หรือไม่และพารามิเตอร์สำหรับการถดถอยแบบกลุ่มนี้คืออะไร?

ใน R, รุ่นแรกจะเป็นเพื่อให้ค่าสัมประสิทธิ์ประมาณอาจตีความได้โดยตรงขณะที่ตัดและความลาดชันสำหรับแต่ละรุ่นที่สองจะเป็นlm(y ~ group + x:group - 1) group.Thelm(y ~ x + 1)

ทางเลือกจะเป็นlm(y ~ x + group + x:group + 1)ซึ่งส่งผลในตารางสรุปค่าสัมประสิทธิ์ที่ซับซ้อนภายในกลุ่มลาดและดักต้องคำนวณจากความแตกต่างในลาดและดักจากการอ้างอิงบางส่วน นอกจากนี้คุณต้องเรียงลำดับกลุ่มใหม่และเรียกใช้แบบจำลองเป็นครั้งที่สองต่อไปเพื่อรับค่า p สำหรับความแตกต่างของกลุ่มสุดท้าย (บางครั้ง)

สิ่งนี้ใช้สองรุ่นแยกกันส่งผลเสียต่อการอนุมานในทางใดทางหนึ่งหรือการปฏิบัติตามมาตรฐานนี้หรือไม่?

ในการพิจารณาเรื่องนี้ให้พิจารณาว่า x เป็นปริมาณยาและกลุ่มที่มีเชื้อชาติต่างกัน อาจเป็นเรื่องที่น่าสนใจที่จะทราบความสัมพันธ์ของการตอบสนองต่อขนาดยาสำหรับแพทย์เฉพาะทางหรือยาที่ใช้ในการแข่งขัน แต่บางครั้งก็น่าสนใจที่จะทราบความสัมพันธ์ของการตอบสนองต่อยาสำหรับประชากรทั้งหมด (มนุษย์) โดยไม่คำนึงถึงเชื้อชาติสำหรับเจ้าหน้าที่สาธารณสุข นี่เป็นเพียงตัวอย่างของวิธีการที่คนอาจสนใจทั้งภายในกลุ่มและระหว่างการถดถอยกลุ่ม ความสัมพันธ์ระหว่างปริมาณและการตอบสนองควรเป็นเชิงเส้นหรือไม่ไม่ใช่สิ่งสำคัญ

— JDub
แหล่งที่มา

คุณแน่ใจหรือว่าต้องการใช้การถดถอยเชิงเส้น ความสัมพันธ์ระหว่างการตอบสนองต่อปริมาณนั้นแทบจะไม่เคยเป็นเส้นตรงในช่วงปริมาณที่มาก

— Michael Lew

@Michael ขอโทษนั่นเป็นทางเลือกที่แย่มาก ๆ ฉันว่า ฉันสงสัยเกี่ยวกับเรื่องนี้โดยทั่วไป รายละเอียดของความสัมพันธ์ของการตอบสนองต่อปริมาณที่ไม่ควรได้รับในทาง ฉันแก้ไขคำถามเพื่อให้ทราบสิ่งนี้

— Jdub

คุณได้พิจารณาการสกัดกั้นแบบสุ่มความชันแบบสุ่มหรือไม่

— สันนิษฐานว่าปกติ

ให้ฉันเริ่มด้วยการบอกว่าฉันคิดว่าคำถามแรกของคุณและโมเดล R แรกไม่เข้ากัน ใน R เมื่อเราเขียนสูตรอย่างใดอย่างหนึ่ง-1หรือ+0เราจะระงับการสกัดกั้น ดังนั้นlm(y ~ group + x:group - 1) ป้องกันไม่ให้คุณสามารถบอกได้ว่าการสกัดกั้นมีความแตกต่างอย่างมีนัยสำคัญจาก 0 ในหลอดเลือดดำเดียวกันในสองรุ่นต่อไปของคุณ+1นั่นคือฟุ่มเฟือยการสกัดกั้นถูกประเมินโดยอัตโนมัติในอาร์ฉันแนะนำให้คุณใช้การเข้ารหัสเซลล์อ้างอิง ( หรือที่เรียกว่า 'การเข้ารหัสแบบจำลอง') เพื่อเป็นตัวแทนกลุ่มของคุณ นั่นคือมีกลุ่มสร้าง $g$ $g-1$ ตัวแปรใหม่เลือกหนึ่งกลุ่มเป็นค่าเริ่มต้นและกำหนด 0 ให้กับหน่วยของกลุ่มนั้นในแต่ละตัวแปรใหม่ จากนั้นตัวแปรใหม่แต่ละตัวจะถูกใช้เพื่อแสดงความเป็นสมาชิกในกลุ่มอื่น หน่วยที่อยู่ภายในกลุ่มที่กำหนดจะถูกระบุด้วย 1 ในตัวแปรที่สอดคล้องกันและ 0 ของที่อื่น เมื่อค่าสัมประสิทธิ์ของคุณถูกส่งกลับหากการสกัดกั้นเป็น 'สำคัญ' แสดงว่ากลุ่มเริ่มต้นของคุณมีการสกัดกั้นที่ไม่เป็นศูนย์ น่าเสียดายที่การทดสอบนัยสำคัญมาตรฐานสำหรับกลุ่มอื่นจะไม่บอกคุณว่าพวกเขาแตกต่างจาก 0 หรือไม่ แต่หากแตกต่างจากกลุ่มเริ่มต้น หากต้องการตรวจสอบว่าพวกเขาแตกต่างจาก 0 หรือไม่ให้เพิ่มสัมประสิทธิ์ของพวกเขาในการสกัดกั้นและหารผลรวมด้วยข้อผิดพลาดมาตรฐานเพื่อรับค่า t สถานการณ์ที่มีความลาดชันจะคล้ายกัน: นั่นคือการทดสอบ $X$ จะบอกคุณว่าความชันของกลุ่มเริ่มต้นนั้นแตกต่างจาก 0 อย่างมากหรือไม่และข้อกำหนดในการโต้ตอบบอกคุณว่าความชันของกลุ่มเหล่านั้นแตกต่างจากกลุ่มเริ่มต้นหรือไม่ การทดสอบความลาดชันของกลุ่มอื่นเทียบกับ 0 สามารถสร้างได้เช่นเดียวกับการสกัดกั้น ยิ่งไปกว่านั้นคือให้พอดีกับโมเดล 'จำกัด ' โดยไม่มีตัวแปรตัวบ่งชี้กลุ่มหรือเงื่อนไขการโต้ตอบและทดสอบโมเดลนี้กับโมเดลเต็มรูปแบบด้วยanova()ซึ่งจะบอกคุณว่ากลุ่มของคุณมีความหมายแตกต่างกันหรือไม่

สิ่งเหล่านี้ได้รับการกล่าวว่าคำถามหลักของคุณคือไม่ว่าจะทำทั้งหมดนี้เป็นที่ยอมรับ ปัญหาพื้นฐานที่นี่เป็นปัญหาของการเปรียบเทียบหลาย ๆ นี่เป็นปัญหาอันยาวนานและมีหนามพร้อมความคิดเห็นมากมาย (คุณสามารถค้นหาข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อนี้ใน CV โดยการอ่านคำถามที่ติดแท็กคำหลักนี้) ในขณะที่ความคิดเห็นมีความหลากหลายในหัวข้อนี้ฉันคิดว่าคงไม่มีใครผิดพลาดสำหรับการวิเคราะห์หลายชุดในชุดข้อมูลเดียวกัน . โดยทั่วไปแล้วความขัดแย้งมุมฉากมีความคิดในบริบทของการหาวิธีการเปรียบเทียบชุดของกลุ่มกับแต่ละอื่น ๆ $g$ อย่างไรก็ตามนั่นไม่ใช่กรณีที่นี่ คำถามของคุณผิดปกติ (และฉันคิดว่าน่าสนใจ) เท่าที่ฉันเห็นถ้าคุณเพียงแค่ต้องการแบ่งพาร์ติชันชุดข้อมูลของคุณเป็นชุดย่อยแยกและเรียกใช้แบบจำลองการถดถอยง่าย ๆ ในแต่ละที่ควรจะตกลง คำถามที่น่าสนใจกว่านั้นคือการวิเคราะห์แบบ 'ยุบ' นั้นสามารถพิจารณาได้ว่าเป็นมุมฉากกับชุดการวิเคราะห์ส่วนบุคคลหรือไม่ ฉันไม่คิดอย่างนั้นเพราะคุณควรจะสามารถสร้างการวิเคราะห์ที่ยุบอีกครั้งด้วยการผสมผสานเชิงเส้นของการวิเคราะห์กลุ่ม $g$

คำถามที่แตกต่างกันเล็กน้อยคือการทำสิ่งนี้มีความหมายจริงๆหรือไม่ ภาพที่คุณทำการวิเคราะห์เบื้องต้นและค้นพบว่ากลุ่มแตกต่างจากกันอย่างมีนัยสำคัญ รู้สึกอย่างไรที่ทำให้กลุ่มที่แตกต่างเหล่านี้รวมกันเป็นกลุ่มที่ไม่รวมกลุ่มกัน ตัวอย่างเช่นลองจินตนาการว่ากลุ่มแตกต่างกัน (อย่างใด) ในการสกัดกั้นของพวกเขาจากนั้นอย่างน้อยก็บางกลุ่มไม่มีการสกัดกั้น 0 หากมีกลุ่มดังกล่าวเพียงกลุ่มเดียวดังนั้นการสกัดกั้นทั้งหมดจะเป็น 0 หากกลุ่มนั้นมี $n_g=0$ ในประชากรที่เกี่ยวข้อง อีกทางหนึ่งสมมุติว่ามีกลุ่มที่ตรงกับกลุ่มที่ไม่เป็นศูนย์ที่มีค่าบวกหนึ่งกลุ่มและกลุ่มลบหนึ่งกลุ่มจากนั้นทั้งกลุ่มจะมีค่าตัดเป็น 0 เฉพาะเมื่อ $n$ กลุ่มเหล่านี้มีสัดส่วนผกผันกับขนาดของ divergences ของ intercepts ฉันสามารถไปที่นี่ (มีความเป็นไปได้อีกมากมาย) แต่ประเด็นก็คือคุณกำลังถามคำถามเกี่ยวกับขนาดของกลุ่มที่เกี่ยวข้องกับความแตกต่างของค่าพารามิเตอร์ ตรงไปตรงมาคำถามเหล่านี้แปลกสำหรับฉัน

ฉันขอแนะนำให้คุณปฏิบัติตามโปรโตคอลที่ฉันร่างไว้ด้านบน คือรหัสจำลองกลุ่มของคุณ จากนั้นให้พอดีกับแบบจำลองเต็มรูปแบบโดยมีข้อตกลงและการโต้ตอบทั้งหมดรวมอยู่ด้วย ติดตั้งแบบจำลองที่ลดลงโดยไม่มีคำศัพท์เหล่านี้และทำการทดสอบแบบซ้อน หากกลุ่มแตกต่างกันอย่างใดอย่างหนึ่งติดตามด้วย (หวังว่า) a-Priori (ขับเคลื่อนด้วยทฤษฎี) ความแตกต่างมุมฉากเพื่อให้เข้าใจได้ดีขึ้นว่ากลุ่มแตกต่างกันอย่างไร (และพล็อต - เสมอพล็อตเสมอ )

— gung - Reinstate Monica
แหล่งที่มา