การแบ่งความแปรปรวนและการเปลี่ยนแปลงตามยาวที่สัมพันธ์กับข้อมูลไบนารี


14

ฉันกำลังวิเคราะห์ข้อมูลเกี่ยวกับนักเรียน 300,000 คนใน 175 โรงเรียนที่มีรูปแบบเอฟเฟกต์แบบผสมเชิงเส้นเชิงโลจิสติก (การสกัดแบบสุ่ม) นักเรียนแต่ละคนเกิดขึ้นเพียงครั้งเดียวและข้อมูลมีระยะเวลา 6 ปี

  1. ฉันจะแบ่งความแตกต่างระหว่างระดับโรงเรียนและระดับนักเรียนได้อย่างไรในทำนองเดียวกันกับ VPC / ICC สำหรับผลลัพธ์อย่างต่อเนื่อง ฉันได้เห็นนี้บทความซึ่งนำเสนอ 4 วิธีการที่ A และ B ปรากฏที่น่าสนใจกับผม แต่ผมอยากจะรู้ว่าสิ่งที่ข้อดี / ข้อเสียอาจจะมีการใช้ทั้งสองเหล่านี้และแน่นอนว่ามีวิธีอื่น ๆ ที่จะทำ มัน.

  2. ฉันจะเปรียบเทียบความแปรปรวนของระดับที่เหลือของโรงเรียนในแต่ละปีได้อย่างไร (หรือช่วงเวลาอื่น) เพื่อให้ห่างไกลฉันได้กระทำนี้โดยการหารข้อมูลโดยปีและทำงานกับรูปแบบในแต่ละปีของข้อมูล แต่ฉันคิดว่านี่เป็นข้อบกพร่องเนื่องจาก i) ไม่มีเหตุผลที่ชัดเจนว่าทำไมฉันควรจะแยกจากปี ; และ ii) เนื่องจากการประเมินผลคงที่แตกต่างกันไปในแต่ละปีการเปรียบเทียบผลกระทบแบบสุ่มทุกปีอาจไม่สมเหตุสมผล (นี่เป็นเพียงสัญชาตญาณของฉันมันจะดีมากถ้ามีใครสามารถอธิบายเรื่องนี้ได้อย่างเป็นทางการถ้ามันถูกต้อง)

หมายเหตุ: ฉันเขียนคำถามนี้อีกครั้งหลังจากการสนทนาใน metaกับ whuber และ Macro


3
ฉันคิดว่านี่เป็นการปรับปรุงที่สำคัญ คำถามนี้ชัดเจนมาก ตอนนี้ฉันไม่มีเวลาที่จะตอบสนองอย่างเป็นระเบียบ แต่ฉันจะโพสต์คำตอบในภายหลัง
มาโคร

3
โมเดลเอฟเฟ็กต์ผสมแบบโลจิสติกส์ดูเหมือนหัวข้อขั้นสูงสำหรับโรงเรียนมัธยม พวกเขาเป็นส่วนหนึ่งของหลักสูตรมัธยมของคุณหรือคุณกำลังศึกษาด้วยตนเอง?
mark999

4
@ mark999 ฉันกำลังเรียนอิสระ ที่จริงผมกำลังพยายามที่จะพิสูจน์ผิดพี่ชายของฉันที่กล่าวว่า"ไม่มีทางที่คุณอาจจะเข้าใจในเรื่องนี้" เขากำลังศึกษาระดับปริญญาด้านสถิติดังนั้นฉันจึงสามารถเข้าถึงหนังสือของเขาทั้งหมดเป็นต้น (เมื่อเขาเป็นคนดี)
Joe King

คำตอบ:


15

ขอให้แสดงการตอบสนองและการทำนายเวกเตอร์ (ตามลำดับ) ของนักเรียนฉันอยู่ในโรงเรียนเจyij,xijij

(1)สำหรับข้อมูลไบนารีฉันคิดว่าวิธีมาตรฐานในการแยกความแปรปรวนแบบเดียวกับที่ทำเพื่อข้อมูลต่อเนื่องคือสิ่งที่ผู้เขียนเรียกวิธี D (ฉันจะแสดงความคิดเห็นในวิธีอื่นด้านล่าง) ในลิงก์ของคุณ - จินตนาการข้อมูลไบนารีเป็น ที่เกิดขึ้นจากตัวแปรต่อเนื่องที่อยู่ภายใต้โมเดลเชิงเส้นและย่อยสลายความแปรปรวนของสเกลแฝงนั้น เหตุผลก็คือโมเดลโลจิสติกส์ (และ GLM อื่น ๆ ) เกิดขึ้นตามธรรมชาติด้วยวิธีนี้ -

หากต้องการดูสิ่งนี้ให้นิยาม ว่ามันถูกควบคุมโดยโมเดลเชิงเส้นผสม:yij

yij=α+xijβ+ηj+εij

α,βηjN(0,σ2)εij

yij={1if   yij00if   yij<0

pij=P(yij=1|xij,ηj)

pij=1P(yij<0|xij,ηj)=exp{(α+xijβ+ηj)}1+exp{(α+xijβ+ηj)}

ทีนี้ก็ทำการแปลงโลจิทของทั้งสองคุณ

log(pij1pij)=α+xijβ+ηj

ซึ่งเป็นรูปแบบเอฟเฟกต์ผสมแบบโลจิสติก ดังนั้นรูปแบบโลจิสติกจะเทียบเท่ากับตัวแปรตัวแปรแฝงที่ระบุข้างต้น หมายเหตุสำคัญหนึ่ง:

  • εijs

exp{(α+xijβ+ηj)/s}1+exp{(α+xijβ+ηj)/s}

       
      s=1var(εij)=π2/3

ทีนี้ถ้าคุณใช้โมเดลนี้แล้วก็ปริมาณ

σ^η2σ^η2+π2/3

ประมาณการความสัมพันธ์ intraclass ของตัวแปรแฝงพื้นฐาน หมายเหตุสำคัญอื่น:

  • εij
    σ^η2σ^η2+1

เกี่ยวกับวิธีการอื่น ๆ ที่กล่าวถึงในเอกสารที่คุณเชื่อมโยง:

  • xij

  • (B)วิธีการจำลองเป็นที่ดึงดูดความสนใจจากนักสถิติเนื่องจากมันจะทำให้คุณประเมินการย่อยสลายความแปรปรวนในระดับเดิมของข้อมูล แต่ขึ้นอยู่กับผู้ชมอาจ (i) มีความซับซ้อนในการอธิบายเรื่องนี้ใน "วิธีการ" ของคุณ ส่วนและ (ii) อาจปิดผู้ตรวจสอบที่กำลังมองหาบางสิ่งที่ "มาตรฐานมากขึ้น"

  • (C) การแกล้งข้อมูลอย่างต่อเนื่องอาจไม่ใช่ความคิดที่ดีแม้ว่ามันจะไม่ได้ผลมากถ้าความน่าจะเป็นส่วนใหญ่ไม่ใกล้เคียงกับ 0 หรือ 1 แต่การทำเช่นนี้จะทำให้ธงแดงเป็นผู้วิจารณ์ ดังนั้นฉันจะอยู่ห่าง ๆ

ในที่สุดตอนนี้

(2)หากเอฟเฟกต์คงที่แตกต่างกันมากในช่วงหลายปีที่ผ่านมาคุณคิดถูกว่าเป็นการยากที่จะเปรียบเทียบความแปรปรวนของเอฟเฟกต์แบบสุ่มในช่วงหลายปีที่ผ่านมาเนื่องจากอาจแตกต่างกันในระดับที่ต่างกัน ของปัญหาการปรับขนาดที่กล่าวถึงข้างต้น)

Ik=1k

α+xijβ+η1jI1+η2jI2+η3jI3+η4jI4+η5jI5+η6jI6

สิ่งนี้จะให้ ICC ที่แตกต่างกันในแต่ละปี แต่มีผลกระทบคงที่เหมือนกัน อาจเป็นการล่อลวงให้ใช้เพียงความชันแบบสุ่มในเวลาเดียว

α+xijβ+η1+η2t

แต่ผมไม่แนะนำนี้เนื่องจากว่ามีเพียงจะช่วยให้ความสัมพันธ์ของคุณจะเพิ่มขึ้นเมื่อเวลาผ่านไปไม่ได้ลดลง


โปรดให้ความเห็นของคุณเพื่อพูดถึงประเด็นในบทความที่เชื่อมโยงเกี่ยวกับเทคนิคการแบ่งพาร์ทิชันที่บอกว่า"วิธีนี้อาจจะสมเหตุสมผลที่การตอบสนอง (0, 1) คือพูดว่ามาจากการตัดทอนต่อเนื่องเป็นต้น ผ่าน / ไม่ตอบสนองขึ้นอยู่กับขนาดเครื่องหมายอย่างต่อเนื่อง แต่ก็ดูเหมือนจะมีเหตุผลน้อยลงเมื่อการตอบสนองเป็นอย่างแท้จริงที่ไม่ต่อเนื่องเช่นการตายหรือการออกเสียงลงคะแนน" ในกรณีของฉันฉันกำลังจัดการกับอุบัติการณ์ของการข่มขู่ซึ่งตกอยู่ในประเภทหลังผมคิดว่า ...
โจคิง

@ JoeKing ฉันจะบอกว่าแบบจำลองการถดถอยโลจิสติก / โปรบิต (และที่คล้ายกัน) สันนิษฐานว่าข้อมูลถูกสร้างขึ้นจากความต่อเนื่องพื้นฐานเนื่องจากโมเดลสามารถแสดงให้เห็นว่าเทียบเท่า ดังนั้นหากมีใครใช้โมเดลเหล่านี้อยู่ด้วยพวกเขาจะต้องพบว่าข้อสันนิษฐานนั้นสามารถป้องกันได้ :)
มาโคร

1
@JoeKing, ถ้าคุณพิจารณาคำตอบนี้ชัดเจนโปรดพิจารณายอมรับ :)
มาโคร

ฉันจะแน่นอน ในขณะนี้ฉันมีความไม่แน่นอนเล็กน้อยเกี่ยวกับบางจุดและฉันต้องการกลับมาหาคุณหลังจากที่ฉันมีเวลาน้อย (สองสามวัน) ในการอ่านรอบ ๆ และดูข้อมูลเพิ่มเติม ถ้าคุณไม่รังเกียจ
Joe King

@JoeKing แน่นอน - สมาชิกใหม่บางคนไม่ทราบดังนั้นฉันคิดว่าฉันจะชี้ให้เห็นว่า - มันไม่ได้หมายถึงการกดดันคุณเลย
Macro
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.