เป็นการดีที่จะสร้างมาตรฐานข้อมูลของคุณในการถดถอยด้วยข้อมูลแบบพาเนล / ยาว


16

โดยทั่วไปฉันสร้างมาตรฐานตัวแปรอิสระของฉันในการถดถอยเพื่อเปรียบเทียบสัมประสิทธิ์อย่างถูกต้อง (ด้วยวิธีนี้พวกเขามีหน่วยเดียวกัน: ส่วนเบี่ยงเบนมาตรฐาน) อย่างไรก็ตามด้วยข้อมูลแบบพาเนล / ยาวฉันไม่แน่ใจว่าฉันควรทำให้ข้อมูลของฉันเป็นมาตรฐานโดยเฉพาะอย่างยิ่งถ้าฉันประเมินโมเดลแบบลำดับชั้น

หากต้องการดูสาเหตุที่อาจเป็นปัญหาที่อาจเกิดขึ้นสมมติว่าคุณมีi=1,,nบุคคลที่วัดตามช่วงเวลาและคุณวัดตัวแปรตาม,และตัวแปรอิสระหนึ่งตัวt} หากคุณใช้การรวมการถดถอยแบบสมบูรณ์คุณสามารถสร้างมาตรฐานของข้อมูลด้วยวิธีนี้:เนื่องจากจะไม่เปลี่ยน t- สถิติ. ในทางกลับกันถ้าคุณพอดีกับการถดถอยที่ไม่รวมคือการถดถอยหนึ่งครั้งสำหรับแต่ละคนคุณควรสร้างมาตรฐานให้กับข้อมูลของคุณเป็นรายบุคคลเท่านั้นไม่ใช่ชุดข้อมูลทั้งหมด (ในรหัส R):Y ผม, เสื้อ x ฉัน, เสื้อ x z = ( x - หมายถึง( x ) ) / sd ( x )t=1,,Tyi,txi,tx.z=(xmean(x))/sd(x)

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

อย่างไรก็ตามหากคุณพอดีกับโมเดลแบบลำดับชั้นอย่างง่ายที่มีการสกัดกั้นที่แตกต่างกันไปตามแต่ละบุคคลคุณกำลังใช้ตัวประมาณการหดตัวนั่นคือคุณกำลังประเมินโมเดลระหว่างการถดถอยแบบพูลและแบบไม่รวม ฉันจะทำให้ข้อมูลของฉันเป็นมาตรฐานได้อย่างไร ใช้ข้อมูลทั้งหมดเช่นการถดถอยพู ใช้เฉพาะบุคคลเช่นในกรณีที่ไม่รวมหรือไม่

คำตอบ:


10

ฉันไม่เห็นว่าการวางมาตรฐานเป็นความคิดที่ดีในการถดถอยแบบปกติหรือแบบจำลองตามยาว มันทำให้การคาดการณ์ได้ยากขึ้นและไม่แก้ปัญหาที่จำเป็นต้องแก้ไข และถ้าคุณมีและx 2ในโมเดล คุณทำมาตรฐานx 2อย่างไร ถ้าคุณมีตัวแปรต่อเนื่องและตัวแปรไบนารีในโมเดล คุณจะทำให้ตัวแปรไบนารีเป็นมาตรฐานได้อย่างไร? ไม่แน่นอนโดยค่าเบี่ยงเบนมาตรฐานซึ่งจะทำให้ตัวแปรความชุกต่ำมีความสำคัญมากขึ้นxx2x2

โดยทั่วไปจะเป็นการดีที่สุดที่จะตีความผลกระทบรูปแบบในระดับเดิมของxx


@ Frank Harrell - จุดที่ดีเกี่ยวกับปัญหาที่เกี่ยวข้องกับเงื่อนไขที่คุณร่าง แต่ถ้ามีตัวแปรอย่างต่อเนื่องทั้งหมดที่มีตาชั่งที่แตกต่างกันแล้วไม่ได้มาตรฐานวิธีเดียวที่จะเปรียบเทียบความลาดชัน?
DQdlM

1
@ Frank ฉันคิดว่ามันขึ้นอยู่กับประเภทของแบบจำลองที่คุณกำลังใช้งานอยู่ แต่การกำหนดมาตรฐานของตัวแปรทำนายมักจะมีประโยชน์ การจัดให้อยู่กึ่งกลางหมายความว่าการสกัดกั้นสามารถตีความได้เมื่อผลลัพธ์ที่คาดการณ์หมายถึงและความสำคัญเชิงสัมพัทธ์ของตัวทำนายที่แตกต่างกันชัดเจนขึ้น ฉันมักจะปล่อยให้ตัวทำนายไบนารีอยู่คนเดียว แต่บางครั้งตัวเลือกการปรับขนาดอื่น ๆ นั้นมีค่าที่ควรพิจารณา ในที่สุดในบางกรณีที่มีตัวทำนายที่มีค่าเบี่ยงเบนมาตรฐานที่แตกต่างกันอย่างมากสามารถนำไปสู่ปัญหาการคำนวณ / การลู่เข้า
Michael Bishop

2
ฉันไม่ชัดเจนว่ามาตรฐานดังกล่าวเพิ่มความคมชัดได้อย่างไรแทนที่จะลบออก นอกจากนี้ค่าเฉลี่ยไม่ใช่ตัวเลือกที่ชัดเจนสำหรับการอยู่กึ่งกลาง (ค่ามัธยฐานโหมด 43 เปอร์เซ็นต์เปอร์เซ็นไทล์ของการวัดการกระจายตัวเป็นปัญหามากขึ้น) ความสำคัญเชิงสัมพัทธ์สามารถตัดสินได้หลายวิธีเช่นบางส่วนบางส่วนχ 2ระหว่างควอไทล์ เอฟเฟกต์แปรปรวนร่วม, ... นอกจากนี้ฉันยังไม่พบมาตรฐานที่จะเป็นประโยชน์ในการคำนวณเมื่อใช้กิจวัตรคณิตศาสตร์เมทริกซ์ที่ทันสมัยเช่นการใช้ R ที่อยู่ใต้ฝากระโปรง เคนนี่ทราบว่ามาตรฐานไม่ใช่วิธีเปรียบเทียบความลาดชัน R2χ2
Frank Harrell

1
หากคุณมีตัวแปรไบนารีอย่าทำให้เป็นมาตรฐาน ดูบทความนี้โดย Gelman (< stat.columbia.edu/~gelman/research/published/standardizing7.pdf >), การแนะนำตัวแปรการหารด้วยค่าเบี่ยงเบนมาตรฐานสองค่าในกรณีใด ๆ มันจะช่วยให้เกิดการลู่เข้าแบบเบส์
Manoel Galdino

และฉันไม่เห็นว่าทำไมมันจะดีกว่าที่จะตีความผลกระทบในระดับเดิม ผลกระทบของ GDP ต่อการถดถอยแบบโลจิสติกส์นั้นยากที่จะตีความการมองหาค่าสัมประสิทธิ์เท่านั้นเนื่องจาก GDP มีขนาดใหญ่กว่าระดับความน่าจะเป็น การโต้ตอบจะเข้าใจได้ดีขึ้นด้วยค่าสัมประสิทธิ์มาตรฐานหรือตัวแปรกึ่งกลาง สุดท้ายถ้าคุณมีและx 2ในกรณีนี้จะไม่ทำให้เป็นมาตรฐาน xx2
Manoel Galdino

0

มีทางเลือกอื่นสำหรับการกำหนดมาตรฐานเพื่อนำตัวแปรที่วัดด้วยสเกลที่แตกต่างกันไปสู่การวัดเดียวกัน มันถูกเรียกว่า Proportion of Maximum Scaling (POMS) และมันก็ไม่ได้ยุ่งกับการแจกแจงหลายตัวแปรตามที่การแปลง z มีแนวโน้มที่จะทำ

Todd Little แนะนำ POMS อย่างชัดเจนเกี่ยวกับมาตรฐาน z ในหนังสือของเขาเกี่ยวกับการสร้างแบบจำลองสมการโครงสร้างตามยาว การแปลง Z มาพร้อมกับปัญหาเพิ่มเติมเมื่อจัดการกับข้อมูลระยะยาวดูที่นี่: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.