วิธีการตีความสัมประสิทธิ์การแปลงลอการิทึมในการถดถอยเชิงเส้น?


10

สถานการณ์ของฉันคือ

ฉันมีตัวแปรพึ่งพาอย่างต่อเนื่อง 1 ตัวและตัวแปรทำนายต่อเนื่อง 1 ตัวที่ฉันเปลี่ยนลอการิทึมเพื่อทำให้ปกติเหลืออยู่สำหรับการถดถอยเชิงเส้นอย่างง่าย

ฉันขอขอบคุณความช่วยเหลือใด ๆ เกี่ยวกับวิธีที่ฉันสามารถเชื่อมโยงตัวแปรที่แปลงสภาพเหล่านี้กับบริบทดั้งเดิมของพวกเขา

ฉันต้องการใช้การถดถอยเชิงเส้นเพื่อทำนายจำนวนวันที่นักเรียนพลาดโรงเรียนในปี 2011 ตามจำนวนวันที่พวกเขาพลาดในปี 2010 นักเรียนส่วนใหญ่พลาด 0 วันหรือเพียงไม่กี่วันข้อมูลจะเอียงไปทางซ้าย ดังนั้นจึงจำเป็นต้องมีการแปลงสภาพเพื่อใช้การถดถอยเชิงเส้น

ฉันใช้ log10 (var + 1) สำหรับทั้งสองตัวแปร (ฉันใช้ +1 สำหรับนักเรียนที่ไม่ได้เรียน 0 วัน) ฉันกำลังใช้การถดถอยเพราะฉันต้องการเพิ่มในปัจจัยการจัดหมวดหมู่ - เพศ / เชื้อชาติ ฯลฯ

ปัญหาของฉันคือ:

ผู้ชมที่ฉันต้องการย้อนกลับไปจะไม่เข้าใจ log10 (y) = log (ค่าคงที่) + บันทึก (var2) x (และตรงไปตรงมาไม่ทำฉัน)

คำถามของฉันคือ:

a) มีวิธีที่ดีกว่าในการตีความตัวแปรที่ถูกแปลงในการถดถอยหรือไม่? เช่นเคยพลาด 1 วันในปี 2010 พวกเขาจะพลาด 2 วันในปี 2554 ซึ่งตรงข้ามกับการเปลี่ยนแปลงหน่วยบันทึก 1 รายการในปี 2553 จะมีการเปลี่ยนแปลงหน่วยบันทึก x รายการในปี 2554 หรือไม่

b) โดยเฉพาะให้ข้อความที่ยกมาจากแหล่งนี้ดังนี้:

"นี่คือการประเมินการถดถอยแบบทวินามลบสำหรับการเพิ่มหนึ่งหน่วยในคะแนนการทดสอบมาตรฐานคณิตศาสตร์เนื่องจากตัวแปรอื่น ๆ จะคงที่ในแบบจำลองหากนักเรียนต้องเพิ่มคะแนนการทดสอบทางคณิตศาสตร์ของเธอทีละจุดความแตกต่างในบันทึกของ จำนวนที่คาดหวังนั้นคาดว่าจะลดลง 0.0016 หน่วยในขณะที่ถือตัวแปรอื่น ๆ ในค่าคงที่แบบจำลอง "

ผมอยากจะรู้ว่า:

  • ตอนนี้บอกว่าสำหรับทุก ๆ หน่วยเพิ่มคะแนนของUNTRANSFORMEDตัวแปรคณิตศาสตร์นำไปสู่การลดลง 0.0016 จากค่าคงที่ (a) ดังนั้นหากUNTRANSFORMEDคะแนนคณิตศาสตร์เพิ่มขึ้นสองจุดฉันลบ 0.0016 * 2 จากค่าคงที่ a หรือไม่?
  • นั่นหมายความว่าฉันได้รับค่าเฉลี่ยเรขาคณิตโดยใช้เลขชี้กำลัง (a)) และเลขชี้กำลัง (a + เบต้า * 2) และฉันต้องคำนวณความแตกต่างเปอร์เซ็นต์ระหว่างสองสิ่งนี้เพื่อบอกว่าตัวแปรทำนายมีผลต่ออะไรบ้าง / มีตัวแปรตามหรือไม่
  • หรือว่าฉันทำผิดทั้งหมด?

ฉันใช้ SPSS v20 ขออภัยที่ทำกรอบนี้ด้วยคำถามยาว ๆ



8
คุณคิดว่าจะใช้การถดถอยปัวซองแทนหรือไม่ มันแสดงให้เห็นอย่างเป็นธรรมชาติกับข้อมูลการนับขึ้นอยู่กับความสำเร็จของคุณกับการแปลงบันทึกสอดคล้องกับการแจกแจงปัวซง ค่าสัมประสิทธิ์จะถูกตีความในแง่ของการเพิ่มขึ้นตามสัดส่วนในความเป็นไปได้ที่คาดหวังว่าจะหายไปหนึ่งวันของโรงเรียน ข้อดีอย่างหนึ่งก็คือไม่จำเป็นต้องมีการปฏิบัติแบบศูนย์เป็นพิเศษ (แม้ว่ามันจะยังเป็นความคิดที่ดีมากที่จะดูรูปแบบทางเลือกที่ไม่มีการพองตัว)
whuber

สวัสดี Whuber ใช่ฉันกำลังคิดเกี่ยวกับการถดถอยปัวซอง แต่ไม่แน่ใจเกี่ยวกับเรื่องนี้หรือการเลือกสำหรับการถดถอยทวินามลบ ฉันเดาว่าเป็นทวินามลบเนื่องจากข้อมูลมีการกระจายไป - นั่นคือค่าเฉลี่ยต่ำกว่าความแปรปรวนในชุดข้อมูล นอกจากนี้อย่างเคร่งครัดมีข้อ จำกัด ด้านบนจำนวนเซสชันของโรงเรียนในปีขณะที่ Poisson ถือว่าตัวส่วนไม่ จำกัด ? หรือคุณยังคิดว่า Poisson เหมาะสมกว่าหรือไม่ น่าเสียดายที่ SPSS ไม่รองรับรุ่นที่สูงเกินจริงเท่าที่ฉันเคยเห็น ... ) ขอบคุณ Whuber :)
JimBob

3
ฉันไม่เห็นปัญหาเกี่ยวกับการสนับสนุนแบบไม่ จำกัด ของการแจกแจงปัวซง: มันคล้ายกับการใช้การแจกแจงแบบปกติกับรูปแบบการพูดค่าที่ต้องไม่เป็นค่าลบ หากมีโอกาสที่เกี่ยวข้องกับค่าที่เป็นไปไม่ได้นั้นมีขนาดเล็ก แต่ก็สามารถเป็นแบบอย่างที่ดีได้ ทวินามลบเป็นทางเลือกมาตรฐานของปัวซองที่ใช้ทดสอบความดีพอดีและการกระจายเกินพิกัด มันเป็นความคิดที่ดี. หาก SPSS มี จำกัด เกินไปให้ใช้อย่างอื่น! ( Rมีแพ็คเกจสำหรับรุ่นที่ไม่มีตัวตนสูงค้นหาเว็บไซต์นี้)
whuber

2
ฉันเห็นด้วยกับ @whuber ฉันคิดว่าคุณอาจต้องการรุ่น ZIP หรือ ZINB ฉันแค่เพิ่มว่าพวกเขายังมีอยู่ใน SAS ผ่าน PROC COUNTREG (ใน ETS) และเริ่มต้นด้วย SAS 9.2 ใน PROC GENMOD (ใน STAT)
Peter Flom

2
มีข้อมูลที่ดีมากที่เป็นstats.stackexchange.com/questions/18480/...
rolando2

คำตอบ:


7

ฉันคิดว่าประเด็นสำคัญยิ่งกว่านั้นถูกแนะนำในความคิดเห็นของ @ whuber วิธีการทั้งหมดของคุณนั้นผิดเพราะการจดลอการิทึมทำให้คุณมีชุดนักเรียนที่ไม่มีวันหายไปในปี 2010 หรือ 2011 อย่างมีประสิทธิภาพดูเหมือนว่ามีคนเหล่านี้มากพอที่จะเป็นปัญหาและฉันมั่นใจว่าผลลัพธ์ของคุณจะ ผิดไปจากที่คุณกำลังทำอยู่

แต่คุณต้องใส่โมเดลเชิงเส้นแบบทั่วไปเข้ากับการตอบสนองแบบปัวซอง SPSS ไม่สามารถทำได้หากคุณไม่ได้ชำระเงินสำหรับโมดูลที่เหมาะสมดังนั้นฉันขอแนะนำให้อัปเกรดเป็น R

คุณจะยังคงมีปัญหาในการตีความค่าสัมประสิทธิ์ แต่นี่เป็นเรื่องรองสำหรับความสำคัญของการมีแบบจำลองที่เหมาะสมโดยทั่วไป


ทำไมไม่ใช้การเปลี่ยนแปลง ? สิ่งนี้จะช่วยแก้ปัญหาที่คุณนำมาใช้ อย่างไรก็ตามการแปลงผกผันจะมีส่วนเกี่ยวข้องเพิ่มขึ้นเล็กน้อยและการตีความจะยากขึ้น มีโพสต์เกี่ยวกับที่นี่: stats.stackexchange.com/questions/18694/…xlog(x+1)
toypajme

3

ฉันเห็นด้วยกับผู้ตอบแบบสอบถามคนอื่น ๆ โดยเฉพาะอย่างยิ่งเกี่ยวกับรูปแบบของแบบจำลอง ถ้าผมเข้าใจแรงจูงใจของคำถามของคุณ แต่คุณมีที่อยู่ผู้ชมทั่วไปและต้องการที่จะถ่ายทอดเนื้อหาสาระ(เชิงทฤษฎี) ความหมายของการวิเคราะห์ของคุณ สำหรับวัตถุประสงค์นี้ฉันเปรียบเทียบค่าที่คาดการณ์ไว้ (เช่นวันที่พลาดโดยประมาณ) ภายใต้ "สถานการณ์" ต่างๆ ขึ้นอยู่กับแบบจำลองที่คุณเลือกคุณอาจเปรียบเทียบจำนวนที่คาดหวังหรือค่าของตัวแปรตามเมื่อตัวทำนายอยู่ที่ค่าคงที่เฉพาะเจาะจงบางอย่าง (ค่ามัธยฐานหรือศูนย์เป็นต้น) แล้วแสดงว่าการเปลี่ยนแปลงของตัวทำนายมีความหมายอย่างไร ส่งผลกระทบต่อการทำนาย แน่นอนคุณต้องแปลงข้อมูลกลับไปสู่ระดับเดิมที่เข้าใจได้ซึ่งคุณเริ่มต้นด้วย ฉันพูดว่า "การเปลี่ยนแปลงที่มีความหมาย" เพราะบ่อยครั้งที่การเปลี่ยนแปลง "มาตรฐานหนึ่งหน่วยใน X" ไม่ได้สื่อถึงการนำเข้าหรือการขาดตัวแปรอิสระอย่างแท้จริง ด้วย "ข้อมูลการเข้าร่วม" ฉันไม่แน่ใจว่าการเปลี่ยนแปลงจะเป็นเช่นไร (ถ้านักเรียนไม่พลาดวันในปี 2010 และหนึ่งวันในปี 2011 ฉันไม่แน่ใจว่าเราจะเรียนรู้อะไร แต่ฉันไม่รู้)


2

ถ้าเรามีแบบจำลองเราอาจคาดหวังว่าการเพิ่มขึ้น 1 หน่วยของจะให้ผล ab เพิ่มขึ้นในหน่วย Y แทนหากเรามีเราคาดว่าจะเพิ่มขึ้น 1 เปอร์เซ็นต์ในเพื่อผลผลิตเพิ่มหน่วยเป็น YX Y = b บันทึก( X ) X b บันทึก( 1.01 )Y=bXXY=blog(X)Xblog(1.01)

แก้ไข: อ๊ะไม่ทราบว่าตัวแปรตามของคุณถูกบันทึกไว้ด้วย นี่คือลิงค์ที่มีตัวอย่างที่ดีที่อธิบายสถานการณ์ทั้งสาม:

1) เฉพาะ Y เท่านั้นที่ถูกเปลี่ยน 2) เฉพาะตัวทำนายที่ถูกแปลง 3) ทั้ง Y และตัวทำนายถูกเปลี่ยน

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm


1
สวัสดี JC ขอบคุณสำหรับการตอบกลับของคุณ ฉันใช้วิธีการแปลงทั้งตัวแปรที่ขึ้นกับและอิสระของฉันเพื่อความมั่นคง แต่ฉันได้อ่านว่ามันเป็นเพียง DV ที่ต้องการการเปลี่ยนแปลงเพื่อความเป็นปกติเมื่อเทียบกับ IV ของมัน
JimBob

ฉันเคยเห็นลิงก์ที่คุณแนะนำ (ขอบคุณสรรพสิ่ง) แต่ไม่ชัดเจนในบางจุดโดยเฉพาะอย่างยิ่งเกี่ยวกับการเปรียบเทียบค่าเฉลี่ยเรขาคณิตกับ 'ชีวิตจริง' แต่ฉันคิดว่าการใช้ค่าเฉลี่ยทางเรขาคณิตนั้นเกี่ยวข้องกับการสร้างแบบจำลองมากกว่า ผลของการเปลี่ยนแปลงใน x ต่อ y มากกว่าผลลัพธ์ของ y ต่อการเปลี่ยนแปลงหน่วยใน x? ฉันคิดว่าฉันต้องกลับไปอ่านอีกครั้ง ...
JimBob

2

ฉันมักจะใช้การแปลงการบันทึก แต่ฉันมักจะใช้ไบนารีโควาเรียเพราะมันนำไปสู่การตีความตามธรรมชาติในแง่ของการคูณ สมมติว่าคุณต้องการที่จะทำนายให้พูด 3 ตัวแปรไบนารี ,และค่าการใน\} ตอนนี้แทนที่จะนำเสนอ:X 1 X 2 X 3 { 0 , 1 }YX1X2X3{0,1}

log(Y)log(C)+X1W1+X2W2 ,

คุณสามารถแสดง:

YC M1X1 M2X2 M3X3 ,

โดยที่: ,และเป็นตัวคูณ กล่าวคือในแต่ละครั้งที่ตัวแปรร่วมเท่ากับ 1, ทำนายถูกคูณด้วยM_iตัวอย่างเช่นถ้า ,และการทำนายของคุณคือ: M 2 = e W 2 M 3 = e W 3 X iM1=eW1M2=eW2M3=eW3XiMiX1=0X2=1X3=1

YC M2 M3M_3

ฉันใช้เพราะนี่ไม่ใช่การทำนายค่าเฉลี่ยของ : พารามิเตอร์ค่าเฉลี่ยของการแจกแจงแบบล็อก - ปกติไม่ได้เป็นค่าเฉลี่ยของตัวแปรสุ่ม (โดยทั่วไปสำหรับการถดถอยเชิงเส้นแบบดั้งเดิมโดยไม่มี เข้าสู่ระบบเปลี่ยน) ฉันไม่มีการอ้างอิงที่แม่นยำที่นี่ แต่ฉันคิดว่านี่เป็นเหตุผลที่ตรงไปตรงมาYY


3
คุณไม่จำเป็นต้องกังวลเกี่ยวกับปัญหา lognormal: ตัวคูณจะถูกต้องโดยไม่คำนึงถึง (จะมีปัญหากับโมเดล heteroscedastic) นี่เป็นเพราะโดยที่เป็นความแปรปรวนของ(Y) BTW โปรดสแกนคำจำกัดความของเพื่อหาคำผิด σ 2เข้าสู่ระบบ( Y ) M ฉันE[Y]=Ceσ2/2e(X1W1+X2W2+X3W3)σ2log(Y)Mi
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.