การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง


46

ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ

พิจารณากรณีของ

log(DV) = Intercept + B1*IV + Error 

ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี

log(DV) = Intercept + B1*log(IV) + Error

หรือเมื่อฉันมี

DV = Intercept + B1*log(IV) + Error

?


1
ฉันรู้สึกว่าการตีความ "การเพิ่มขึ้นร้อยละ" นั้นไม่ถูกต้อง แต่ฉันไม่มีความเข้าใจเพียงพอที่จะพูดว่าทำไม ฉันหวังว่าบางคนสามารถช่วยได้ .... นอกจากนั้นฉันขอแนะนำการสร้างแบบจำลองโดยใช้บันทึกถ้าพวกเขาช่วยสร้างความสัมพันธ์ XY ได้ดีขึ้น แต่การรายงานตัวอย่างที่เลือกของความสัมพันธ์นั้นโดยใช้ตัวแปรดั้งเดิม โดยเฉพาะอย่างยิ่งถ้าจัดการกับผู้ชมที่ไม่เข้าใจเทคนิคมากเกินไป
rolando2

3
@ rolando2: ฉันไม่เห็นด้วย หากรูปแบบที่ถูกต้องต้องการการแปลงดังนั้นการตีความที่ถูกต้องมักจะขึ้นอยู่กับค่าสัมประสิทธิ์จากแบบจำลองที่แปลงแล้ว มันยังคงเป็นความรับผิดชอบของผู้ตรวจสอบในการสื่อสารความหมายของสัมประสิทธิ์เหล่านั้นกับผู้ชมอย่างเหมาะสม แน่นอนว่าทำไมเราได้รับเงินก้อนโตเช่นนี้ที่เงินเดือนต้องได้รับการเปลี่ยนแปลงในตอนแรก
jthetzel

1
@BigBucks: ดูสิด้วยวิธีนี้ สมมติว่าผู้ชมของคุณไม่เข้าใจสิ่งที่คุณหมายถึงเมื่อคุณอธิบายว่าทุกการเปลี่ยนแปลง 1 ในบันทึก (ฐาน 10) ของ X, Y จะเปลี่ยนโดย b แต่สมมติว่าพวกเขาสามารถเข้าใจ 3 ตัวอย่างโดยใช้ค่า X 10, 100 และ 1,000 พวกเขา ณ จุดนั้นมีแนวโน้มที่จะจับกับธรรมชาติที่ไม่เชิงเส้นของความสัมพันธ์ คุณยังสามารถรายงานโดยรวม b-based log แต่การให้ตัวอย่างเหล่านั้นสามารถสร้างความแตกต่างได้ทั้งหมด
rolando2

1
.... แม้ว่าตอนนี้ฉันได้อ่านคำอธิบายที่ดีของคุณด้านล่างแล้วบางทีการใช้ "เทมเพลต" เหล่านั้นอาจช่วยให้พวกเราหลายคนเข้าใจปัญหาเหล่านี้ในการทำความเข้าใจ
rolando2

1
ผู้อ่านที่นี่ยังอาจต้องการที่จะดูที่หัวข้อที่เกี่ยวข้องอย่างใกล้ชิดเหล่านี้: วิธีการแปลความหมายของค่าสัมประสิทธิ์เปลี่ยนลอการิทึมในการถดถอยเชิงเส้นและเมื่อและทำไมการใช้เวลาที่เข้าสู่ระบบของ -a-กระจายของตัวเลข
gung - Reinstate Monica

คำตอบ:


42

Charlie ให้คำอธิบายที่ดีและถูกต้อง ไซต์การคำนวณทางสถิติที่ UCLA มีตัวอย่างเพิ่มเติม: http://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htmและ http://www.ats.ucla.edu/stat/mult_pkg/ คำถามที่พบบ่อย / ทั่วไป / log_transformed_regression.htm

เพียงเพื่อเติมเต็มคำตอบของชาร์ลีด้านล่างเป็นการตีความเฉพาะตัวอย่างของคุณ เช่นเคยการตีความสัมประสิทธิ์ถือว่าคุณสามารถปกป้องแบบจำลองของคุณได้ว่าการวินิจฉัยการถดถอยนั้นเป็นที่น่าพอใจและข้อมูลนั้นมาจากการศึกษาที่ถูกต้อง

ตัวอย่าง A : ไม่มีการแปลงรูป

DV = Intercept + B1 * IV + Error 

"การเพิ่มขึ้นหนึ่งหน่วยใน IV สัมพันธ์กับ a ( B1) การเพิ่มหน่วยใน DV"

ตัวอย่าง B : การแปลงผลลัพธ์

log(DV) = Intercept + B1 * IV + Error 

"การเพิ่มขึ้นหนึ่งหน่วยใน IV สัมพันธ์กับการB1 * 100เพิ่มขึ้นของ DV ( ) ร้อยละ"

ตัวอย่าง C : การเปลี่ยนระดับแสง

DV = Intercept + B1 * log(IV) + Error 

"การเพิ่มขึ้นหนึ่งเปอร์เซ็นต์ใน IV เชื่อมโยงกับการB1 / 100เพิ่มขึ้นของหน่วย( ) ใน DV"

ตัวอย่าง D : ผลลัพธ์ที่ได้รับการแปลงแล้วและการเปลี่ยนระดับแสง

log(DV) = Intercept + B1 * log(IV) + Error 

"การเพิ่มขึ้นหนึ่งเปอร์เซ็นต์ใน IV สัมพันธ์กับการB1เพิ่มขึ้นของ DV ( ) ร้อยละ"


1
การตีความเหล่านี้มีขึ้นโดยไม่คำนึงถึงฐานของลอการิทึมหรือไม่?
Ayalew A.

ตัวอย่าง B: บันทึกการแปลงผลลัพธ์ (DV) = สกัดกั้น + B1 * IV + ข้อผิดพลาด "การเพิ่มขึ้นหนึ่งหน่วยใน IV เชื่อมโยงกับการเพิ่มขึ้นของ DV (B1 * 100) เปอร์เซ็นต์ในกรณีนี้คุณจะทำอย่างไรถ้าคุณต้องการ 30 เท่ การลดลง DV ขอขอบคุณสำหรับคำตอบของคุณ
Antouria

ดังนั้น DV ~ B1 * log (IV) จึงเป็นแบบจำลองที่ดีสำหรับตัวแปรที่ขึ้นต่อกันที่ไม่มีขอบเขต จำกัด ?
Bakaburg

2
ฉันอาจจะสับสน หากคุณบันทึกการแปลงผลลัพธ์คุณต้องยกกำลังค่าสัมประสิทธิ์อีกครั้งเพื่อค้นหาความแตกต่างแบบหลายค่า การตีความบนมาตราส่วนบันทึกจะทำงานเป็นเพียงการประมาณเมื่ออัตราส่วนใกล้เคียงกับ 1 มาก
AdamO

ลิงก์เสีย
Nick Cox

22

ใน log-log- model ให้ดูที่ จำได้ว่า หรือ คูณสูตรหลังนี้โดย 100 จะช่วยให้การเปลี่ยนแปลงร้อยละในปีเรามีผลคล้ายคลึงx

β1=log(y)log(x).
log(y)y=1y
log(y)=yy.
yx

ใช้ความเป็นจริงนี้เราสามารถตีความเป็นร้อยละการเปลี่ยนแปลงในสำหรับการเปลี่ยนแปลงร้อยละ 1 ในxβ1yx

ทำตามตรรกะเดียวกันสำหรับโมเดลบันทึกระดับเรามี

β1=ylog(x)=100y100×log(x).
หรือคือการเปลี่ยนแปลงหน่วยในสำหรับการเปลี่ยนแปลงร้อยละหนึ่งในxβ1/100yx

ฉันไม่เคยเข้าใจเรื่องนี้เลย มันจะต้องตรงไปข้างหน้า แต่ฉันไม่เคยเห็นมันมาก่อน ... อะไรคือและคุณจะเปลี่ยนจากเปอร์เซ็นต์เป็นอย่างไร
log(y)=yy?
B_Miner

1
ทั้งหมดว่าสายไม่สามารถหาอนุพันธ์ของด้วยความเคารพต่อและคูณทั้งสองข้างด้วยY เรามีy_0 ส่วนนี้แล้วคือการเปลี่ยนแปลงในหารด้วยYคูณด้วย 100 นี้เป็นร้อยละการเปลี่ยนแปลงในปีlog(y)yyyy1y0yyy
Charlie

7

วัตถุประสงค์หลักของการถดถอยเชิงเส้นคือการประมาณความแตกต่างของค่าเฉลี่ยของผลลัพธ์เปรียบเทียบระดับที่อยู่ติดกันของ regressor มีวิธีการหลายประเภท เราคุ้นเคยกับค่าเฉลี่ยเลขคณิตมากที่สุด

AM(X)=(X1+X2++Xn)n

AM คือสิ่งที่คาดการณ์ไว้โดยใช้ OLS และตัวแปรที่ไม่แปลงรูป ค่าเฉลี่ยเรขาคณิตแตกต่างกัน:

GM(X)=(X1×X2××Xn)n=exp(AM(log(X))

ป้อนคำอธิบายรูปภาพที่นี่

ความแตกต่างของ GM เป็นความแตกต่างแบบทวีคูณ: คุณจ่าย X% ของดอกเบี้ยพิเศษเมื่อสมมติว่าเงินกู้ระดับฮีโมโกลบินของคุณลดลง X% หลังจากเริ่มเมตฟอร์มินอัตราความล้มเหลวของสปริงจะเพิ่มขึ้น X% ในทุกกรณีเหล่านี้ความแตกต่างของค่าเฉลี่ยจะสมเหตุสมผลน้อยกว่า

บันทึกการเปลี่ยนแปลงประมาณการความแตกต่างค่าเฉลี่ยเรขาคณิต หากคุณเข้าสู่ระบบเปลี่ยนผลและรูปแบบไว้ในการถดถอยเชิงเส้นโดยใช้สเปคสูตรต่อไปนี้: log(y) ~ xค่าสัมประสิทธิ์ความแตกต่างค่าเฉลี่ยของผลบันทึกการเปรียบเทียบหน่วยที่อยู่ติดกันของXสิ่งนี้ไม่มีประโยชน์จริงเราจึงยกกำลังพารามิเตอร์และตีความค่านี้เป็นความแตกต่างของค่าเฉลี่ยเรขาคณิต X e β 1β1Xeβ1

ยกตัวอย่างเช่นในการศึกษาของปริมาณไวรัสเอชไอวีต่อไปนี้การบริหารงาน 10 สัปดาห์ของศิลปะเราอาจประเมินค่าเฉลี่ยเรขาคณิต prepost ของ0.40 นั่นหมายความว่าอะไรก็ตามที่โหลดไวรัสอยู่ที่ระดับพื้นฐานมันลดลงโดยเฉลี่ย60%หรือลดลง 0.6 เท่าเมื่อติดตามผล หากโหลดเท่ากับ 10,000 ที่พื้นฐานโมเดลของฉันจะทำนายว่าจะเป็น 4,000 ในการติดตามถ้าเป็น 1,000 ที่พื้นฐานโมเดลของฉันจะทำนายว่าจะเป็น 400 ในการติดตามผล (ความแตกต่างเล็กน้อยในระดับดิบ แต่ สัดส่วนเดียวกัน)eβ1=0.40

นี่คือความแตกต่างที่สำคัญจากคำตอบอื่น ๆ : แบบแผนของการคูณสัมประสิทธิ์การบันทึกโดย 100 มาจากการประมาณเมื่อมีขนาดเล็ก ถ้าค่าสัมประสิทธิ์ (โยล็อก) เป็น 0.05 พูดแล้วและการตีความคือ 5% "เพิ่มขึ้น" ในผลสำหรับ 1 หน่วย "เพิ่มขึ้น" ในXแต่ถ้าค่าสัมประสิทธิ์คือ 0.5 แล้วและเราแปลความหมายนี้เป็น 65% "เพิ่มขึ้น" ใน สำหรับ 1 หน่วย "เพิ่มขึ้น" ในXมันไม่ได้เพิ่มขึ้น 50%X exp ( 0.05 ) 1.05 X exp ( 0.5 ) = 1.65 Y Xlog(x)1xXexp(0.05)1.05Xexp(0.5)=1.65YX

y ~ log(x, base=2)สมมติว่าเราเข้าสู่ระบบเปลี่ยนทำนาย: ที่นี่ฉันสนใจในการเปลี่ยนแปลงแบบทวีคูณในมากกว่าผลต่างดิบ ตอนนี้ผมกำลังสนใจในการเข้าร่วมการเปรียบเทียบที่แตกต่างกัน 2 เท่าในXตัวอย่างเช่นฉันสนใจที่จะวัดการติดเชื้อ (ใช่ / ไม่ใช่) หลังจากได้รับเชื้อที่มาจากเลือดที่ความเข้มข้นต่าง ๆ โดยใช้แบบจำลองความเสี่ยงเพิ่มเติม แบบจำลองทางชีวภาพอาจแนะนำว่าความเสี่ยงเพิ่มขึ้นทุกสัดส่วนของความเข้มข้นเป็นสองเท่า จากนั้นฉันจะไม่เปลี่ยนผลลัพธ์ของฉัน แต่ค่าสัมประสิทธิ์ประมาณถูกตีความว่าเป็นความแตกต่างของความเสี่ยงเมื่อเปรียบเทียบกลุ่มที่สัมผัสกับความแตกต่างความเข้มข้นสองเท่าของวัสดุติดเชื้อX β 1xXβ1

ประการสุดท้ายเป็นการlog(y) ~ log(x)ใช้คำจำกัดความทั้งสองอย่างเพื่อให้ได้ความแตกต่างแบบหลายกลุ่มเปรียบเทียบกับกลุ่มที่แตกต่างกันหลายระดับในระดับแสง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.