การถดถอยเชิงเส้นและไม่เชิงเส้น


13

ฉันมีชุดของค่าและที่เกี่ยวข้องในทางทฤษฎีชี้แจง:xy

y=axb

วิธีหนึ่งในการรับค่าสัมประสิทธิ์คือการใช้ลอการิทึมธรรมชาติทั้งสองด้านและปรับโมเดลเชิงเส้นให้เหมาะสม:

> fit <- lm(log(y)~log(x))
> a <- exp(fit$coefficients[1])
> b <- fit$coefficients[2]

อีกวิธีหนึ่งในการได้มาซึ่งสิ่งนี้คือการใช้การถดถอยแบบไม่เชิงเส้นโดยกำหนดค่าเริ่มต้นตามทฤษฎี:

> fit <- nls(y~a*x^b, start=c(a=50, b=1.3))

การทดสอบของฉันแสดงผลลัพธ์ที่เกี่ยวข้องกับทฤษฎีได้ดีขึ้นและมากขึ้นถ้าฉันใช้อัลกอริทึมที่สอง อย่างไรก็ตามฉันต้องการทราบความหมายทางสถิติและความหมายของแต่ละวิธี

อันไหนดีกว่ากัน?


3
โปรดดูโพสต์นี้ที่เกี่ยวข้องกับคำถามที่คล้ายกัน บทความนี้อาจเป็นที่สนใจ
COOLSerdash

5
"เลขชี้กำลัง" มักแสดงถึงบางสิ่งที่อิงตามexp(): สิ่งที่คุณมีที่นี่คือปกติเรียกว่าฟังก์ชั่นพลังงานกฎหมายพลังงานหรือกฎหมายการขยาย ไม่มีชื่ออื่นที่สงสัยเลย ไม่มีการเชื่อมต่อกับอำนาจในแง่ของการทดสอบสมมติฐาน
Nick Cox

คำตอบ:


16

"ดีกว่า" เป็นฟังก์ชั่นของรุ่นของคุณ

เหตุผลส่วนหนึ่งที่ทำให้คุณสับสนคือคุณเขียนเพียงครึ่งเดียวของแบบจำลองของคุณ

เมื่อคุณพูดนั่นไม่จริงเลย ค่าคุณสังเกตเห็นไม่เท่ากับ ; พวกเขามีองค์ประกอบข้อผิดพลาด y a x by=axbyaxb

ตัวอย่างเช่นทั้งสองโมเดลที่คุณพูดถึง (ไม่ใช่โมเดลที่เป็นไปได้เท่านั้นไม่ว่าด้วยวิธีใดก็ตาม) สร้างสมมติฐานที่แตกต่างอย่างสิ้นเชิงเกี่ยวกับข้อผิดพลาด

บางสิ่งบางอย่างที่คุณอาจหมายถึงใกล้ชิดกับ\,E(Y|X=x)=axb

แต่แล้วเราจะพูดอย่างไรเกี่ยวกับการแปรผันของห่างจากความคาดหวังนั้นในกำหนด? มันเป็นเรื่องสำคัญ!xYx

  • เมื่อคุณใส่แบบจำลองกำลังสองน้อยที่สุดแบบไม่เชิงเส้นคุณกำลังบอกว่าข้อผิดพลาดนั้นเป็นส่วนเสริมและค่าเบี่ยงเบนมาตรฐานของข้อผิดพลาดนั้นคงที่ในข้อมูล:

    yiN(axib,σ2)

    หรือเทียบเท่า

    var ( e i ) = σ 2yi=axib+eiโดยมีvar(ei)=σ2

  • ในทางตรงกันข้ามเมื่อคุณใช้บันทึกและจัดวางโมเดลเชิงเส้นคุณกำลังบอกว่าข้อผิดพลาดนั้นเป็นส่วนเพิ่มเติมในระดับบันทึกและค่าคงที่ (ในระดับบันทึก) ทั่วทั้งข้อมูล ซึ่งหมายความว่าในระดับของการสังเกตคำผิดพลาดเป็นmultiplicativeและดังนั้นข้อผิดพลาดจะมีขนาดใหญ่เมื่อค่าที่คาดหวังมีขนาดใหญ่กว่า:

    yilogN(loga+blogxi,σ2)

    หรือเทียบเท่า

    yi=axibηiโดยมีηilogN(0,σ2)

    (โปรดทราบว่าไม่ใช่ 1 หากมีขนาดเล็กคุณต้องอนุญาตสำหรับผลกระทบนี้)σ 2E(η)σ2

(คุณสามารถทำกำลังสองน้อยที่สุดได้โดยไม่สมมติว่ามีการแจกแจงปกติ / lognormal แต่ประเด็นสำคัญที่ถูกกล่าวถึงยังคงมีผล ...

ดังนั้นสิ่งที่ดีที่สุดขึ้นอยู่กับชนิดของข้อผิดพลาดที่อธิบายสถานการณ์ของคุณ

[หากคุณกำลังทำบางการวิเคราะห์สอบสวนกับชนิดของข้อมูลที่ไม่เคยเห็นมาก่อนบางอย่างที่คุณต้องการพิจารณาคำถามเช่น "สิ่งที่ข้อมูลของคุณมีลักษณะอย่างไร (เช่นพล็อตกับอะไรไม่เหลือดูเหมือนกับ ? ในทางกลับกันหากตัวแปรเช่นนี้ไม่ใช่เรื่องแปลกคุณควรมีข้อมูลเกี่ยวกับพฤติกรรมทั่วไปของพวกเขาอยู่แล้ว]x xyxx


9

เมื่อคุณพอดีกับทั้งสองโมเดลคุณกำลังสมมติว่าชุดของส่วนที่เหลือ (ความแตกต่างระหว่างค่าที่สังเกตและค่าที่ทำนายของ Y) เป็นไปตามการแจกแจงแบบเกาส์ หากสมมติฐานนั้นเป็นจริงกับข้อมูลดิบของคุณ (การถดถอยแบบไม่เชิงเส้น) ก็จะไม่เป็นจริงสำหรับค่าที่แปลงสภาพการบันทึก (การถดถอยเชิงเส้น) และในทางกลับกัน

รุ่นไหนดีกว่า? สิ่งที่สมมติฐานของโมเดลตรงกับข้อมูลมากที่สุด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.