ในการถดถอยเชิงเส้นเมื่อใดที่เหมาะสมที่จะใช้บันทึกของตัวแปรอิสระแทนที่จะเป็นค่าจริง


164

ฉันกำลังมองหาการกระจายการประพฤติที่ดีขึ้นสำหรับตัวแปรอิสระที่เป็นปัญหาหรือเพื่อลดผลกระทบของค่าผิดปกติหรืออย่างอื่นหรือไม่?


1
คุณกำลังถามเกี่ยวกับวิธีการลดผลกระทบของค่าผิดปกติหรือเมื่อใช้บันทึกของตัวแปรบางตัว?
Benjamin Bannier

23
ฉันคิดว่า OP กำลังพูดว่า "ฉันเคยได้ยินคนที่ใช้ตัวแปรเข้าสู่ระบบในการบันทึก: ทำไมพวกเขาถึงทำอย่างนั้น?"
เชน

ทำไมต้องบันทึก คำถามนี้ไม่ควรนำไปใช้กับเทคนิคการแปลงข้อมูลใด ๆ ที่สามารถนำมาใช้เพื่อลดจำนวนคงเหลือที่เกี่ยวข้องกับ mx + b ได้หรือไม่?
AsymLabs

1
@AsymLabs - บันทึกอาจมีความพิเศษในการถดถอยเนื่องจากเป็นฟังก์ชันเดียวที่แปลงผลิตภัณฑ์เป็นผลรวม
ความน่าจะเป็นทางการ

12
คำเตือนแก่ผู้อ่าน: คำถามถามเกี่ยวกับการเปลี่ยน IV แต่คำตอบบางข้อดูเหมือนจะพูดถึงเหตุผลในการเปลี่ยน DV อย่าเข้าใจผิดคิดว่าสิ่งเหล่านี้ล้วนเป็นเหตุผลในการเปลี่ยนแปลง IV - บางอย่างอาจเป็นไปได้ โดยเฉพาะอย่างยิ่งการกระจายของ IV ไม่ได้เกี่ยวข้องกันโดยทั่วไป (แน่นอนว่าการกระจายของระยะขอบของ DV ไม่ใช่อย่างใดอย่างหนึ่ง)
Glen_b

คำตอบ:


168

ฉันลังเลเสมอที่จะกระโดดเข้ามาในหัวข้อที่มีคำตอบที่ยอดเยี่ยมมากมายเช่นนี้ แต่มันทำให้ฉันเห็นว่าคำตอบเพียงไม่กี่ข้อให้เหตุผลใด ๆ ที่จะชอบลอการิทึมกับการแปลงอื่น ๆ ที่ "บีบ" ข้อมูลเช่นรากหรือส่วนกลับ

ก่อนที่จะไปให้ลองสรุปภูมิปัญญาในคำตอบที่มีอยู่ในวิธีทั่วไปมากขึ้น การแสดงออกที่ไม่ใช่เชิงเส้นบางส่วนของตัวแปรตามที่ระบุไว้เมื่อใดต่อไปนี้ใช้:

  • ส่วนที่เหลือมีการแจกแจงแบบเบ้ วัตถุประสงค์ของการเปลี่ยนแปลงคือการได้รับส่วนที่เหลือที่มีการกระจายแบบสมมาตร (ประมาณศูนย์ของหลักสูตร)

  • การแพร่กระจายของสารตกค้างเปลี่ยนแปลงอย่างเป็นระบบด้วยค่าของตัวแปรตาม ("heteroscedasticity") วัตถุประสงค์ของการเปลี่ยนแปลงคือการลบการเปลี่ยนแปลงที่เป็นระบบในการแพร่กระจายบรรลุ "homoscedasticity"

  • เพื่อสร้างความสัมพันธ์เชิงเส้น

  • เมื่อทฤษฎีทางวิทยาศาสตร์ระบุว่า ตัวอย่างเช่นเคมีมักจะแนะนำให้แสดงความเข้มข้นเป็นลอการิทึม (ให้กิจกรรมหรือแม้แต่ค่า pH ที่รู้จักกันดี)

  • เมื่อทฤษฎีทางสถิติที่คลุมเครือมากขึ้นชี้ให้เห็นสิ่งตกค้างที่สะท้อนให้เห็นถึง "ข้อผิดพลาดแบบสุ่ม" ที่ไม่ได้สะสมเพิ่ม

  • เพื่อทำให้แบบจำลองง่ายขึ้น ตัวอย่างเช่นบางครั้งลอการิทึมสามารถลดความซับซ้อนของจำนวนและความซับซ้อนของคำว่า "การโต้ตอบ"

(สิ่งบ่งชี้เหล่านี้อาจขัดแย้งกันในกรณีเช่นนี้จำเป็นต้องมีการตัดสิน)

ดังนั้นเมื่อลอการิทึมระบุไว้เป็นพิเศษแทนที่จะเป็นการแปลงแบบอื่น

  • ส่วนที่เหลือมีการกระจายแบบ "รุนแรง" เชิงบวก ในหนังสือของเขาเกี่ยวกับ EDA John Tukey ให้วิธีเชิงปริมาณในการประเมินการเปลี่ยนแปลง (ภายในตระกูล Box-Cox หรือ power, transformations) โดยยึดตามสถิติอันดับของส่วนที่เหลือ จริง ๆ แล้วลงไปที่ความจริงที่ว่าถ้าการบันทึก symmetrizes ส่วนที่เหลือมันอาจเป็นรูปแบบที่เหมาะสมของการแสดงออกอีกครั้ง; ไม่เช่นนั้นจำเป็นต้องมีการแสดงซ้ำอีกครั้ง

  • เมื่อ SD ของส่วนที่เหลือเป็นสัดส่วนโดยตรงกับค่าติดตั้ง (และไม่ได้กับกำลังไฟของค่าติดตั้งบางส่วน)

  • เมื่อความสัมพันธ์ใกล้เคียงกับเลขชี้กำลัง

  • เมื่อสารตกค้างมีความเชื่อว่าจะสะท้อนให้เห็นถึงข้อผิดพลาดสะสมทวี

  • คุณต้องการรูปแบบที่การเปลี่ยนแปลงเล็กน้อยในตัวแปรอธิบายจะถูกตีความในแง่ของการเปลี่ยนแปลงหลายตัวแปร (ร้อยละ) ในตัวแปรตาม

สุดท้ายบางที่ไม่ใช่ - เหตุผลที่จะใช้อีกครั้งการแสดงออก :

  • การทำให้ค่าผิดปกติไม่เหมือนค่าผิดปกติ ค่าผิดปกติเป็นตัวเลขที่ไม่ตรงกับคำอธิบายที่ค่อนข้างเรียบง่ายของข้อมูล การเปลี่ยนคำอธิบายเพื่อทำให้ค่าผิดปกติดูดีขึ้นมักจะเป็นการจัดลำดับความสำคัญที่ไม่ถูกต้องก่อนอื่นให้ขอรับข้อมูลทางวิทยาศาสตร์ที่ถูกต้องและมีสถิติที่ดีและจากนั้นสำรวจค่าผิดปกติใด ๆ อย่าปล่อยให้ค่าผิดปกติเป็นครั้งคราวกำหนดวิธีการอธิบายข้อมูลที่เหลือ!

  • เพราะซอฟต์แวร์ทำมันโดยอัตโนมัติ (พูดพอแล้ว!)

  • เพราะข้อมูลทั้งหมดเป็นค่าบวก (Positivity มักแสดงถึงความเบ้บวก แต่ไม่จำเป็นนอกจากนี้การแปลงอื่นสามารถทำงานได้ดีขึ้นตัวอย่างเช่นรูทมักทำงานได้ดีที่สุดกับข้อมูลที่นับ)

  • ในการทำให้ข้อมูล "ไม่ดี" (อาจมีคุณภาพต่ำ) มีพฤติกรรมที่ดี

  • เพื่อให้สามารถพล็อตข้อมูล (หากมีการเปลี่ยนแปลงเป็นสิ่งจำเป็นเพื่อให้สามารถแปลงข้อมูลก็อาจจะจำเป็นสำหรับหนึ่งหรือดีมากขึ้นจากเหตุผลดังกล่าวแล้วถ้าเหตุผลเดียวสำหรับการเปลี่ยนแปลงอย่างแท้จริงสำหรับการวางแผนไปข้างหน้าและทำมัน -. แต่เพียงการพล็อต data ปล่อยให้ข้อมูลที่ไม่ได้รับการแปลงเพื่อการวิเคราะห์)


1
สิ่งที่เกี่ยวกับตัวแปรเช่นความหนาแน่นของประชากรในภูมิภาคหรืออัตราส่วนครูต่อเด็กในแต่ละเขตโรงเรียนหรือจำนวนคดีฆาตกรรมต่อ 1,000 คนในประชากร ฉันเห็นอาจารย์ใช้บันทึกของตัวแปรเหล่านี้ มันไม่ชัดเจนสำหรับฉันทำไม ตัวอย่างเช่นอัตราการฆาตกรรมไม่ได้เป็นเปอร์เซ็นต์อยู่แล้ว? บันทึกจะเปลี่ยนอัตราร้อยละของอัตรา? เหตุใดอัตราส่วนของอัตราส่วนครูต่อเด็กจึงเป็นที่ต้องการ ควรมีการแปลงการบันทึกสำหรับตัวแปรต่อเนื่องทุกตัวเมื่อไม่มีทฤษฎีพื้นฐานเกี่ยวกับรูปแบบการทำงานจริงหรือ
user1690130

1
@JG อัตราส่วนขนาดเล็กมักจะมีการแจกแจงแบบเบ้ ลอการิทึมและรากมีแนวโน้มที่จะทำให้พวกเขาสมมาตรมากขึ้น ฉันไม่เข้าใจคำถามของคุณที่เกี่ยวข้องกับเปอร์เซ็นต์: บางทีคุณกำลังใช้ประโยชน์จากเปอร์เซ็นต์ที่แตกต่างกัน (อย่างใดอย่างหนึ่งเพื่อแสดงสิ่งที่เป็นสัดส่วนของทั้งหมดและอีกเพื่อแสดงการเปลี่ยนแปลงที่สัมพันธ์กัน)? ฉันไม่เชื่อว่าฉันเขียนอะไรก็ตามที่สนับสนุนว่าลอการิทึมจะถูกนำไปใช้เสมอ - ห่างไกลจากมัน! ดังนั้นฉันจึงไม่เข้าใจพื้นฐานสำหรับคำถามสุดท้ายของคุณ
whuber

2
"เมื่อเชื่อว่าสิ่งตกค้างจะสะท้อนความผิดพลาดสะสมหลายหลาก" ฉันมีปัญหาในการตีความวลีนี้ เป็นไปได้หรือไม่ที่จะเพิ่มเนื้อหาให้กับประโยคอื่นหรืออีกสองประโยค? การสะสมที่คุณอ้างถึงคืออะไร?
Hatshepsut

@ user1690130 สำหรับอัตราส่วนและความหนาแน่นโดยทั่วไปแล้วสิ่งเหล่านี้ควรติดตั้งเป็นการกระจายแบบปัวซอง - ตระกูลสำหรับการนับด้วยการชดเชยสำหรับการเปิดรับ เช่นจำนวนคนคือการนับและการชดเชยคือพื้นที่ของภูมิภาค ดูคำถามนี้เพื่อคำอธิบายที่ดี - stats.stackexchange.com/questions/11182/ …
Michael Barton

2
@Hatshepsut ตัวอย่างง่ายๆของข้อผิดพลาดทวีคูณสะสมจะเป็นปริมาณเป็นตัวแปรตามและข้อผิดพลาดในการวัดของแต่ละมิติเชิงเส้น
หยุดงาน

73

ฉันมักจะบอกนักเรียนว่ามีสามเหตุผลในการแปลงตัวแปรโดยการหาลอการิทึมธรรมชาติ เหตุผลในการบันทึกตัวแปรจะกำหนดว่าคุณต้องการบันทึกตัวแปรอิสระขึ้นอยู่กับหรือทั้งสองอย่าง เพื่อให้ชัดเจนตลอดฉันกำลังพูดถึงการลอการิทึมธรรมชาติ

ประการแรกเพื่อปรับปรุงแบบให้พอดีกับโปสเตอร์อื่น ๆ ตัวอย่างเช่นหากส่วนที่เหลือของคุณไม่ได้กระจายตามปกติแล้วการลอการิทึมของตัวแปรที่เบ้อาจปรับปรุงให้พอดีโดยการเปลี่ยนสเกลและทำให้ตัวแปรกระจายตัว "ปกติ" มากขึ้น ตัวอย่างเช่นรายได้ถูกตัดทอนที่ศูนย์และมักจะแสดงความเบ้เชิงบวก หากตัวแปรมีความเบ้เป็นลบคุณสามารถกลับด้านตัวแปรก่อนที่จะทำการลอการิทึม ฉันคิดว่าที่นี่โดยเฉพาะอย่างยิ่ง Likert เกล็ดที่ถูกป้อนเป็นตัวแปรต่อเนื่อง ในขณะที่สิ่งนี้มักจะนำไปใช้กับตัวแปรตามคุณบางครั้งมีปัญหากับส่วนที่เหลือ (เช่น heteroscedasticity) ที่เกิดจากตัวแปรอิสระซึ่งบางครั้งสามารถแก้ไขได้โดยการลอการิทึมของตัวแปรนั้น ตัวอย่างเช่นเมื่อใช้แบบจำลองที่อธิบายการประเมินของผู้บรรยายในชุดของอาจารย์และชั้นเรียนตัวแปร "ขนาดชั้นเรียน" (เช่นจำนวนนักเรียนในการบรรยาย) มีค่าผิดปกติซึ่งทำให้เกิด heteroscedasticity เนื่องจากความแปรปรวนในการประเมินผู้สอนมีขนาดเล็ก ผองเพื่อนมีขนาดเล็กกว่า การบันทึกตัวแปรนักเรียนจะช่วยได้แม้ว่าในตัวอย่างนี้การคำนวณข้อผิดพลาดมาตรฐานที่แข็งแกร่งหรือการใช้กำลังสองน้อยที่สุดอาจทำให้การตีความง่ายขึ้น

เหตุผลที่สองสำหรับการบันทึกหนึ่งหรือหลายตัวแปรในรูปแบบคือการตีความ ฉันเรียกเหตุผลนี้ว่าสะดวก หากคุณบันทึกทั้งตัวแปร dependent (Y) และตัวแปรอิสระ (X) ของคุณสัมประสิทธิ์การถดถอย ( ) ของคุณจะยืดหยุ่นและการตีความจะเป็นดังนี้: การเพิ่มขึ้น 1% ใน X จะนำไปสู่ceteris paribus % เพิ่มขึ้นใน Y (โดยเฉลี่ย) การบันทึกเพียงด้านเดียวของการถดถอย "สมการ" จะนำไปสู่การตีความทางเลือกตามที่อธิบายไว้ด้านล่าง:β β

Y และ X - การเพิ่มขึ้นหนึ่งหน่วยใน X จะนำไปสู่เพิ่ม / ลดใน Yβ

Log Y และ Log X - การเพิ่มขึ้น 1% ใน X จะนำไปสู่ % การเพิ่ม / ลดใน Yβ

Log Y และ X - การเพิ่ม X หนึ่งหน่วยจะนำไปสู่เพิ่ม / ลดลง % ใน Yβ100

Y และ Log X - การเพิ่มขึ้น 1% ใน X จะนำไปสู่เพิ่ม / ลดลงใน Yβ/100

และในที่สุดอาจมีเหตุผลทางทฤษฎีสำหรับการทำเช่นนั้น ตัวอย่างเช่นบางรุ่นที่เราต้องการประเมินนั้นเป็นแบบหลายค่าและไม่เชิงเส้น การทำลอการิทึมอนุญาตให้แบบจำลองเหล่านี้ประเมินโดยการถดถอยเชิงเส้น ตัวอย่างที่ดีของเรื่องนี้รวมถึงฟังก์ชั่นการผลิต Cobb-Douglas ทางเศรษฐศาสตร์และสมการ Mincer ในการศึกษา ฟังก์ชันการผลิต Cobb-Douglas อธิบายวิธีการแปลงอินพุตเป็นเอาต์พุต:

Y=ALαKβ

ที่ไหน

Yคือการผลิตหรือผลผลิตทั้งหมดของกิจการบางอย่างเช่น บริษัท ฟาร์ม ฯลฯ

Aคือผลผลิตทั้งหมด (การเปลี่ยนแปลงของเอาต์พุตไม่ได้เกิดจากอินพุตเช่นการเปลี่ยนแปลงของเทคโนโลยีหรือสภาพอากาศ)

Lคืออินพุตแรงงาน

Kคืออินพุตตัวพิมพ์ใหญ่

α &คือความยืดหยุ่นของเอาต์พุตβ

การหาลอการิทึมของสิ่งนี้ทำให้ฟังก์ชั่นประเมินได้ง่ายโดยใช้การถดถอยเชิงเส้นของ OLS เช่น:

log(Y)=log(A)+αlog(L)+βlog(K)

5
"Log Y และ X - การเพิ่มขึ้นหนึ่งหน่วยใน X จะนำไปสู่การเพิ่ม / ลดลง 100% ใน Y": ฉันคิดว่าสิ่งนี้ใช้ได้เฉพาะเมื่อ applies มีขนาดเล็กดังนั้น exp (β) ≈ 1 + β
Ida

1
ขอบคุณที่ดีและชัดเจน! คำถามหนึ่งคุณตีความ intercepts ในกรณี Log Y และ X อย่างไร และโดยทั่วไปฉันมีความกังวลเกี่ยวกับวิธีการรายงานการเปลี่ยนแปลงการถดถอย ...
Bakaburg

2
ฉันเป็นคนดูดคำตอบที่มีตัวอย่างจากเศรษฐศาสตร์ ["คุณมีฉันที่ ' Cobb-Douglas Production Function '"] .... สิ่งหนึ่งที่แม้ว่า: คุณควรเปลี่ยนคำดักจับในสมการที่สองเพื่อเข้าสู่ระบบ (A )เพื่อให้สอดคล้องกับสมการแรก
Steve S

@Ida แน่นอน สำหรับผู้อ่านที่สนใจโพสต์ของฉันที่นี่จะอธิบายว่าทำไมสำหรับการเข้าสู่ระบบ "y" นักวิเคราะห์ควร interpetเป็นการเปลี่ยนแปลงเปอร์เซ็นต์ 100×(eβ1)
AdamO

21

สำหรับจุดที่ยอดเยี่ยมของ whuber เกี่ยวกับเหตุผลที่ต้องการลอการิทึมกับการแปลงอื่น ๆ เช่น root หรือ reciprocal แต่เพ่งความสนใจไปที่การตีความเฉพาะของสัมประสิทธิ์การถดถอยอันเป็นผลมาจากการเปลี่ยนแปลง log เมื่อเทียบกับการแปลงอื่น ๆ ดู:

โอลิเวอร์เอ็นคีน การแปลงบันทึกเป็นพิเศษ สถิติทางการแพทย์ 2538; 14 (8): 811-819 DOI: 10.1002 / sim.4780140810 (PDF กฎหมายที่น่าสงสัยมีให้ที่http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf )

หากคุณเข้าสู่ระบบอิสระตัวแปรx ไปยังฐานคุณสามารถแปลความหมายของค่าสัมประสิทธิ์การถดถอย (และ CI) ในขณะที่การเปลี่ยนแปลงในตัวแปรY ต่อเพิ่มขึ้นเท่าในx (บันทึกไปที่ฐาน 2 จึงมักมีประโยชน์เนื่องจากสอดคล้องกับการเปลี่ยนแปลงในyต่อการเพิ่มเป็นสองเท่าในxหรือบันทึกไปยังฐาน 10 หากxแปรผันตามลำดับความสำคัญจำนวนมากซึ่งหายาก) การแปลงอื่น ๆ เช่นสแควร์รูทไม่มีการตีความอย่างง่าย

หากคุณบันทึกตัวแปรที่ขึ้นต่อกันy (ไม่ใช่คำถามดั้งเดิม แต่เป็นคำตอบที่ได้ตอบไปแล้วหลายข้อก่อนหน้านี้) ฉันก็จะพบว่าแนวคิดของ Tim Cole เกี่ยวกับ 'sympercents' น่าดึงดูดใจสำหรับการนำเสนอผลลัพธ์ (ฉันยังใช้มันในกระดาษอีกครั้ง) แม้ว่าพวกเขาดูเหมือนจะไม่ได้จับทุกอย่างที่:

ทิมเจโคล Sympercents: ความแตกต่างของเปอร์เซ็นต์แบบสมมาตรบนมาตราส่วน 100 log (e) ช่วยให้การนำเสนอข้อมูลการแปลงบันทึกง่ายขึ้น สถิติทางการแพทย์ปี 2543; 19 (22): 3109-3125 DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [ฉันดีใจมากที่Stat Medหยุดใช้SICIsเหมือน DOI ... ]


1
ขอบคุณสำหรับการอ้างอิงและจุดที่ดีมาก คำถามที่น่าสนใจคือว่าปัญหานี้นำไปใช้กับการเปลี่ยนแปลงทั้งหมดไม่ใช่แค่การบันทึก สำหรับเราแล้วสถิติ / ความน่าจะเป็นยังมีประโยชน์เนื่องจากช่วยให้การคาดการณ์ประสิทธิภาพมีประสิทธิภาพหรือเกณฑ์ / แนวทางที่มีประสิทธิภาพ ในช่วงหลายปีที่ผ่านมาเราได้ใช้การแปลงพลังงาน (บันทึกโดยใช้ชื่ออื่น) การแปลงพหุนามและอื่น ๆ (แม้แต่การแปลงทีละส่วน) เพื่อพยายามลดปริมาณที่เหลือลดความเชื่อมั่นและปรับปรุงความสามารถในการทำนายจากชุดข้อมูลที่กำหนด ตอนนี้เรากำลังพูดว่าสิ่งนี้ไม่ถูกต้องหรือไม่?
AsymLabs

1
@ AsymLabs สองวัฒนธรรมของ Breiman แตกต่างกันอย่างไร (ตัวประมาณและตัวดัดแปลงแบบประมาณ) cf เลย สองวัฒนธรรม - ถกเถียงกัน
เดนิส

15

โดยทั่วไปจะใช้บันทึกของตัวแปรอินพุตเพื่อปรับมาตราส่วนและเปลี่ยนการกระจาย (เช่นเพื่อให้กระจายตามปกติ) มันไม่สามารถทำได้แบบสุ่มสี่สุ่มห้า; คุณต้องระมัดระวังเมื่อทำการปรับขนาดเพื่อให้แน่ใจว่าผลลัพธ์ยังคงสามารถตีความได้

สิ่งนี้ถูกกล่าวถึงในตำราสถิติเบื้องต้น นอกจากนี้คุณยังสามารถอ่านกระดาษของ Andrew Gelman ได้ที่"อินพุตการถดถอยสเกลโดยการหารด้วยค่าเบี่ยงเบนมาตรฐานสองค่า"สำหรับการอภิปรายในเรื่องนี้ นอกจากนี้เขายังมีการอภิปรายที่ดีมากเกี่ยวกับเรื่องนี้ที่จุดเริ่มต้นของ"การวิเคราะห์ข้อมูลโดยใช้การถดถอยและหลายระดับ / โมเดลลำดับชั้น"

การบันทึกไม่ใช่วิธีที่เหมาะสมในการจัดการกับข้อมูล / ค่าผิดปกติ


12

คุณมักจะทำการบันทึกข้อมูลเมื่อมีปัญหากับส่วนที่เหลือ ตัวอย่างเช่นหากคุณพล็อตส่วนที่เหลือกับ covariate ที่เฉพาะเจาะจงและสังเกตรูปแบบการเพิ่ม / ลดลง (รูปร่างของช่องทาง) การแปลงอาจเหมาะสม ส่วนที่เหลือที่ไม่ใช่แบบสุ่มมักจะบ่งบอกว่าข้อสันนิษฐานของแบบจำลองของคุณนั้นผิดเช่นข้อมูลที่ไม่ปกติ

บางชนิดข้อมูลยืมโดยอัตโนมัติเพื่อการแปลงลอการิทึม ตัวอย่างเช่นฉันมักจะใช้บันทึกเมื่อจัดการกับความเข้มข้นหรืออายุ

แม้ว่าการเปลี่ยนรูปจะไม่ได้ใช้เพื่อจัดการกับค่าผิดปกติ แต่อย่างใดพวกเขาช่วยนับตั้งแต่การบันทึกทำให้ข้อมูลของคุณเสียหาย


1
แต่ถึงกระนั้นการใช้บันทึกการเปลี่ยนแปลงรูปแบบ - สำหรับการถดถอยเชิงเส้นมันคือ y ~ a * x + b, สำหรับการถดถอยเชิงเส้นบนบันทึกมันคือ y ~ y0 * exp (x / x0)

1
ฉันเห็นด้วย - การบันทึกการเปลี่ยนแปลงแบบจำลองของคุณ แต่ถ้าคุณต้องแปลงข้อมูลนั่นก็หมายความว่าแบบจำลองของคุณไม่เหมาะในตอนแรก
csgillespie

2
@cgillespie: ความเข้มข้นใช่; แต่อายุ นั่นเป็นเรื่องแปลก
whuber

@whuber: ฉันคิดว่ามันขึ้นอยู่กับข้อมูลมาก แต่ชุดข้อมูลที่ฉันใช้คุณจะเห็นความแตกต่างอย่างมากระหว่างอายุ 10 ถึง 18 ปี แต่แตกต่างกันเล็กน้อยระหว่างอายุ 20 ถึง 28 ปี แม้กระทั่งสำหรับเด็กเล็กความแตกต่างระหว่างเด็กอายุ 0-1 ปีนั้นไม่เหมือนกับความแตกต่างระหว่าง 1-2
csgillespie

1
@landroni มันพูดสั้น ๆ ฉันจะไม่พูดว่ามันไม่ดียกเว้นเป็นไปได้ว่า "เช่น" มีจุดมุ่งหมายแทน "คือ" ฉันเข้าใจการใช้ "สุ่ม" ที่นี่ในแง่ของ "ความเป็นอิสระและการกระจายตัวเหมือนกัน" ซึ่งเป็นสมมติฐานทั่วไปที่สันนิษฐานโดย OLS ในบางการตั้งค่าผู้คนยังถือว่าการแจกแจงพื้นฐานทั่วไปนี้เป็นเรื่องปกติ แต่ก็ไม่จำเป็นอย่างเคร่งครัดในทางปฏิบัติหรือในทางทฤษฎี: สิ่งที่จำเป็นคือการกระจายตัวตัวอย่างของสถิติที่เกี่ยวข้องนั้นใกล้เคียงกับปกติ
whuber

10

การเปลี่ยนแปลงของตัวแปรอิสระเป็นหนึ่งครั้งที่หนึ่งสามารถเป็นประจักษ์พยานได้โดยไม่ต้องทำการอนุมานตราบเท่าที่มีความซื่อสัตย์เกี่ยวกับจำนวนองศาอิสระในการเล่น วิธีหนึ่งคือการใช้เส้นโค้งการถดถอยสำหรับอย่างต่อเนื่องซึ่งไม่ทราบว่าเป็นเส้น สำหรับฉันแล้วมันไม่ใช่คำถามของบันทึกเทียบกับมาตราส่วนดั้งเดิม มันเป็นคำถามที่การแปลงสอดคล้องกับข้อมูล ความธรรมดาของสิ่งตกค้างไม่ใช่เกณฑ์ที่นี่XXX

เมื่อบิดเบี้ยวมากการ cubingตามต้องการในฟังก์ชันลูกบาศก์ spline ส่งผลให้เกิดค่ามากซึ่งบางครั้งอาจทำให้เกิดปัญหาเชิงตัวเลข ผมแก้ปัญหานี้โดยการปรับฟังก์ชั่นเส้นโค้งลูกบาศก์บน{X} แพ็กเกจR พิจารณาตัวแปรด้านในสุดเป็นตัวทำนายดังนั้นการวางแผนค่าที่คาดการณ์จะมีบนแกน -ax ตัวอย่าง:XXX3rmsXx

require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f))  # plot spline of cr(X) against X

นี่เหมาะกับลูกบาศก์ spline ที่ จำกัด ในมี 5 knots ที่ตำแหน่ง quantile เริ่มต้น พอดีมี 4 DF (ระยะหนึ่งเส้น 3 วาระไม่เชิงเส้น) แถบความเชื่อมั่นและการทดสอบการเชื่อมโยงเคารพ 4 df เหล่านี้รับรู้อย่างเต็มที่ "ความไม่แน่นอนของการเปลี่ยนแปลง"X3X


(+1) หากมีความคลุมเครือเกี่ยวกับรูปแบบการทำงานของหากมีข้อมูลเพียงพอนักวิเคราะห์ควรใช้ขั้นตอนการปรับให้เรียบเช่นเส้นโค้งหรือการถดถอยในท้องถิ่นแทนที่จะเป็น " สำหรับการอนุมานแนวโน้มการบันทึกและการเชิงเส้นมักจะเห็นด้วยกับทิศทางและขนาดของการเชื่อมโยง ประโยชน์หลักของการแปลงบันทึกคือการตีความ E[Y|X]=f(X)
AdamO

9

ฉันต้องการตอบคำถามของผู้ใช้ 1690130 ที่ถูกทิ้งไว้เป็นความคิดเห็นต่อคำตอบแรกในวันที่ 26 ตุลาคม 2555 และอ่านดังนี้: "ตัวแปรเกี่ยวกับความหนาแน่นของประชากรในภูมิภาคหรืออัตราส่วนครู - เด็กสำหรับแต่ละเขตโรงเรียนหรือ จำนวนคดีฆาตกรรมต่อประชากร 1,000 คนฉันเคยเห็นอาจารย์นำบันทึกของตัวแปรเหล่านี้มันไม่ชัดเจนสำหรับฉันว่าทำไมตัวอย่างเช่นอัตราการฆาตกรรมไม่ได้เป็นเปอร์เซ็นต์อยู่แล้วบันทึกจะเปลี่ยนเปอร์เซ็นต์ของ เพราะเหตุใดอัตราส่วนของอัตราส่วนครูต่อเด็กจึงเป็นที่ต้องการ?

ฉันต้องการหาคำตอบสำหรับปัญหาที่คล้ายกันและต้องการแบ่งปันสิ่งที่สมุดสถิติเก่าของฉัน ( เจฟฟรีย์โวลด์ริดจ์ 2006. เศรษฐมิติการแนะนำ - แนวทางที่ทันสมัยรุ่นที่ 4 บทที่ 6 การวิเคราะห์การถดถอยหลายประการ: ปัญหาเพิ่มเติม 191 ) ให้คำแนะนำแก่ Wooldridge:

ตัวแปรที่ปรากฏในรูปแบบสัดส่วนหรือเปอร์เซ็นต์เช่นอัตราการว่างงานอัตราการมีส่วนร่วมในแผนเงินบำนาญเปอร์เซ็นต์ของนักเรียนที่สอบผ่านมาตรฐานและอัตราการจับกุมอาชญากรรมที่รายงานสามารถปรากฏได้ทั้งในรูปแบบดั้งเดิมหรือแบบลอการิทึม , ถึงแม้จะมีแนวโน้มที่จะใช้พวกเขาในรูปแบบที่ระดับ นี่เป็นเพราะสัมประสิทธิ์การถดถอยใด ๆ ที่เกี่ยวข้องกับตัวแปรดั้งเดิม - ไม่ว่าจะเป็นตัวแปรอิสระหรือตัวแปรอิสระ - จะมีการตีความการเปลี่ยนแปลงจุดร้อยละ ถ้าเราใช้พูด log ( unem ) ในการถดถอยโดยที่unemเป็นเปอร์เซ็นต์ของผู้ว่างงานเราต้องระมัดระวังอย่างมากที่จะแยกแยะความแตกต่างระหว่างการเปลี่ยนค่าร้อยละของคะแนน จำเอาไว้ถ้าunemเปลี่ยนจาก 8 เป็น 9 นี่เป็นการเพิ่มขึ้นของหนึ่งเปอร์เซ็นต์ แต่เพิ่มขึ้น 12.5% ​​จากระดับการว่างงานเริ่มต้น การใช้บันทึกหมายถึงเรากำลังดูเปอร์เซ็นต์การเปลี่ยนแปลงของอัตราการว่างงาน: บันทึก (9) - บันทึก (8) = 0.118 หรือ 11.8% ซึ่งเป็นการประมาณลอการิทึมเพื่อเพิ่มขึ้น 12.5% ​​จริง

จากสิ่งนี้และ piggybanking จากความเห็นก่อนหน้าของ whuber ต่อคำถามของ user1690130 ฉันจะหลีกเลี่ยงการใช้ลอการิทึมของความหนาแน่นหรือตัวแปรอัตราร้อยละเพื่อให้การตีความเป็นเรื่องง่ายเว้นแต่การใช้แบบฟอร์มบันทึกจะสร้างข้อแลกเปลี่ยนที่สำคัญเช่นลดความเบ้ ตัวแปรอัตรา


บ่อยครั้งสำหรับเปอร์เซ็นต์ (เช่นสัดส่วนใน (0,1), การแปลง logit ถูกนำมาใช้เนื่องจากข้อมูลตามสัดส่วนมักจะละเมิดข้อสันนิษฐานของภาวะปกติของเศษซากในลักษณะที่การเปลี่ยนแปลงบันทึกจะไม่ถูกต้อง
colin

3

จุดของเชนที่ใช้บันทึกเพื่อจัดการกับข้อมูลที่ไม่ดีนั้นได้ถูกนำมาใช้ ในฐานะที่เป็นโคลินเกี่ยวกับความสำคัญของสารตกค้างตามปกติ ในทางปฏิบัติฉันพบว่าโดยปกติคุณจะได้รับค่าคงที่ปกติถ้าตัวแปรอินพุตและเอาต์พุตนั้นค่อนข้างปกติ ในทางปฏิบัติสิ่งนี้หมายถึงการกระจายชุดข้อมูลที่แปลงสภาพและไม่ได้แปลงสภาพและทำให้มั่นใจว่าพวกเขาได้กลายเป็นปกติมากขึ้นและ / หรือดำเนินการทดสอบตามปกติ (เช่น Shapiro-Wilk หรือ Kolmogorov-Smirnov) และพิจารณาว่าผลลัพธ์นั้นเป็นเรื่องปกติมากขึ้น การตีความและประเพณีก็มีความสำคัญเช่นกัน ตัวอย่างเช่นในบันทึกจิตวิทยาการแปลงเวลาปฏิกิริยามักใช้อย่างไรก็ตามสำหรับฉันอย่างน้อยการตีความของบันทึก RT นั้นไม่ชัดเจน นอกจากนี้


2
คำตอบจะถูกจัดลำดับใหม่ตามคะแนนโหวตดังนั้นโปรดอย่าอ้างอิงคำตอบอื่น ๆ
Vebjorn Ljosa

4
การทดสอบภาวะปกติมักจะรุนแรงเกินไป บ่อยครั้งที่มันพอเพียงที่จะได้รับส่วนที่เหลือกระจายสมมาตร (ในทางปฏิบัติส่วนที่เหลือมีแนวโน้มที่จะกระจายอย่างแหลมคมส่วนหนึ่งเป็นสิ่งประดิษฐ์ของการประมาณค่าที่ฉันสงสัยและดังนั้นจะทดสอบเป็น "สำคัญ" ไม่ปกติไม่ว่าใครจะแสดงข้อมูลอีกครั้ง)
whuber

@whuber: ตกลง นั่นคือเหตุผลที่ฉันระบุว่า "ปกติมากกว่า" เป้าหมายควรที่จะทำให้สถิติการทดสอบเปลี่ยนไปมากกว่าการตัดสินใจยอมรับ / ปฏิเสธตามค่า p ของการทดสอบ
russellpierce

เราควรอ้างถึงคำตอบอื่น ๆ ตามความเหมาะสมเสมอ
ปิดบัง

@abalter? ฉันไม่ทำตาม
russellpierce
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.