ทำไมไม่บันทึกการแปลงตัวแปรทั้งหมดที่ไม่เป็นที่สนใจหลัก?


10

หนังสือและการอภิปรายมักระบุว่าเมื่อเผชิญกับปัญหา (ซึ่งมีไม่กี่) กับตัวทำนาย, log-transformimg มันเป็นไปได้ ตอนนี้ฉันเข้าใจว่าสิ่งนี้ขึ้นอยู่กับการแจกแจงและความปกติในตัวทำนายไม่ได้เป็นข้อสันนิษฐานของการถดถอย แต่การบันทึกการเปลี่ยนแปลงจะทำให้ข้อมูลมีความสม่ำเสมอมากขึ้นได้รับผลกระทบจากค่าผิดปกติน้อยลงเรื่อย ๆ

ฉันคิดเกี่ยวกับการบันทึกการเปลี่ยนตัวแปรต่อเนื่องทั้งหมดของฉันซึ่งไม่ได้เป็น interesr หลักเช่นตัวแปรที่ฉันปรับเท่านั้น

มันผิดหรือเปล่า? ดี? ไร้ประโยชน์?

คำตอบ:


24

ตอนนี้ฉันเข้าใจแล้วว่าสิ่งนี้ขึ้นอยู่กับการแจกแจงและความปกติในตัวทำนาย

การแปลงบันทึกจะทำให้ข้อมูลมีความเหมือนกันมากขึ้น

ตามข้อเรียกร้องทั่วไปนี่เป็นเท็จ --- แต่ถึงแม้ว่าจะเป็นเช่นนั้นทำไมความสม่ำเสมอจึงมีความสำคัญ

ยกตัวอย่างเช่น

i) ตัวทำนายแบบไบนารีที่รับเฉพาะค่า 1 และ 2 การบันทึกจะปล่อยให้มันเป็นตัวทำนายแบบไบนารีที่รับเฉพาะค่า 0 และบันทึก 2 เท่านั้นมันไม่ได้ส่งผลกระทบอะไรเลยยกเว้นการสกัดกั้นและการปรับขนาดของคำที่เกี่ยวข้องกับตัวทำนายนี้ แม้แต่ค่า p ของตัวทำนายก็จะไม่เปลี่ยนแปลงเช่นเดียวกับค่าติดตั้ง

ป้อนคำอธิบายรูปภาพที่นี่

ii) พิจารณาตัวทำนายที่เอียงซ้าย ตอนนี้จดบันทึก โดยทั่วไปแล้วจะเอียงไปทางซ้ายมากขึ้น

ป้อนคำอธิบายรูปภาพที่นี่

iii) ข้อมูลเหมือนกันกลายเป็นเอียงซ้าย

ป้อนคำอธิบายรูปภาพที่นี่

(มันมักจะไม่เปลี่ยนแปลงมากเสมอไป)

รับผลกระทบจากค่าผิดปกติน้อยลง

ตามการอ้างสิทธิ์ทั่วไปนี่เป็นเท็จ พิจารณาค่าผิดปกติต่ำในตัวทำนาย

ป้อนคำอธิบายรูปภาพที่นี่

ฉันคิดถึงการบันทึกการเปลี่ยนแปลงตัวแปรต่อเนื่องทั้งหมดของฉันซึ่งไม่ได้เป็นที่สนใจหลัก

ไปยังจุดสิ้นสุดอะไร หากความสัมพันธ์เริ่มต้นเป็นเส้นตรง

ป้อนคำอธิบายรูปภาพที่นี่

และหากพวกเขาโค้งอยู่แล้วการทำสิ่งนี้โดยอัตโนมัติอาจทำให้พวกเขาแย่ลง (โค้งมากขึ้น) ไม่ดีขึ้น

-

การบันทึกของผู้ทำนาย (ไม่ว่าจะเป็นความสนใจหลักหรือไม่ก็ตาม) บางครั้งอาจเหมาะสม แต่ก็ไม่เสมอไป


2
ขอบคุณมากสำหรับคำตอบที่ยอดเยี่ยมนี้ ฉันคิดว่าอย่างน้อยพวกเราหลายคนก็ต้องการเห็นภาพนี้ด้วยวิธีนี้ แต่คุณเห็นด้วยหรือไม่ว่าข้อมูลที่เอียงขวาควรอยู่ภายใต้การเปลี่ยนแปลงของบันทึก มากกว่า skews และแบบฟอร์มอื่น ๆ
Adam Robinsson

1
ไม่ปกติไม่ ภายใต้เงื่อนไขที่เฉพาะเจาะจงบางอย่างอาจจะ
Glen_b -Reinstate Monica

ฉันก็ประหลาดใจที่เห็นว่าไม่มีใครพูดถึงการตีความโมเดลได้ หากคุณบันทึกการแปลงคุณขึ้นอยู่กับตัวแปรมันจะกลายเป็นเรื่องยากที่จะตีความรูปแบบโดยเฉพาะอย่างยิ่งสำหรับคนธรรมดาหรือคนที่ไม่มีภูมิหลังทางสถิติ / คณิตศาสตร์ ตัวอย่างเช่นสมมติว่าคุณมีแบบจำลองที่ทำนายความสูงของต้นไม้เป็นฟุตโดยให้เส้นรอบวงของลำต้นเป็นนิ้ว การแปลความหมายของสำหรับการเพิ่มเส้นรอบวงหนึ่งนิ้วความสูงเฉลี่ยของต้นไม้จะเพิ่มขึ้นจากบันทึกการเดินเท้าครึ่งหนึ่งที่ยุ่งยากมากขึ้น (ต่อ)β^=0.50
สถิตินักเรียน

(con't) มากกว่าที่จะสามารถพูดได้ตัวอย่างเช่นเพิ่มขึ้นหนึ่งนิ้วในจำนวนรอบของเส้นรอบวงลำต้นความสูงเฉลี่ยของต้นไม้เพิ่มขึ้นครึ่งฟุต การตีความในภายหลังนั้นง่ายกว่าและง่ายต่อการคำนวณในฟิลด์โดยไม่ต้องใช้เครื่องคิดเลข
StatsStudent

10

ในความคิดของฉันมันไม่สมเหตุสมผลเลยที่จะทำการเปลี่ยนแปลงการบันทึก (และการ แปลงข้อมูลใด ๆสำหรับเรื่องนั้น) เพียงเพื่อประโยชน์ของมัน ในฐานะที่เป็นคำตอบก่อนกล่าวขึ้นอยู่กับข้อมูลการเปลี่ยนแปลงบางคนจะเป็นได้ทั้งที่ไม่ถูกต้องหรือไร้ประโยชน์ ผมขอแนะนำให้คุณอ่านต่อไปนี้ IMHO ดีเยี่ยมวัสดุเบื้องต้นในการแปลงข้อมูล : http://fmwww.bc.edu/repec/bocode/t/transint.html โปรดทราบว่าตัวอย่างโค้ดในเอกสารนี้เขียนด้วยภาษาStataแต่ไม่เช่นนั้นเอกสารจะเป็นแบบทั่วไปและมีประโยชน์สำหรับผู้ใช้ที่ไม่ใช่ Stata เช่นกัน

เทคนิคและเครื่องมือง่าย ๆบางอย่างสำหรับการจัดการกับปัญหาที่เกี่ยวข้องกับข้อมูลทั่วไปเช่นการขาดมาตรฐาน , การผิดปกติและการแจกแจงแบบผสมสามารถพบได้ในบทความนี้ (หมายเหตุ, การแบ่งชั้นเป็นวิธีการจัดการกับการกระจายแบบผสมนั้น วิธีการทั่วไปที่ซับซ้อนกว่านี้คือการวิเคราะห์แบบผสมหรือที่เรียกว่าแบบจำลองการผสม จำกัดคำอธิบายซึ่งอยู่นอกเหนือขอบเขตของคำตอบนี้) การแปลง Box-Coxกล่าวถึงสั้น ๆ ในการอ้างอิงทั้งสองข้างต้นเป็นการเปลี่ยนแปลงข้อมูลที่สำคัญโดยเฉพาะอย่างยิ่งสำหรับข้อมูลที่ไม่ปกติ (มีข้อแม้บางประการ) สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการเปลี่ยนแปลง Box-Cox โปรดดูบทความแนะนำ


2
การอ้างอิงที่ดี Aleksandr ขอบคุณสำหรับการแบ่งปันที่จำเป็นต้องมี sceptisism ขอบคุณ
Adam Robinsson

1
@ AdamRobinsson: ความสุขของฉันอดัม! ดีใจที่คุณชอบคำตอบของฉัน
Aleksandr Blekh

8

การเปลี่ยนบันทึกไม่ได้ทำให้สิ่งต่าง ๆ ดีขึ้นเสมอไป เห็นได้ชัดว่าคุณไม่สามารถเปลี่ยนตัวแปรการบันทึกที่ให้ค่าเป็นศูนย์หรือค่าลบได้และแม้แต่ค่าบวกที่ค่าศูนย์กอดอาจออกมาเป็นค่าผิดพลาดถ้าเปลี่ยนรูป

คุณไม่ควรบันทึกทุกอย่างเป็นประจำ แต่เป็นวิธีปฏิบัติที่ดีในการคิดเกี่ยวกับการเปลี่ยนเครื่องทำนายผลบวกที่เลือก (เหมาะสมมักจะเป็นท่อนซุง เช่นเดียวกันกับตัวแปรตอบกลับ ความรู้ในสาระสำคัญมีความสำคัญเช่นกัน ทฤษฎีบางอย่างจากฟิสิกส์หรือสังคมวิทยาหรืออะไรก็ตามที่อาจนำไปสู่การเปลี่ยนแปลงที่แน่นอน โดยทั่วไปถ้าคุณเห็นตัวแปรที่เอียงในเชิงบวกนั่นคือที่บันทึก (หรืออาจเป็นรากที่สองหรือส่วนกลับ) อาจช่วยได้

บางตำราการถดถอยดูเหมือนจะแนะนำว่าคุณต้องดูแผนการวินิจฉัยก่อนที่จะพิจารณาการเปลี่ยนแปลงใด ๆ แต่ฉันไม่เห็นด้วย ฉันคิดว่าการทำสิ่งที่ดีที่สุดที่คุณสามารถทำได้คือการเลือกตัวเลือกเหล่านี้ก่อนที่จะทำการติดตั้งแบบจำลองใด ๆ จากนั้นดูที่การวินิจฉัยเพื่อดูว่าคุณจำเป็นต้องปรับเปลี่ยนจากที่นั่นหรือไม่


ทั้งหมดเพิ่มว่าการพิจารณาเหล่านี้ใช้กับทั้งตัวทำนายที่สำคัญและไม่สำคัญ
Russ Lenth

ขอบคุณ @ rvl! ฉันสับสนอยู่เสมอโดยความไม่ลงรอยกันระหว่างเวลาและวิธีการเลือกแปลง หนังสือมักระบุว่าในขณะที่คุณเขียนเราจำเป็นต้องตรวจสอบรูปแบบของตัวแปรทั้งหมดก่อนที่จะสัมผัสกับการถดถอย ขอบคุณที่ให้ข้อมูลเชิงลึก
Adam Robinsson

@rvl ขอบคุณสำหรับคำตอบของคุณ คุณจะบันทึกsnoqชุดข้อมูลในเธรด CrossValidatedนี้(โดยคำนึงถึงเป้าหมายคือเพื่อให้พอดีกับส่วนผสมของ Gaussians)
Zhubarb

-3

1) ข้อมูลการนับ (y> 0) -> บันทึก (y) หรือ y = exp (b0 + biXi) 2) ข้อมูลนับ + ศูนย์ (y> = 0) -> แบบจำลองอุปสรรค์ (binomial + count reg.) 3) ทั้งหมด เอ็ฟเฟ็กต์หลายคำ (& ข้อผิดพลาด) จะเป็นสารเติมแต่ง 4) ความแปรปรวน ~ หมายถึง -> บันทึก (y) หรือ y = exp (b0 + biXi) 5) ...


คำตอบนี้อ่านยากและไม่ชัดเจนว่าจะพยายามตอบคำถามหรือไม่
Juho Kokkala

1
งานนำเสนอทางโทรเลขและที่ไม่จัดรูปแบบทำให้คำตอบนี้เข้าใจยาก คุณคิดว่าคุณสามารถขยายความคิดของคุณเป็นภาษาอังกฤษและใช้สำหรับสูตรได้หรือไม่? TEX
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.