อะไรคือสาเหตุของการใช้การแปลงแบบรูทของข้อมูล


15

มีเหตุผลอะไรที่ฉันคิดว่าจะแปลงข้อมูลด้วยสแควร์รูท? ฉันหมายถึงสิ่งที่ฉันสังเกตอยู่เสมอคือค่า R ^ 2 เพิ่มขึ้น แต่นี่อาจเป็นเพราะศูนย์กลางข้อมูล! ความคิดใด ๆ ที่ชื่นชม!


ฉันได้ตอบคำถามนี้และคำถามทั่วไปเพิ่มเติมที่นี่stats.stackexchange.com/questions/18844/…
IrishStat

3
หากตัวแปรตามนั้นแตกต่างกันจะไม่สามารถเปรียบเทียบ R-squares ได้

คำตอบ:


13

โดยทั่วไปการถดถอยแบบพารามิเตอร์ / GLM ถือว่าความสัมพันธ์ระหว่างตัวแปรและตัวแปรแต่ละตัวเป็นเส้นตรงส่วนที่เหลือเมื่อคุณติดตั้งแบบจำลองนั้นเป็นไปตามการแจกแจงแบบปกติและขนาดของส่วนที่เหลือยังคงอยู่เท่าเดิม ตามสายการติดตั้งของคุณ เมื่อข้อมูลของคุณไม่เป็นไปตามสมมติฐานเหล่านี้การแปลงสามารถช่วยได้ YX

มันควรจะเป็นสัญชาตญาณว่าถ้าเป็นสัดส่วนกับแล้วการหยั่งรากเป็นเส้นตรงจะเพิ่มความสัมพันธ์นี้นำไปสู่แบบจำลองที่เหมาะกับสมมติฐานและอธิบายความแปรปรวนมากขึ้น (มีค่าสูงกว่า) การรูทสแควร์ยังช่วยได้เมื่อคุณมีปัญหาที่ขนาดของเศษซากของคุณเพิ่มขึ้นอย่างต่อเนื่องเมื่อค่าเพิ่มขึ้น (เช่นการกระจายของจุดข้อมูลรอบเส้นที่ติดตั้งจะถูกทำเครื่องหมายมากกว่าเมื่อคุณเคลื่อนที่ตาม) ลองนึกถึงรูปร่างของฟังก์ชันรากที่สอง: มันเพิ่มขึ้นอย่างสูงชันในตอนแรก แต่หลังจากนั้นก็อิ่มตัว ดังนั้นการใช้การแปลงสแควร์รูทจะทำให้ตัวเลขเล็กลง แต่ทำให้เสถียรขึ้นได้ ดังนั้นคุณสามารถคิดว่ามันเป็นการผลักเศษเล็ก ๆ ที่ต่ำYX2YR2YXXค่าอยู่ห่างจากเส้นที่ติดตั้งและการแยกส่วนที่เหลือจำนวนมากที่ค่าสูงไปทางเส้น (นี่เป็นชวเลขจิตที่ไม่เหมาะสมกับคณิตศาสตร์!)X

ดังที่ Dmitrij และ ocram กล่าวว่านี่เป็นเพียงการแปลงครั้งเดียวที่เป็นไปได้ซึ่งจะช่วยในบางสถานการณ์และเครื่องมือต่าง ๆ เช่นสูตร Box-Cox สามารถช่วยคุณเลือกสิ่งที่มีประโยชน์มากที่สุด ฉันอยากจะแนะนำให้เข้าสู่นิสัยของการดูค่าที่เหลือเทียบกับค่าติดตั้งเสมอ (และพล็อตความน่าจะเป็นปกติหรือฮิสโตแกรมของค่าคงที่) เมื่อคุณพอดีกับแบบจำลอง คุณจะพบว่าบ่อยครั้งที่คุณสามารถเห็นการเปลี่ยนแปลงเหล่านี้ได้บ้าง


เฮ้ขอบคุณ! ฉันรู้ว่า boxcox funtion แต่ฉันสงสัยว่าด้วยเหตุผลอะไรที่ทำให้การแปลง sqrt สมเหตุสมผล ขอขอบคุณ!
MarkDollar

1
หากความแปรปรวนของข้อผิดพลาดสัมพันธ์เชิงเส้นตรงกับระดับของลำดับที่หนึ่งจะทำการแปลงลอการิทึม หากค่าเบี่ยงเบนมาตรฐานสัมพันธ์เชิงเส้นตรงกับระดับของซีรีส์หนึ่งจะทำการแปลงสแควร์รูท การเลือกไม่มีส่วนเกี่ยวข้องกับขนาดของเศษซากเนื่องจากเกี่ยวข้องกับระดับของ y และทั้งหมดเกี่ยวข้องกับการมีเพศสัมพันธ์ / ยกเลิกการเชื่อมต่อในวินาทีแรกและวินาที
IrishStat

1
Freya +1 สำหรับคณิตศาสตร์ชวเลขที่เหมาะสม ปรีชานั้นเป็นเหตุผลสำหรับการใช้L.5-metrics-for-clusteringหรือไม่?
เดนิส

สวัสดีเดนิสฉันเกรงว่าจะไม่รู้อะไรเกี่ยวกับการรวมกลุ่ม
Freya Harrison

10

การแปลงสแควร์รูทเป็นเพียงกรณีพิเศษของการแปลงพลังงาน Box-Cox (ภาพรวมที่ดีของ Pengfi Li อาจเป็นประโยชน์ในการอ่านและพบได้ที่นี่ ) โดยมีและไม่อยู่กึ่งกลางλ=0.5

จุดมุ่งหมายของการแปลง Box-Cox คือเพื่อให้มั่นใจว่าสมมติฐานตามปกติสำหรับรุ่นเชิงเส้นถือ นั่นคือ )yN(Xβ,σ2In)

อย่างไรก็ตามนี่คือค่าคงที่การนิรนัยอาจเป็น (และอาจจะ) ไม่เหมาะสม ใน R คุณอาจพิจารณาฟังก์ชั่นจากcarไลบรารีpowerTransformที่ช่วยในการประเมินค่าที่เหมาะสมสำหรับการแปลง Box-Cox สำหรับแต่ละตัวแปรที่เข้าร่วมในการถดถอยเชิงเส้นหรือข้อมูลใด ๆ ที่คุณทำงานด้วย (ดูexample(powerTransform)รายละเอียดเพิ่มเติม)


5

เมื่อตัวแปรตามการกระจายของปัวซองผลลัพธ์ของการแปลงสแควร์รูทจะใกล้เคียงกับเกาส์เซียนมากขึ้น


คุณสามารถให้ข้อโต้แย้งบางอย่างสำหรับการเรียกร้องนี้?
utdiscant

มันไม่ได้ช่วยอะไรมากสำหรับการแจกแจงแบบเดี่ยว ๆ ด้วยค่าเฉพาะของพารามิเตอร์ แต่มันทำให้ตระกูลการแจกแจงที่ได้รับเมื่อพารามิเตอร์เปลี่ยนแปลงใกล้กับตระกูลปกติที่มีความแปรปรวนคงที่
kjetil b halvorsen


3

การใช้สแควร์รูทบางครั้งมีการสนับสนุนเพื่อสร้างตัวแปรที่ไม่ปกติให้ดูเหมือนตัวแปรปกติในปัญหาการถดถอย ลอการิทึมเป็นการแปลงที่เป็นไปได้ทั่วไป


0

ระยะทางเมทริกซ์ที่คำนวณด้วย Bray-Curtis มักจะไม่ได้เป็นตัวชี้วัดสำหรับข้อมูลบางอย่างซึ่งก่อให้เกิดค่าลักษณะเฉพาะเชิงลบ หนึ่งในวิธีการแก้ไขปัญหานี้คือการแปลง (ลอการิทึม, สแควร์รูทหรือสแควร์รูทคู่)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.