มีเหตุผลอะไรที่ฉันคิดว่าจะแปลงข้อมูลด้วยสแควร์รูท? ฉันหมายถึงสิ่งที่ฉันสังเกตอยู่เสมอคือค่า R ^ 2 เพิ่มขึ้น แต่นี่อาจเป็นเพราะศูนย์กลางข้อมูล! ความคิดใด ๆ ที่ชื่นชม!
มีเหตุผลอะไรที่ฉันคิดว่าจะแปลงข้อมูลด้วยสแควร์รูท? ฉันหมายถึงสิ่งที่ฉันสังเกตอยู่เสมอคือค่า R ^ 2 เพิ่มขึ้น แต่นี่อาจเป็นเพราะศูนย์กลางข้อมูล! ความคิดใด ๆ ที่ชื่นชม!
คำตอบ:
โดยทั่วไปการถดถอยแบบพารามิเตอร์ / GLM ถือว่าความสัมพันธ์ระหว่างตัวแปรและตัวแปรแต่ละตัวเป็นเส้นตรงส่วนที่เหลือเมื่อคุณติดตั้งแบบจำลองนั้นเป็นไปตามการแจกแจงแบบปกติและขนาดของส่วนที่เหลือยังคงอยู่เท่าเดิม ตามสายการติดตั้งของคุณ เมื่อข้อมูลของคุณไม่เป็นไปตามสมมติฐานเหล่านี้การแปลงสามารถช่วยได้
มันควรจะเป็นสัญชาตญาณว่าถ้าเป็นสัดส่วนกับแล้วการหยั่งรากเป็นเส้นตรงจะเพิ่มความสัมพันธ์นี้นำไปสู่แบบจำลองที่เหมาะกับสมมติฐานและอธิบายความแปรปรวนมากขึ้น (มีค่าสูงกว่า) การรูทสแควร์ยังช่วยได้เมื่อคุณมีปัญหาที่ขนาดของเศษซากของคุณเพิ่มขึ้นอย่างต่อเนื่องเมื่อค่าเพิ่มขึ้น (เช่นการกระจายของจุดข้อมูลรอบเส้นที่ติดตั้งจะถูกทำเครื่องหมายมากกว่าเมื่อคุณเคลื่อนที่ตาม) ลองนึกถึงรูปร่างของฟังก์ชันรากที่สอง: มันเพิ่มขึ้นอย่างสูงชันในตอนแรก แต่หลังจากนั้นก็อิ่มตัว ดังนั้นการใช้การแปลงสแควร์รูทจะทำให้ตัวเลขเล็กลง แต่ทำให้เสถียรขึ้นได้ ดังนั้นคุณสามารถคิดว่ามันเป็นการผลักเศษเล็ก ๆ ที่ต่ำค่าอยู่ห่างจากเส้นที่ติดตั้งและการแยกส่วนที่เหลือจำนวนมากที่ค่าสูงไปทางเส้น (นี่เป็นชวเลขจิตที่ไม่เหมาะสมกับคณิตศาสตร์!)
ดังที่ Dmitrij และ ocram กล่าวว่านี่เป็นเพียงการแปลงครั้งเดียวที่เป็นไปได้ซึ่งจะช่วยในบางสถานการณ์และเครื่องมือต่าง ๆ เช่นสูตร Box-Cox สามารถช่วยคุณเลือกสิ่งที่มีประโยชน์มากที่สุด ฉันอยากจะแนะนำให้เข้าสู่นิสัยของการดูค่าที่เหลือเทียบกับค่าติดตั้งเสมอ (และพล็อตความน่าจะเป็นปกติหรือฮิสโตแกรมของค่าคงที่) เมื่อคุณพอดีกับแบบจำลอง คุณจะพบว่าบ่อยครั้งที่คุณสามารถเห็นการเปลี่ยนแปลงเหล่านี้ได้บ้าง
การแปลงสแควร์รูทเป็นเพียงกรณีพิเศษของการแปลงพลังงาน Box-Cox (ภาพรวมที่ดีของ Pengfi Li อาจเป็นประโยชน์ในการอ่านและพบได้ที่นี่ ) โดยมีและไม่อยู่กึ่งกลาง
จุดมุ่งหมายของการแปลง Box-Cox คือเพื่อให้มั่นใจว่าสมมติฐานตามปกติสำหรับรุ่นเชิงเส้นถือ นั่นคือ )
อย่างไรก็ตามนี่คือค่าคงที่การนิรนัยอาจเป็น (และอาจจะ) ไม่เหมาะสม ใน R คุณอาจพิจารณาฟังก์ชั่นจากcar
ไลบรารีpowerTransform
ที่ช่วยในการประเมินค่าที่เหมาะสมสำหรับการแปลง Box-Cox สำหรับแต่ละตัวแปรที่เข้าร่วมในการถดถอยเชิงเส้นหรือข้อมูลใด ๆ ที่คุณทำงานด้วย (ดูexample(powerTransform)
รายละเอียดเพิ่มเติม)
เมื่อตัวแปรตามการกระจายของปัวซองผลลัพธ์ของการแปลงสแควร์รูทจะใกล้เคียงกับเกาส์เซียนมากขึ้น
การใช้สแควร์รูทบางครั้งมีการสนับสนุนเพื่อสร้างตัวแปรที่ไม่ปกติให้ดูเหมือนตัวแปรปกติในปัญหาการถดถอย ลอการิทึมเป็นการแปลงที่เป็นไปได้ทั่วไป
ระยะทางเมทริกซ์ที่คำนวณด้วย Bray-Curtis มักจะไม่ได้เป็นตัวชี้วัดสำหรับข้อมูลบางอย่างซึ่งก่อให้เกิดค่าลักษณะเฉพาะเชิงลบ หนึ่งในวิธีการแก้ไขปัญหานี้คือการแปลง (ลอการิทึม, สแควร์รูทหรือสแควร์รูทคู่)