การมีความสัมพันธ์ก่อนหรือหลังการเปลี่ยนแปลงของตัวแปร


9

มีหลักการทั่วไปหรือไม่ว่าควรจะคำนวณความสัมพันธ์ของเพียร์สันสำหรับตัวแปรสุ่มสองตัว X และ Y ก่อนที่จะทำการแปลงท่อนหรือไม่? มีขั้นตอนการทดสอบที่เหมาะสมกว่าหรือไม่ พวกมันให้ผลเหมือนกัน แต่มีค่าต่างกันเนื่องจากการแปลงไฟล์เป็นแบบไม่เป็นเชิงเส้น มันขึ้นอยู่กับว่า X หรือ Y ใกล้เคียงกับมาตรฐานหลังจากบันทึกหรือไม่? ถ้าเป็นเช่นนั้นทำไมมันถึงสำคัญ? และนั่นหมายความว่าเราควรทำการทดสอบ normality บน X และ Y กับ log (X) และ log (Y) และขึ้นอยู่กับการตัดสินใจว่า pearson (x, y) เหมาะสมกว่า pearson (log (x), log (หรือไม่) y))?


@vinux มีคำตอบที่ดีและให้การเชื่อมโยงข้อมูลสำหรับการทำความเข้าใจบทบาทของภาวะปกติในความสัมพันธ์ ฉันแค่อยากจะชี้ไปที่คำถามนี้: stats.stackexchange.com/questions/298ซึ่งดีมากสำหรับการทำความเข้าใจว่าบันทึกทำอะไรในการถดถอย
gung - Reinstate Monica

คำตอบ:


5

เพราะ log(X) และ log(Y) เป็นการแปลงข้อมูลแบบโมโนโทนิก X และ Yคุณอาจเลือกใช้สหสัมพันธ์อันดับของ Spearman (ρS) และไม่ต้องกังวลกับการเปลี่ยนแปลงข้อมูลของคุณตามที่คุณจะได้รับ ρS(X,Y)=ρS(log(X),log(Y))


4

สหสัมพันธ์ (เพียร์สัน) วัดความสัมพันธ์เชิงเส้นระหว่างตัวแปรต่อเนื่องสองตัว ไม่มีตัวเลือกดังกล่าวสำหรับ (X, Y) หรือ (log X, log Y) พล็อตแบบกระจายของตัวแปรสามารถใช้เพื่อทำความเข้าใจความสัมพันธ์

ลิงค์ต่อไปนี้อาจตอบคำถามเกี่ยวกับปัญหาปกติ ลิงค์


-3

ความสัมพันธ์แบบเพียร์สันนั้นใช้สำหรับการทดสอบแบบพารามิเตอร์และมีประสิทธิภาพมากกว่าการทดสอบแบบไม่แบบเส้นรอบวง ดังนั้นเราเลือกที่จะใช้การแปลงก่อนขั้นตอนใด ๆ ที่ไม่ใช่พารามิเตอร์ แปลงข้อมูลของคุณและรับความสัมพันธ์กับลูกแพร์ แค่นั้นแหละ.


@ abi: สัมประสิทธิ์ของ Spearman และ Kendall นั้นมีความคล้ายคลึงกันในแง่ของพลังงานและ MSE กับ Pearson's ที่มีการกระจายข้อมูลตามปกติและเหนือกว่าด้วยการปนเปื้อนของข้อมูลเพียงเล็กน้อย
แพทริค
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.