เราวัดตัวแปรได้สองตัวและ scatterplot ดูเหมือนว่าจะแนะนำโมเดล "เชิงเส้น" หลายอัน มีวิธีการกลั่นโมเดลเหล่านี้หรือไม่? การระบุตัวแปรอิสระอื่น ๆ กลายเป็นเรื่องยาก
ตัวแปรทั้งสองมีความเบ้ซ้ายอย่างหนัก (ต่อจำนวนน้อย) นี่เป็นการกระจายที่คาดหวังในโดเมนของเรา ความเข้มของจุดหมายถึงจำนวนเงินของจุดข้อมูล (บนขนาด) นี้y> < x , y >
อีกวิธีหนึ่งมีวิธีการจัดกลุ่มคะแนนหรือไม่
ในสาขาของเรามันจะอ้างว่าตัวแปรทั้งสองเหล่านี้มีความสัมพันธ์เชิงเส้น เราพยายามที่จะเข้าใจ / อธิบายว่าทำไมข้อมูลของเราถึงไม่เป็นเช่นนั้น
(หมายเหตุเรามี 17M data points)
ปรับปรุง:ขอบคุณสำหรับคำตอบทั้งหมดต่อไปนี้เป็นคำชี้แจงที่ขอ:
- ตัวแปรทั้งสองเป็นจำนวนเต็มเท่านั้นซึ่งจะอธิบายรูปแบบบางอย่างใน scatterplot ของบันทึก
- โชคดีที่ตามนิยามแล้วค่าต่ำสุดของตัวแปรทั้งสองคือ 1
- คะแนน 7M อยู่ที่ ("อธิบาย" โดยความเบ้ซ้ายของข้อมูล)
นี่คือแปลงที่ร้องขอ:
บันทึกการกระจายล็อก:
(ช่องว่างเกิดจากค่าจำนวนเต็ม)
ขั้วโลกล็อก - ล็อก:
ฮิสโตแกรมของอัตราส่วน:
ความถี่อยู่ในระดับล็อกเนื่องจากแถบคือ 7M จุดและจะซ่อนแถบอื่น