อนุญาตให้ใช้ค่าเฉลี่ยในชุดข้อมูลเพื่อปรับปรุงความสัมพันธ์ได้หรือไม่


9

ฉันมีชุดข้อมูลที่มีตัวแปรตามและตัวแปรอิสระ ทั้งคู่ไม่ใช่อนุกรมเวลา ฉันมี 120 ข้อสังเกต ค่าสัมประสิทธิ์สหสัมพันธ์เท่ากับ 0.43

หลังจากการคำนวณนี้ฉันได้เพิ่มคอลัมน์สำหรับตัวแปรทั้งสองโดยมีค่าเฉลี่ยสำหรับการสังเกตทุก 12 ครั้งทำให้เกิดคอลัมน์ใหม่ 2 คอลัมน์ที่มีการสังเกต 108 ครั้ง (คู่) ค่าสัมประสิทธิ์สหสัมพันธ์ของคอลัมน์เหล่านี้คือ 0.77

ดูเหมือนว่าฉันจะปรับปรุงความสัมพันธ์ในลักษณะนี้ อนุญาตให้ทำเช่นนี้หรือไม่ ฉันเพิ่มอำนาจการอธิบายของตัวแปรอิสระโดยใช้ค่าเฉลี่ยหรือไม่


4
สิ่งที่คุณทำคือเรียกใช้ข้อมูลผ่านตัวกรองที่ปรับให้เรียบ ทำสิ่งนี้ตลอดเวลาในการประมวลผลสัญญาณและเป็นที่ยอมรับอย่างสมบูรณ์และมักจะต้องใช้ก่อนที่ข้อมูลจะใช้งานได้ มันกำจัดเสียงรบกวนซึ่งมักจะแพร่หลายในการวัดทางอิเล็กทรอนิกส์ อย่างไรก็ตามไม่ว่าจะเป็นที่ยอมรับได้สำหรับปัญหาเฉพาะของคุณหรือไม่นั้นขึ้นอยู่กับลักษณะเฉพาะของสิ่งที่คุณพยายามที่จะประสบความสำเร็จและอาจเป็นไปได้มากว่า "เสียง" กับ "คุณภาพ" นั้นมีอยู่ในข้อมูลของคุณหรือไม่ ฉันเพิ่งสังเกตเห็น "ทั้งคู่ไม่ใช่อนุกรมเวลา" ดังนั้นฉันจึงสงสัยว่าสิ่งที่คุณทำนั้นไม่มีความหมายเพราะการเปลี่ยนคำสั่งเปลี่ยนผลลัพธ์ที่ได้รับผล
Dunk

ขอบคุณทุกคน. ตัวแปรตามของฉันคือผลการค้นหารายเดือนของระบบเดิมพัน (ผลลัพธ์เหล่านี้ไม่เกี่ยวข้อง) ตัวแปรอิสระคือผลลัพธ์ของตัวบ่งชี้ที่ฉันสร้าง ตัวบ่งชี้นี้สร้างคะแนนเกี่ยวกับคะแนนของการแข่งขันกีฬามากที่สุดในเดือนใดเดือนหนึ่ง (การแข่งขันกีฬาเหล่านี้ไม่เกี่ยวข้อง) ฉันสงสัยว่าสิ่งที่ฉันทำไม่มีความหมายถึงแม้ว่ามันจะทำให้ฉันประหลาดใจว่าค่าสัมประสิทธิ์สหสัมพันธ์ดีขึ้นมาก
user2165379

2
ฉันไม่แน่ใจ แต่ฉันคิดว่าค่าเฉลี่ยข้อมูลใด ๆ จะให้ผลลัพธ์ที่คล้ายกัน ฉันคิดว่าค่าเฉลี่ยจะลดผลกระทบของค่าผิดปกติ ดังนั้นความสัมพันธ์จะต้องปรับปรุง แม้ว่าฉันจะพนันได้เลยว่านักคณิตศาสตร์บางคนสามารถสร้างข้อมูลที่ได้รับการคัดสรรมาเป็นอย่างดีซึ่งจะทำให้เกิดผลตรงกันข้าม แต่ฉันไม่คาดหวังว่าข้อมูลดังกล่าวจะเกิดขึ้นในโลกแห่งความเป็นจริง
Dunk

ฉันไม่สามารถดูว่าคุณระบุว่าข้อมูลนี้มีไว้เพื่ออะไร อย่างไรก็ตามโดยทั่วไปเมื่อนำเสนอข้อมูลของคุณไปยังผู้ชมที่คุณระบุการเปิดเผยข้อมูลเกี่ยวกับวิธีการรับข้อมูลนั้นเป็นวิธีปฏิบัติที่ดี
Jon Milliken

3
ความสัมพันธ์ของค่าเฉลี่ยที่ตั้งใจจะเป็นตัวแทนคืออะไร? แน่นอนว่ามันไม่ได้เป็นการประมาณค่าที่เหมาะสมของความสัมพันธ์ระหว่างตัวแปรดั้งเดิมอีกต่อไป
Glen_b -Reinstate Monica

คำตอบ:


15

ลองดูเวกเตอร์สองตัวก่อน

    2 6 2 6 2 6 2 6 2 6 2 6

และเวกเตอร์ตัวที่สองเป็น

   6 2 6 2 6 2 6 2 6 2 6 2

การคำนวณสหสัมพันธ์ของเพียร์สันที่คุณจะได้รับ

cor(a,b)
[1] -1

อย่างไรก็ตามถ้าคุณใช้ค่าเฉลี่ยของคู่ต่อเนื่องสำหรับค่าเวกเตอร์ทั้งคู่จะเหมือนกัน เวกเตอร์ที่เหมือนกันมีความสัมพันธ์ 1.

  4 4 4 4 4 4  

ตัวอย่างง่ายๆนี้แสดงข้อเสียของวิธีการของคุณ

แก้ไข : อธิบายเพิ่มเติมโดยทั่วไป: คำนวณสัมประสิทธิ์สหสัมพันธ์ด้วยวิธีต่อไปนี้

E[(XμX)(YμY)]σX σY

เฉลี่ยบางและบาง s เปลี่ยนแปลงความแตกต่างระหว่างและเช่นเดียวกับความแตกต่างระหว่างและ\XYXμXYμY


1
ฉันได้เพิ่มมาร์กอัปแล้ว แต่คุณสามารถและควรนิยามและคำศัพท์อย่างชัดเจน μσ
Nick Cox

ขอบคุณ. นี่หมายความว่าผลลัพธ์ของฉัน 'เกินจริง' ของความภูมิใจโดยใช้ค่าเฉลี่ยและจะดีกว่าเสมอหากใช้การสังเกตโดยไม่เฉลี่ย
user2165379

สำหรับการทดสอบสมมติฐานคุณควรดูข้อมูลเองไม่ใช่ค่าเฉลี่ย สถิติเชิงพรรณนาในโดเมนอื่นอาจเป็นเครื่องมือที่มีประโยชน์ คุณควรดูที่สถิติเชิงพรรณนาอื่น ๆ เช่น quantiles (โดยเฉพาะค่ามัธยฐาน) และช่วงเวลาที่สูงขึ้น (รวมศูนย์) เช่นความแปรปรวนความเบ้และความโด่ง อย่างไรก็ตามในกรณีของเราสิ่งนี้ไม่เป็นประโยชน์ เวกเตอร์aและbมีปริมาณเท่ากันช่วงเวลาเดียวกันและช่วงเวลารวมศูนย์เดียวกัน
Ferdi

1
การหาค่าเฉลี่ยมีแนวโน้มที่จะเพิ่มความสัมพันธ์โดยการกระจายการกระจายกึ่งสุ่ม
Nick Cox

ขอบคุณ. ดังนั้นถ้าค่าเฉลี่ยมีแนวโน้มที่จะเพิ่มค่าสหสัมพันธ์โดยทั่วไปนี่ก็หมายความว่ามันไม่ได้ปรับปรุงหรือไม่ หรือเป็นการปรับปรุงเนื่องจากการกระจายแบบสุ่มเสมือนถูกลบออก?
user2165379

10

การหาค่าเฉลี่ยนั้นน่าดึงดูดหรือสะดวก นอกจากนี้ยังสามารถเป็นแหล่งของการหลอกลวงที่หลอกลวงที่เลวร้ายที่สุดดังนั้นเหยียบอย่างระมัดระวังแม้ว่าจะมีเหตุผลที่ชัดเจนสำหรับค่าเฉลี่ย

นี่คือสถานการณ์ที่ไม่เป็นความคิดที่ดี พิจารณาว่าด้วยคำจำกัดความที่รอบคอบของกลุ่มคุณ (โดยปกติ) สามารถลดข้อมูลของคุณเป็นสองจุดสรุปแต่ละจุดแตกต่างกันในตัวแปรทั้งสอง และจากนั้นคุณจะบรรลุความสัมพันธ์ที่สมบูรณ์แบบที่มีขนาด1ขอแสดงความยินดีด้วยหรือไม่! การปรับปรุงที่นี่เป็นของปลอมโดยไม่มีเหตุผลที่ดีสำหรับกระบวนการนี้ คุณไม่จำเป็นต้องเข้าใกล้กรณีสุดโต่งนี้เพื่อเข้าใกล้อันตราย1

มีบางสถานการณ์ที่การหาค่าเฉลี่ยสามารถสมเหตุสมผลได้ ตัวอย่างเช่นหากการเปลี่ยนแปลงตามฤดูกาลมีความสนใจเพียงเล็กน้อยหรือไม่มีเลยการเฉลี่ยเป็นค่ารายปีจะสร้างชุดข้อมูลที่ลดลงซึ่งคุณสามารถมุ่งเน้นไปที่ค่ารายปีเหล่านั้น

ในสาขาต่าง ๆ นักวิจัยอาจสนใจสหสัมพันธ์ในระดับที่ค่อนข้างแตกต่างกันเช่นระหว่างการว่างงานและอาชญากรรมสำหรับบุคคลมณฑลประเทศสหรัฐอเมริกาประเทศ (แทนที่คำใดก็ตามที่เหมาะสมที่สุด)

ความสนใจและมักเป็นสาเหตุสำคัญของปัญหาการอนุมานคือการตีความสิ่งที่เกิดขึ้นในระดับหรือระดับที่แตกต่างกัน ตัวอย่างเช่นความสัมพันธ์ที่สูงระหว่างอัตราการว่างงานและอัตราการเกิดอาชญากรรมสำหรับพื้นที่ไม่ได้แปลว่าการว่างงานมีแนวโน้มสูงที่จะเป็นอาชญากร คุณต้องการข้อมูลเกี่ยวกับบุคคลเพื่อให้ชัดเจนในเรื่องนั้น การจัดเตรียมข้อมูลสามารถทำได้อย่างง่ายดายมากในข้อมูลที่มีอยู่ในระดับที่น่าสนใจน้อยที่สุดซึ่งอาจเป็นเรื่องของเศรษฐกิจหรือการรักษาความลับ

ฉันยังทราบด้วยว่าการวัดจำนวนมากอยู่ในสถานที่แรกมักจะเฉลี่ยในช่วงเวลาเล็ก ๆ และ / หรือพื้นที่ขนาดเล็กดังนั้นข้อมูลมักจะมาถึงค่าเฉลี่ยในทุกกรณี


3
ฉันก้อง @ Ferdi คำตอบในการขีดเส้นใต้ที่สามารถมีค่าเฉลี่ยหลายวิธี สิ่งนี้สร้างแหล่งที่มาของความไม่แน่นอนเพิ่มเติม ความยากลำบากจะรุนแรงโดยเฉพาะอย่างยิ่งในการรวมพื้นที่ขนาดเล็กถึงใหญ่
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.