สิ่งนั้นเป็นความสัมพันธ์ถ่วงน้ำหนัก?


14

ฉันมีข้อมูลที่น่าสนใจเกี่ยวกับศิลปินทางดนตรีที่ได้รับความนิยมมากที่สุดที่ถูกสตรีมแบ่งออกเป็นส่วน ๆ ตามที่ตั้งไว้ในเขตรัฐสภาประมาณ 200 แห่ง ฉันต้องการดูว่าเป็นไปได้หรือไม่ที่จะสำรวจความคิดเห็นของบุคคลตามความชอบทางดนตรีของเขาหรือเธอและพิจารณาว่าเขาหรือเธอ "ฟังเหมือนประชาธิปไตย" หรือ "ฟังเหมือนรีพับลิกัน" (โดยธรรมชาตินี่คือใจที่อ่อน แต่มีเอนโทรปีที่แท้จริงในข้อมูล!)

ฉันมีข้อมูลเกี่ยวกับศิลปินประมาณ 100 คนบวกกับคะแนนโหวตเฉลี่ยสำหรับพรรครีพับลิกันและเดโมแครตในแต่ละเขตในรอบการเลือกตั้งสามรอบที่ผ่านมา ดังนั้นฉันจึงมีความสัมพันธ์กับศิลปินแต่ละคนเพื่อดูว่าศิลปินคนไหนที่ฟังอย่างไม่เป็นสัดส่วนมากที่สุดเพื่อเป็นฟังก์ชั่นการแบ่งปันการโหวตให้กับพรรคเดโมแครต ความสัมพันธ์เหล่านั้นเริ่มต้นที่ประมาณ -0.3 ถึง 0.3 สำหรับศิลปินที่กำหนดมีจำนวนมากตรงกลางที่มีพลังในการทำนายน้อยหรือไม่มีเลย

ฉันมีสองคำถาม: อันดับแรกจำนวนสตรีมโดยรวมต่ออำเภอแตกต่างกันอย่างกว้างขวาง ตอนนี้ฉันมีความสัมพันธ์ร้อยละของสตรีมทั้งหมดต่อเขตที่เป็นของพูดบียอนเซ่กับเปอร์เซ็นต์ของคะแนนโหวตสำหรับพรรคเดโมแครต แต่สตรีมทั้งหมดในหนึ่งอำเภออาจเป็นล้านในขณะที่อีกสตรีนอยู่ในระดับต่ำ 100,000 ฉันจำเป็นต้องคำนึงถึงความสัมพันธ์กับสิ่งนี้หรือไม่?

ประการที่สองฉันสงสัยว่าจะรวมความสัมพันธ์เหล่านี้เข้ากับการคาดเดาแบบรวมกับการเมืองของผู้ใช้ได้อย่างไร สมมติว่าฉันใช้ศิลปินทั้ง 20 คนที่มีค่าสหสัมพันธ์สูงสุด (บวกและลบ) สิบคนในแต่ละทิศทางและสำรวจผู้ใช้ว่าเขาหรือเธอชอบศิลปินแต่ละคนมากแค่ไหน ดังนั้นฉันจึงได้คะแนนโหวตขึ้นหรือลงของศิลปินแต่ละคนบวกกับความสัมพันธ์กับการเมืองสำหรับค่านิยมทั้ง 20 นี้ มีวิธีมาตรฐานในการรวมสหสัมพันธ์เหล่านี้เป็นค่าประมาณเดียวหรือไม่? (ฉันกำลังคิดบางอย่างเช่นแบบทดสอบภาษาถิ่นที่มีชื่อเสียงของ NYTimes ซึ่งรวมความน่าจะเป็นระดับภูมิภาคเข้ากับคำถาม 25 ข้อในแผนที่ความร้อน แต่ในกรณีนี้ฉันแค่ต้องการค่าเดียวกับรสนิยมทางดนตรีของพรรครีพับลิกันหรือพรรครีพับลิกัน

ขอขอบคุณ!

คำตอบ:


25

สูตรสำหรับความสัมพันธ์เพียร์สันถ่วงน้ำหนักสามารถพบได้ง่ายบนเว็บ , StackOverflowและวิกิพีเดียและจะดำเนินการในแพคเกจ R หลายเช่นโรคจิตหรือน้ำหนักและในหลามstatsmodelsแพคเกจ จะมีการคำนวณเช่นความสัมพันธ์ปกติ แต่กับการใช้วิธีถ่วงน้ำหนัก ,

mX=iwixiiwi,    mY=iwiyiiwi

ความแปรปรวนถ่วงน้ำหนัก ,

sX=iwi(ximX)2iwi,    sY=iwi(yimY)2iwi

และความแปรปรวนร่วมแบบถ่วงน้ำหนัก

sXY=iwi(ximX)(yimY)iwi

มีทั้งหมดนี้คุณสามารถคำนวณความสัมพันธ์ถ่วงน้ำหนักได้อย่างง่ายดาย

ρXY=sXYsXsY

ตามที่เกี่ยวกับคำถามที่สองของคุณตามที่ฉันเข้าใจคุณจะมีข้อมูลเกี่ยวกับความสัมพันธ์ระหว่างการวางแนวทางการเมืองและการตั้งค่าสำหรับศิลปินยี่สิบคนและผู้ใช้คำตอบแบบทวิภาคเกี่ยวกับการตั้งค่าของเขา / เธอและคุณต้องการวัดผลโดยรวม

z

ρ¯=tanh1(j=1Ktanh(ρj)K)

โดยทั่วไปการแทนเจนต์ของสัมประสิทธิ์สหสัมพันธ์ "แบน" ค่าสุดขีด (ดูด้านล่าง) ดังนั้นพวกเขาจึงมีอิทธิพลต่ำกว่าการประเมินขั้นสุดท้ายและทำให้การกระจายของพวกเขาใกล้เคียงปกติ ขั้นตอนนี้ได้รับการอธิบายโดย Bushman และ Wang (1995) และ Corey, Dunlap และ Burke (1998)

ป้อนคำอธิบายรูปภาพที่นี่

r=cor(X,Y)r=cor(X,Y)=cor(X,Y)

rjjxijijxij=1xij=1

r¯i=tanh1(j=1Ktanh(rjxij)K)

11

แต่...

คุณไม่คิดว่าทั้งหมดนี้เป็นสิ่งที่เกินความจริงสำหรับบางสิ่งที่เป็นปัญหาการถดถอยหลายครั้งหรือไม่? แทนการถ่วงน้ำหนักและค่าเฉลี่ยทั้งหมดคุณสามารถใช้การถดถอยหลายแบบถ่วงน้ำหนักแบบเชิงเส้น (เชิงเส้นหรือโลจิสติกขึ้นอยู่กับว่าคุณทำนายการกำหนดค่าตามความชอบของไบนารีหรือการกำหนดระดับปิดในทิศทางใดทิศทางหนึ่ง) คุณจะใช้ความชอบด้านดนตรีสำหรับศิลปินแต่ละคนเป็นตัวทำนาย ในที่สุดคุณจะใช้การตั้งค่าของผู้ใช้ในการคาดการณ์ วิธีนี้ง่ายและสง่างามทางสถิติมากขึ้น นอกจากนี้ยังใช้กับญาติAB


Bushman, BJ, & Wang, MC (1995) ขั้นตอนการรวมสัมประสิทธิ์สหสัมพันธ์ตัวอย่างและการนับคะแนนเพื่อให้ได้ค่าประมาณและช่วงความเชื่อมั่นสำหรับสัมประสิทธิ์สหสัมพันธ์ของประชากร กระดานข่าวทางจิตวิทยา, 117 (3), 530

Corey, DM, Dunlap, WP, และ Burke, MJ (1998) ค่าเฉลี่ยสหสัมพันธ์: ค่าที่คาดหวังและอคติในการรวมเพียร์สันอาร์เอสและการแปลง z ของฟิชเชอร์, วารสารจิตวิทยาทั่วไป, 125 (3), 245-261


ขอขอบคุณ! สิ่งนี้ช่วยได้อย่างมาก จะให้รางวัลเมื่อได้รับรางวัลในวันนี้
Chris Wilson

xผมYผม

1
@ Karatch ฉันไม่เคยเห็นสูตรดังกล่าว นี่ถือว่าเป็นคำถามที่น่าถาม
ทิม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.