ทำไมความสัมพันธ์จึงไม่เป็นประโยชน์เมื่อตัวแปรตัวใดตัวหนึ่งจัดอยู่ในหมวดหมู่?


14

นี่เป็นการตรวจสอบลำไส้เล็กน้อยโปรดช่วยฉันดูว่าฉันเข้าใจผิดแนวคิดนี้หรือไม่และในทางใด

ฉันมีความเข้าใจหน้าที่การใช้งานของความสัมพันธ์ แต่ฉันรู้สึกจับใจเล็กน้อยเพื่ออธิบายหลักการที่อยู่เบื้องหลังความเข้าใจการทำงานนั้นอย่างมั่นใจ

เมื่อฉันเข้าใจแล้วความสัมพันธ์เชิงสถิติ (เมื่อเทียบกับการใช้คำทั่วไปมากขึ้น) เป็นวิธีที่จะเข้าใจตัวแปรสองตัวต่อเนื่องและวิธีการที่พวกเขาทำหรือไม่มีแนวโน้มที่จะขึ้นหรือลงในลักษณะที่คล้ายกัน

เหตุผลที่คุณไม่สามารถเรียกใช้สหสัมพันธ์บนกล่าวคือหนึ่งตัวแปรต่อเนื่องและตัวแปรเด็ดขาดหนึ่งอันเนื่องจากคุณไม่สามารถคำนวณ ค่าความแปรปรวนร่วมระหว่างตัวแปรทั้งสองได้เนื่องจากตัวแปรหมวดหมู่ตามคำนิยามไม่สามารถให้ค่าเฉลี่ยได้ดังนั้นจึงไม่สามารถป้อนค่าแรกได้ ขั้นตอนของการวิเคราะห์ทางสถิติ

นั่นถูกต้องใช่ไหม?


2
ที่นี่มีการพิมพ์ขึ้นสไลด์การบรรยายจากชั้นเรียนผมสอนส่วนใหญ่จัดการกับประชากร (ไม่ใช่ตัวอย่าง) ความสัมพันธ์และความแปรปรวนpeople.virginia.edu/~trb5me/3120_slides/5/5.2/5.2.pdf
เทย์เลอร์

3
เหตุผลง่ายๆลองจินตนาการดูสิว่าคุณถามคนอื่นว่า "สีโปรดของคุณคืออะไร" และพวกเขาตอบว่า "สีแดง", "สีเขียว", "สีฟ้า", "สีส้ม", "สีเหลือง", ... , อะไรคือรหัสในชุดข้อมูลของคุณเป็น 1, 2, 3, ... ถัดไปคุณคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ระหว่าง ตัวแปรดังกล่าวมีความพึงพอใจในงานและรับค่า 0.21 มันหมายความว่าอะไร? คุณสามารถให้การใด ๆการตีความความหมาย?
ทิม

2
มีความเกี่ยวข้องกันอย่างใกล้ชิด (อาจจะซ้ำซ้อนกัน) - ความสัมพันธ์ระหว่างตัวแปร (IV) และตัวแปรต่อเนื่อง (DV)
Silverfish

@Taylor: เราใช้อะไรเมื่อทั้งสองตัวแปรเป็นแบบต่อเนื่อง / ตัวเลข แต่หนึ่งในนั้นคือสุ่มและอีกตัวหนึ่งไม่เช่นกรัมชั่วโมงที่เรียนเทียบกับ GPA
MSIS

คำตอบ:


16

ความสัมพันธ์เป็นมาตรฐานความแปรปรวนคือความแปรปรวนของxและYหารด้วยส่วนเบี่ยงเบนมาตรฐานของxและy ที่Yผมขออธิบายว่า

การพูดอย่างหลวม ๆ สถิติสามารถสรุปได้ว่าเป็นตัวแบบที่เหมาะสมกับข้อมูลและประเมินว่าตัวแบบอธิบายจุดข้อมูลเหล่านั้นได้ดีเพียงใด ( Outcome = Model + Error ) วิธีหนึ่งในการทำเช่นนั้นคือการคำนวณผลรวมของความเบี่ยงเบนหรือจำนวนคงเหลือ (res) จากแบบจำลอง:

Rอีs=Σ(xผม-x¯)

การคำนวณทางสถิติจำนวนมากขึ้นอยู่กับสิ่งนี้รวม ค่าสัมประสิทธิ์สหสัมพันธ์ (ดูด้านล่าง)

นี่คือตัวอย่างชุดข้อมูลที่ทำขึ้นR(ส่วนที่เหลือจะถูกระบุเป็นเส้นสีแดงและเพิ่มค่าของพวกเขาถัดจากพวกเขา):

X <- c(8,9,10,13,15)  
Y <- c(5,4,4,6,8)

ป้อนคำอธิบายรูปภาพที่นี่

โดยการดูที่จุดข้อมูลแต่ละจุดแยกกันและลบค่าออกจากแบบจำลอง (เช่นค่าเฉลี่ย; ในกรณีนี้X=11และY=5.4) ใครสามารถประเมินความแม่นยำของแบบจำลองได้ เราสามารถบอกได้ว่าแบบจำลองสูงเกินไป / ต่ำกว่าค่าจริง อย่างไรก็ตามเมื่อรวมค่าเบี่ยงเบนทั้งหมดจากตัวแบบข้อผิดพลาดทั้งหมดมีแนวโน้มที่จะเป็นศูนย์ค่าจะถูกยกเลิกซึ่งกันและกันเนื่องจากมีค่าบวก (ตัวแบบประเมินค่าต่ำกว่าจุดข้อมูลเฉพาะ) และค่าลบ จุด). ในการแก้ปัญหานี้ผลบวกของความเบี่ยงเบนจะถูกยกกำลังสองและตอนนี้เรียกว่าผลบวกของกำลังสอง ( SS ):

SS=Σ(xผม-x¯)(xผม-x¯)=Σ(xผม-x¯)2

n-1s2

s2=SSn-1=Σ(xผม-x¯)(xผม-x¯)n-1=Σ(xผม-x¯)2n-1

เพื่อความสะดวกสามารถใช้สแควร์รูทของความแปรปรวนตัวอย่างได้ซึ่งเรียกว่าค่าเบี่ยงเบนมาตรฐานตัวอย่าง:

s=s2=SSn-1=Σ(xผม-x¯)2n-1

ตอนนี้ความแปรปรวนร่วมประเมินว่าตัวแปรสองตัวนั้นเกี่ยวข้องกันหรือไม่ ค่าบวกบ่งชี้ว่าเมื่อตัวแปรหนึ่งเบี่ยงเบนจากค่าเฉลี่ยตัวแปรอื่น ๆ จะเบี่ยงเบนไปในทิศทางเดียวกัน

โอโวลต์x,Y=Σ(xผม-x¯)(Yผม-Y¯)n-1

R

r=covx,ysxsy=(x1x¯)(yiy¯)(n1)sxsy

r=0.87XY

ป้อนคำอธิบายรูปภาพที่นี่

เรื่องยาวสั้นใช่ความรู้สึกของคุณถูกต้อง แต่ฉันหวังว่าคำตอบของฉันสามารถให้บริบท


1
สิ่งนี้มีประโยชน์มาก - ในการพยายามทำความเข้าใจตัวเองให้ลึกซึ้งยิ่งขึ้นฉันคิดว่าฉันไม่สามารถอธิบายให้คนที่ไม่มีพื้นฐานในสถิติได้อย่างเพียงพอฉันไม่เข้าใจมันอย่างที่คิด
Toof

8

คุณถูก (เกือบ) ถูก ความแปรปรวนร่วม (และความสัมพันธ์ดังนั้นด้วย) สามารถคำนวณได้เฉพาะระหว่างตัวแปรที่เป็นตัวเลข นั่นรวมถึงตัวแปรต่อเนื่อง แต่ยังแยกตัวแปรตัวเลข

ตัวแปรหมวดหมู่สามารถนำมาใช้เพื่อคำนวณความสัมพันธ์เฉพาะเมื่อได้รับรหัสตัวเลขที่มีประโยชน์สำหรับพวกเขา แต่สิ่งนี้ไม่น่าจะเป็นข้อได้เปรียบในทางปฏิบัติ - บางทีมันอาจจะมีประโยชน์สำหรับตัวแปรเด็ดขาดสองระดับ แต่เครื่องมืออื่น ๆ


เพื่อเพิ่มจุดของค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันแสดงถึงระดับของความสัมพันธ์เชิงเส้นระหว่างตัวแปรทั้งสอง มาตรการอิงพารามิเตอร์เช่นโรสเปียร์แมนหรือสมบัติเอกภาพเคนดอลเท่าใดของแนวโน้มที่มีสำหรับ X และ Y เพื่อเพิ่มหรือลดด้วยกัน (ประพฤติในระดับหนึ่งเช่นมีความสัมพันธ์ต่อเนื่องว่าต้องไม่จำเป็นต้องเป็นเส้นตรง.
ไมเคิลอา Chernick

@Pere: เราจะใช้อะไรเมื่อเรามีตัวแปรต่อเนื่องสองตัว แต่มีเพียงหนึ่งในนั้นคือ Stochastic เช่นชั่วโมงที่ออกกำลังกายเทียบกับน้ำหนัก
MSIS

1
@MSIS - นั่นควรเป็นคำถามที่แตกต่างกัน แต่ความสัมพันธ์สามารถใช้แม้ว่าตัวแปรหนึ่งจะไม่สุ่ม
Pere

1
@Pere: ฉันถามในกรณีที่คุณสนใจ: stats.stackexchange.com/questions/435257//
MSIS

3

ไม่มีอะไรผิดปกติกับความสัมพันธ์ในการคำนวณที่หนึ่งในตัวแปรนั้นถูกจัดหมวดหมู่ ความสัมพันธ์เชิงบวกที่แข็งแกร่งจะบ่งบอกว่าการเปิดตัวแปรเด็ดขาดของคุณ (หรือปิดขึ้นอยู่กับการประชุมของคุณ) ทำให้การตอบสนองเพิ่มขึ้น ตัวอย่างเช่นสิ่งนี้อาจเกิดขึ้นได้เมื่อคำนวณการถดถอยโลจิสติกที่ตัวแปรมีการจัดหมวดหมู่: การทำนายโอกาสของโรคหัวใจวายที่ได้รับ comorbidities ผู้ป่วยเช่นโรคเบาหวานและ BMI ในกรณีนี้ค่าดัชนีมวลกายน่าจะมีความสัมพันธ์ที่ดีกับโรคหัวใจ คุณจะสรุปว่าไม่มีประโยชน์หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.