ความสัมพันธ์ระหว่างหมวดหมู่ระหว่างตัวแปรระบุแน่ชัด


9

ฉันมีชุดข้อมูลที่มีตัวแปรระบุหมวดหมู่สองชุด ฉันต้องการทราบว่า (และวิธี) ฉันสามารถระบุความสัมพันธ์ที่เป็นไปได้ระหว่างหมวดหมู่จากตัวแปรทั้งสองนี้หรือไม่

กล่าวอีกนัยหนึ่งไม่ว่าตัวอย่างเช่นผลลัพธ์ของหมวดหมู่ i ในตัวแปร 1 แสดงความสัมพันธ์ที่ดีกับหมวดหมู่เฉพาะ j ในตัวแปร 2 เนื่องจากฉันมีสองตัวแปรที่มี 5 หมวดหมู่การวิเคราะห์สหสัมพันธ์ทั้งหมดสำหรับหมวดหมู่ทั้งหมดจะลดลงถึง 25 ผลลัพธ์ (อย่างน้อยถ้ามันทำงานตามที่ฉันหวัง / คาดหวังว่ามันจะทำงาน)

ฉันได้พยายามกำหนดปัญหาให้เป็นคำถามที่เป็นรูปธรรม:

คำถามที่ 1: สมมติว่าฉันโอนตัวแปรเด็ดขาดเป็นตัวแปรดัมมี่ 5 ตัวต่อค่า (หมวดหมู่) ขั้นตอนเดียวกันนี้ฉันใช้สำหรับตัวแปรที่สองเช่นกัน จากนั้นฉันต้องการหาความสัมพันธ์ระหว่าง dummy 1.i และ 2.i (ตัวอย่าง) มันถูกต้องทางสถิติหรือไม่ที่ฉันจะดำเนินการตามขั้นตอนนี้ด้วยวิธีการของสัมประสิทธิ์สหสัมพันธ์สามัญ? สัมประสิทธิ์สหสัมพันธ์ที่เกิดจากขั้นตอนนี้ให้ข้อมูลเชิงลึกที่เหมาะสมในความสัมพันธ์ระหว่างตัวแปรจำลองทั้งสองหรือไม่?

คำถามที่ 2: หากกระบวนการที่อธิบายไว้ในคำถามที่หนึ่งเป็นกระบวนการที่ถูกต้องมีวิธีดำเนินการวิเคราะห์นี้สำหรับทุกหมวดหมู่ของ 2 (หรืออาจมากกว่า) ตัวแปรระบุหมวดหมู่ทั้งหมดในครั้งเดียวหรือไม่?

โปรแกรมที่ฉันใช้คือ SPSS (20)


คะแนนที่ @Michael Mayer นำไปใช้กับคำถามที่แก้ไขแล้ว
Nick Cox

1
หากตัวแปรสองตัวไม่สัมพันธ์กันคุณจะมี 1/25 ในทุก ๆ เซลล์ของเมทริกซ์ 5x5 ของความถี่ ดังนั้นχ2 สถิติ xy(OE)2Eที่ไหน E=xyOxy/25 และ Oxy- ความถี่ที่สังเกตได้สำหรับ 5 ค่าใด ๆ ของตัวแปรสองตัวควรเหมาะสม
Aksakal

3
@ Aksakal "Not correlated" เป็นคำที่ผิดที่นี่; ตัวแปรเป็นค่าเล็กน้อยดังนั้นจึงไม่มีการกำหนดสหสัมพันธ์ ฉันคิดว่าคุณหมายถึงความเป็นอิสระ แต่ความเป็นอิสระไม่ได้หมายถึงความถี่ที่เท่ากันเช่นกัน ความถี่ของเซลล์ภายใต้ความเป็นอิสระขึ้นอยู่กับความถี่ส่วนเพิ่ม
Nick Cox

คำตอบ:


6

ความสัมพันธ์ "โฟกัส" ระหว่างหมวดหมู่ i ของตัวแปรและหมวดหมู่หนึ่งรายการ jอีกอันหนึ่งแสดงด้วยความถี่ตกค้างในเซลล์ijอย่างที่เรารู้ หากส่วนที่เหลือเป็น 0 ก็หมายความว่าความถี่เป็นสิ่งที่คาดหวังเมื่อตัวแปรสองตัวไม่ได้เชื่อมโยงกัน ยิ่งจำนวนตกค้างมากขึ้นก็ยิ่งมีความสัมพันธ์มากขึ้นเนื่องจากมีการรวมตัวกันมากเกินไปijในตัวอย่าง ส่วนที่เหลือเชิงลบที่มีขนาดใหญ่พอ ๆ กันพูดถึงชุดค่าผสมที่มีค่าต่ำกว่า ดังนั้นความถี่ที่เหลือคือสิ่งที่คุณต้องการ

ส่วนที่เหลือดิบไม่เหมาะสมเพราะพวกเขาขึ้นอยู่กับผลรวมเล็กน้อยและผลรวมโดยรวมและขนาดตาราง: ค่าไม่ได้มาตรฐานในทางใดทางหนึ่ง แต่ SPSS สามารถแสดงค่ามาตรฐานที่เหลือซึ่งคุณเรียกว่าเพียร์สัน St. residual คือส่วนที่เหลือหารด้วยค่าประมาณของส่วนเบี่ยงเบนมาตรฐาน (เท่ากับรากที่สองของค่าที่คาดหวัง) เซนต์ส่วนที่เหลือของตารางมีค่าเฉลี่ย 0 และเซนต์ dev 1; ดังนั้นเซนต์ ส่วนที่เหลือทำหน้าที่ค่า z เช่น z-value ในการแจกแจงตัวแปรเชิงปริมาณ (ที่จริงแล้วมันคือ z ในการแจกแจงปัวซอง) ส่วนที่เหลือของเซนต์จะเปรียบเทียบระหว่างตารางที่แตกต่างกันที่มีขนาดเท่ากันและยอดรวมที่เท่ากันN. สถิติไคสแควร์ของตารางฉุกเฉินคือผลรวมของกำลังสอง ที่เหลืออยู่ในนั้น เปรียบเทียบ st. ส่วนที่เหลือในตารางและในตารางที่มีปริมาตรเท่ากันจะช่วยระบุเซลล์เฉพาะที่มีส่วนร่วมในสถิติไคสแควร์มากที่สุด

SPSS ยังแสดงส่วนที่เหลือที่ปรับแล้ว (= ส่วนที่เหลือมาตรฐานที่ปรับแล้ว) Adj residual คือค่าที่เหลือหารด้วยค่าประมาณของข้อผิดพลาดมาตรฐาน adj ที่น่าสนใจ ส่วนที่เหลือเท่ากับNrijที่ไหน N คือผลรวมที่ยิ่งใหญ่และ rijคือความสัมพันธ์แบบเพียร์สัน(นามแฝงความสัมพันธ์พี) ระหว่างตัวแปรจำลองที่สอดคล้องกับหมวดหมู่i และ jของตัวแปรที่กำหนดสองรายการ นี้rเป็นสิ่งที่คุณพูดว่าคุณต้องการคำนวณ Adj ส่วนที่เหลือเกี่ยวข้องโดยตรงกับมัน

ไม่เหมือนเซนต์ adj. ที่เหลือ ส่วนที่เหลือยังเป็นมาตรฐาน wrt กับรูปร่างของการแจกแจงร่อแร่ในตาราง (โดยคำนึงถึงความถี่ที่คาดหวังไม่เพียง แต่ในเซลล์นั้น แต่ยังอยู่ในเซลล์นอกแถวและคอลัมน์) และเพื่อให้คุณสามารถเห็นความแข็งแรงของ ผูกระหว่างหมวดหมู่i และ j- โดยไม่ต้องกังวลว่ายอดรวมทั้งหมดของพวกเขาจะเล็กหรือใหญ่เมื่อเทียบกับหมวดหมู่อื่น ' Adj ส่วนที่เหลือก็เป็นเหมือนคะแนน z แต่ตอนนี้มันก็เหมือนการกระจาย z ปกติ (ไม่ใช่ปัวซอง) ถ้า adj. ที่เหลืออยู่สูงกว่า 2 หรือต่ำกว่า -2 คุณอาจสรุปได้ว่ามันมีนัยสำคัญที่p<0.05ระดับ1. Adj ส่วนที่เหลือยังคงได้รับผลกระทบจากN; rไม่ใช่ แต่คุณสามารถได้รับทั้งหมด rs จาก adj ส่วนที่เหลือตามสูตรข้างต้นโดยไม่ต้องใช้เวลาในการสร้างตัวแปรจำลอง2

สำหรับคำถามที่สองของคุณความสัมพันธ์ของหมวดหมู่แบบ 3 ทาง - เป็นไปได้ว่าเป็นส่วนหนึ่งของการวิเคราะห์บันทึกทั่วไปซึ่งแสดงส่วนที่เหลือ อย่างไรก็ตามการใช้ประโยชน์จากเซลล์ตกค้างแบบสามทางใช้ประโยชน์ได้จริง: 3 (+) - มาตรการการเชื่อมโยงแบบทางนั้นไม่ได้มาตรฐานอย่างง่ายดายและไม่สามารถตีความได้ง่าย


1ในเซนต์ โค้งปกติ1.962 คือจุดตัดของหาง 2.5% ดังนั้น 5% หากคุณพิจารณาทั้งสองก้อยเหมือนกับสมมติฐานทางเลือก 2 ด้าน

2 มันตามมาว่าความสำคัญของการตกค้างที่ปรับในเซลล์ ij เท่ากับความสำคัญของ rij. นอกจากนี้หากมีเพียง 2 คอลัมน์ในตารางและคุณกำลังทำการทดสอบ z ของสัดส่วนระหว่างPr(i,1) และ Pr(i,2), สัดส่วนคอลัมน์สำหรับแถว ip-value ของการทดสอบนั้นเท่ากับความสำคัญของ adj สิ่งตกค้างในแถวi ของตาราง 2 คอลัมน์


1

นำโดยตรงจากเอกสารเกี่ยวกับสถิติที่แปรปรวนด้วย SPSS ที่อาศัยอยู่ที่นี่ :

Chi-squareเป็นเทคนิคที่มีประโยชน์เพราะคุณสามารถใช้เพื่อดูว่ามีความสัมพันธ์ระหว่างตัวแปรลำดับสองตัวหรือไม่, ตัวแปรสองรายการหรือระหว่างลำดับและตัวแปรที่กำหนด คุณมองไปที่ assymp คอลัมน์ Sig และถ้าน้อยกว่า. 05 ความสัมพันธ์ระหว่างตัวแปรทั้งสองมีนัยสำคัญทางสถิติ


4
ตกลง แต่สามคำรามหนึ่งที่สำคัญสองน้อยมาก Chi-square บนตัวแปรลำดับสองตัวจะละเว้นการเรียงลำดับ นี้ไม่ได้เป็นเอกสาร SPSS แต่การแนะนำประถมโดยคนอื่นและพวกเขามากกว่าลดความซับซ้อนดังกล่าวเป็นเพียงแค่ พวกเขาไม่ได้คัดลอก "Asymp" ถูกต้อง (ตัวอย่างในหน้าก่อนหน้า) ปัญหาที่ใหญ่กว่าสำหรับ OP คือความสัมพันธ์นั้นเป็นคำที่ผิดที่นี่: "การเชื่อมโยง" เป็นคำสำคัญในแง่ของการวัดการทดสอบและ (ที่ดีที่สุด) การสร้างแบบจำลองการเชื่อมโยง
Nick Cox

1
ขอบคุณฉันแก้ไขthe SPSS documentบิตมันไม่ได้เป็นความตั้งใจของฉันที่จะแนบความถูกต้องไม่เหมาะกับมัน
Zhubarb
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.