ความสัมพันธ์ระหว่างหมวดหมู่ระหว่างตัวแปรระบุแน่ชัด

9

ฉันมีชุดข้อมูลที่มีตัวแปรระบุหมวดหมู่สองชุด ฉันต้องการทราบว่า (และวิธี) ฉันสามารถระบุความสัมพันธ์ที่เป็นไปได้ระหว่างหมวดหมู่จากตัวแปรทั้งสองนี้หรือไม่

กล่าวอีกนัยหนึ่งไม่ว่าตัวอย่างเช่นผลลัพธ์ของหมวดหมู่ $i$ ในตัวแปร 1 แสดงความสัมพันธ์ที่ดีกับหมวดหมู่เฉพาะ $j$ ในตัวแปร 2 เนื่องจากฉันมีสองตัวแปรที่มี 5 หมวดหมู่การวิเคราะห์สหสัมพันธ์ทั้งหมดสำหรับหมวดหมู่ทั้งหมดจะลดลงถึง 25 ผลลัพธ์ (อย่างน้อยถ้ามันทำงานตามที่ฉันหวัง / คาดหวังว่ามันจะทำงาน)

ฉันได้พยายามกำหนดปัญหาให้เป็นคำถามที่เป็นรูปธรรม:

คำถามที่ 1: สมมติว่าฉันโอนตัวแปรเด็ดขาดเป็นตัวแปรดัมมี่ 5 ตัวต่อค่า (หมวดหมู่) ขั้นตอนเดียวกันนี้ฉันใช้สำหรับตัวแปรที่สองเช่นกัน จากนั้นฉันต้องการหาความสัมพันธ์ระหว่าง dummy 1.i และ 2.i (ตัวอย่าง) มันถูกต้องทางสถิติหรือไม่ที่ฉันจะดำเนินการตามขั้นตอนนี้ด้วยวิธีการของสัมประสิทธิ์สหสัมพันธ์สามัญ? สัมประสิทธิ์สหสัมพันธ์ที่เกิดจากขั้นตอนนี้ให้ข้อมูลเชิงลึกที่เหมาะสมในความสัมพันธ์ระหว่างตัวแปรจำลองทั้งสองหรือไม่?

คำถามที่ 2: หากกระบวนการที่อธิบายไว้ในคำถามที่หนึ่งเป็นกระบวนการที่ถูกต้องมีวิธีดำเนินการวิเคราะห์นี้สำหรับทุกหมวดหมู่ของ 2 (หรืออาจมากกว่า) ตัวแปรระบุหมวดหมู่ทั้งหมดในครั้งเดียวหรือไม่?

โปรแกรมที่ฉันใช้คือ SPSS (20)

— user32378
แหล่งที่มา

คะแนนที่ @Michael Mayer นำไปใช้กับคำถามที่แก้ไขแล้ว

— Nick Cox

1

หากตัวแปรสองตัวไม่สัมพันธ์กันคุณจะมี 1/25 ในทุก ๆ เซลล์ของเมทริกซ์ 5x5 ของความถี่ ดังนั้น

χ^{2}

$\chi^2$ สถิติ

\sum_{x y} \frac{(O - E)^{2}}{E}

$\sum_{xy}\frac{(O-E)^2}{E}$ ที่ไหน

E = \sum_{x y} O_{x y} / 25

$E=\sum_{xy}O_{xy}/25$ และ

O_{x y}

$O_{xy}$ - ความถี่ที่สังเกตได้สำหรับ 5 ค่าใด ๆ ของตัวแปรสองตัวควรเหมาะสม

— Aksakal

3

@ Aksakal "Not correlated" เป็นคำที่ผิดที่นี่; ตัวแปรเป็นค่าเล็กน้อยดังนั้นจึงไม่มีการกำหนดสหสัมพันธ์ ฉันคิดว่าคุณหมายถึงความเป็นอิสระ แต่ความเป็นอิสระไม่ได้หมายถึงความถี่ที่เท่ากันเช่นกัน ความถี่ของเซลล์ภายใต้ความเป็นอิสระขึ้นอยู่กับความถี่ส่วนเพิ่ม

— Nick Cox

6

ความสัมพันธ์ "โฟกัส" ระหว่างหมวดหมู่ $i$ ของตัวแปรและหมวดหมู่หนึ่งรายการ $j$ อีกอันหนึ่งแสดงด้วยความถี่ตกค้างในเซลล์ $ij$ อย่างที่เรารู้ หากส่วนที่เหลือเป็น 0 ก็หมายความว่าความถี่เป็นสิ่งที่คาดหวังเมื่อตัวแปรสองตัวไม่ได้เชื่อมโยงกัน ยิ่งจำนวนตกค้างมากขึ้นก็ยิ่งมีความสัมพันธ์มากขึ้นเนื่องจากมีการรวมตัวกันมากเกินไป $ij$ ในตัวอย่าง ส่วนที่เหลือเชิงลบที่มีขนาดใหญ่พอ ๆ กันพูดถึงชุดค่าผสมที่มีค่าต่ำกว่า ดังนั้นความถี่ที่เหลือคือสิ่งที่คุณต้องการ

ส่วนที่เหลือดิบไม่เหมาะสมเพราะพวกเขาขึ้นอยู่กับผลรวมเล็กน้อยและผลรวมโดยรวมและขนาดตาราง: ค่าไม่ได้มาตรฐานในทางใดทางหนึ่ง แต่ SPSS สามารถแสดงค่ามาตรฐานที่เหลือซึ่งคุณเรียกว่าเพียร์สัน St. residual คือส่วนที่เหลือหารด้วยค่าประมาณของส่วนเบี่ยงเบนมาตรฐาน (เท่ากับรากที่สองของค่าที่คาดหวัง) เซนต์ส่วนที่เหลือของตารางมีค่าเฉลี่ย 0 และเซนต์ dev 1; ดังนั้นเซนต์ ส่วนที่เหลือทำหน้าที่ค่า z เช่น z-value ในการแจกแจงตัวแปรเชิงปริมาณ (ที่จริงแล้วมันคือ z ในการแจกแจงปัวซอง) ส่วนที่เหลือของเซนต์จะเปรียบเทียบระหว่างตารางที่แตกต่างกันที่มีขนาดเท่ากันและยอดรวมที่เท่ากัน $N$ . สถิติไคสแควร์ของตารางฉุกเฉินคือผลรวมของกำลังสอง ที่เหลืออยู่ในนั้น เปรียบเทียบ st. ส่วนที่เหลือในตารางและในตารางที่มีปริมาตรเท่ากันจะช่วยระบุเซลล์เฉพาะที่มีส่วนร่วมในสถิติไคสแควร์มากที่สุด

SPSS ยังแสดงส่วนที่เหลือที่ปรับแล้ว (= ส่วนที่เหลือมาตรฐานที่ปรับแล้ว) Adj residual คือค่าที่เหลือหารด้วยค่าประมาณของข้อผิดพลาดมาตรฐาน adj ที่น่าสนใจ ส่วนที่เหลือเท่ากับ $\sqrt{N}r_{ij}$ ที่ไหน $N$ คือผลรวมที่ยิ่งใหญ่และ $r_{ij}$ คือความสัมพันธ์แบบเพียร์สัน(นามแฝงความสัมพันธ์พี) ระหว่างตัวแปรจำลองที่สอดคล้องกับหมวดหมู่ $i$ และ $j$ ของตัวแปรที่กำหนดสองรายการ นี้ $r$ เป็นสิ่งที่คุณพูดว่าคุณต้องการคำนวณ Adj ส่วนที่เหลือเกี่ยวข้องโดยตรงกับมัน

ไม่เหมือนเซนต์ adj. ที่เหลือ ส่วนที่เหลือยังเป็นมาตรฐาน wrt กับรูปร่างของการแจกแจงร่อแร่ในตาราง (โดยคำนึงถึงความถี่ที่คาดหวังไม่เพียง แต่ในเซลล์นั้น แต่ยังอยู่ในเซลล์นอกแถวและคอลัมน์) และเพื่อให้คุณสามารถเห็นความแข็งแรงของ ผูกระหว่างหมวดหมู่ $i$ และ $j$ - โดยไม่ต้องกังวลว่ายอดรวมทั้งหมดของพวกเขาจะเล็กหรือใหญ่เมื่อเทียบกับหมวดหมู่อื่น ' Adj ส่วนที่เหลือก็เป็นเหมือนคะแนน z แต่ตอนนี้มันก็เหมือนการกระจาย z ปกติ (ไม่ใช่ปัวซอง) ถ้า adj. ที่เหลืออยู่สูงกว่า 2 หรือต่ำกว่า -2 คุณอาจสรุปได้ว่ามันมีนัยสำคัญที่p<0.05ระดับ $^1$ . Adj ส่วนที่เหลือยังคงได้รับผลกระทบจาก $N$ ; $r$ ไม่ใช่ แต่คุณสามารถได้รับทั้งหมด $r$ s จาก adj ส่วนที่เหลือตามสูตรข้างต้นโดยไม่ต้องใช้เวลาในการสร้างตัวแปรจำลอง $^2$

สำหรับคำถามที่สองของคุณความสัมพันธ์ของหมวดหมู่แบบ 3 ทาง - เป็นไปได้ว่าเป็นส่วนหนึ่งของการวิเคราะห์บันทึกทั่วไปซึ่งแสดงส่วนที่เหลือ อย่างไรก็ตามการใช้ประโยชน์จากเซลล์ตกค้างแบบสามทางใช้ประโยชน์ได้จริง: 3 (+) - มาตรการการเชื่อมโยงแบบทางนั้นไม่ได้มาตรฐานอย่างง่ายดายและไม่สามารถตีความได้ง่าย

$^1$ ในเซนต์ โค้งปกติ $1.96 \approx 2$ คือจุดตัดของหาง 2.5% ดังนั้น 5% หากคุณพิจารณาทั้งสองก้อยเหมือนกับสมมติฐานทางเลือก 2 ด้าน

$^2$ มันตามมาว่าความสำคัญของการตกค้างที่ปรับในเซลล์ $ij$ เท่ากับความสำคัญของ $r_{ij}$ . นอกจากนี้หากมีเพียง 2 คอลัมน์ในตารางและคุณกำลังทำการทดสอบ z ของสัดส่วนระหว่าง $\text {Pr}(i,1)$ และ $\text {Pr}(i,2)$ , สัดส่วนคอลัมน์สำหรับแถว $i$ p-value ของการทดสอบนั้นเท่ากับความสำคัญของ adj สิ่งตกค้างในแถว $i$ ของตาราง 2 คอลัมน์

— ttnphns
แหล่งที่มา

1

นำโดยตรงจากเอกสารเกี่ยวกับสถิติที่แปรปรวนด้วย SPSS ที่อาศัยอยู่ที่นี่ :

Chi-squareเป็นเทคนิคที่มีประโยชน์เพราะคุณสามารถใช้เพื่อดูว่ามีความสัมพันธ์ระหว่างตัวแปรลำดับสองตัวหรือไม่, ตัวแปรสองรายการหรือระหว่างลำดับและตัวแปรที่กำหนด คุณมองไปที่ assymp คอลัมน์ Sig และถ้าน้อยกว่า. 05 ความสัมพันธ์ระหว่างตัวแปรทั้งสองมีนัยสำคัญทางสถิติ

— Zhubarb
แหล่งที่มา

4

ตกลง แต่สามคำรามหนึ่งที่สำคัญสองน้อยมาก Chi-square บนตัวแปรลำดับสองตัวจะละเว้นการเรียงลำดับ นี้ไม่ได้เป็นเอกสาร SPSS แต่การแนะนำประถมโดยคนอื่นและพวกเขามากกว่าลดความซับซ้อนดังกล่าวเป็นเพียงแค่ พวกเขาไม่ได้คัดลอก "Asymp" ถูกต้อง (ตัวอย่างในหน้าก่อนหน้า) ปัญหาที่ใหญ่กว่าสำหรับ OP คือความสัมพันธ์นั้นเป็นคำที่ผิดที่นี่: "การเชื่อมโยง" เป็นคำสำคัญในแง่ของการวัดการทดสอบและ (ที่ดีที่สุด) การสร้างแบบจำลองการเชื่อมโยง

— Nick Cox

1

ขอบคุณฉันแก้ไขthe SPSS documentบิตมันไม่ได้เป็นความตั้งใจของฉันที่จะแนบความถูกต้องไม่เหมาะกับมัน

— Zhubarb