ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรที่กำหนด (ที่ไม่เป็นคู่) และเป็นตัวเลข (ช่วงเวลา) หรือตัวแปรลำดับ


12

ฉันได้อ่านทุกหน้าในเว็บไซต์นี้แล้วพยายามหาคำตอบสำหรับปัญหาของฉันแล้ว แต่ดูเหมือนว่าไม่มีใครที่เหมาะสมกับฉัน ...

ก่อนอื่นฉันจะอธิบายให้คุณทราบถึงข้อมูลที่ฉันใช้กับ ...

สมมติว่าฉันมีเวกเตอร์อาร์เรย์ที่มีชื่อเมืองหลายแห่งหนึ่งแห่งสำหรับผู้ใช้ 300 คน ฉันยังมีเวกเตอร์อาร์เรย์อีกชุดหนึ่งที่มีคะแนนตอบสนองต่อการสำรวจของผู้ใช้แต่ละคนหรือค่าต่อเนื่องสำหรับผู้ใช้แต่ละคน

ฉันต้องการที่จะทราบว่ามีค่าสัมประสิทธิ์สหสัมพันธ์ที่คำนวณความสัมพันธ์ระหว่างตัวแปรทั้งสองนี้ดังนั้นระหว่างตัวแปรที่ระบุและตัวแปรที่เป็นตัวเลข / ต่อเนื่องหรือลำดับ

ฉันค้นหาบนอินเทอร์เน็ตและในบางหน้าพวกเขาแนะนำให้ใช้ค่าสัมประสิทธิ์ฉุกเฉินหรือ Cramer's V หรือ Lambda สัมประสิทธิ์หรือ Eta สำหรับแต่ละวัดนี้เพียงแค่บอกว่าพวกเขาสามารถนำไปใช้กับข้อมูลดังกล่าวซึ่งเรามีตัวแปรที่ระบุและช่วงเวลาหรือตัวแปรที่เป็นตัวเลข สิ่งคือการค้นหาและการค้นหาพยายามที่จะทำความเข้าใจกับทุกคนบางครั้งมีการเขียนหรือดูตัวอย่างที่พวกเขามีเหตุผลที่จะใช้พวกเขาหากคุณมีตัวแปรที่ระบุไว้แยกออกเป็นสองส่วนยกเว้น Cramer's V เวลาอื่นไม่ได้เขียนข้อกำหนดใด ๆ ประเภทของข้อมูล มีอีกหลายหน้าที่บอกว่าถูกต้องที่จะใช้การถดถอยแทนนั่นคือถูกต้อง แต่ฉันแค่อยากจะรู้ว่ามีสัมประสิทธิ์เช่น pearson / spearman สำหรับข้อมูลประเภทนี้หรือไม่

ฉันยังคิดว่ามันไม่ถูกต้องที่จะใช้ Spearman Correlation coeff เนื่องจากเมืองต่างๆไม่สามารถจัดเรียงได้

ฉันได้สร้างฟังก์ชันของ Cramer'sV และ Eta ด้วยตัวเอง (ฉันทำงานกับ Matlab) แต่สำหรับ Eta พวกเขาไม่ได้พูดถึง p-value ใด ๆ เพื่อดูว่าสัมประสิทธิ์มีนัยสำคัญทางสถิติหรือไม่ ...

ในเว็บไซต์ matlabWorks ยังมีกล่องเครื่องมือที่ดีที่บอกว่าจะคำนวณ eta ^ 2 แต่การป้อนข้อมูลที่ต้องการนั้นไม่สามารถเข้าใจได้

นี่คือคนที่ทำแบบทดสอบของฉันหรือเปล่า หากคุณต้องการรายละเอียดเพิ่มเติมเพื่อทำความเข้าใจชนิดของข้อมูลที่ฉันใช้เพียงแค่ถามฉันและฉันจะพยายามอธิบายให้คุณดีขึ้น


1
Cramérs V นั้นมีไว้สำหรับสองคนที่เสนอชื่อ อะไรคือสิ่งที่ไม่ดีเกี่ยวกับการถดถอย นำตัวแปรตัวเลขมาเป็นคำตอบแล้วถอยกลับไปที่ชื่อ (โดยใช้หุ่น) ดูที่และการทดสอบ F ส่วนกลางที่เกี่ยวข้อง R2
Michael M

ไม่มีอะไรผิดปกติกับการถดถอย แต่เนื่องจากเราได้ทำการวัดแล้วเราจึงต้องการตรวจสอบในอีกทางหนึ่งเช่นเดียวกับการตรวจสอบอีกครั้งด้วยสัมประสิทธิ์สหสัมพันธ์ .... ขอบคุณสำหรับคำตอบ
cristis

คุณไม่ได้พูดอะไรเกี่ยวกับตัวแปร "ตัวเลข / ลำดับ" อย่างเฉพาะเจาะจง อะไรที่ทำให้คุณคิดแบบนี้ ตัวเลข?
ttnphns

เพราะอันดับที่ฉันมีตัวแปรที่มาจากการทดสอบการสำรวจเพื่อให้ช่วงของมันคือ -4,4 คุณสามารถคิดว่ามันเป็นช่วงเวลา แต่ตัวแปรสำรวจชนิดนี้จะถือว่าส่วนใหญ่เป็นลำดับและอื่น ๆ เป็นตัวเลขโดยเฉพาะอย่างต่อเนื่องเป็นพวกเขา คุณสมบัติสกัด
Cristis

1
ดูเพิ่มเติมคำถามที่เกี่ยวข้องstats.stackexchange.com/questions/23938/…
ttnphns

คำตอบ:


18

Nominal vs Interval

การวัดความสัมพันธ์แบบคลาสสิกที่สุดระหว่างตัวแปรระบุและช่วงเวลา ("ตัวเลข") คือEtaหรือที่เรียกว่าอัตราส่วนสหสัมพันธ์และเท่ากับรูต R-square ของการวิเคราะห์ความแปรปรวนแบบทางเดียว (ด้วย p-value = ที่ของ ANOVA) การทางพิเศษแห่งประเทศไทยสามารถมองเห็นเป็นวัดความสัมพันธ์สมมาตรเช่นความสัมพันธ์เพราะกทพ. ของ ANOVA (ที่มีชื่อเป็นอิสระตัวเลขที่ขึ้นอยู่กับ) จะเท่ากับร่องรอยของการถดถอยของตัวแปรหลายตัวแปร Pillai (กับตัวเลขที่เป็นอิสระชุดตัวแปรหุ่นที่สอดคล้องกับ ระบุว่าขึ้นอยู่กับ)

การวัดที่ละเอียดยิ่งขึ้นคือสัมประสิทธิ์สหสัมพันธ์อินทราเน็ต ( ICC ) ในขณะที่การทางพิเศษแห่งประเทศไทยจับเฉพาะความแตกต่างระหว่างกลุ่ม (กำหนดโดยตัวแปรที่กำหนด) ในส่วนที่เกี่ยวกับตัวแปรตัวเลข ICC พร้อมกันยังวัดการประสานงานหรือ agreemant ระหว่างค่าตัวเลขภายในกลุ่ม; กล่าวอีกนัยหนึ่ง ICC (โดยเฉพาะต้นฉบับ "จับคู่" รุ่น ICC) อยู่ในระดับของค่าในขณะที่ Eta ทำงานในระดับของสถิติ (กลุ่มหมายถึงความแปรปรวนของกลุ่ม)

Nominal vs Ordinal

คำถามเกี่ยวกับการวัด "สหสัมพันธ์" ระหว่างตัวแปรที่ระบุและตัวแปรเลขชี้กำลังจะชัดเจนน้อยลง เหตุผลของความยากลำบากก็คือมาตราส่วนตามลำดับคือโดยธรรมชาติแล้วมันจะ "ลึกลับ" หรือ "บิด" มากกว่าช่วงเวลาหรือสเกลเล็กน้อย ไม่น่าแปลกใจที่การวิเคราะห์เชิงสถิติสำหรับข้อมูลอันดับโดยเฉพาะนั้นค่อนข้างมีสูตรที่ไม่ดีนัก

วิธีหนึ่งอาจเป็นการแปลงข้อมูลลำดับของคุณให้อยู่ในอันดับแล้วคำนวณEtaราวกับอันดับนั้นเป็นข้อมูลช่วงเวลา ค่า p ของ Eta ดังกล่าว = ของการวิเคราะห์ Kruskal-Wallis วิธีการนี้ดูเหมือนจะได้รับการรับประกันเนื่องจากเหตุผลเดียวกับที่ใช้ในการสร้างความสัมพันธ์กับตัวแปรแบบสองลำดับ ตรรกะนั้นคือ "เมื่อคุณไม่ทราบความกว้างของช่วงเวลาในสเกลให้ตัดปม Gordian โดยการทำให้เป็นเสียงเดียวที่เป็นไปได้: จัดอันดับข้อมูล"

อีกวิธีหนึ่ง (อาจเข้มงวดและยืดหยุ่นมากขึ้น) ก็คือการใช้การถดถอยแบบลอจิสติกอันดับกับตัวแปรลำดับเป็น DV และอันดับหนึ่งเป็น IV รากที่สองของหลอก R-square ของNagelkerke (ด้วยค่า p ของการถดถอย) เป็นอีกมาตรการหนึ่งสำหรับคุณ โปรดทราบว่าคุณสามารถทดลองกับฟังก์ชั่นการเชื่อมโยงต่างๆในการถดถอยตามลำดับ อย่างไรก็ตามความสัมพันธ์นี้ไม่ได้สมมาตร: ค่าที่ระบุนั้นถือว่าเป็นอิสระ

อีกวิธีหนึ่งอาจจะพบการเปลี่ยนแปลงแบบโมโนโทนิของข้อมูลลำดับในช่วงเวลาแทนที่จะเป็นการจัดอันดับของย่อหน้าสุดท้าย - ซึ่งจะเพิ่ม R (เช่นEta ) ให้คุณ นี่คือการถดถอยเชิงหมวดหมู่ (= การถดถอยเชิงเส้นที่มีอัตราส่วนที่เหมาะสม)

อีกวิธีคือการจำแนกต้นไม้เช่น CHAID โดยมีตัวแปรลำดับเป็นตัวทำนาย ขั้นตอนนี้จะถูกรวมเข้าด้วยกัน (ซึ่งเป็นวิธีการที่ตรงกันข้ามกับรายการก่อนหน้านี้) หมวดหมู่ที่อยู่ติดกันซึ่งไม่แยกความแตกต่างระหว่างหมวดหมู่ของคำทำนายที่ระบุไว้ จากนั้นคุณสามารถพึ่งพามาตรการการเชื่อมโยงแบบ Chi-square (เช่น Cramer's V) ราวกับว่าคุณมีความสัมพันธ์กับตัวแปรที่ระบุเทียบกับค่าเล็กน้อย

และ @Michael ในความคิดเห็นของเขาแสดงให้เห็นเลยอีกหนึ่งช่องทาง - ค่าสัมประสิทธิ์พิเศษที่เรียกว่าฟรีแมนที

ดังนั้นเรามาถึงโอกาสเหล่านี้: (1) อันดับจากนั้นคำนวณ Eta; (2) ใช้การถดถอยเชิงอันดับ (3) ใช้การถดถอยเชิงหมวดหมู่ ("ดีที่สุด" การเปลี่ยนตัวแปรลำดับเป็นช่วงเวลา) (4) ใช้โครงสร้างการจำแนก ("ดีที่สุด" เพื่อลดจำนวนหมวดหมู่ที่สั่ง) (5) ใช้ Theta ของฟรีแมน


3
ป.ล. มีภาพรวมสั้น ๆ เกี่ยวกับวิธีการหาลำดับของตัวแปรในบล็อกของ Jeromy Anglim jeromyanglim.blogspot.ru/2009/10/30
ttnphns

2
การวัดความเชื่อมโยงหนึ่งอย่างระหว่างลำดับและอันดับหนึ่งเรียกว่า "Freeman's " น่าเสียดายที่ฉันไม่มีการอ้างอิงการเข้าถึงที่เปิดอยู่ θ
Michael M

2
@Michael ขอบคุณที่นี่ฉันพบกระดาษ "บันทึกเพิ่มเติมเกี่ยวกับการวัดความเป็นอิสระของสมาคม" moreno.ss.uci.edu/22.pdf
ttnphns

1
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ theta และแพ็คเกจ R ของฟรีแมนที่มีสถิติดูคำถามที่ตรวจสอบความถูกต้องไขว้นี้
Sal Mangiafico

@ttnphns ขออภัยคุณช่วยตอบคำถามนี้ได้: stats.stackexchange.com/questions/363543/…ขอบคุณมาก
ebrahimi

0

ทำ anova แบบทางเดียวกับการตอบกลับโดยใช้เมืองเป็นตัวแปรการจัดกลุ่ม และมันจะช่วยให้ควรจะเป็นเช่นเดียวกับและจากการถดถอยของการตอบสนองในเมืองหุ่นรหัสและควรเท่ากับหลายจาก การถอยหลัง ทวีคูณคือความสัมพันธ์ระหว่างเมืองกับการตอบสนองp f p s s b e t w e e n nFpFp R 2 RSSbetweencities/SStotalR2R

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.