แกมมากู๊ดแมน - ครูลัสและความสัมพันธ์ของเคนดัลล์เอกภาพหรือ Spearman rho เปรียบเทียบได้อย่างไร?


31

ในงานของฉันเรากำลังเปรียบเทียบการจัดอันดับที่คาดการณ์ไว้กับการจัดอันดับที่แท้จริงสำหรับชุดข้อมูลบางชุด จนถึงเมื่อเร็ว ๆ นี้เราได้ใช้ Kendall-Tau เพียงอย่างเดียว กลุ่มที่ทำงานในโครงการที่คล้ายกันแนะนำว่าเราพยายามใช้Goodman-Kruskal Gammaแทนและพวกเขาต้องการมัน ฉันสงสัยว่าอะไรคือความแตกต่างระหว่างอัลกอริทึมสหสัมพันธ์อันดับที่แตกต่างกัน

สิ่งที่ดีที่สุดที่ฉันพบคือคำตอบนี้ซึ่งอ้างว่าใช้ Spearman แทนที่ความสัมพันธ์เชิงเส้นปกติและ Kendall-Tau นั้นตรงน้อยกว่าและคล้ายกับ Goodman-Kruskal Gamma มากขึ้น ข้อมูลที่ฉันทำงานด้วยดูเหมือนจะไม่มีความสัมพันธ์เชิงเส้นชัดเจนและข้อมูลนั้นเบ้อย่างมากและไม่ปกติ

นอกจากนี้สเปียร์แมนยังรายงานความสัมพันธ์ที่สูงกว่าเคนดัลล์ - เทาสำหรับข้อมูลของเราและฉันก็สงสัยว่าสิ่งที่พูดเกี่ยวกับข้อมูลนั้นโดยเฉพาะ ฉันไม่ใช่นักสถิติดังนั้นเอกสารบางอย่างที่ฉันอ่านเกี่ยวกับสิ่งเหล่านี้ดูเหมือนจะเป็นศัพท์แสงให้ฉันขอโทษ


3
" โดยทั่วไปแล้วสเปียร์แมนรายงานความสัมพันธ์ที่ดีกว่าเคนดัลล์ - เทาสำหรับข้อมูลของเราและฉันก็สงสัยว่าสิ่งที่พูดเกี่ยวกับข้อมูลโดยเฉพาะ " ... ไม่มีอะไรน่าจะเป็นไปได้; เคนดอลคือมักจะใกล้ 0กว่าสเปียร์แมนเมื่อความสัมพันธ์จะไม่เป็นจริงใกล้เคียงกับหรือ - มันมีขนาดที่แตกต่างกันของสมาคม; ความจริงที่ว่าขนาดเล็กกว่าปกติไม่ได้หมายความว่าความสัมพันธ์ของสเปียร์แมนนั้นดีกว่า พวกเขากำลังวัดสิ่งต่าง ๆ เกี่ยวกับข้อมูล อะไรจะทำให้คุณพูดว่า 'ความสัมพันธ์ที่ดีขึ้น'? τ0 ± 1ρ0±1
Glen_b -Reinstate Monica

1
นั่นเป็นทางอ้อมเช่นเดียวกับคำถามของฉัน @Glen_b; ยกเว้นฉันถามว่าทำไมอัลกอริทึมรายงานความสัมพันธ์ที่สูงขึ้นและสิ่งที่จะทำให้เกิด ฉันจะเปลี่ยน "ดีกว่า" เป็น "สูง" เพื่อทำให้ความหมายของฉันชัดเจนขึ้น คุณถูกต้องที่พวกเขาวัดสิ่งต่าง ๆ และตัวเลขไม่ได้มีมากเกินไปที่จะทำร่วมกัน แต่ฉันต้องการที่จะรู้ว่าตัวเลขที่แท้จริงหมายถึงอะไรซึ่งคำตอบในรายละเอียดด้านล่าง
Poik

คำตอบ:


29

โรสเปียร์แมนเคนดอล VS เอกภาพ ทั้งสองนี้มีความแตกต่างในการคำนวณมากจนคุณไม่สามารถเปรียบเทียบขนาดของมันได้โดยตรง Spearman มักจะสูงกว่า 1/4 ถึง 1/3 และสิ่งนี้ทำให้สรุปได้อย่างไม่ถูกต้องว่า Spearman นั้น "ดีกว่า" สำหรับชุดข้อมูลเฉพาะ ความแตกต่างระหว่างโรและเอกภาพอยู่ในอุดมการณ์สัดส่วนของความแปรปรวนสำหรับโรและความน่าจะเป็นสำหรับเอกภาพ Rho เป็นเพียร์สัน r ที่ใช้สำหรับข้อมูลที่มีการจัดอันดับและเช่นเดียวกับ r มีความไวต่อจุดที่มีช่วงเวลามาก (นั่นคือการเบี่ยงเบนจากศูนย์คลาวด์) มากกว่าไปยังจุดที่มีช่วงเวลาสั้น ๆ ดังนั้นrhoจึงค่อนข้างอ่อนไหวต่อรูปร่างของเมฆหลังการจัดอันดับเสร็จสิ้น: ค่าสัมประสิทธิ์สำหรับรูปสี่เหลี่ยมขนมเปียกปูนเป็นรูปสี่เหลี่ยมผืนผ้าจะสูงกว่าค่าสัมประสิทธิ์สำหรับรูปดัมเบลด์ที่เป็นรูปสี่เหลี่ยมผืนผ้า (เนื่องจากขอบที่แหลมในช่วงแรกเป็นช่วงเวลาที่มีขนาดใหญ่) เอกภาพเป็นส่วนขยายของแกมม่าและมีความอ่อนไหวต่อจุดข้อมูลทั้งหมดเท่า ๆ กันดังนั้นจึงมีความอ่อนไหวต่อลักษณะเฉพาะของคลาวด์อันดับน้อย เอกภาพนั้น "ทั่วไป" มากกว่า rho สำหรับ rho นั้นจะได้รับการรับประกันเฉพาะเมื่อคุณเชื่อว่าความสัมพันธ์ (แบบจำลองหรือการทำงานในประชากร) ระหว่างตัวแปรนั้นเป็นแบบโมโนโทนิคอย่างเคร่งครัด ในขณะที่เอกภาพช่วยให้เส้นโค้งพื้นฐานที่ไม่ใช่แบบโมโนโทนิกและมาตรการที่ "แนวโน้ม" แบบโมโนโทนิกเป็นบวกหรือลบก็จะมีภาพรวมทั้งหมด Rho เปรียบได้กับขนาด r เอกภาพไม่

เอกภาพเคนดอลเป็นแกมมา เอกภาพเป็นเพียงรูปแบบมาตรฐานของแกมม่า มาตรการที่เกี่ยวข้องหลายอย่างล้วนมีตัวเศษแต่แตกต่างกันในการทำให้เป็นปกติของตัวส่วน :PQ

  • Gamma:P+Q
  • ซอมเมอร์ 'D ("ขึ้นอยู่กับ x"):P+Q+Tx
  • ซอมเมอร์ 'D ("y พึ่งพา"):P+Q+TY
  • ของซอมเมอร์ ("สมมาตร"): ค่าเฉลี่ยเลขคณิตของทั้งสองข้างต้น
  • Tau-b corr ของ Kendall (เหมาะสมที่สุดสำหรับตารางสี่เหลี่ยม): ค่าเฉลี่ยทางเรขาคณิตของทั้งสอง
  • Tau-c corr ของ Kendall (เหมาะที่สุดสำหรับตารางสี่เหลี่ยม):ยังไม่มีข้อความ2(k-1)/(2k)
  • เคนดัลล์เป็นเอกภาพ (ทำให้ไม่มีการปรับสำหรับความสัมพันธ์):ยังไม่มีข้อความ(ยังไม่มีข้อความ-1)/2=P+Q+Tx+TY+TxY

โดยที่ - จำนวนคู่ของการสังเกตุด้วย "ความสอดคล้อง", - กับ "การผกผัน"; - จำนวนความสัมพันธ์โดยตัวแปร X, - โดยตัวแปร Y, - โดยทั้งสองตัวแปร - จำนวนการสังเกต, - จำนวนค่าที่แตกต่างในตัวแปรนั้นโดยที่จำนวนนี้น้อยกว่าQ T x T y T x y N kPQTxTYTxYยังไม่มีข้อความk

ดังนั้นเอกภาพจึงเปรียบได้โดยตรงในทางทฤษฎีและขนาดกับแกมมา Rho ก็เปรียบได้โดยตรงในทางทฤษฎีและขนาดกับเพียร์สันRคำตอบที่ดีของ Nick Stauner ที่นี่บอกว่าเป็นไปได้อย่างไรที่จะเปรียบเทียบ rho และ tau ทางอ้อมR

ดูเพิ่มเติมเกี่ยวกับเอกภาพและโร


14

นี่เป็นคำพูดจากแอนดรูกิลพิน (1993) เกื้อหนุนมอริเคนดอลกว่าสเปียร์แมนด้วยเหตุผลทางทฤษฎี:ρτρ

[Kendall's ] เข้าใกล้การแจกแจงแบบปกติเร็วกว่าเมื่อขนาดตัวอย่างเพิ่มขึ้น และก็ยังง่ายกว่าทางคณิตศาสตร์โดยเฉพาะอย่างยิ่งเมื่อมีความสัมพันธ์ ρ N ττρยังไม่มีข้อความτ

ฉันไม่สามารถเพิ่มมากเกี่ยวกับกู๊ดแมน-Kruskalอื่น ๆ กว่าว่ามันดูเหมือนว่าจะผลิตตลอดจึงใหญ่กว่าเล็กน้อยกว่าประมาณการเคนดอลในกลุ่มตัวอย่างของการสำรวจข้อมูลที่ผมได้ทำงานกับเมื่อเร็ว ๆ นี้ ... และแน่นอนอย่างเห็นได้ชัด ลดประมาณการกว่าสเปียร์แมนρแต่ผมยังพยายามคำนวณคู่บางส่วนประมาณการ (Foraita & Sobotka, 2012) และผู้ที่ออกมาใกล้ชิดกับบางส่วนกว่าบางส่วน ... มันต้องใช้เวลาจำนวนเงินที่ยุติธรรมของเวลาการประมวลผลแม้ว่าดังนั้นฉันจะออกจาก การทดสอบการจำลองหรือการเปรียบเทียบทางคณิตศาสตร์กับคนอื่น ... (ใครจะรู้ว่าจะทำอย่างไร ... )τ ρ แกมมาρ τγτργρτ

ในฐานะที่เป็นttnphnsหมายถึงคุณไม่สามารถสรุปได้ว่าคุณประมาณการจะดีกว่าของคุณประมาณการโดยขนาดเพียงอย่างเดียวเพราะเครื่องชั่งน้ำหนักของพวกเขาต่าง (แม้ว่าข้อ จำกัด ไม่) Gilpin อ้างอิง Kendall (1962) ตามที่อธิบายอัตราส่วนของถึงประมาณ 1.5 โดยประมาณในช่วงของค่าส่วนใหญ่ พวกเขาเข้าใกล้กันมากขึ้นเมื่อขนาดเพิ่มขึ้นดังนั้นเมื่อทั้งสองวิธีเข้าใกล้ 1 (หรือ -1) ความแตกต่างจะน้อยมาก Gilpin ให้ค่าตารางที่ดีที่มีค่าเท่ากับ , , , dและเป็นตัวเลขสามตัวสำหรับτ ρ τ ρ R R 2 Z R τ RρτρτρRR2ZRτในทุก ๆ การเพิ่มขึ้นของ. 01 ในช่วงของมันเช่นเดียวกับที่คุณคาดหวังที่จะเห็นภายในปกของตำราเรียนสถิติเบื้องต้น เขายึดตามค่าเหล่านั้นกับสูตรเฉพาะของเคนดัลซึ่งมีดังต่อไปนี้: (ฉันทำให้สูตรนี้ง่ายสำหรับจาก แบบฟอร์มที่กิลพินเขียนซึ่งเป็นรูปแบบของเพียร์สัน )ρr

R=บาป(τπ2)ρ=6π(τarcsin(บาป(τπ2)2))
ρR

บางทีมันอาจจะทำให้ความรู้สึกในการแปลงของคุณเป็นρτρและดูว่าการเปลี่ยนแปลงที่มีผลต่อการคำนวณประมาณการขนาดของผลของคุณ ดูเหมือนว่าการเปรียบเทียบที่จะให้ข้อบ่งชี้ของขอบเขตที่ปัญหาที่สเปียร์แมนบางมีความสำคัญมากขึ้นในการที่มีอยู่ในข้อมูลของคุณถ้าทุก วิธีการที่ชัดเจนกว่านั้นแน่นอนสำหรับการระบุปัญหาเฉพาะแต่ละรายการ ข้อเสนอแนะของฉันจะทำให้ขนาดผลของรถโดยสารที่รวดเร็วและสกปรกมากขึ้นสำหรับปัญหาเหล่านั้น หากไม่มีความแตกต่าง (หลังจากแก้ไขความแตกต่างในสเกล) แล้วอาจมีการโต้แย้งว่าไม่จำเป็นต้องค้นหาปัญหาเพิ่มเติมที่ใช้กับρρρ. หากมีความแตกต่างอย่างมีนัยสำคัญอาจถึงเวลาที่ต้องแยกเลนส์ขยายออกเพื่อพิจารณาว่ามีอะไรรับผิดชอบ

ผมไม่แน่ใจว่าวิธีการที่คนมักจะรายงานขนาดผลเมื่อใช้เคนดอล (ในขอบเขตที่ จำกัด แต่น่าเสียดายที่คนกังวลเกี่ยวกับการรายงานขนาดอิทธิพลทั่วไป) แต่เนื่องจากมันดูเหมือนว่าผู้อ่านที่ไม่คุ้นเคยจะพยายามที่จะตีความมันโยเพียร์สันฯมันอาจจะฉลาดที่จะรายงานทั้งสองของคุณสถิติและขนาดผลกระทบต่อขนาดของโดยใช้สูตรการแปลงดังกล่าวข้างต้น ... หรือที่จุดน้อยแตกต่างในระดับและให้ตะโกนออกไปยังกิลพินสำหรับตารางการแปลงของเขาที่มีประโยชน์ . r τ rτRτR

อ้างอิง

Foraita, R. , & Sobotka, F. (2012) การตรวจสอบรูปแบบกราฟิก แพ็คเกจ gmvalid, v1.23 เครือข่ายเก็บถาวร R ที่ครอบคลุม URL: http://cran.r-project.org/web/packages/gmvalid/gmvalid.pdf

Gilpin, AR (1993) ตารางสำหรับการแปลง Tend ของ Kendall เป็น Spearman's Rho ภายในมาตรการบริบทของขนาดของผลกระทบสำหรับการวิเคราะห์อภิมาน การวัดทางการศึกษาและจิตวิทยา, 53 (1), 87-92

เคนดัลล์ MG (2505) วิธีการจัดอันดับความสัมพันธ์ (อันดับที่ 3) ลอนดอน: กริฟฟิน


9

ρτγγτXYγX1X2YXXXγ


2
แฟรงค์คุณสามารถอธิบายSpearman's ρ is related to the probability of majority concordance among random triplets of observationsรายละเอียดเพิ่มเติมได้ไม่ยากมากหากเป็นไปได้? ขอบคุณ
ttnphns

1
ฉันอ่านมาหลายปีแล้วอาจเป็นข้อความสถิติที่ไม่ใช่พารามิเตอร์ ฉันไม่พบข้อมูลอ้างอิง
Frank Harrell

1
โชคร้าย ... :-( เพราะคำสั่งของตัวเองเป็นอย่างมากที่น่าสนใจ.
ttnphns
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.