การวัดแบบไม่อิงพารามิเตอร์ของความแข็งแรงของการเชื่อมโยงระหว่างลำดับและตัวแปรสุ่มแบบต่อเนื่อง


12

ฉันทิ้งปัญหาไว้ที่นี่เพื่อรับมัน

ฉันมีตัวแปรสุ่มสองตัว หนึ่งในนั้นคือต่อเนื่อง (Y) และอีกอันหนึ่งซึ่งไม่ต่อเนื่องและจะเข้าหาเป็นลำดับ (X) ฉันวางพล็อตด้านล่างที่ฉันได้รับพร้อมกับข้อความค้นหา

ป้อนคำอธิบายรูปภาพที่นี่

คนที่ส่งข้อมูลมาให้ฉันต้องการวัดความแข็งแกร่งของการเชื่อมโยงระหว่าง X และ Y ฉันกำลังมองหาแนวคิดที่จะไม่มาพร้อมกับข้อสันนิษฐานเกี่ยวกับกระบวนการที่สร้างข้อมูล หมายเหตุว่านี้ไม่ได้เกี่ยวกับการหาวิธีที่พาราไม่ใช่เพื่อทดสอบความแข็งแรงของความสัมพันธ์ (ในขณะที่บูต) แต่เกี่ยวกับการหาวิธีที่ไม่ใช่ตัวแปรที่จะวัดมัน

ในทางตรงกันข้ามประสิทธิภาพไม่ใช่ปัญหาเนื่องจากมีจุดข้อมูลจำนวนมาก


1
X (ตัวแปรไม่ต่อเนื่อง) เป็นลำดับหรือไม่?
Peter Flom

@ PeterFlom: ขอบคุณ ใช่. ฉันเพิ่มสิ่งนี้ลงในคำถาม
user603

ทำโดย "ไม่ใช่พารามิเตอร์" คุณหมายถึงที่นี่หรือไม่ว่าการคำนวณค่าเฉลี่ยหรือความแปรปรวนนั้นได้รับอนุญาต
ttnphns

คำตอบ:


8

ตามคำนิยามมาตรวัดอันดับเป็นมาตรวัดที่1 2 3 4ไม่ทราบระยะทางที่แท้จริงระหว่างรอยหยัก มันเหมือนกับว่าคุณกำลังจับผู้ปกครองภายใต้ยาเสพติด / แอลกอฮอล์ ระยะทางที่แท้จริงสามารถใด ๆ มันอาจจะเป็น1 2 3 4หรือ1 2 3 4หรืออะไรก็ตาม เราไม่สามารถคำนวณสถิติ - เช่นความสัมพันธ์ - ยกเว้นในการตัดสินใจเกี่ยวกับระยะทางแก้ไขได้

เหตุผลหนึ่งอาจเป็นดังนี้ เนื่องจากมาตราส่วนการวัดของเราเครื่องวัดมีการบิดเบือนในแบบโมโนโทนิกที่ไม่รู้จักเราจึงไม่สามารถเชื่อในค่าข้อมูล ลำดับความสำคัญของพวกเขาเท่านั้นที่น่าเชื่อถือ หากไม่มีการควบคุมสมองเพิ่มเติมให้ประกาศว่าเป็นคุณค่า ดังนั้นเราจึงเปลี่ยนการกระจายการสังเกตโดยการกระจายชุดที่อันดับ หลังจากนั้นอาจคำนวณค่าสัมประสิทธิ์สมาคมกล่าวว่าเพียร์สันRนั่นจะเป็น Spearmanอย่างที่เรารู้ Pearsonวัดความแข็งแรงของการเชื่อมโยงเชิงเส้น การจัดอันดับตัวแปรเป็นกลวิธีในการทำให้เป็นเส้นตรงส่วนของความสัมพันธ์แบบโมโนโทนิคที่เกิดจากการแจกแจงที่ไม่เหมือนกันในตอนแรก ดังนั้น Spearmanrrhorrhoเป็นตัวชี้วัดของความน่าสมเพชเช่นเดียวกับในความสัมพันธ์ซึ่งสามารถแปลงเป็นเส้นตรงภายใต้การกระทำของการแจกแจงส่วนขยาย ในคำถาม OP มีเพียงหนึ่งในสองตัวแปรเท่านั้นที่เป็นลำดับ (และที่สองคือต่อเนื่อง) ดังนั้นโดยทั่วไปไม่จำเป็นต้องจัดอันดับตัวแปรทั้งสอง อาจเป็นเพียงแค่อันดับหนึ่งลำดับแล้วคำนวณRr

แนวทางอื่นทางเลือกในการจัดอันดับ (การใส่เครื่องแบบ) อาจเป็นการปรับขนาดของตัวแปรอันดับที่ดีที่สุด การปรับสเกลที่เหมาะสมเป็นขั้นตอนที่วนซ้ำโดยมีเป้าหมายเพื่อค้นหาระยะทางดังกล่าวในระดับอันดับ - นั่นคือการหาการเปลี่ยนแปลงแบบโมโนโทนิกของมัน - เพื่อให้เชิงเส้นระหว่างตัวแปรถูกขยายให้มากที่สุด ในขณะที่วิธีการจัดอันดับจะขึ้นอยู่กับสถานที่ตั้ง "สเกลที่แท้จริงสอดคล้องกับข้อมูลที่มีการกระจายเครื่องแบบ" วิธีการปรับสเกลที่ดีที่สุดจะขึ้นอยู่กับสถานที่ตั้ง "สเกลที่แท้จริงสอดคล้องกับข้อมูลที่มีเชิงเส้นสูงสุดrr". การปรับขนาดที่เหมาะสมสามารถทำได้ในการถดถอยเชิงหมวดหมู่ (CATREG) อย่างไรก็ตามการถดถอยเชิงหมวดหมู่ต้องการให้ตัวแปรอินพุตอื่นไม่ต่อเนื่องกัน .

มีวิธีการอื่นเช่นกัน แต่ในทางใดทางหนึ่งเราเปลี่ยนขนาดอันดับที่น่าเบื่อ "เพื่อที่จะ ... " (สมมติฐานบางอย่างหรือเป้าหมายบางอย่าง) เพราะขนาดลำดับที่บิดเบี้ยวกับเราในทางที่ไม่รู้จัก การตัดสินใจอีกครั้งอย่างรุนแรงก็คือ "เงียบขรึม" ก่อนและตัดสินใจว่ามันจะไม่ผิดเพี้ยน (นั่นคือมันเป็นช่วงเวลา) หรือบิดเบี้ยวไปในทางที่รู้จัก (คือ nonequiinterval) หรือเล็กน้อย

วิธีการไม่สมมาตรบางอย่างอาจรวมถึงการถดถอยอันดับของตัวแปรลำดับโดยหนึ่ง (ช่วงเวลา / ต่อเนื่อง) หนึ่ง หรือการถดถอยเชิงเส้นของอันหลังโดยอันดับที่หนึ่งโดยมีรูปแบบที่ตัวทำนายถูกนำมาเป็นคอนทราสต์พหุนาม (นั่นคือป้อนเป็นb1X + b2X^2 + b3X^3,...) จุดอ่อนของวิธีการเหล่านี้คือพวกเขาไม่สมดุล: ตัวแปรหนึ่งตัวขึ้นอยู่กับอีกตัวแปรหนึ่งเป็นอิสระ


ขอบคุณ; ความคิดที่ดีมากในการคำนวณอันดับของตัวแปรเพียงตัวเดียว
user603

6

มีเหตุผลใดที่ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของ Spearman (การวัดแบบไม่อิงพารามิเตอร์ของการรวมกลุ่มแบบ monotonic ) จะไม่เพียงพอหรือไม่? ความน่าเบื่อเหมือนกันคือ "โหลดด้านหน้าหรือไม่" มันขึ้นอยู่กับความแตกต่าง ( ) ในอันดับที่สร้างขึ้นอย่างอิสระ (และ ) สำหรับตัวแปรของคุณ:di=xiyixiyi

rS=16i=1ndi2n(n21)

หาก monotonicity ถูกเกินไปเข้มงวดสมมติฐานผมสงสัยว่าวิธีบนพื้นฐานของข้อมูลสูงสุดเช่นที่เสนอโดย Reshef (2011, 2013) ซึ่งไม่ได้ถือว่าการทำงานความสัมพันธ์ระหว่างและอาจจะมีมากขึ้นตามสายของสิ่งที่คุณเป็น กำลังมองหา?XY


อ้างอิง

Reshef, D. , Reshef, Y. , Finucane, H. , Grossman, S. , McVean, G. , Turnbaugh, P. , Lander, E. , Mitzenmacher, M. , และ Sabeti, P. (2011) การตรวจจับการเชื่อมโยงนวนิยายในชุดข้อมูลขนาดใหญ่ วิทยาศาสตร์ , 334 (6062): 1518–1524

Reshef, D. , Reshef, Y. , Mitzenmacher, M. , และ Sabeti, P. (2013) วิเคราะห์เท่าเทียมกันของค่าสัมประสิทธิ์ข้อมูลสูงสุดที่มีการเปรียบเทียบ arXiv , 14 สิงหาคม


ทั้งคู่ดูเหมือนความคิดที่ดีมาก ในความเป็นจริงทั้งสองวิธีที่คุณเสนอให้เสริมซึ่งกันและกัน ฉันจะเปิดคำถามทิ้งไว้ซักครู่
user603
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.