มัน“ โอเค” ที่จะลงจุดเส้นถดถอยสำหรับข้อมูลอันดับ (Spearman correlation) หรือไม่?


12

ฉันมีข้อมูลที่ฉันคำนวณความสัมพันธ์ Spearman และต้องการเห็นภาพสำหรับสิ่งพิมพ์ ตัวแปรที่ขึ้นอยู่กับการจัดอันดับตัวแปรอิสระไม่ได้ สิ่งที่ฉันต้องการเห็นภาพนั้นเป็นแนวโน้มทั่วไปมากกว่าความชันจริงดังนั้นฉันจึงจัดอันดับความเป็นอิสระและใช้ความสัมพันธ์ / การถดถอยของสเปียร์แมน แต่เมื่อฉันวางแผนข้อมูลของฉันและกำลังจะแทรกลงในต้นฉบับของฉันฉันสะดุดกับคำสั่งนี้ (บนเว็บไซต์นี้ ):

คุณจะแทบไม่เคยใช้เส้นถดถอยสำหรับคำอธิบายหรือทำนายอย่างใดอย่างหนึ่งเมื่อคุณทำสเปียร์แมนยศสัมพันธ์ดังนั้นไม่คำนวณเทียบเท่าของสายการถดถอย

และหลังจากนั้น

คุณสามารถสร้างกราฟข้อมูลความสัมพันธ์อันดับ Spearman ในลักษณะเดียวกับการถดถอยเชิงเส้นหรือสหสัมพันธ์ อย่าใส่เส้นถดถอยบนกราฟอย่างไรก็ตาม; มันจะทำให้เข้าใจผิดที่จะวางเส้นถดถอยเชิงเส้นบนกราฟเมื่อคุณวิเคราะห์ด้วยความสัมพันธ์อันดับ

ประเด็นก็คือเส้นการถดถอยนั้นไม่แตกต่างจากตอนที่ฉันไม่ได้จัดอันดับความเป็นอิสระและคำนวณสหสัมพันธ์ของเพียร์สัน แนวโน้มเหมือนกัน แต่เนื่องจากค่าธรรมเนียมที่สูงเกินไปสำหรับกราฟิกสีในสมุดรายวันที่ฉันไปด้วยการแสดงเอกรงค์และจุดข้อมูลที่แท้จริงจะทับซ้อนกันมากจนไม่เป็นที่รู้จัก

แน่นอนว่าฉันสามารถหลีกเลี่ยงปัญหานี้ได้ด้วยการทำแปลงสองแบบ: แบบหนึ่งสำหรับจุดข้อมูล (อันดับ) และอีกแบบสำหรับเส้นการถดถอย (ไม่จัดอันดับ) แต่ถ้าปรากฎว่าแหล่งข้อมูลที่ฉันอ้างนั้นผิดหรือปัญหา ไม่เป็นปัญหาในกรณีของฉันมันจะทำให้ชีวิตของฉันง่ายขึ้น (ฉันเห็นคำถามนี้ด้วย แต่ก็ไม่ได้ช่วยฉัน)

แก้ไขสำหรับข้อมูลเพิ่มเติม:

ตัวแปรอิสระบนแกน x แสดงถึงจำนวนของคุณสมบัติและตัวแปรที่ขึ้นต่อกันบนแกน y แสดงถึงอันดับหากอัลกอริทึมการจำแนกประเภทเมื่อเปรียบเทียบกับประสิทธิภาพของพวกเขา ตอนนี้ฉันมีอัลกอริธึมที่เทียบเคียงได้โดยเฉลี่ย แต่สิ่งที่ฉันอยากจะพูดกับพล็อตของฉันก็คือ: "ในขณะที่ตัวแยกประเภท A ได้รับฟีเจอร์ที่ดีกว่ายิ่งมีฟีเจอร์ตัวแยกประเภท B จะดีกว่า

แก้ไข 2 เพื่อรวมแปลงของฉัน:

อันดับของอัลกอริทึมถูกพล็อตเมื่อเทียบกับจำนวนฟีเจอร์ ป้อนคำอธิบายรูปภาพที่นี่

อันดับของอัลกอริทึมที่ถูกจับคู่กับจำนวนอันดับของฟีเจอร์ ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นเพื่อทำซ้ำคำถามจากชื่อ:

การลงจุดเส้นถดถอยสำหรับข้อมูลอันดับของ Spearman สหสัมพันธ์ / การถดถอยได้หรือไม่?


มีการจัดอันดับกี่หมวดหมู่? คุณทดสอบสมมติฐานตามสัดส่วนหรือไม่? มีนักวิจัยหลายคนที่ดีอย่างสมบูรณ์แบบด้วยการรักษาข้อมูลลำดับ (เช่นการจัดอันดับ) อย่างต่อเนื่อง บางครั้งถ้ามีหมวดหมู่จำนวนมากมันก็สมเหตุสมผล
robin.datadrivers

1
มีเจ็ดระดับพวกเขาจะใช้สำหรับการทดสอบฟรีดแมน
ยาม

คำตอบ:


10

อันดับความสัมพันธ์อาจถูกนำมาใช้เพื่อรับความสัมพันธ์แบบโมโนโทนิกระหว่างตัวแปรตามที่คุณทราบ เช่นนี้ปกติคุณจะไม่วาดเส้นสำหรับสิ่งนั้น

มีสถานการณ์ที่เหมาะสมอย่างยิ่งที่จะใช้การจัดอันดับความสัมพันธ์เพื่อให้พอดีกับตัวเลขกับ y-vs vs numeric-x ไม่ว่าจะเป็น Kendall หรือ Spearman (หรืออื่น ๆ ) ดูการอภิปราย (และโดยเฉพาะอย่างยิ่งพล็อตสุดท้าย) ที่นี่

นั่นไม่ใช่สถานการณ์ของคุณ ในกรณีของคุณฉันจะโน้มน้าวเพียงแค่นำเสนอข้อมูลที่กระจัดกระจายจากข้อมูลดั้งเดิมบางทีด้วยความสัมพันธ์ที่ราบรื่น (เช่นโดย LOESS)

คุณคาดหวังว่าความสัมพันธ์นั้นจะเป็นแบบโมโนโทนิก คุณอาจลองประเมินและวางแผนความสัมพันธ์แบบโมโนโทนิก [มีฟังก์ชั่น R ที่กล่าวถึงที่นี่ซึ่งสามารถปรับให้พอดีกับการถดถอยแบบ isotonic - ในขณะที่ตัวอย่างมี unimodal ไม่ใช่ isotonic, ฟังก์ชั่นสามารถทำให้พอดีกับ isotonic]

นี่คือตัวอย่างของสิ่งที่ฉันหมายถึง:

ป้อนคำอธิบายรูปภาพที่นี่

เนื้อเรื่องแสดงความสัมพันธ์แบบ monotonic ระหว่าง x และ y เส้นโค้งสีแดงเป็นสีเหลืองเรียบ (ในกรณีนี้สร้างขึ้นใน R โดยscatter.smooth) ซึ่งยังเกิดขึ้นเป็น montonic (มีวิธีที่จะได้รับความพอดีแบบเรียบที่รับประกันได้ว่าจะเป็น monotonic แต่ในกรณีนี้ค่าเริ่มต้นสีเหลืองเรียบเป็นแบบ ฉันไม่รู้สึกจำเป็นต้องกังวล

ป้อนคำอธิบายรูปภาพที่นี่
พล็อตของอันดับ (y) เทียบกับอันดับ (x) แสดงความสัมพันธ์แบบโมโนโทนิค เส้นสีเขียวแสดงอันดับของเส้นโค้งเหลืองที่พอดีกับอันดับ (x)

ความสัมพันธ์ระหว่างอันดับของ x และ y (เช่นความสัมพันธ์ Spearman) คือ 0.892 - สมาคมโมโนโทนิคสูง ในทำนองเดียวกันความสัมพันธ์ Spearman ระหว่าง (montonic) ติดตั้งโค้งเรียบเหลือง ( ) และค่า y เป็น 0.892 [ไม่น่าแปลกใจเนื่องจากมันจะเป็นจริงของเส้นโค้งใด ๆ ซึ่งเป็นฟังก์ชั่นที่เพิ่มขึ้นแบบ monotonic ของ x ซึ่งทั้งหมดนี้จะสอดคล้องกับเส้นสีเขียว เส้นสีเขียวไม่ใช่เส้นถดถอยระหว่างอันดับ (x) และอันดับ (y) แต่เป็นเส้นที่สอดคล้องกับความพอดีแบบโมโนโทนในพล็อตดั้งเดิม 'เส้นถดถอย' สำหรับข้อมูลที่จัดอันดับมีความชัน 0.892 ไม่ใช่ 1 ดังนั้นมันจึงเป็น "ประจบ" เล็กน้อย]y^

หากคุณไม่ได้แสดงอะไรเลยนอกจากอันดับ (Y) กับ X ฉันคิดว่าฉันจะหลีกเลี่ยงการใช้เส้นบนแปลง เท่าที่ฉันเห็นพวกเขาไม่ได้สื่อถึงคุณค่ามากไปกว่าค่าสัมประสิทธิ์สหสัมพันธ์ และกล่าวไปแล้วว่าคุณสนใจเพียงเทรนด์เท่านั้น

[ฉันไม่รู้ว่ามันผิดที่จะเขียนเส้นถดถอยลงในกราฟอันดับ -y เทียบกับอันดับ -x ความยากจะเป็นการตีความของมัน]


ขอบคุณคำตอบของคุณดีและอธิบายได้ดี อย่างไรก็ตามมันทำให้ฉันตระหนักว่าฉันอาจละเว้นข้อมูลสำคัญ ยังคงใช้ได้กับข้อมูลเพิ่มเติมที่ฉันให้ไว้หรือไม่ กราฟติดตามภายหลังวันนี้เมื่อฉันอยู่ที่พีซีของฉันทำงาน
ยาม

ลองดูที่การอัพเดตของฉันและดูว่าคุณคิดว่าสิ่งใดมีค่าหรือไม่
Glen_b -Reinstate Monica

ใช่มันมีคุณค่า แต่มากกว่าในความหมายทั่วไป ฉันยังยอมรับด้วยว่า "ความผิด" มาจากความยากลำบากในการตีความเนื้อเรื่อง ฉันกลัวว่าผู้คนจะคิดเสมอว่าฉันต้องการทำนายอันดับจากคุณลักษณะแม้ว่าฉันจะระบุว่าฉันต้องการแสดงแนวโน้มเท่านั้น
ยาม

ดูที่แปลงของคุณ --- คุณแสดงอันดับ แต่คุณมีตัวชี้วัดดั้งเดิมของการแสดงที่อันดับใดบ้าง
Glen_b -Reinstate Monica

ใช่ฉันทำได้ แต่พวกเขาไม่สามารถใช้ที่นี่เชื่อฉัน จุดเน้นของการศึกษาของฉันคือการเปรียบเทียบอัลกอริทึมโดยใช้การทดสอบฟรีดแมนซึ่งจัดอันดับพวกเขา มีชุดข้อมูลหลายชุดที่มีช่วงประสิทธิภาพแตกต่างกันมากดังนั้นการเปรียบเทียบระหว่างชุดข้อมูลจึงน่าสนใจที่นี่
ยาม

3

การใช้ Spearman'sเทียบเท่ากับการใช้แบบจำลองลอจิสติกแบบลอการิทึมแบบสัดส่วนถ้ามีอันดับของเวกเตอร์ในขณะที่ทำโมเดล โดยทั่วไปแล้วรุ่น PO จะจำลองในระดับดั้งเดิมและอาจรวมถึงคำที่ไม่เชิงเส้น สำหรับการคาดการณ์มันเป็นประโยชน์ที่จะใช้วิธีการตามแบบจำลอง คุณสามารถยกตัวอย่างพล็อตกับค่าเฉลี่ยคาดการณ์ไว้หรือค่ามัธยฐานคาดการณ์ได้จากแบบจำลอง PO ตัวอย่างเช่นในเอกสารประกอบคำบรรยายจากhttp://biostat.mc.vanderbilt.edu/rmsX X X Y YρXXXYY

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.