กราฟที่เหมาะสมในการแสดงความสัมพันธ์ระหว่างตัวแปรอันดับสองคืออะไร
ตัวเลือกเล็ก ๆ น้อย ๆ ที่ฉันนึกได้:
- พล็อตกระจายที่มีตัวสั่นแบบสุ่มเพิ่มเพื่อหยุดจุดที่ซ่อนซึ่งกันและกัน เห็นได้ชัดว่ากราฟิกมาตรฐาน - Minitab เรียกสิ่งนี้ว่า "พล็อตค่าแต่ละค่า" ในความคิดของฉันมันอาจจะทำให้เข้าใจผิดตามที่เห็นกระตุ้นให้เกิดการแก้ไขเชิงเส้นระหว่างสายตาระดับลำดับราวกับว่าข้อมูลมาจากช่วงขนาด
- พล็อตกระจายที่ดัดแปลงเพื่อให้ขนาด (พื้นที่) ของจุดแทนความถี่ของการรวมกันของระดับนั้นแทนที่จะวาดหนึ่งจุดสำหรับแต่ละหน่วยสุ่มตัวอย่าง ฉันได้เห็นแผนการดังกล่าวเป็นครั้งคราวในทางปฏิบัติ พวกมันอ่านยาก แต่จุดนั้นอยู่บนโครงตาข่ายที่เว้นระยะสม่ำเสมอซึ่งจะเอาชนะการวิพากษ์วิจารณ์พล็อตกระจายที่กระวนกระวายใจ
- โดยเฉพาะอย่างยิ่งหากหนึ่งในตัวแปรนั้นถือว่าเป็นแบบพึ่งพาได้พล็อตกล่องจะถูกจัดกลุ่มตามระดับของตัวแปรอิสระ มีแนวโน้มที่จะดูแย่มากหากจำนวนระดับของตัวแปรตามไม่สูงพอ ("แบน" มากกับหนวดที่หายไปหรือแย่ลง quartiles ซึ่งทำให้การระบุภาพของค่ามัธยฐานเป็นไปไม่ได้) แต่อย่างน้อยก็ดึงดูดความสนใจไปที่มัธยฐานและควอไทล์ สถิติเชิงพรรณนาที่เกี่ยวข้องสำหรับตัวแปรลำดับ
- ตารางค่าหรือกริดเปล่าของเซลล์พร้อมแผนที่ความร้อนเพื่อระบุความถี่ มองเห็นแตกต่างกัน แต่มีแนวคิดคล้ายกับพล็อตกระจายที่มีพื้นที่จุดแสดงความถี่
มีความคิดอื่น ๆ หรือความคิดที่ดีกว่าแปลงไหน มีการวิจัยในสาขาใดบ้างที่มีการพิจารณาแปลงตามลำดับ - vs-ordinal บางแปลงเป็นมาตรฐานหรือไม่? (ฉันดูเหมือนจะจำความถี่ heatmap ที่แพร่หลายในจีโนมิกส์ แต่สงสัยว่าเป็นบ่อยขึ้นสำหรับเล็กน้อย - vs - ชื่อ.) คำแนะนำสำหรับการอ้างอิงมาตรฐานที่ดีก็จะได้รับการต้อนรับมากฉันคาดเดาบางอย่างจาก Agresti
หากใครต้องการที่จะแสดงให้เห็นถึงพล็อตรหัส R สำหรับข้อมูลตัวอย่างปลอมดังต่อไปนี้
"การออกกำลังกายมีความสำคัญกับคุณมากแค่ไหน" 1 = ไม่สำคัญเลย 2 = ค่อนข้างไม่สำคัญ 3 = ไม่สำคัญหรือไม่สำคัญ 4 = ค่อนข้างสำคัญ 5 = สำคัญมาก
"คุณใช้เวลาอย่างน้อย 10 นาทีหรือนานกว่านี้เป็นประจำ" 1 = ไม่เคย, 2 = น้อยกว่าหนึ่งครั้งต่อสัปดาห์, 3 = ทุกๆหนึ่งหรือสองสัปดาห์, 4 = สองหรือสามครั้งต่อสัปดาห์, 5 = สี่หรือมากกว่าครั้งต่อสัปดาห์
ถ้ามันเป็นเรื่องธรรมดาที่จะถือว่า "บ่อยครั้ง" เป็นตัวแปรตามและ "ความสำคัญ" เป็นตัวแปรอิสระถ้าพล็อตแยกความแตกต่างระหว่างทั้งสอง
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
คำถามที่เกี่ยวข้องกับตัวแปรต่อเนื่องที่ฉันพบว่ามีประโยชน์อาจเป็นจุดเริ่มต้นที่มีประโยชน์: อะไรคือทางเลือกในการกระจายการกระจายเมื่อศึกษาความสัมพันธ์ระหว่างตัวแปรตัวเลขสองตัว