คำถามติดแท็ก data-visualization

การสร้างข้อมูลกราฟิกที่เป็นประโยชน์และมีประโยชน์ (หากคำถามของคุณเกี่ยวกับวิธีการรับซอฟต์แวร์เฉพาะเพื่อสร้างเอฟเฟกต์เฉพาะอาจเป็นไปได้ว่าไม่ใช่หัวข้อที่นี่)

4
เส้นตารางและพื้นหลังสีเทาเป็นแผนภูมิที่ไม่ปลอดภัยและควรใช้เป็นข้อยกเว้นเท่านั้นหรือไม่
ดูเหมือนว่าหน่วยงานส่วนใหญ่เห็นด้วยว่าเส้นกริดที่มืดหรือโดดเด่นในแปลงนั้นเป็น "chartjunk" โดยคำจำกัดความที่สมเหตุสมผลและเบี่ยงเบนความสนใจของผู้ชมจากข้อความในเนื้อความหลักของแผนภูมิ ดังนั้นฉันจะไม่รำคาญที่จะให้การอ้างอิงในจุดนั้น เราทุกคนสามารถตกลงกันได้ว่าจะมีบางครั้งที่เส้นตารางสีซีดในการสร้างข้อมูลอ้างอิงสำหรับผู้ชมจะมีความจำเป็น Tufte ที่ถกเถียงกันอยู่ต้องใช้ (และใช้) เส้นตารางเป็นครั้งคราวตามที่ออกมาชี้ในบทความนี้ และฉันเห็นด้วยกับแนวทางของ Hadley Wickham ใน ggplot2 เพื่อทำให้เส้นตารางดังกล่าวเป็นสีขาวบนพื้นหลังสีเทาอ่อนเมื่อคุณจำเป็นต้องใช้มัน สิ่งที่ฉันไม่แน่ใจเกี่ยวกับอย่างไรก็ตามคือว่าเส้นตารางและพื้นหลังสีเทาควรเป็นค่าเริ่มต้นตามที่อยู่ใน ggplot2 ตัวอย่างเช่นดูเหมือนว่าจะไม่มีเหตุผลสำหรับพื้นหลังสีเทานอกเหนือจากกรณีเส้นกริดสีขาวในการบรรเทา - ซึ่งเพิ่มเติม begs คำถามที่ว่าทั้งสองเป็นสิ่งจำเป็น ฉันเพิ่งเริ่มใช้ ggplot2 สำหรับความต้องการด้านกราฟิกส่วนใหญ่ของฉันและคิดว่ามันยอดเยี่ยม แต่มันได้ท้าทายวิธีการ "ไม่มีกล่องไม่มีพื้นหลังไม่มีเส้นตาราง" ของฉันกับกราฟิกที่ฉันใช้มาก่อน ฉันเคยคิดว่าgridlines=OFFควรจะเป็นค่าเริ่มต้นของฉันเว้นแต่จะมีเหตุผลเฉพาะสำหรับการเพิ่มพวกเขา - โดยทั่วไปวิธีการที่แนะนำในบทความนี้เช่น แน่นอนว่ามันเป็นเรื่องตรงไปตรงมาที่จะกำหนดธีมใน ggplot2 เพื่อหลีกเลี่ยง gridlines และ background shading (และอันที่จริงแล้วเราได้ทำสิ่งนี้ในที่ทำงานของฉัน) แต่วิธีของ ggplot2 นั้นยอดเยี่ยมมากและโดยทั่วไปแล้ว ฉันขาดอะไรไป ดังนั้น - ฉันจะขอบคุณสำหรับการอ้างอิงใด ๆ ในจุดนี้ ฉันแน่ใจว่ามันถูกคิดอย่างดีผ่าน (เช่นโดย …

4
การแสดงตัวแปรจำนวนมากในหนึ่งพล็อต
ฉันต้องการแสดงให้เห็นว่าคุณค่าของตัวแปรบางตัว (~ 15) เปลี่ยนแปลงไปอย่างไรเมื่อเวลาผ่านไป แต่ฉันอยากจะแสดงให้เห็นว่าตัวแปรแตกต่างจากกันในแต่ละปีอย่างไร ดังนั้นฉันจึงสร้างพล็อตนี้: แต่แม้ว่าเมื่อเปลี่ยนชุดรูปแบบสีหรือเพิ่มประเภทของเส้น / รูปร่างที่แตกต่างกันก็ดูยุ่งเหยิง มีวิธีที่ดีกว่าในการมองเห็นข้อมูลประเภทนี้หรือไม่? ทดสอบข้อมูลด้วยรหัส R: structure(list(Var = structure(c(1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 6L, 6L, 6L, 6L, 6L, 6L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 8L, …

6
มี "สวัสดีโลก" สำหรับกราฟิกสถิติหรือไม่
ในการเขียนโปรแกรมคอมพิวเตอร์มีโปรแกรมแรกสุดคลาสสิคสำหรับการเรียนรู้ / สอนภาษาหรือระบบใหม่ที่เรียกว่า "สวัสดีโลก" http://en.wikipedia.org/wiki/Hello_world_program มีการสร้างภาพข้อมูลแบบคลาสสิกเป็นครั้งแรกสำหรับการใช้แพ็คเกจกราฟ ถ้าเป็นเช่นนั้นมันคืออะไร? และถ้าไม่ใช่ผู้สมัครที่ดีจะเป็นอย่างไร


6
เทคนิคการสร้างภาพข้อมูลที่ดีในการเปรียบเทียบการกระจายคืออะไร
ฉันกำลังเขียนวิทยานิพนธ์ระดับปริญญาเอกของฉันและฉันก็รู้ว่าฉันอาศัยอยู่มากเกินไปในกล่องแปลงเพื่อเปรียบเทียบการแจกแจง คุณมีทางเลือกอื่นใดในการทำภารกิจนี้ให้สำเร็จ ฉันต้องการถามว่าคุณรู้จักแหล่งข้อมูลอื่น ๆ ในฐานะแกลเลอรี R หรือไม่ซึ่งฉันสามารถสร้างแรงบันดาลใจให้ตัวเองด้วยแนวคิดที่แตกต่างกันในการสร้างภาพข้อมูล

3
การแสดงข้อมูลการตอบสนองของรายการ Likert
มีวิธีใดที่ดีในการแสดงชุดคำตอบของ Likert ตัวอย่างเช่นชุดของรายการที่สอบถามเกี่ยวกับความสำคัญของ X ต่อการตัดสินใจเกี่ยวกับ A, B, C, D, E, F & G มีบางสิ่งที่ดีกว่าแผนภูมิแท่งแบบเรียงซ้อนหรือไม่? ควรทำอย่างไรกับคำตอบของ N / A พวกเขาจะเป็นตัวแทนได้อย่างไร? แผนภูมิแท่งควรรายงานเปอร์เซ็นต์หรือจำนวนคำตอบหรือไม่ (กล่าวคือแท่งควรมีความยาวเท่ากันหรือไม่) หากเป็นเปอร์เซ็นต์ตัวหารควรรวมการตอบสนองที่ไม่ถูกต้องและ / หรือ N / A หรือไม่ ฉันมีมุมมองของตัวเอง แต่ฉันกำลังมองหาความคิดของคนอื่น

1
วิธีการมองเห็นตารางฉุกเฉินที่กระจัดกระจายอย่างมาก?
ฉันมีสองตัวแปร: ชื่อยา (DN) และเหตุการณ์ไม่พึงประสงค์ที่เกี่ยวข้อง (AE) ที่เกี่ยวข้องซึ่งมีความสัมพันธ์แบบกลุ่มต่อกลุ่ม ชื่อยา 33,556 รายการและเหตุการณ์ไม่พึงประสงค์ 9,516 รายการ ขนาดตัวอย่างประมาณ 5.8 ล้านข้อสังเกต ฉันต้องการศึกษาและเข้าใจความสัมพันธ์ / ความสัมพันธ์ระหว่าง DN และ AE ฉันกำลังคิดเกี่ยวกับวิธีการมองภาพชุดนี้ใน R เพราะจะดีกว่าที่จะดูรูปภาพ ฉันไม่แน่ใจว่าจะทำอย่างไร ...

2
จะรวมคำศัพท์โต้ตอบใน GAM ได้อย่างไร
รหัสต่อไปนี้ประเมินความคล้ายคลึงกันระหว่างอนุกรมเวลาสองชุด: set.seed(10) RandData <- rnorm(8760*2) America <- rep(c('NewYork','Miami'),each=8760) Date = seq(from=as.POSIXct("1991-01-01 00:00"), to=as.POSIXct("1991-12-31 23:00"), length=8760) DatNew <- data.frame(Loc = America, Doy = as.numeric(format(Date,format = "%j")), Tod = as.numeric(format(Date,format = "%H")), Temp = RandData, DecTime = rep(seq(1, length(RandData)/2) / (length(RandData)/2), 2)) require(mgcv) mod1 <- gam(Temp ~ Loc + s(Doy) + s(Doy,by …

3
การลดขนาดสำหรับการสร้างภาพควรได้รับการพิจารณาว่าเป็นปัญหา "ปิด" แก้ไขโดย t-SNE หรือไม่
ฉันอ่านเกี่ยวกับอัลกอริทึม -sne มากสำหรับการลดขนาด ฉันประทับใจมากกับประสิทธิภาพของชุดข้อมูล "คลาสสิค" เช่น MNIST ซึ่งทำให้สามารถแยกตัวเลขได้อย่างชัดเจน ( ดูบทความต้นฉบับ ):เสื้อเสื้อt ฉันยังใช้มันเพื่อแสดงคุณสมบัติที่เรียนรู้โดยเครือข่ายประสาทที่ฉันกำลังฝึกอบรมและฉันก็พอใจกับผลลัพธ์มาก ดังนั้นฉันเข้าใจ: เสื้อเสื้อt -sne มีผลลัพธ์ที่ดีในชุดข้อมูลส่วนใหญ่และมีการนำไปใช้อย่างมีประสิทธิภาพ - ด้วยวิธีการประมาณ Barnes-Hut จากนั้นเราอาจพูดได้ว่าปัญหา "การลดมิติ" อย่างน้อยก็เพื่อจุดประสงค์ในการสร้างการสร้างภาพข้อมูล 2D / 3D ที่ดีตอนนี้เป็นปัญหา "ปิด" หรือไม่O ( n บันทึกn )O(nเข้าสู่ระบบ⁡n)O(n \log n) ฉันรู้ว่านี่เป็นคำสั่งที่ค่อนข้างหนา ฉันสนใจที่จะเข้าใจว่า "หลุมพราง" ที่เป็นไปได้ของวิธีการนี้คืออะไร นั่นคือมีกรณีใดบ้างที่เรารู้ว่าไม่มีประโยชน์หรือไม่ นอกจากนี้ปัญหา "เปิด" ในฟิลด์นี้คืออะไร

3
การแสดงภาพการสอบเทียบความน่าจะเป็นที่คาดการณ์ของแบบจำลอง
สมมติว่าฉันมีรูปแบบการทำนายที่สร้างความน่าจะเป็นสำหรับแต่ละคลาส ตอนนี้ฉันรู้แล้วว่ามีหลายวิธีในการประเมินโมเดลดังกล่าวหากฉันต้องการใช้ความน่าจะเป็นเหล่านั้นสำหรับการจัดหมวดหมู่ (ความแม่นยำการเรียกคืนและอื่น ๆ ) ฉันยังจำได้ว่าเส้นโค้ง ROC และพื้นที่ใต้นั้นสามารถใช้เพื่อกำหนดว่าแบบจำลองแตกต่างกันอย่างไรระหว่างคลาส นั่นไม่ใช่สิ่งที่ฉันถาม ฉันสนใจที่จะประเมินการสอบเทียบโมเดล ฉันรู้ว่ากฎการให้คะแนนเช่นคะแนน Brierจะมีประโยชน์สำหรับงานนี้ ไม่เป็นไรและฉันจะรวมบางสิ่งบางอย่างไว้ในบรรทัดเหล่านั้น แต่ฉันไม่แน่ใจว่าการวัดที่ใช้งานง่ายเช่นนี้จะใช้กับบุคคลทั่วไปได้อย่างไร ฉันกำลังมองหาบางสิ่งที่มองเห็นได้ชัดเจนขึ้น ฉันต้องการให้บุคคลตีความผลลัพธ์เพื่อให้สามารถเห็นว่าแบบจำลองทำนายบางสิ่งบางอย่าง 70% มีแนวโน้มที่จะเกิดขึ้นจริงหรือไม่ว่าจะเกิดขึ้นจริง ~ 70% ของเวลาเป็นต้น ฉันได้ยินเรื่องแผนการ QQ (แต่ไม่เคยใช้) และในตอนแรกฉันคิดว่านี่คือสิ่งที่ฉันกำลังมองหา แต่ก็ดูเหมือนว่ามีความหมายจริงๆสำหรับการเปรียบเทียบสองการแจกแจงความน่าจะเป็น นั่นไม่ใช่สิ่งที่ฉันมี ฉันมีความน่าจะเป็นที่คาดการณ์ของฉันจากหลาย ๆ กรณีและไม่ว่าจะเกิดขึ้นจริงหรือไม่: Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... พล็อต …

2
Scatterplot พร้อม contour / heat overlay
ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันเห็นพล็อตนี้ในส่วนเสริมของกระดาษเมื่อเร็ว ๆ นี้และฉันชอบที่จะสามารถทำซ้ำได้โดยใช้อาร์มันเป็นแผนการกระจาย ความหนาแน่นมากเกินไป ฉันจะทำสิ่งนี้ได้อย่างไร

7
แผนที่ความร้อนเป็นหนึ่งในการแสดงข้อมูลที่มีประสิทธิภาพน้อยที่สุดหรือไม่?
คำถาม:เมื่อใด (สำหรับปัญหาการสร้างภาพข้อมูลประเภทใด) แผนที่ความร้อนมีประสิทธิภาพมากที่สุด? (โดยเฉพาะอย่างยิ่งมีประสิทธิภาพมากกว่าเทคนิคการสร้างภาพที่เป็นไปได้อื่น ๆ ทั้งหมดหรือไม่) แผนที่ความร้อนจะมีประสิทธิภาพน้อยที่สุดเมื่อใด มีรูปแบบทั่วไปหรือกฎง่ายๆที่สามารถใช้ในการตัดสินใจหรือไม่ว่าแผนที่ความร้อนน่าจะเป็นวิธีที่มีประสิทธิภาพในการแสดงภาพข้อมูลและเมื่อพวกเขามีแนวโน้มที่จะไม่ได้ผลหรือไม่ (โดยหลักแล้วฉันมีแผนที่ความร้อนสำหรับตัวแปร 2 ประเภทและ 1 ตัวแปรต่อเนื่อง แต่ฉันสนใจที่จะรับฟังความคิดเห็นเกี่ยวกับแผนที่ความร้อนประเภทอื่น ๆ ) บริบท:ฉันกำลังเรียนหลักสูตรออนไลน์เกี่ยวกับการสร้างภาพข้อมูลและตอนนี้พวกเขากำลังพูดถึงประเภทของพล็อตที่ไม่มีประสิทธิภาพและใช้เกิน พวกเขาได้พูดถึงแผนการของไดนาไมต์และแผนภูมิวงกลมแล้วและสาเหตุที่ทำให้พวกมันไม่มีประสิทธิภาพและทำไมมีทางเลือกที่ดีกว่าสำหรับพวกเขาชัดเจนและน่าเชื่อถือสำหรับฉัน ยิ่งไปกว่านั้นมันเป็นเรื่องง่ายที่จะหาแหล่งข้อมูลอื่นที่ยืนยันความคิดเห็นเกี่ยวกับพล็อตไดนาไมต์และแผนภูมิวงกลม อย่างไรก็ตามหลักสูตรนี้ยังกล่าวอีกว่า "แผนที่ความร้อนเป็นหนึ่งในการสร้างภาพข้อมูลที่มีประสิทธิภาพน้อยที่สุด" การถอดความของสาเหตุที่ให้ไว้ด้านล่าง แต่เมื่อฉันพยายามค้นหาสถานที่อื่น ๆ บน Google ที่ยืนยันมุมมองนี้ฉันมีความยากลำบากมากในทางตรงกันข้ามกับการค้นหาความคิดเห็นเกี่ยวกับประสิทธิภาพของแผนภูมิวงกลมและแผนการระเบิด ดังนั้นฉันจึงอยากทราบว่าลักษณะของแผนที่ความร้อนที่กำหนดในหลักสูตรนั้นถูกต้องเพียงใดและเมื่อปัจจัยที่มีต่อพวกเขานั้นสำคัญน้อยที่สุดและสำคัญที่สุดสำหรับบริบทที่กำหนด เหตุผลที่ให้คือ: การแมปสีบนสเกลต่อเนื่องเป็นการยาก มีข้อยกเว้นบางประการสำหรับกฎนี้ดังนั้นจึงไม่ใช่ตัวแบ่งข้อตกลง แต่ในกรณีของแผนที่ความร้อนปัญหานั้นยากเป็นพิเศษเพราะการรับรู้ของเราเกี่ยวกับการเปลี่ยนสีขึ้นอยู่กับสีของเพื่อนบ้าน แผนที่ความร้อนจึงไม่เหมาะสำหรับการดูผลลัพธ์แต่ละรายการแม้ในชุดข้อมูลขนาดเล็ก ซึ่งนำไปสู่: การตอบคำถามที่เฉพาะเจาะจงโดยใช้วิธีการค้นหาแบบตารางนั้นไม่สามารถทำได้เนื่องจากเป็นไปไม่ได้ที่จะอนุมานด้วยความแม่นยำที่เพียงพอค่าตัวเลขที่สอดคล้องกับสีที่กำหนด บ่อยครั้งที่ข้อมูลไม่ได้ถูกจัดกลุ่มในลักษณะที่ทำให้เกิดแนวโน้ม หากไม่มีการจัดกลุ่มดังกล่าวมักเป็นเรื่องยากหรือเป็นไปไม่ได้ที่จะอนุมานอะไรเกี่ยวกับรูปแบบโดยรวมทั่วไป แผนที่ความร้อนมักใช้เพื่อสื่อสาร "ปัจจัยว้าว" หรือดูเท่โดยเฉพาะอย่างยิ่งเมื่อใช้การไล่ระดับสีแบบหลายสี แต่มักจะมีวิธีที่ดีกว่าในการสื่อสารข้อมูล การลงจุดข้อมูลอย่างต่อเนื่องในระดับทั่วไปเป็นตัวเลือกที่ดีที่สุดเสมอ หากมีองค์ประกอบเวลาตัวเลือกที่ชัดเจนที่สุดคือพล็อตบรรทัด

4
ชื่อของแผนภูมินี้แสดงอัตราบวกที่เป็นเท็จและจริงคืออะไรและสร้างขึ้นอย่างไร
ภาพด้านล่างแสดงเส้นโค้งต่อเนื่องของอัตราบวกเป็นบวกเทียบกับอัตราบวกจริง: อย่างไรก็ตามสิ่งที่ฉันไม่ได้รับทันทีคือวิธีคำนวณอัตราเหล่านี้ หากมีการใช้วิธีการกับชุดข้อมูลจะมีอัตรา FP ที่แน่นอนและอัตรา FN ที่แน่นอน ไม่ได้หมายความว่าแต่ละวิธีควรมีจุดเดียวมากกว่าเป็นเส้นโค้งใช่หรือไม่ แน่นอนว่ามีหลายวิธีในการกำหนดค่าวิธีการสร้างจุดที่แตกต่างกันหลายอย่าง แต่ก็ไม่ชัดเจนสำหรับฉันว่ามีอัตราความต่อเนื่องนี้หรือวิธีที่สร้างขึ้น

4
การสร้างภาพข้อมูลที่ดีที่สุดสำหรับตารางฉุกเฉินคืออะไร
จุดไหนที่ดีที่สุดจากมุมมองเชิงสถิติเพื่อแสดงตารางฉุกเฉินซึ่งโดยทั่วไปแล้วจะถูกวิเคราะห์โดยการทดสอบไคสแควร์ มันเป็น barplot ที่หลบ, barplot ที่ซ้อนกัน, heatmap, พล็อตรูปร่าง, scatterplot ของ jitterred, พล็อตหลายบรรทัดหรืออย่างอื่น? หนึ่งควรแสดงค่าสัมบูรณ์หรือเปอร์เซ็นต์ แก้ไข: หรือตามที่ @forecaster แนะนำในความคิดเห็นตารางของตัวเลขเป็นพล็อตที่เรียบง่ายและน่าจะเพียงพอ

2
แหล่งข้อมูลออนไลน์ที่ดีพร้อมเคล็ดลับในการเชื่อมโยงกราฟระหว่างตัวแปรตัวเลขสองตัวภายใต้เงื่อนไขต่าง ๆ
บริบท: ในขณะที่ฉันได้รับชุดของฮิวริสติกเกี่ยวกับวิธีการกำหนดความสัมพันธ์ระหว่างตัวแปรตัวเลขสองตัวอย่างมีประสิทธิภาพ ฉันคิดว่าคนส่วนใหญ่ที่ทำงานกับข้อมูลจะมีชุดของกฎที่คล้ายกัน ตัวอย่างของกฎดังกล่าวอาจเป็น: หากตัวแปรตัวใดตัวหนึ่งเอียงเชิงบวกให้พิจารณาการวางแผนแกนนั้นในระดับบันทึก หากมีจุดข้อมูลจำนวนมาก (เช่น n> 1,000) ให้ใช้กลยุทธ์ที่แตกต่างเช่นการใช้ความโปร่งใสบางส่วนหรือสุ่มตัวอย่างข้อมูล หากตัวแปรตัวใดตัวหนึ่งมีจำนวนหมวดหมู่ไม่ต่อเนื่องกันให้พิจารณาใช้ส่วนที่กระวนกระวายใจหรือเนื้อเรื่องของดอกทานตะวัน หากมีสามตัวหรือมากกว่าให้ลองใช้เมทริกซ์ scatterplot การปรับเทรนด์ไลน์บางรูปแบบมักมีประโยชน์ ปรับขนาดของอักขระการพล็อตเป็นขนาดตัวอย่าง (สำหรับ n ที่ใหญ่กว่าให้ใช้อักขระการพล็อตที่เล็กกว่า) และอื่น ๆ คำถาม: ฉันต้องการที่จะสามารถอ้างถึงนักเรียนไปยังหน้าเว็บหรือเว็บไซต์ที่อธิบายถึงเทคนิคเหล่านี้และเทคนิคอื่น ๆ สำหรับการวางแผนความสัมพันธ์ระหว่างตัวแปรตัวเลขสองตัวได้อย่างมีประสิทธิภาพหรืออาจเป็นตัวอย่าง มีหน้าเว็บหรือเว็บไซต์บนอินเทอร์เน็ตที่ใช้งานได้ดีหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.