คำถามติดแท็ก data-visualization

การสร้างข้อมูลกราฟิกที่เป็นประโยชน์และมีประโยชน์ (หากคำถามของคุณเกี่ยวกับวิธีการรับซอฟต์แวร์เฉพาะเพื่อสร้างเอฟเฟกต์เฉพาะอาจเป็นไปได้ว่าไม่ใช่หัวข้อที่นี่)

1
การตีความความหนาแน่นแบบมีเงื่อนไข
ฉันต้องการทราบวิธีการตีความแปลงความหนาแน่นตามเงื่อนไขอย่างถูกต้อง ฉันได้ใส่สองด้านล่างที่ผมสร้างขึ้นใน R cdplotกับ ตัวอย่างเช่นความน่าจะเป็นของผลลัพธ์เท่ากับ 1 เมื่อVar 1เท่ากับ 150 ประมาณ 80% หรือไม่ พื้นที่สีเทาเข้มคือความน่าจะเป็นแบบมีเงื่อนไขResultซึ่งเท่ากับ 1 ใช่ไหม? จากcdplotเอกสารประกอบ: cdplot คำนวณความหนาแน่นตามเงื่อนไขของ x ที่กำหนดระดับของ y ที่ถ่วงน้ำหนักด้วยการแจกแจงส่วนขอบของ y ความหนาแน่นจะได้รับมาจากระดับ y การสะสมนี้มีผลต่อการตีความแปลงเหล่านี้อย่างไร

3
สร้างแผนผังความน่าจะเป็นของเส้นทางสำหรับการเดินทางผ่านเว็บไซต์
ขณะนี้ฉันกำลังทำการวิเคราะห์บนเว็บไซต์ที่ต้องการให้ฉันสร้างแผนผังการตัดสินใจแสดงเส้นทางที่เป็นไปได้ที่ผู้คนใช้เมื่อใดก็ตามที่พวกเขามาถึงเว็บไซต์ ฉันกำลังจัดการกับสิ่งdata.frameที่แสดงเส้นทางของลูกค้าทั้งหมดไปยังเว็บไซต์โดยเริ่มจากหน้าแรก ตัวอย่างเช่นลูกค้าสามารถใช้เส้นทางต่อไปนี้: Homepage - pg 1 Kitchen Items page - pg 2 Pots and Pans page - pg 3 ดังนั้นลูกค้ารายนี้จะมีการเดินทาง 3 หน้า สิ่งที่ฉันต้องการทำใน R คือการรวมพา ธ ของลูกค้าทั้งหมดและกำหนดความน่าจะเป็นให้กับลูกค้าตามเส้นทางที่แน่นอนในไซต์ ตัวอย่างเช่นหากฉันต้องตรวจสอบเส้นทางทั้งหมดฉันจะพบว่า 34% ของผู้ที่มาถึงหน้าแรกให้ไปที่ 'หน้ารายการครัว' R มีสถานที่นี้หรือไม่? ฉันค้นหาวิธีการต่าง ๆ ผ่านแพ็คเกจ rpartและpartykitแต่ดูเหมือนว่าพวกเขาไม่ได้ช่วยอะไรเลย ผู้ควบคุมทิศทางที่ถูกต้องสำหรับสิ่งนี้จะได้รับการชื่นชมอย่างมาก!

3
วิธีการดูข้อมูลอนุกรมเวลาขนาดใหญ่แบบโต้ตอบ?
ฉันมักจะจัดการกับข้อมูลอนุกรมเวลาที่มีขนาดพอสมควรจำนวน 50-200 ล้านคู่กับการประทับเวลาที่เกี่ยวข้องและต้องการเห็นภาพเหล่านั้นแบบไดนามิก มีซอฟต์แวร์ที่มีอยู่ให้ทำอย่างมีประสิทธิภาพหรือไม่ ห้องสมุดและรูปแบบข้อมูลเป็นอย่างไร Zoom-cacheเป็นตัวอย่างหนึ่งของการมุ่งเน้นไปที่อนุกรมเวลาขนาดใหญ่ ในซูมแคชข้อมูลสรุปที่ความละเอียดหลายอย่างเพื่อให้ง่ายต่อการดูที่ความละเอียดที่แตกต่างกัน แก้ไข: หากมีที่อื่นฉันควรถามคำถามนี้หรือค้นหาคำตอบโปรดแจ้งให้เราทราบ

3
คุณเห็นภาพผลลัพธ์ไบนารีกับตัวทำนายอย่างต่อเนื่องได้อย่างไร
ฉันมีข้อมูลบางอย่างที่ฉันต้องการเห็นภาพและไม่แน่ใจว่าจะทำอย่างไรดีที่สุด ฉันมีรายการฐานบางชุดมีความถี่ตามลำดับF = { f 1 , ⋯ , f n }และผลลัพธ์ O ∈ { 0 , 1 } nQ = { q1, ⋯ , qn}Q={q1,⋯,qn}Q = \{ q_1, \cdots, q_n \}F= { f1, ⋯ , fn}F={f1,⋯,fn}F = \{f_1, \cdots, f_n \}O ∈ { 0 , 1 }nO∈{0,1}nO \in \{0,1\}^n. …

2
กราฟในการออกแบบการถดถอยแบบไม่ต่อเนื่องใน“ Stata” หรือ“ R”
Lee และ Lemieux (หน้า 31, 2009) แนะนำให้นักวิจัยนำเสนอกราฟในขณะที่ทำการวิเคราะห์การออกแบบการถดถอยแบบไม่ต่อเนื่อง (RDD) พวกเขาแนะนำขั้นตอนต่อไปนี้: "... สำหรับแบนด์วิดท์และสำหรับจำนวนของถังขยะและ K_1ทางด้านซ้ายและขวาของค่า cutoff ตามลำดับแนวคิดคือการสร้างถังขยะ ( b_k , b_ {k + 1} ], สำหรับk = 1,..., K = K_0 + K_1โดยที่b_k = c− (K_0 − k + 1) \ cdot h. "K 0 K 1 ขk ขk + 1 k = …

2
การประเมินกลุ่มของลูกโซ่มาร์คอฟอันดับหนึ่ง
ฉันจัดกลุ่มชุดข้อมูลของมาร์คอฟอันดับหนึ่งหลายพันกลุ่มเป็นกลุ่มประมาณ 10 กลุ่ม มีวิธีที่แนะนำบางอย่างที่ฉันสามารถประเมินกลุ่มเหล่านี้และค้นหารายการในกลุ่มที่ใช้ร่วมกันและสิ่งที่แตกต่างจากกลุ่มอื่น ๆ ? ดังนั้นฉันสามารถสร้างคำสั่งเช่น "กระบวนการในกลุ่ม A มักจะอยู่ในสถานะ Y เมื่อพวกเขาไปถึงที่นั่นซึ่งไม่เป็นความจริงสำหรับกระบวนการในกลุ่มอื่น ๆ " เมทริกซ์การเปลี่ยนแปลงของเชนมาร์คอฟนั้นใหญ่เกินกว่าที่จะ "มองและมอง" พวกมันค่อนข้างเบาบางหากสามารถช่วยได้ ความคิดของฉันคือการใช้เมทริกซ์การเปลี่ยนแปลงทั้งหมดในกลุ่มรวมพวกเขาและพล็อตมันเป็นความเข้มในภาพ (ในระดับจาก 0 ถึง 255) มีอะไรเป็น "มืออาชีพ" มากกว่านี้ที่ฉันควรลอง?

3
การเหลือบมองครั้งแรกอย่างรวดเร็วที่ชุดข้อมูล
กรุณาให้อภัยความไม่รู้ของฉัน แต่ ... ฉันพบตัวเองอยู่ในสถานการณ์ที่ฉันต้องเผชิญกับข้อมูลใหม่ ๆ มากมายที่ฉันพยายามหา ข้อมูลนี้มักจะมีลักษณะดังนี้: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) โดยทั่วไปในครั้งแรกที่ฉันไม่สามารถบอกได้ว่ามีแนวโน้มใด ๆ ที่นี่หรือไม่ ความสัมพันธ์ระหว่างคอลัมน์ต่าง ๆ อาจไม่สำคัญมาก แต่ฉันจะดีใจถ้าฉันไม่ต้องสร้างพล็อตด้วยตนเองสำหรับทุกชุดของคอลัมน์ / หมวดหมู่ที่เป็นไปได้ มีเครื่องมือที่จะยอมรับตารางของข้อมูลพร้อมกับข้อมูลที่คอลัมน์ควรจะถือว่าเป็นตัวเลขวันที่และหมวดหมู่แล้วดำเนินการพล็อต: ความสัมพันธ์ระหว่างแต่ละคอลัมน์สองคอลัมน์ ความสัมพันธ์ระหว่างแต่ละคอลัมน์สองคอลัมน์โดยมีเส้นแนวโน้มแยกกันสำหรับแต่ละหมวดหมู่ แต่ละคอลัมน์ตัวเลขเป็นอนุกรมเวลา แต่ละคอลัมน์ตัวเลขเป็นอนุกรมเวลาคั่นด้วยหมวดหมู่ เป็นต้น ในที่สุดสิ่งนี้จะสร้างแปลงจำนวนมากซึ่งส่วนใหญ่จะแสดงเพียงเสียงรบกวน ตามหลักการแล้วเครื่องมือสามารถทำคะแนนพล็อตตามความสัมพันธ์และในที่สุดก็แสดงสไลด์โชว์โดยเริ่มจากพล็อตการให้คะแนนสูงสุด นี่จะไม่สมบูรณ์มาก แต่มีประโยชน์อย่างรวดเร็วก่อนที่ชุดข้อมูล ดังนั้น? มีเครื่องมือที่ทุกคนใช้สำหรับสิ่งนี้และฉันไม่รู้เกี่ยวกับมันหรือเป็นสิ่งที่เราต้องทำหรือไม่?

7
ใน R ไดรเวอร์กราฟิกที่ดีที่สุดสำหรับการใช้กราฟใน Microsoft Word คืออะไร
ฉันใช้ R เพื่อสร้างกราฟที่เรียบร้อยที่ฉันใช้ในเอกสาร Microsoft Office ตามหน้านี้คุณภาพที่ดีที่สุดนั้นมาพร้อมกับไดรเวอร์ PDF น่าเสียดายที่ Word ไม่รองรับการนำเข้าตัวเลข PDF ฉันควรใช้อะไร

5
การแสดงชุดค่าผสม 2 ตัวอักษร
คำตอบสำหรับคำถามนี้เกี่ยวกับ SO ได้ส่งคืนชุดของชื่อหนึ่งถึงสองตัวประมาณ 125 ตัว: /programming/6979630/what-1-2-letter-object-names-conflict-with-existing -r วัตถุ [1] "Ad" "am" "ar" "as" "bc" "bd" "bp" "br" "BR" "bs" "by" "c" "C" [14] "cc" "cd" "ch" "ci" "CJ" "ck" "Cl" "cm" "cn" "cq" "cs" "Cs" "cv" [27] "d" "D" "dc" "dd" "de" "df" "dg" "dn" "do" "ds" "dt" "e" "E" …

8
สารานุกรมกราฟิก
ฉันต้องสร้างเว็บแอพที่มีผู้ใช้หลายคนซึ่งเกี่ยวกับการวัดปริมาณการเข้าชมการพยากรณ์โรค ฯลฯ ณ จุดนี้ฉันรู้ว่าฉันจะใช้แผนภูมิแท่งและแผนภูมิวงกลม น่าเสียดายที่ประเภทแผนภูมิเหล่านั้นไม่สมบูรณ์ในการแสดงข้อมูลทั้งหมดที่ฉันรวบรวมและคำนวณ ฉันกำลังมองหาคอลเลกชันของแผนภูมิกราฟิก มันโอเคมากถ้าฉันต้องซื้อหนังสือหรืออย่างอื่น ฉันต้องการค้นหาตัวอย่างกราฟิกพร้อมคำอธิบายเพื่อสร้างแรงบันดาลใจให้ฉัน คุณรู้จักทรัพยากรเช่นนี้หรือไม่? คุณมีคำแนะนำใด ๆ สำหรับฉัน

3
วิธีการแสดงเมทริกซ์ของความสัมพันธ์กับรายการที่หายไป?
ฉันต้องการได้ภาพกราฟิกของความสัมพันธ์ในบทความที่รวบรวมมาเพื่อสำรวจความสัมพันธ์ระหว่างตัวแปรได้อย่างง่ายดาย ฉันเคยวาดกราฟ (ยุ่ง) แต่ตอนนี้ฉันมีข้อมูลมากเกินไป โดยทั่วไปฉันมีตารางที่: [0]: ชื่อของตัวแปร 1 [1]: ชื่อของตัวแปร 2 [2]: ค่าสหสัมพันธ์ เมทริกซ์ "โดยรวม" ไม่สมบูรณ์ (เช่นฉันมีความสัมพันธ์ของ V1 * V2, V2 * V3 แต่ไม่ใช่ V1 * V3) มีวิธีที่จะเป็นตัวแทนกราฟิกนี้หรือไม่?

2
พล็อตการถดถอยเชิงซ้อนใน R
ฉันต้องการวาดกราฟิกที่ซับซ้อนสำหรับการวิเคราะห์ข้อมูลภาพ ฉันมี 2 ตัวแปรและกรณีจำนวนมาก (> 1,000) ตัวอย่างเช่น (หมายเลขคือ 100 ถ้าทำให้การกระจายน้อยลง "ปกติ"): x <- rnorm(100,mean=95,sd=50) y <- rnorm(100,mean=35,sd=20) d <- data.frame(x=x,y=y) 1) ฉันต้องการพล็อตข้อมูลดิบที่มีขนาดพอยต์ซึ่งสอดคล้องกับความถี่สัมพัทธ์ของความบังเอิญดังนั้นจึงplot(x,y)ไม่ใช่ตัวเลือก - ฉันต้องการขนาดพอยต์ สิ่งที่ควรทำเพื่อให้บรรลุสิ่งนี้? 2) ในพล็อตเดียวกันฉันต้องพล็อตความมั่นใจช่วง 95% วงรีและบรรทัดที่แสดงถึงการเปลี่ยนแปลงของสหสัมพันธ์ (ไม่รู้วิธีตั้งชื่ออย่างถูกต้อง) - บางอย่างเช่นนี้: library(corrgram) corrgram(d, order=TRUE, lower.panel=panel.ellipse, upper.panel=panel.pts) แต่มีกราฟทั้งสองที่หนึ่งพล็อต 3) ในที่สุดฉันต้องวาดโมเดลการถดถอยของ linar ที่เกิดขึ้นจากสิ่งเหล่านี้ทั้งหมด: r<-lm(y~x, data=d) abline(r,col=2,lwd=2) แต่มีช่วงข้อผิดพลาด ... คล้ายกับ QQ-plot: แต่สำหรับข้อผิดพลาดที่เหมาะสมถ้าเป็นไปได้ …

1
พล็อตเส้นการถดถอยแบบต่อเนื่อง
มีวิธีการพล็อตบรรทัดการถดถอยของตัวแบบทีละชิ้นเช่นนี้นอกเหนือจากการใช้linesเพื่อพล็อตแต่ละเซ็กเมนต์แยกจากกันหรือใช้geom_smooth(aes(group=Ind), method="lm", fill=FALSE)? m.sqft <- mean(sqft) model <- lm(price~sqft+I((sqft-m.sqft)*Ind)) # sqft, price: continuous variables, Ind: if sqft>mean(sqft) then 1 else 0 plot(sqft,price) abline(reg = model) Warning message: In abline(reg = model) : only using the first two of 3regression coefficients ขอบคุณ.

4
วิธีการมองหาหุบเขาในกราฟ?
ฉันกำลังตรวจสอบข้อมูลความครอบคลุมจีโนมซึ่งโดยทั่วไปเป็นจำนวนเต็ม (ไม่กี่ล้านค่า) ของจำนวนเต็มแต่ละคนบอกว่าตำแหน่งนี้ในจีโนมดีแค่ไหน (หรือ "ลึก") ฉันต้องการค้นหา "หุบเขา" ในข้อมูลนี้นั่นคือภูมิภาคที่ "ต่ำ" อย่างมีนัยสำคัญมากกว่าสภาพแวดล้อมโดยรอบ โปรดทราบว่าขนาดของหุบเขาที่ฉันกำลังมองหาอาจมีตั้งแต่ 50 ฐานไปจนถึงสองสามพันแห่ง คุณอยากจะแนะนำกระบวนทัศน์ประเภทใดในการค้นหาหุบเขาเหล่านั้น UPDATE ตัวอย่างกราฟิกสำหรับข้อมูล: อัพเดท 2 การกำหนดว่าหุบเขาคืออะไรแน่นอนว่าเป็นหนึ่งในคำถามที่ฉันต้องดิ้นรน นี่คือสิ่งที่ชัดเจนสำหรับฉัน: แต่มีบางสถานการณ์ที่ซับซ้อนมากขึ้น โดยทั่วไปมีหลักเกณฑ์ 3 ข้อที่ฉันพิจารณา: 1. ความครอบคลุม (โดยเฉลี่ย? สูงสุด) ในหน้าต่างที่เกี่ยวข้องกับค่าเฉลี่ยทั่วโลก 2. ความครอบคลุม (... ) ในหน้าต่างที่เกี่ยวกับบริเวณโดยรอบ 3. วิธีการที่มีขนาดใหญ่เป็นหน้าต่าง: หากฉันเห็นความคุ้มครองที่ต่ำมากสำหรับช่วงสั้น ๆ เป็นที่น่าสนใจถ้าฉันเห็นความคุ้มครองที่ต่ำมากสำหรับช่วงยาวก็ยังน่าสนใจถ้าฉันเห็นความคุ้มครองต่ำอย่างอ่อนโยนสำหรับช่วงสั้นก็ไม่น่าสนใจจริงๆ แต่ถ้าฉันเห็นการครอบคลุมที่ต่ำอย่างอ่อนโยนเป็นเวลานาน - มันคือ .. ดังนั้นมันจึงเป็นการรวมกันของความยาวของ sapn และความครอบคลุม ยิ่งฉันปล่อยให้ความคุ้มครองสูงเท่าไหร่และยิ่งคิดว่าเป็นหุบเขา ขอบคุณ เดฟ


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.