คำถามติดแท็ก data-visualization

การสร้างข้อมูลกราฟิกที่เป็นประโยชน์และมีประโยชน์ (หากคำถามของคุณเกี่ยวกับวิธีการรับซอฟต์แวร์เฉพาะเพื่อสร้างเอฟเฟกต์เฉพาะอาจเป็นไปได้ว่าไม่ใช่หัวข้อที่นี่)

2
สงสัยว่าแผนภูมิการวิเคราะห์พล็อตถั่วหมายความว่าอย่างไร
หนึ่งตีความและสร้างแผนภูมิถั่วอย่างไร นี่คือตัวอย่างหนึ่งที่นำมาจากWalkes และคณะ 2010 ข้อมูลประเภทใดที่มีประโยชน์มากที่สุด? (ที่มา: biomedcentral.com )

3
PCA แบบฝึกหัดช่วยสอนพร้อมข้อมูล
การค้นหาอินเทอร์เน็ตสำหรับการสอนแบบ PCA ให้ผลลัพธ์นับพันรายการ (แม้แต่วิดีโอ) บทเรียนจำนวนมากดีมาก แต่ฉันไม่สามารถหาตัวอย่างที่ใช้งานได้จริงใด ๆ ที่มีการอธิบาย PCA โดยใช้ชุดข้อมูลบางอย่างที่ฉันสามารถใช้สำหรับการสาธิต ฉันต้องการการสอนที่มีชุดข้อมูลขนาดเล็กซึ่งง่ายต่อการพล็อต (ไม่ใช่ 10,000 บรรทัดของข้อมูลที่มีมิติ 100s) ก่อนและหลังการวิเคราะห์ PCA และสามารถแสดงความแตกต่าง / ผลลัพธ์ได้อย่างชัดเจน (ฉันคิดว่าตัวอย่างการใช้งานจริงแบบทีละขั้นตอนโดยมีข้อมูลที่มีประมาณ 100 บรรทัดและ 3 มิตินั้นยอดเยี่ยม) คุณมีข้อเสนอแนะหรือไม่?

1
การวางแผนเหตุการณ์บนเส้นเวลาใน R
มีห้องสมุดพล็อตสำหรับ R ที่สามารถเปลี่ยน dataframe ของเวลาเริ่มต้นและหยุดเวลาเป็นพล็อตไทม์ไลน์ได้ดังนี้: แกน Y มีความหมายเพียงอย่างเดียวนั่นคือมันซ้อนกันพร้อมกัน แต่ไม่ได้แสดงถึงการเกิดพร้อมกันเสมอ (ดูที่ช่องว่างตรงกลาง) แต่ละกล่องสีเทาเป็นเหตุการณ์ - แถวจากดาต้าเฟรม DataFrame จะมีสองคอลัมน์เวลาเริ่มต้นและเวลาหยุด

3
วิธีการทำแผนภูมิวาฟเฟิลใน R?
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันจะพล็อตแผนภูมิวาฟเฟิลเป็นทางเลือกแทนการใช้แผนภูมิวงกลมใน R ได้อย่างไร help.search("waffle") No help files found with alias or concept or title matching ‘waffle’ using fuzzy matching. ที่ใกล้ที่สุดที่ฉันพบ googling ออกมี mosaicplots

1
วิธีการวาดพล็อตหินกรวดในงูหลาม? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว ฉันกำลังใช้การแยกตัวของเวคเตอร์เอกพจน์บนเมทริกซ์และรับเมทริกซ์ U, S และ Vt ณ จุดนี้ฉันพยายามเลือกเกณฑ์สำหรับจำนวนมิติข้อมูลที่จะเก็บไว้ ฉันแนะนำให้ดูที่แปลงหินกรวด แต่ฉันสงสัยว่าจะไปเกี่ยวกับการวางแผนในจำนวนมาก ขณะนี้ฉันกำลังทำสิ่งต่อไปนี้โดยใช้ไลบรารี numpy และ scipy ใน python: U, S, Vt = svd(A) ข้อเสนอแนะใด ๆ

1
นักสถิติจะถามคำถามอะไรเกี่ยวกับการวิเคราะห์การระบาดของเชื้ออีโคไล
คุณอาจเคยได้ยินเกี่ยวกับ enterohaemorrhagic ล่าสุดE. coli ( EHEC ) ระบาดในประเทศเยอรมนี นักสถิติจะถามคำถามอะไรเกี่ยวกับการวิเคราะห์ EHEC ฉันกำลังคิดถึง Q + ระหว่างนักข่าว / เจ้าหน้าที่ของรัฐ↔ที่ไม่ใช่ผู้เชี่ยวชาญพูดว่าอาจารย์และวิศวกรที่มีระดับอนุปริญญา / ปริญญาโท แต่อย่างน้อยที่สุดก็เป็นสถิติ (เป็นรูปแผนที่ของที่ดิน EHEC แสดงสายพันธุ์ต่าง ๆ ของ EHEC และครอบคลุมการทดสอบต่าง ๆ เป็นไปได้หรือไม่) วันจันทร์ที่ 20 มิถุนายน: ฉันคิดว่าการระบาดของ EHEC จะเป็นพื้นที่ที่มีสถิติสำคัญในโลกโดยรวม: หลักฐานอะไรที่เป็นสาเหตุต่าง ๆ สิ่งเหล่านี้จะสื่อสารกับสาธารณะได้อย่างไร ดังนั้นเริ่มต้นเงินรางวัล

2
การแสดงข้อมูลหลายมิติ (LSI) ใน 2D
ฉันใช้การจัดทำดัชนีความหมายแฝงเพื่อค้นหาความคล้ายคลึงกันระหว่างเอกสาร ( ขอบคุณ JMS! ) หลังจากการลดขนาดฉันได้ลอง k-หมายถึงการจัดกลุ่มเพื่อจัดกลุ่มเอกสารเป็นกลุ่มซึ่งทำงานได้ดีมาก แต่ฉันอยากจะไปอีกหน่อยและมองภาพเอกสารเป็นชุดของโหนดโดยที่ระยะห่างระหว่างสองโหนดนั้นแปรผกผันกับความคล้ายคลึงกัน (โหนดที่มีความคล้ายคลึงกันมากอยู่ใกล้กัน) มันทำให้ฉันไม่สามารถลดเมทริกซ์ความคล้ายคลึงกันให้เป็นกราฟ 2 มิติได้อย่างแม่นยำเนื่องจากข้อมูลของฉันคือ> 2 มิติ ดังนั้นคำถามแรกของฉัน: มีวิธีมาตรฐานในการทำเช่นนี้? ฉันสามารถลดข้อมูลของฉันให้เหลือสองมิติจากนั้นจึงแปลงเป็นแกน X และ Y และนั่นจะเพียงพอสำหรับกลุ่มของเอกสาร ~ 100-200 หรือไม่ หากนี่เป็นวิธีแก้ปัญหาจะดีกว่าหรือไม่ที่จะลดข้อมูลของฉันลงเป็น 2 มิติจากจุดเริ่มต้นหรือมีวิธีการเลือกสองมิติที่ "ดีที่สุด" จากข้อมูลหลายมิติของฉันหรือไม่ ฉันใช้ Python และไลบรารี gensim หากนั่นสร้างความแตกต่าง

1
เกิดข้อผิดพลาดในการรายงานด้วยค่ามัธยฐานและการแทนด้วยกราฟิก
ฉันใช้การทดสอบที่หลากหลายสำหรับข้อมูลวิทยานิพนธ์ของฉันตั้งแต่พารามิเตอร์ ANOVAs และการทดสอบ t ไปจนถึงการทดสอบที่ไม่ใช่พารามิเตอร์ Kruskal-Wallis และ Mann-Whitneys รวมถึง ANOVAs 2-way อันดับและ GzLMs ที่มีไบนารี ข้อมูลปัวซองและข้อมูลตามสัดส่วน ตอนนี้ฉันต้องรายงานทุกอย่างในขณะที่เขียนทั้งหมดนี้ในผลลัพธ์ของฉัน ผมเคยถามแล้วที่นี่วิธีการรายงานช่วงความเชื่อมั่นไม่สมดุลข้อมูลสัดส่วน ฉันรู้ว่าค่าเบี่ยงเบนมาตรฐานความคลาดเคลื่อนมาตรฐานหรือช่วงความมั่นใจนั้นเหมาะสมสำหรับวิธีการซึ่งเป็นสิ่งที่ฉันรายงานหากการทดสอบทั้งหมดของฉันเป็นพารามิเตอร์ที่ดี อย่างไรก็ตามสำหรับการทดสอบที่ไม่ใช่พารามิเตอร์ของฉันฉันควรจะรายงานค่ามัธยฐานและไม่ได้หมายความว่าอย่างไร ถ้าเป็นเช่นนั้นฉันจะรายงานข้อผิดพลาดอะไร การเชื่อมโยงกับสิ่งนี้เป็นวิธีที่ดีที่สุดในการนำเสนอผลการทดสอบแบบไม่มีพารามิเตอร์ เนื่องจากส่วนใหญ่ฉันมีข้อมูลต่อเนื่องหรือช่วงเวลาภายในหมวดหมู่ฉันมักจะใช้กราฟแท่งกับด้านบนของแถบที่เป็นแถบค่าเฉลี่ยและแถบข้อผิดพลาดแสดง 95% CI สำหรับการทดสอบ NP ฉันสามารถใช้กราฟแท่งได้หรือไม่ แต่มีแถบด้านบนแทนค่ามัธยฐานหรือไม่? ขอบคุณสำหรับคำแนะนำของคุณ!

2
วิธีการวาดพล็อตปฏิสัมพันธ์ที่มีช่วงความมั่นใจได้อย่างไร
ความพยายามของฉัน: ฉันไม่สามารถรับช่วงความมั่นใจได้ interaction.plot() และในทางตรงกันข้ามplotmeans()จากแพ็คเกจ 'gplot' จะไม่แสดงกราฟสองกราฟ นอกจากนี้ฉันไม่สามารถกำหนดplotmeans()กราฟสองกราฟที่ด้านบนของอีกอันหนึ่งได้เนื่องจากโดยค่าเริ่มต้นแกนจะแตกต่างกัน ฉันประสบความสำเร็จในการใช้plotCI()จากแพ็คเกจ 'gplot' และวางกราฟสองตัวไว้ แต่การจับคู่ของแกนยังไม่สมบูรณ์ คำแนะนำเกี่ยวกับวิธีการทำพล็อตการโต้ตอบกับช่วงความมั่นใจ? ทั้งโดยฟังก์ชั่นเดียวหรือคำแนะนำเกี่ยวกับวิธีการวางซ้อนplotmeans()หรือplotCI()กราฟ ตัวอย่างรหัส br=structure(list(tangle = c(140L, 50L, 40L, 140L, 90L, 70L, 110L, 150L, 150L, 110L, 110L, 50L, 90L, 140L, 110L, 50L, 60L, 40L, 40L, 130L, 120L, 140L, 70L, 50L, 140L, 120L, 130L, 50L, 40L, 80L, 140L, 100L, 60L, 70L, …

4
จะนำเสนอผลกำไรในรูปแบบต่าง ๆ ที่อธิบายได้อย่างไรเนื่องจากสหสัมพันธ์ของ Y และ X เป็นอย่างไร?
ฉันกำลังค้นหาวิธี (มองเห็น) อธิบายความสัมพันธ์เชิงเส้นอย่างง่ายกับนักเรียนปีแรก วิธีการมองภาพแบบดั้งเดิมคือการให้พล็อตกระจาย Y ~ X ที่มีเส้นถดถอยตรง เมื่อเร็ว ๆ นี้ฉันมาด้วยความคิดที่จะขยายกราฟิกประเภทนี้โดยการเพิ่มพล็อตอีก 3 ภาพทิ้งฉันไว้กับ: พล็อตกระจายของ y ~ 1 จากนั้น y ~ x, ที่เหลือ (y ~ x) ~ x และสุดท้าย ของที่เหลือ (y ~ x) ~ 1 (อยู่กึ่งกลางค่ากลาง) นี่คือตัวอย่างของการสร้างภาพข้อมูล: และรหัส R เพื่อผลิตมัน: set.seed(345) x <- runif(50) * 10 y <- x +rnorm(50) layout(matrix(c(1,2,2,2,2,3 …

2
ประเมินความสัมพันธ์ (มองเห็น) อย่างรวดเร็วระหว่างข้อมูลหมวดหมู่ที่ได้รับคำสั่งใน R หรือไม่
ฉันกำลังมองหาความสัมพันธ์ระหว่างคำตอบของคำถามต่าง ๆ ในแบบสำรวจ ("อืมลองดูว่าคำตอบของคำถาม 11 มีความสัมพันธ์กับคำถาม 78 หรือไม่" คำตอบทั้งหมดเป็นหมวดหมู่ (ส่วนใหญ่มีตั้งแต่ "ไม่มีความสุขมาก" ถึง "มีความสุขมาก") แต่มีคำตอบไม่กี่ชุด ส่วนใหญ่สามารถพิจารณาลำดับที่ดังนั้นลองพิจารณากรณีนี้ที่นี่ เนื่องจากฉันไม่สามารถเข้าถึงโปรแกรมสถิติเชิงพาณิชย์ได้ฉันต้องใช้ R ฉันลองRattle (แพ็คเกจการขุดข้อมูลฟรีแวร์สำหรับ R ดีมาก) แต่น่าเสียดายที่มันไม่รองรับข้อมูลที่เป็นหมวดหมู่ แฮ็คหนึ่งที่ฉันสามารถใช้ได้คือการนำเข้าในแบบสำรวจที่เขียนโค้ดซึ่งมีตัวเลข (1..5) แทนที่จะเป็น "ไม่มีความสุขมาก" ... "มีความสุข" และปล่อยให้ Rattle เชื่อว่าเป็นข้อมูลตัวเลข ฉันกำลังคิดที่จะพล็อตกระจายและมีขนาดจุดตามสัดส่วนของตัวเลขสำหรับแต่ละคู่ หลังจาก googling ฉันพบhttp://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/แต่ดูเหมือนว่าซับซ้อนมาก (สำหรับฉัน) ฉันไม่ใช่นักสถิติ (แต่เป็นโปรแกรมเมอร์) แต่มีการอ่านบางอย่างในเรื่องนี้และถ้าฉันเข้าใจอย่างถูกต้องRho ของ Spearmanจะเหมาะสมที่นี่ ดังนั้นคำถามสั้น ๆ สำหรับผู้ที่รีบร้อน: มีวิธีที่จะทำแบบ Rho ของ Spearman ใน Rหรือไม่? …

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
วิธีการตีความแปลงกล่องหยัก
ในขณะที่ทำ EDA ฉันตัดสินใจใช้พล็อตกล่องเพื่อแสดงความแตกต่างระหว่างสองระดับของปัจจัย วิธีที่ggplotแสดงผลพล็อตกล่องนั้นเป็นที่น่าพอใจ แต่ก็ค่อนข้างง่าย (พล็อตแรกด้านล่าง) ในขณะที่ค้นคว้าลักษณะของกล่องแปลงผมเริ่มทำการทดลองด้วยรอยหยัก ฉันเข้าใจว่ารอยหยักแสดงค่า CI รอบ ๆ ค่ามัธยฐานและหากรอยหยักสองกล่องไม่ทับซ้อนกันก็มี 'หลักฐานที่แข็งแกร่ง' - ที่ระดับความเชื่อมั่น 95% - ค่าเฉลี่ยนั้นแตกต่างกัน ในกรณีของฉัน (พล็อตที่สอง) รอยหยักไม่ทับซ้อนกันอย่างมีความหมาย แต่ทำไมด้านล่างของกล่องทางด้านขวามือจึงมีรูปร่างแปลก ๆ ? การพล็อตข้อมูลเดียวกันในพล็อตไวโอลินไม่ได้ระบุสิ่งผิดปกติเกี่ยวกับความหนาแน่นของความน่าจะเป็นของไวโอลินที่เกี่ยวข้อง

3
พล็อตสะสม / สะสม (หรือ“ การแสดงเส้นโค้ง Lorenz”)
ฉันไม่รู้ว่าแปลงดังกล่าวเรียกว่าอะไรฉันจึงตั้งคำถามโง่ ๆ สมมติว่าฉันมีชุดข้อมูลที่สั่งซื้อดังนี้ 4253 4262 4270 4383 4394 4476 4635 ... แต่ละหมายเลขสอดคล้องกับจำนวนการโพสต์ที่ผู้ใช้บางรายมีส่วนร่วมในเว็บไซต์ ฉันกำลังสังเกตุการตรวจสอบ "การมีส่วนร่วมความไม่เท่าเทียมกัน" ปรากฏการณ์ตามที่กำหนดไว้ที่นี่ เพื่อให้ง่ายต่อการเข้าใจฉันต้องการสร้างพล็อตที่ช่วยให้ผู้อ่านสรุปได้อย่างรวดเร็วเช่น "10% ของผู้ใช้มีส่วนร่วม 50% ของข้อมูล" มันควรจะมีลักษณะคล้ายกับภาพร่างสีสวยหมัดนี้เป็นที่ยอมรับ: ฉันไม่รู้เลยว่าจะเรียกสิ่งนี้ได้อย่างไรฉันไม่รู้ว่าจะหาที่ไหน นอกจากนี้หากใครบางคนมีการนำไปใช้Rสิ่งนั้นจะยอดเยี่ยม

1
วิธีกราฟิกใดที่มีประโยชน์ในการแสดงภาพรวมว่ามีความไม่แน่นอนอย่างไร
ฉันมีชุดของระบบที่มีความไม่แน่นอนสะสมอยู่ภายใน สิ่งเหล่านี้ไม่ได้เติมแต่งอย่างหมดจดเสมอไป - บางครั้งก็เป็น ฉันประสบความสำเร็จในการใช้แผนภูมิแฟน ๆ แผนภูมิแท่งที่มีช่วงความมั่นใจและแผนการสำหรับการสื่อสารรายการเดียว แต่ฉันจะแสดงให้เห็นว่าความไม่แน่นอนสะสมและรวมกันอย่างไรในขณะที่ยังแสดงจุดข้อมูลที่มีความไม่แน่นอนอยู่ด้วย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.