คำถามติดแท็ก data-visualization

การสร้างข้อมูลกราฟิกที่เป็นประโยชน์และมีประโยชน์ (หากคำถามของคุณเกี่ยวกับวิธีการรับซอฟต์แวร์เฉพาะเพื่อสร้างเอฟเฟกต์เฉพาะอาจเป็นไปได้ว่าไม่ใช่หัวข้อที่นี่)

6
ทฤษฎีกราฟ - การวิเคราะห์และการสร้างภาพ
ฉันไม่แน่ใจว่าหัวเรื่องเข้าสู่ความสนใจของ CrossValidated คุณจะบอกฉัน ฉันต้องศึกษากราฟ (จากทฤษฎีกราฟ ) เช่น ฉันมีจุดจำนวนหนึ่งที่เชื่อมต่ออยู่ ฉันมีตารางที่มีจุดทั้งหมดและจุดแต่ละจุดขึ้นอยู่กับ (ฉันมีตารางอื่นที่มีความหมาย) คำถามของฉันคือ: มีซอฟต์แวร์ที่ดี (หรือแพ็คเกจ R) เพื่อการศึกษาที่ง่ายดายหรือไม่? มีวิธีง่าย ๆ ในการแสดงกราฟหรือไม่?

3
ตีความแกน y ของแปลงที่พึ่งพาบางส่วน
คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 5 ปีที่ผ่านมา ฉันได้อ่านหัวข้ออื่น ๆ เกี่ยวกับพล็อตพึ่งพาบางส่วนและส่วนใหญ่อยู่ในวิธีการที่คุณพล็อตพวกเขาด้วยแพคเกจที่แตกต่างกันไม่ใช่วิธีที่คุณสามารถตีความได้อย่างถูกต้องดังนั้น: ฉันอ่านและสร้างแผนการพึ่งพาบางส่วนในปริมาณที่พอใช้ ฉันรู้ว่าพวกเขาวัดผลกระทบเล็กน้อยของตัวแปรในฟังก์ชั่นƒS (withS) ด้วยค่าเฉลี่ยผลกระทบของตัวแปรอื่นทั้งหมด ((c) จากแบบจำลองของฉัน ค่า y ที่สูงกว่าหมายความว่าพวกเขามีอิทธิพลต่อการทำนายชั้นเรียนของฉันอย่างแม่นยำ อย่างไรก็ตามฉันไม่พอใจกับการตีความเชิงคุณภาพนี้ โมเดลของฉัน (ฟอเรสต์แบบสุ่ม) กำลังทำนายคลาสรอบคอบสองคลาส "ใช่ต้นไม้" และ "ไม่มีต้นไม้" TRI เป็นตัวแปรที่พิสูจน์แล้วว่าเป็นตัวแปรที่ดีสำหรับเรื่องนี้ สิ่งที่ฉันเริ่มคิดว่าค่า Y กำลังแสดงความน่าจะเป็นสำหรับการจำแนกประเภทที่ถูกต้อง ตัวอย่าง: y (0.2) แสดงว่าค่า TRI ของ> ~ 30 มีโอกาส 20% ในการระบุการจำแนกประเภท True Positive อย่างถูกต้อง อยู่ที่ไหนตรงกันข้าม y (-0.2) แสดงว่าค่า TRI …

1
t-SNE กับ MDS
เคยอ่านคำถามบางอย่างเกี่ยวกับt-SNE ( t-Distributed Stochastic Neighbor Embedding ) เมื่อเร็ว ๆ นี้และยังได้เยี่ยมชมบางคำถามเกี่ยวกับMDS (การวัดหลายมิติ ) พวกเขามักจะใช้แบบอะนาล็อกดังนั้นจึงเป็นความคิดที่ดีที่ทำให้คำถามนี้เมื่อเห็นว่ามีคำถามมากมายทั้งแยกต่างหาก (หรือเปรียบเทียบกับPCA ) ที่นี่ ในระยะสั้นสิ่งที่ทำให้ t-SNE และ MDS แตกต่างกันอย่างไร เช่น. ลำดับชั้นของข้อมูลที่พวกเขาสำรวจมีข้อสมมติฐานที่แตกต่างกัน ฯลฯ อัตราการลู่เข้า? สิ่งที่เกี่ยวกับการใช้เมล็ดทั้งสองทำตาม?

8
คุณจะเห็นภาพความสัมพันธ์ระหว่างตัวแปรเด็ดขาด 3 ตัวได้อย่างไร
ฉันมีชุดข้อมูลที่มีตัวแปรเด็ดขาดสามชุดและฉันต้องการเห็นภาพความสัมพันธ์ระหว่างทั้งสามในกราฟเดียว ความคิดใด ๆ ขณะนี้ฉันกำลังใช้กราฟสามตัวต่อไปนี้: กราฟแต่ละกราฟใช้สำหรับระดับพื้นฐานของภาวะซึมเศร้า (Mild, Moderate, Severe) จากนั้นในแต่ละกราฟฉันดูความสัมพันธ์ระหว่างการรักษา (0,1) และการปรับปรุงอาการซึมเศร้า (ไม่มี, ปานกลาง, เป็นกอบเป็นกำ) กราฟ 3 ตัวนี้ทำงานเพื่อดูความสัมพันธ์แบบ 3 ทาง แต่มีวิธีการทำเช่นนี้กับกราฟเดียวหรือไม่

2
วิธีการอธิบายหรือมองเห็นโมเดลการถดถอยเชิงเส้นหลายแบบ
ฉันกำลังพยายามปรับโมเดลการถดถอยเชิงเส้นหลายแบบให้สอดคล้องกับข้อมูลของฉันด้วยพารามิเตอร์อินพุตสองสามตัวบอกว่า 3 F( x )F( x )= A x1+ B x2+ Cx3+ dหรือ= ( A B C )T( x1 x2 x3) + d(ผม)(ii)(i)F(x)=Ax1+Bx2+Cx3+dor(ii)F(x)=(A B C)T(x1 x2 x3)+d\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + d \tag{i} \\ &\text{or} \\ F(x) &= (A\ B\ C)^T (x_1\ x_2\ x_3) + d …

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

14
ซอฟต์แวร์สำหรับการสำรวจข้อมูลที่เรียบง่าย แต่มีประสิทธิภาพ
ในความพยายามของฉันในการต่อสู้กับการทำร้ายร่างกายของสเปรดชีตฉันมักจะประกาศข่าวประเสริฐในการผลักดันเครื่องมือที่มีประสิทธิภาพมากขึ้นเช่นซอฟต์แวร์สถิติจริง (R, Stata และอื่น ๆ ) เมื่อเร็ว ๆ นี้ฉันถูกท้าทายในมุมมองนี้โดยคนที่ระบุว่าพวกเขาจะไม่เรียนรู้ที่จะทำรายการ ฉันต้องการมอบเครื่องมือวิเคราะห์ข้อมูลที่ไม่จำเป็นต้องมีการเขียนโปรแกรม (แต่เป็นการดีที่จะขยายการเขียนโปรแกรมหากพวกเขาตัดสินใจที่จะจุ่มนิ้วเท้าลงไปในน้ำในภายหลัง) มีแพ็คเกจอะไรบ้างสำหรับการสำรวจข้อมูลที่ฉันสามารถแนะนำได้อย่างตรงไปตรงมา?

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

7
สิ่งที่เป็นทางเลือกให้กับ boxplot
ฉันกำลังสร้างเว็บไซต์ซึ่งแสดงข้อมูลการสำรวจสำมะโนประชากรสำหรับรูปหลายเหลี่ยมที่ผู้ใช้เลือก & ต้องการแสดงการกระจายตัวของพารามิเตอร์ต่างๆแบบกราฟิก (กราฟหนึ่งต่อพารามิเตอร์) ข้อมูลมักจะมีคุณสมบัติดังต่อไปนี้: ขนาดตัวอย่างมีแนวโน้มที่จะใหญ่ (พูดประมาณ 10,000 จุดข้อมูล) ช่วงของค่ามักจะมีขนาดใหญ่ (ตัวอย่างเช่นจำนวนประชากรขั้นต่ำอาจน้อยกว่า 100 และสูงสุดอาจเท่ากับ 500,000) q1 มักจะใกล้เคียงกับค่าต่ำสุด (พูด 200) ในขณะที่ q2 & q3 จะอยู่ภายใน 10,000 มันดูไม่เหมือนการแจกแจงแบบปกติ ฉันไม่ใช่นักสถิติดังนั้นคำอธิบายของฉันอาจไม่ชัดเจน ฉันต้องการแสดงการกระจายตัวนี้บนกราฟซึ่งพลเมืองจะมองเห็นได้ (คนธรรมดาถ้าคุณต้องการ) ฉันชอบที่จะใช้ฮิสโตแกรมที่ดีที่สุด แต่มันเป็นไปไม่ได้เนื่องจากค่าที่หลากหลายเนื่องจากการทำถังขยะไม่ใช่เรื่องง่าย & ส่งตรงไปข้างหน้า จากสิ่งที่ฉันรู้เกี่ยวกับสถิติพล็อตกล่องเป็นสิ่งที่มักใช้ในการแสดงข้อมูลประเภทนี้ แต่ฉันรู้สึกว่าสำหรับคนธรรมดาการถอดรหัสพล็อตบ็อกซ์นั้นไม่ใช่เรื่องง่าย ตัวเลือกของฉันคืออะไรเพื่อแสดงข้อมูลนี้ในลักษณะที่เข้าใจง่าย

3
พล็อตนี้มีชื่ออะไรที่มีแถวที่มีจุดเชื่อมต่อสองจุด
ฉันอ่านรายงาน EIA และโครงเรื่องนี้ได้รับความสนใจ ตอนนี้ฉันต้องการที่จะสร้างพล็อตประเภทเดียวกัน มันแสดงให้เห็นถึงวิวัฒนาการการผลิตพลังงานระหว่างสองปี (2533-2558) และเพิ่มมูลค่าการเปลี่ยนแปลงระหว่างสองช่วงเวลานี้ พล็อตประเภทนี้ชื่ออะไร ฉันจะสร้างพล็อตเดียวกัน (กับประเทศต่าง ๆ ) ใน excel ได้อย่างไร

1
ประวัติของกล่องแปลงคืออะไรและการออกแบบ“ กล่องและหนวด” พัฒนาอย่างไร?
หลายแหล่งวันที่ออกแบบ "แผนกล่อง" คลาสสิกกับจอห์น Tukeyและ "แผนผังแผน" ของ 2513 การออกแบบที่ดูเหมือนจะค่อนข้างคงที่ตั้งแต่นั้นมากับเอ็ดเวิร์ด Tufteตัดลงมาเป็นกล่องรุ่น - พล็อตไม่ทันตั้งตัวขณะแผนการของไวโอลิน - แม้ว่าจะเป็นข้อมูลที่แตกต่างของพล็อตกล่อง - ยังคงได้รับความนิยมน้อยลง ข้อเสนอแนะของคลีฟแลนด์ที่เคราขยายออกไปเป็นร้อยละ 10 และ 90 มีผู้สนับสนุนบางส่วนดูCox (2009)แต่ไม่ใช่บรรทัดฐาน Hadley Wickham และ Lisa Stryjewski เขียนกระดาษที่ไม่ได้เผยแพร่เกี่ยวกับประวัติความเป็นมาของแผนการกล่องแต่ดูเหมือนว่ามันจะไม่ครอบคลุมถึงบรรพบุรุษของกล่องแปลง แล้วพล็อตปัจจุบัน "แพร่หลาย" และ "หนวด" จึงเกิดขึ้นได้อย่างไร การสร้างภาพข้อมูลแบบใดที่วิวัฒนาการมาจากการออกแบบก่อนหน้านี้มีข้อได้เปรียบที่สำคัญและทำไมพวกเขาถึงดูเหมือนจะถูกบดบังดังนั้นการใช้งานอย่างละเอียดตามแบบแผนการของ Tukey? คำตอบที่แสดงให้เห็นจะเป็นโบนัส แต่จะถูกนำไปอ้างอิงที่ดำลึกในอดีตกว่า Wickham และ Stryjewski จะเป็นประโยชน์ อ้างอิง Cox, NJ (2009) Stata พูด: การสร้างและการแปลงกล่องแปลง Stata Journal , …

5
มีรุ่นใดของ t-SNE สำหรับการสตรีมข้อมูลหรือไม่
ความเข้าใจของฉันเกี่ยวกับt-SNEและการประมาณ Barnes-Hut คือจุดข้อมูลทั้งหมดจำเป็นต้องใช้เพื่อให้การคำนวณการโต้ตอบกับแรงทั้งหมดในเวลาเดียวกันและแต่ละจุดสามารถปรับได้ในแผนที่ 2d (หรือมิติที่ต่ำกว่า) มีเวอร์ชั่นใดบ้างที่สามารถจัดการกับการสตรีมข้อมูลได้อย่างมีประสิทธิภาพหรือไม่ ดังนั้นหากการสำรวจของฉันมาถึงทีละครั้งมันจะหาตำแหน่งที่ดีที่สุดบนแผนที่ 2d เพื่อทำการสำรวจใหม่หรืออัปเดตทุกจุดบนแผนที่ 2d เป็นบัญชีสำหรับการสังเกตใหม่ ht สิ่งนี้จะสมเหตุสมผลหรือไม่หรือขัดกับการตั้งค่าของ t-sne

1
ฉันจะ 'หลบ' ตำแหน่งของ geom_point ใน ggplot2 ได้อย่างไร
ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันใช้ ggplot2 ใน R เพื่อทำแปลงเหมือนอันต่อไปนี้: แถบข้อผิดพลาดซ้อนทับกันซึ่งดูยุ่งเหยิงจริงๆ ฉันจะแยกแถบข้อผิดพลาดสำหรับดัชนีต่าง ๆ ได้อย่างไร ฉันใช้ตำแหน่ง = "หลบ" แต่ดูเหมือนจะไม่ทำงาน นี่คือส่วนหลักของรหัสของฉัน: plot = ggplot(data,aes(x=ntrunc,y=beta_best,group=ntrunc,colour=INDEX)) +geom_point(aes(shape=detectable),na.rm=TRUE,position="dodge") +geom_errorbar(aes(x=ntrunc,ymax=beta_high,ymin=beta_low),na.rm=TRUE,position="dodge")

1
วิธีการแสดงภาพฟังก์ชั่นความหนาแน่น 3 มิติ
อะไรคือวิธีที่ดีที่สุดในการแสดงภาพกราฟิกด้วยฟังก์ชั่นความหนาแน่น 3 มิติ ในขณะที่ฉันต้องการเห็นภาพ Z= fX, วาย( x , y)Z=ฉX,Y(x,Y)z=f_{X,Y}(x,y) ? ไม่จำเป็น แต่Rรหัสสำหรับสิ่งนี้จะดีมาก

5
เป็นวิธีที่ดีที่สุดในการเห็นภาพความสัมพันธ์ระหว่างตัวแปรที่ไม่ต่อเนื่องและตัวแปรต่อเนื่องคืออะไร?
วิธีที่ดีที่สุดในการแสดงความสัมพันธ์ระหว่าง: ตัวแปรต่อเนื่องและไม่ต่อเนื่อง ตัวแปรที่แยกกันสองตัว จนถึงตอนนี้ฉันได้ใช้แผนการกระจายเพื่อดูความสัมพันธ์ระหว่างตัวแปรต่อเนื่อง อย่างไรก็ตามในกรณีที่จุดข้อมูลตัวแปรไม่ต่อเนื่องถูกสะสมในช่วงเวลาที่แน่นอน ดังนั้นเส้นที่ดีที่สุดอาจจะลำเอียง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.