คำถามติดแท็ก data-visualization

การสร้างข้อมูลกราฟิกที่เป็นประโยชน์และมีประโยชน์ (หากคำถามของคุณเกี่ยวกับวิธีการรับซอฟต์แวร์เฉพาะเพื่อสร้างเอฟเฟกต์เฉพาะอาจเป็นไปได้ว่าไม่ใช่หัวข้อที่นี่)

3
ข้อมูลของฉันมีการกระจายแบบใด
ให้เราบอกว่าฉันมีส่วนประกอบ 1,000 รายการและฉันได้รวบรวมข้อมูลเกี่ยวกับความล้มเหลวของบันทึกเหล่านี้กี่ครั้งและทุกครั้งที่พวกเขาบันทึกความล้มเหลวฉันยังติดตามว่าทีมของฉันใช้เวลานานแค่ไหนในการแก้ไขปัญหา ในระยะสั้นฉันได้รับการบันทึกเวลาในการซ่อมแซม (ในไม่กี่วินาที) สำหรับแต่ละองค์ประกอบ 1,000 เหล่านี้ ข้อมูลจะได้รับเมื่อสิ้นสุดคำถามนี้ ฉันเอาค่าเหล่านี้ทั้งหมดแล้วดึงกราฟ Cullen และ Frey เป็น R โดยใช้descdistจากfitdistrplusแพ็คเกจ ความหวังของฉันคือการเข้าใจว่าเวลาในการซ่อมแซมเป็นไปตามการแจกจ่ายเฉพาะ นี่คือพล็อตที่มีboot=500เพื่อรับค่า bootstrapped: ฉันเห็นว่าพล็อตนี้กำลังบอกฉันว่าการสังเกตตกอยู่ในการแจกแจงเบต้า (หรืออาจจะไม่ในกรณีนี้มันคืออะไรเปิดเผย) ตอนนี้เมื่อพิจารณาว่าฉันเป็นสถาปนิกระบบและไม่ใช่สถิติสถิติพล็อตนี้เปิดเผยอะไร ? (ฉันกำลังมองหาสัญชาตญาณในโลกแห่งความเป็นจริงที่อยู่เบื้องหลังผลการค้นหาเหล่านี้) แก้ไข: QQplot โดยใช้ฟังก์ชั่นในแพคเกจqqPlot carฉันก่อนประมาณพารามิเตอร์รูปร่างและขนาดโดยใช้fitdistrฟังก์ชั่น > fitdistr(Data$Duration, "weibull") shape scale 3.783365e-01 5.273310e+03 (6.657644e-03) (3.396456e+02) จากนั้นฉันทำสิ่งนี้: qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03) แก้ไข 2: การอัพเดตด้วย QQplot lognormal นี่คือข้อมูลของฉัน: c(1528L, 285L, …

7
วิธีการทางสถิติเพื่อพล็อตข้อมูลได้อย่างมีประสิทธิภาพมากขึ้นเมื่อมีจุดหลายล้านจุด?
ฉันพบว่า R อาจใช้เวลานานในการสร้างแปลงเมื่อมีคะแนนนับล้าน - ไม่น่าแปลกใจเนื่องจากมีการลงจุดเป็นรายบุคคล นอกจากนี้แปลงดังกล่าวมักจะรกเกินไปและแน่นเกินไปที่จะเป็นประโยชน์ หลายจุดซ้อนทับกันและก่อตัวเป็นมวลดำและใช้เวลามากมายในการพล็อตจุดให้มากขึ้น มีทางเลือกทางสถิติใด ๆ ในการแทนข้อมูลขนาดใหญ่ใน scatterplot มาตรฐานหรือไม่? ฉันได้พิจารณาโครงเรื่องความหนาแน่นแล้ว แต่มีทางเลือกอื่นอะไรอีกบ้างnnn

3
เป็นวิธีที่ดีในการใช้ R เพื่อสร้าง scatterplot ที่แยกข้อมูลโดยการรักษาคืออะไร?
ฉันใหม่มากกับ R และสถิติโดยทั่วไป แต่ฉันต้องสร้างโปรเจ็กต์ที่ฉันคิดว่าอาจเกินขีดความสามารถดั้งเดิม ฉันมีเวกเตอร์ของการสังเกตสองสามอันและฉันต้องการทำ scatterplot กับพวกเขาและแต่ละคู่ตกอยู่ในหนึ่งในสามประเภท ฉันต้องการสร้าง scatterplot ที่แยกแต่ละหมวดหมู่ตามสีหรือตามสัญลักษณ์ ฉันคิดว่าสิ่งนี้จะดีกว่าการสร้างแผนการกระจายที่แตกต่างกันสามแบบ ฉันมีปัญหาอีกอันหนึ่งกับความจริงที่ว่าในแต่ละหมวดหมู่มีกลุ่มขนาดใหญ่ ณ จุดหนึ่ง แต่กลุ่มนั้นมีขนาดใหญ่กว่ากลุ่มหนึ่งมากกว่าอีกสองกลุ่ม ไม่มีใครรู้วิธีที่ดีในการทำเช่นนี้? แพ็คเกจที่ฉันควรติดตั้งและเรียนรู้วิธีการใช้งาน? ใครทำอะไรที่คล้ายกัน? ขอบคุณ

4
ปรับให้เหมาะสมสำหรับเส้นโค้ง Precision-Recall ภายใต้ความไม่สมดุลของคลาส
ฉันมีงานการจัดหมวดหมู่ที่ฉันมีตัวทำนายจำนวนหนึ่ง (หนึ่งในนั้นมีข้อมูลมากที่สุด) และฉันใช้แบบจำลองMARSเพื่อสร้างตัวจําแนกของฉัน (ฉันสนใจในแบบจําลองง่าย ๆ และใช้ glms เพื่อจุดประสงค์ในการอธิบาย ดีเกินไป). ตอนนี้ฉันมีความไม่สมดุลระดับมากในข้อมูลการฝึกอบรม (ประมาณ 2700 ตัวอย่างลบสำหรับตัวอย่างบวกแต่ละตัวอย่าง) เช่นเดียวกับงานสืบค้นข้อมูลฉันมีความกังวลมากขึ้นเกี่ยวกับการทำนายตัวอย่างการทดสอบเชิงบวกอันดับสูงสุด ด้วยเหตุนี้ประสิทธิภาพในการโค้งแม่นยำของ Recall จึงเป็นสิ่งสำคัญสำหรับฉัน ก่อนอื่นฉันเพียงแค่ฝึกฝนโมเดลข้อมูลการฝึกอบรมของฉันเพื่อรักษาความไม่สมดุลของคลาสเหมือนเดิม ฉันเห็นรูปแบบการฝึกของฉันเป็นสีแดงและอินพุตที่สำคัญที่สุดเป็นสีน้ำเงิน การฝึกอบรมเกี่ยวกับข้อมูลที่ไม่สมดุลการประเมินข้อมูลที่ไม่สมดุล : การคิดว่าความไม่สมดุลในชั้นเรียนกำลังลดลงของแบบจำลองเนื่องจากการเรียนรู้ตัวอย่างเชิงบวกอันดับสูงสุดเป็นส่วนสั้น ๆ ของชุดข้อมูลทั้งหมดฉันเพิ่มจุดฝึกอบรมเชิงบวกเพื่อให้ได้ชุดข้อมูลการฝึกอบรมที่สมดุล เมื่อฉันวางแผนการแสดงในชุดการฝึกอบรมที่สมดุลฉันจะได้รับประสิทธิภาพที่ดี ทั้งในส่วนโค้ง PR และ ROC แบบจำลองที่ผ่านการฝึกอบรมของฉันทำได้ดีกว่าอินพุต การฝึกอบรมเกี่ยวกับข้อมูลที่สมดุล (อัปแซมปิน) การประเมินบนข้อมูลที่สมดุล (อัปแซมปิน): อย่างไรก็ตามหากฉันใช้โมเดลนี้ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่สมดุลเพื่อคาดการณ์ชุดฝึกอบรมที่ไม่สมดุลแบบดั้งเดิมฉันยังคงได้รับประสิทธิภาพที่ไม่ดีบนกราฟเส้นโค้ง การฝึกอบรมเรื่องข้อมูลที่สมดุล (อัปตัวอย่าง), การประเมินข้อมูลที่ไม่สมดุลเดิม: ดังนั้นคำถามของฉันคือ: เหตุผลที่การสร้างภาพข้อมูลของเส้นโค้ง PR แสดงถึงประสิทธิภาพที่ด้อยกว่าของรุ่นที่ได้รับการฝึกอบรมของฉัน (สีแดง) ในขณะที่เส้นโค้ง ROC แสดงการปรับปรุงเนื่องจากความไม่สมดุลของคลาส? วิธี resampling / up-sampling …

3
การแสดงจุดแยกของหลาย ๆ ชุด
มีรูปแบบการสร้างภาพข้อมูลที่ดีสำหรับการแสดงจุดตัดทับซ้อนของหลาย ๆ ชุดหรือไม่? ฉันกำลังคิดอะไรบางอย่างเช่นเวนไดอะแกรม แต่อย่างใดอาจทำให้ตัวเองดีขึ้นสำหรับชุดจำนวนมากเช่น 10 หรือมากกว่า Wikipedia แสดงชุด Venn diagrams ที่สูงขึ้น แต่แม้กระทั่งแผนภาพ 4 ชุดนั้นมีความจำเป็นอย่างมาก ฉันเดาว่าผลลัพธ์สุดท้ายของข้อมูลคือชุดจำนวนมากจะไม่ทับซ้อนกันดังนั้นจึงเป็นไปได้ที่ไดอะแกรมของ Venn จะใช้ได้ แต่ฉันต้องการหาเครื่องมือคอมพิวเตอร์ที่สามารถสร้างสิ่งนั้นได้ ดูเหมือนว่าฉันจะเหมือนกับชาร์ตของ Google ไม่อนุญาตให้มีหลายชุด

6
กราฟเส้นมีจำนวนบรรทัดมากเกินไปมีวิธีแก้ไขที่ดีกว่าไหม
ฉันพยายามกราฟจำนวนการกระทำของผู้ใช้ (ในกรณีนี้ "ไลค์") เมื่อเวลาผ่านไป ดังนั้นฉันจึงมี "จำนวนการกระทำ" เป็นแกน y ของฉันแกน x ของฉันคือเวลา (สัปดาห์) และแต่ละบรรทัดแสดงถึงผู้ใช้หนึ่งคน ปัญหาของฉันคือฉันต้องการดูข้อมูลนี้สำหรับกลุ่มผู้ใช้ประมาณ 100 คน กราฟเส้นจะกลายเป็นยุ่งเหยิงอย่างรวดเร็วด้วย 100 บรรทัด มีกราฟชนิดที่ดีกว่าที่ฉันสามารถใช้แสดงข้อมูลนี้หรือไม่ หรือฉันควรดูที่ความสามารถในการสลับเปิด / ปิดแต่ละบรรทัด? ฉันต้องการดูข้อมูลทั้งหมดในครั้งเดียว แต่ความสามารถในการมองเห็นจำนวนการกระทำที่มีความแม่นยำสูงนั้นไม่สำคัญอย่างยิ่ง ทำไมฉันถึงทำสิ่งนี้ สำหรับชุดย่อยของผู้ใช้ของฉัน (ผู้ใช้อันดับต้น ๆ ) ฉันต้องการค้นหาว่าแอปพลิเคชันใดที่อาจไม่ชอบเวอร์ชันใหม่ของแอพพลิเคชั่นที่เปิดตัวในวันที่กำหนด ฉันกำลังมองหาจำนวนการกระทำที่ลดลงอย่างมีนัยสำคัญโดยผู้ใช้แต่ละคน

2
การตีความของ biplots ในการวิเคราะห์องค์ประกอบหลัก
ฉันได้พบกับบทช่วยสอนที่ดีนี้: คู่มือการวิเคราะห์ทางสถิติโดยใช้อาร์บทที่ 13 การวิเคราะห์องค์ประกอบหลัก: โอลิมปิกเซพธาลอนเกี่ยวกับวิธีการทำ PCA ในภาษา R ฉันไม่เข้าใจการตีความรูปที่ 13.3: ดังนั้นฉันจึงวางแผน eigenvector แรกเทียบกับ eigenvector ที่สอง นั่นหมายความว่าอย่างไร? สมมติว่าค่าไอเกนค่าที่สอดคล้องกับไอเกนเวอเตอร์ตัวแรกอธิบาย 60% ของการเปลี่ยนแปลงในชุดข้อมูลและค่าไอเกนค่าที่สอง -Eigenvector อธิบายความแปรปรวน 20% การพล็อตสิ่งเหล่านี้กันหมายความว่าอย่างไร

2
การตีความพล็อต (glm.model)
ใครช่วยบอกฉันได้ว่าจะตีความ 'ส่วนที่เหลือเทียบพอดี', 'ปกติ q-q', 'มาตราส่วนที่ตั้ง' และ 'ส่วนที่เหลือเทียบกับความสามารถในการแปลง'? ฉันกำลังจัดวาง GLM แบบทวินามให้เหมาะสมแล้วบันทึกและวางแผนใหม่

3
ฉันสามารถใช้การทดสอบใดในการเปรียบเทียบความชันจากแบบจำลองการถดถอยสองแบบขึ้นไป
ฉันต้องการทดสอบความแตกต่างในการตอบสนองของตัวแปรสองตัวต่อตัวทำนายหนึ่งตัว นี่คือตัวอย่างที่ทำซ้ำได้น้อยที่สุด library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "virginica") m.ver <- gls(Sepal.Length ~ Petal.Width, data = iris, …

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

6
มีปัญหากับแผนภูมิวงกลม
ดูเหมือนว่าจะมีการอภิปรายเพิ่มขึ้นเกี่ยวกับแผนภูมิวงกลม ข้อโต้แย้งหลักที่ต่อต้านมันดูเหมือนจะเป็น: การรับรู้พื้นที่มีพลังงานน้อยกว่าความยาว แผนภูมิวงกลมมีอัตราส่วนข้อมูลต่อจุดต่อพิกเซลที่ต่ำมาก อย่างไรก็ตามฉันคิดว่าพวกเขาจะมีประโยชน์เมื่อแสดงสัดส่วน ฉันเห็นด้วยที่จะใช้ตารางในกรณีส่วนใหญ่ แต่เมื่อคุณเขียนรายงานธุรกิจและคุณเพิ่งรวมหลายร้อยตารางแล้วทำไมไม่มีแผนภูมิวงกลม ฉันอยากรู้ว่าชุมชนคิดอย่างไรกับหัวข้อนี้ การอ้างอิงเพิ่มเติมยินดีต้อนรับ ฉันมีลิงก์สองสามข้อ: http://www.juiceanalytics.com/writing/the-problem-with-pie-charts/ http://www.usf.uni-osnabrueck.de/~breiter/tools/piechart/warning.en.html เพื่อสรุปคำถามนี้ฉันตัดสินใจที่จะสร้างตัวอย่างของแผนภูมิวงกลมกับแผนภูมิวาฟเฟิล

6
ทางเลือกอื่นสำหรับแกนแตกคืออะไร
ผู้ใช้มักถูกล่อลวงให้ทำลายค่าแกนเพื่อนำเสนอข้อมูลของคำสั่งต่าง ๆ ของขนาดบนกราฟเดียวกัน (ดูที่นี่ ) แม้ว่าวิธีนี้อาจจะสะดวก แต่ก็ไม่ใช่วิธีการแสดงข้อมูลที่ต้องการเสมอไป (อาจทำให้เข้าใจผิดได้ดีที่สุด) วิธีอื่นในการแสดงข้อมูลที่แตกต่างกันในหลายลำดับความสำคัญคืออะไร ฉันสามารถคิดถึงวิธีการสองวิธีในการแปลงข้อมูลหรือใช้โครงข่ายขัดแตะ ตัวเลือกอื่น ๆ มีอะไรบ้าง

4
ทำไมต้องใช้ colormap viridis มากกว่า jet?
ตามที่ประกาศในhttps://www.youtube.com/watch?v=xAoljeRJ3lU Matplotlib จะเปลี่ยน colormap เริ่มต้นจาก jet เป็น viridis อย่างไรก็ตามฉันไม่เข้าใจมันค่อนข้างดี อาจเป็นเพราะฉันตาบอดสี? เจ็ตคอร์แมปแบบดั้งเดิมนั้นดูแข็งแรงมากฉันรู้สึกถึงความแตกต่าง: ในขณะที่ colormap viridis ใหม่ขาดความคมชัดนั้น: ใครช่วยอธิบายได้ง่ายขึ้นสำหรับฉัน ฉันต้องการพล็อตสำหรับกระดาษของฉัน และฉันต้องการเหตุผลที่ดีในการโน้มน้าวผู้บังคับบัญชาของฉัน (และตัวฉันเอง) ว่า viridis นั้นดีกว่า


4
การสร้างแผนที่ความหนาแน่นของความร้อนที่ดึงดูดสายตา
ในขณะที่ฉันรู้ว่ามีฟังก์ชั่นหลายชุดสำหรับสร้างแผนที่ความร้อนใน R ปัญหาคือฉันไม่สามารถสร้างแผนที่ที่ดึงดูดสายตาได้ ตัวอย่างเช่นภาพด้านล่างเป็นตัวอย่างแผนที่ความร้อนที่ฉันต้องการหลีกเลี่ยง อย่างแรกชัดเจนไม่มีรายละเอียดในขณะที่อีกคนหนึ่ง (ตามจุดเดียวกัน) มีรายละเอียดเกินไปที่จะเป็นประโยชน์ แปลงทั้งสองถูกสร้างขึ้นโดยฟังก์ชันความหนาแน่น () ในแพ็คเกจ spatstat R ฉันจะเพิ่ม "flow" ลงในแปลงของฉันได้อย่างไร สิ่งที่ฉันตั้งเป้าหมายคือการดูผลลัพธ์ของซอฟต์แวร์ SpatialKey ( ภาพหน้าจอ ) เชิงพาณิชย์มากขึ้นสามารถผลิตได้ คำแนะนำอัลกอริทึมแพคเกจหรือบรรทัดของโค้ดใดบ้างที่จะพาฉันไปในทิศทางนี้?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.