คำถามติดแท็ก data-visualization

การสร้างข้อมูลกราฟิกที่เป็นประโยชน์และมีประโยชน์ (หากคำถามของคุณเกี่ยวกับวิธีการรับซอฟต์แวร์เฉพาะเพื่อสร้างเอฟเฟกต์เฉพาะอาจเป็นไปได้ว่าไม่ใช่หัวข้อที่นี่)

1
การรวมพล็อตการสอบเทียบหลังจากการใส่หลายครั้ง
ฉันต้องการคำแนะนำในการรวมพล็อตการแปลง / สถิติหลังจากการใส่ร้ายหลายครั้ง ในการตั้งค่าการพัฒนาแบบจำลองทางสถิติเพื่อทำนายเหตุการณ์ในอนาคต (เช่นการใช้ข้อมูลจากบันทึกของโรงพยาบาลเพื่อทำนายการรอดชีวิตของผู้ป่วยหลังออกจากโรงพยาบาลหรือเหตุการณ์) เราสามารถจินตนาการได้ว่ามีข้อมูลที่ขาดหายไปมากมาย การใส่ข้อมูลหลายครั้งเป็นวิธีหนึ่งในการจัดการสถานการณ์ดังกล่าว แต่ส่งผลให้จำเป็นต้องรวมสถิติการทดสอบจากชุดข้อมูลการใส่ข้อมูลแต่ละชุดโดยคำนึงถึงความแปรปรวนเพิ่มเติมเนื่องจากความไม่แน่นอนของการใส่ความ ฉันเข้าใจว่ามีสถิติการสอบเทียบหลายอย่าง (hosmer-lemeshow, Emax ของ Harrell, ดัชนีการสอบเทียบโดยประมาณ ฯลฯ ) ซึ่งอาจใช้กฎรูบิน 'ปกติ' สำหรับการรวมกำไร อย่างไรก็ตามสถิติเหล่านี้มักจะเป็นมาตรการโดยรวมของการสอบเทียบซึ่งไม่แสดงขอบเขตที่พลาดการสอบเทียบที่เฉพาะเจาะจงของโมเดล ด้วยเหตุนี้ฉันควรดูที่แผนการปรับเทียบ น่าเสียดายที่ฉันไม่รู้วิธีการ 'รวม' แปลงหรือข้อมูลเบื้องหลัง (คาดการณ์ความน่าจะเป็นต่อบุคคลและผลลัพธ์ที่สังเกตได้ต่อบุคคล) และไม่สามารถหาได้มากในวรรณคดีชีวการแพทย์ (สาขาที่ฉันคุ้นเคย) หรือที่นี่ใน CrossValidated แน่นอนว่าการดูชุดข้อมูลการสอบเทียบของชุดข้อมูลแต่ละชุดอาจเป็นคำตอบ แต่อาจกลายเป็นเรื่องที่น่ารำคาญมาก (จนถึงปัจจุบัน) เมื่อสร้างชุดการใส่จำนวนมาก ฉันอยากถามว่ามีเทคนิคใดบ้างที่จะส่งผลให้เกิดแผนการปรับเทียบหรือไม่หลังจากรวมหลายครั้ง (?)

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

11
การแสดงข้อมูลสามชิ้นบนกราฟ
หมายเหตุ: แนบข้อมูลดิบ 50 คะแนนแล้ว ฉันต้องการแสดงจำนวนการศึกษาที่ฉันได้ทำและจำนวนหน้าที่ฉันได้เสร็จสิ้นไปตลอดทั้งสัปดาห์เลิกกันตามวันและฉันได้ทำตามที่แสดงด้านล่าง: ฉันมีคนบอกฉันว่าพวกเขาไม่สามารถเข้าใจกราฟ แต่ฉันไม่รู้ว่าจะแสดงมันได้อย่างไร เนื่องจากฉันต้องการสามมิติเป็นหลักโดยไม่มีการอธิบายแบบสะสม ฉันต้องการหลีกเลี่ยงการใช้กราฟเส้นจำนวนมากเนื่องจากหลังจากนั้นสองสามสัปดาห์กราฟจะกลายเป็นอ่านไม่ออก ฉันจะทำอะไรไม่ได้เหรอ? ฉันจะแสดงสิ่งเหล่านี้ได้ชัดเจนยิ่งขึ้นได้อย่างไร Date Total Total pages 21/11/2014 2.4166 0 22/11/2014 0 0 23/11/2014 1.5833 4 24/11/2014 3.0166 13 25/11/2014 2.4999 6 26/11/2014 1.4833 3 27/11/2014 3.0499 6 28/11/2014 0 0 29/11/2014 2.4499 5 30/11/2014 2.8833 2 1/12/2014 0 0 2/12/2014 4.1166 …

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
การแปลงแปลงการติดตามตัวแปร LASSO
ฉันยังใหม่กับglmnetแพ็คเกจและฉันก็ยังไม่แน่ใจว่าจะตีความผลลัพธ์ได้อย่างไร ใครช่วยกรุณาอ่านพล็อตการติดตามต่อไปนี้ได้ไหม กราฟได้มาจากการรันสิ่งต่อไปนี้: library(glmnet) return <- matrix(ret.ff.zoo[which(index(ret.ff.zoo)==beta.df$date[2]), ]) data <- matrix(unlist(beta.df[which(beta.df$date==beta.df$date[2]), ][ ,-1]), ncol=num.factors) model <- cv.glmnet(data, return, standardize=TRUE) op <- par(mfrow=c(1, 2)) plot(model$glmnet.fit, "norm", label=TRUE) plot(model$glmnet.fit, "lambda", label=TRUE) par(op)

1
การแสดงผลแบบจำลองผสม
หนึ่งในปัญหาที่ฉันมีกับรุ่นที่ผสมกันคือการหาการสร้างภาพข้อมูลในรูปแบบที่สามารถลงเอยด้วยกระดาษหรือโปสเตอร์เมื่อมีผลลัพธ์แล้ว ตอนนี้ฉันกำลังทำงานกับโมเดลเอฟเฟกต์ผสมปัวซองด้วยสูตรที่มีลักษณะดังนี้: a <- glmer(counts ~ X + Y + Time + (Y + Time | Site) + offset(log(people)) ด้วยบางสิ่งที่ติดตั้งใน glm () เราสามารถใช้การทำนาย () เพื่อรับการทำนายสำหรับชุดข้อมูลใหม่ได้อย่างง่ายดายและสร้างบางสิ่งจากนั้น แต่ด้วยผลลัพธ์เช่นนี้ - คุณจะสร้างบางสิ่งเช่นพล็อตของอัตราเมื่อเวลาผ่านไปด้วยการเลื่อนจาก X (และน่าจะมีค่าที่ตั้งไว้เป็น Y) ได้อย่างไร ฉันคิดว่ามีใครสามารถทำนายขนาดพอดีได้ดีพอจากประมาณการคงที่ผลกระทบ แต่สิ่งที่เกี่ยวกับ 95% CI? มีใครอีกบ้างที่คิดว่าจะช่วยให้เห็นภาพผลลัพธ์ ผลลัพธ์ของโมเดลอยู่ด้านล่าง: Random effects: Groups Name Variance Std.Dev. Corr Site (Intercept) 5.3678e-01 0.7326513 time …

2
รวมลักษณนามโดยการพลิกเหรียญ
ฉันกำลังศึกษาหลักสูตรการเรียนรู้ของเครื่องและสไลด์บรรยายมีข้อมูลที่ฉันพบว่าขัดแย้งกับหนังสือที่แนะนำ ปัญหาดังต่อไปนี้: มีตัวแยกประเภทสามตัว: ลักษณนาม Aให้ประสิทธิภาพที่ดีขึ้นในช่วงล่างของขีด จำกัด ลักษณนามขให้ประสิทธิภาพที่ดีขึ้นในช่วงที่สูงขึ้นของเกณฑ์ ลักษณนาม Cสิ่งที่เราได้รับโดยการโยนเหรียญและเลือกจากตัวแยกประเภทสองตัว ประสิทธิภาพของลักษณนาม C คืออะไรเมื่อดูบนเส้นโค้ง ROC สไลด์บรรยายระบุว่าเพียงแค่พลิกเหรียญนี้เราจะได้รับ " เรือนูน " ที่มีมนต์ขลังของตัวแยกประเภท A และ B ของเส้นโค้ง ROC ฉันไม่เข้าใจประเด็นนี้ เพียงแค่โยนเหรียญเราจะได้รับข้อมูลได้อย่างไร สไลด์บรรยาย หนังสือเล่มนี้พูดอะไร หนังสือที่แนะนำ ( Data Mining ... โดย Ian H. Witten, Eibe Frank และ Mark A. Hall ) ในทางกลับกันระบุว่า: หากต้องการดูสิ่งนี้ให้เลือกความน่าจะเป็นที่เฉพาะเจาะจงสำหรับวิธี A ที่ให้อัตราบวกจริงและเท็จของ tA และ fA …

3
วิธีที่ดีที่สุดในการเห็นภาพการขัดสีโดยใช้ R?
ผ่านเว็บไซต์นี้ฉันเพิ่งค้นพบ Sankey Diagrams วิธีที่ยอดเยี่ยมในการมองภาพสิ่งที่เกิดขึ้นในแผนภูมิการไหลแบบดั้งเดิม นี่คือตัวอย่างที่ดีของ Sankey Diagram โดยGeorge M. Whitesides และ George W. Crabtree , Source; อย่าลืมการวิจัยพื้นฐานด้านพลังงานระยะยาววิทยาศาสตร์ 9 กุมภาพันธ์ 2550: ฉบับที่ 5 315. ไม่ใช่ 5813, pp. 796 - 798 หลังจากที่ฉันรู้ว่าไม่มีแพ็คเกจ Sankey R ฉันพบสคริปต์ R ออนไลน์โชคไม่ดีที่สคริปต์นี้ค่อนข้างดิบและค่อนข้าง จำกัด ด้วยความหวังสูงฉันขอแพคเกจ Sankey R หรือฟังก์ชั่นที่เป็นผู้ใหญ่มากกว่าที่ stackoverflowแต่ฉันประหลาดใจที่ดูเหมือนว่าเราไม่มีฟังก์ชั่นที่เป็นผู้ใหญ่สำหรับการสร้าง Sankey Diagrams ใน R หลังจากที่ฉันโพสต์Geek On Acid จำนวนมากก็ใจดีพอที่จะแนะนำการแฮ็กขนาดเล็กในสคริปต์ที่มีอยู่ซึ่งทำให้มันทำงานได้มากหรือน้อยตามวัตถุประสงค์เฉพาะของฉัน R-script …

1
วิธีการพล็อตขั้นตอนบันไดทำงานด้วย ggplot?
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันมีกราฟดังนี้: รหัส R สำหรับการสร้างมันคือ: DF <- data.frame(date = as.Date(runif(100, 0, 800),origin="2005-01-01"), outcome = rbinom(100, 1, 0.1)) DF <- DF[order(DF$DateVariable),] #Sort by date DF$x <- seq(length=nrow(DF)) #Add case numbers (in order, since sorted) DF$y <- cumsum(DF$outcome) library(ggplot2) ggplot(DF, aes(x,y)) + geom_path() + #Ploting scale_y_continuous(name= "Number of failures") …

4
ฉันจะปรับปรุงการวิเคราะห์ผลกระทบของชื่อเสียงในการลงคะแนนได้อย่างไร
เมื่อเร็ว ๆ นี้ฉันได้ทำการวิเคราะห์ผลกระทบของชื่อเสียงใน upvotes (ดูบล็อกโพสต์ ) และต่อมาฉันมีคำถามสองสามข้อเกี่ยวกับการวิเคราะห์และกราฟิกที่น่าสนใจยิ่งขึ้น (หรือเหมาะสมกว่า) ดังนั้นคำถามสองสามข้อ (และอย่าลังเลที่จะตอบสนองต่อใครโดยเฉพาะและไม่สนใจผู้อื่น): ในปัจจุบันชาติฉันไม่ได้หมายศูนย์หมายเลขโพสต์ ฉันคิดว่าสิ่งนี้จะให้ลักษณะที่ผิดพลาดของความสัมพันธ์เชิงลบใน scatterplot เนื่องจากมีการโพสต์มากขึ้นไปจนถึงระดับล่างสุดของการนับโพสต์ (คุณเห็นว่าสิ่งนี้ไม่ได้เกิดขึ้นในแผง Jon Skeet เฉพาะผู้ใช้ที่ตาย แผงหน้าปัด). มันไม่เหมาะสมที่จะไม่หมายถึงหมายเลขศูนย์โพสต์ (เพราะฉันหมายถึงคะแนนอยู่ตรงกลางต่อคะแนนเฉลี่ยของผู้ใช้)? ควรชัดเจนจากกราฟที่ให้คะแนนว่าเอียงขวาสูง (และค่าเฉลี่ยอยู่ตรงกลางไม่ได้เปลี่ยนแปลงสิ่งใด) เมื่อติดตั้งสายการถดถอยฉันพอดีทั้งตัวแบบเชิงเส้นและตัวแบบโดยใช้ข้อผิดพลาดที่ฮูเบอร์ - ไวท์ (ซึ่งrlmอยู่ในแพ็คเกจ MASS R ) และมันก็ไม่ได้สร้างความแตกต่างในการประมาณความชัน ฉันควรพิจารณาการแปลงเป็นข้อมูลแทนที่จะเป็นการถดถอยที่มีประสิทธิภาพหรือไม่ โปรดทราบว่าการเปลี่ยนแปลงใด ๆ จะต้องคำนึงถึงความเป็นไปได้ของ 0 และคะแนนลบ หรือฉันควรใช้รูปแบบชนิดอื่นเพื่อนับข้อมูลแทน OLS หรือไม่ ฉันเชื่อว่ากราฟิกสองตัวสุดท้ายโดยทั่วไปสามารถปรับปรุงได้ (และเกี่ยวข้องกับกลยุทธ์การสร้างแบบจำลองที่ดีขึ้นเช่นกัน) ในความเห็นของฉัน (ฉันเบื่อ) ฉันจะสงสัยว่าผลกระทบของชื่อเสียงเป็นจริงพวกเขาจะได้รับรู้ล่วงหน้าในประวัติผู้โพสต์ (ฉันคิดว่าถ้าเป็นจริงสิ่งเหล่านี้อาจได้รับการพิจารณาใหม่ "คุณให้คำตอบที่ดีเยี่ยม โพสต์ผลกระทบ "แทน" ชื่อเสียงโดยคะแนนรวม …

2
แสดงค่าเฉลี่ยแทนค่ามัธยฐานใน boxplot [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน4 เดือนที่ผ่านมา เมื่อพล็อตพล็อต boxplot ด้วย python matplotblib บรรทัดที่ครึ่งทางของพล็อตคือค่ามัธยฐานของการแจกแจง มีความเป็นไปได้ที่จะมีเส้นตรงแทนค่าเฉลี่ย หรือจะพล็อตติดกับมันในสไตล์ที่แตกต่าง นอกจากนี้เนื่องจากเป็นเรื่องปกติที่บรรทัดจะเป็นค่ามัธยฐานมันจะทำให้ผู้อ่านสับสนหรือไม่ถ้าฉันทำให้มันเป็นค่าเฉลี่ย (นอกหลักสูตรฉันจะเพิ่มข้อความว่าเส้นกลางคืออะไร) หรือไม่

5
วิธีที่ดีในการแสดงข้อมูลจำนวนมากแบบกราฟิก
ฉันกำลังทำงานในโครงการที่มีตัวแปร 14 ตัวและการสังเกตการณ์ 345,000 ครั้งสำหรับข้อมูลที่อยู่อาศัย (สิ่งต่าง ๆ เช่นปีที่สร้างขึ้นวิดีโอสแควร์ราคาขายเขตที่อยู่อาศัย ฯลฯ ) ฉันกังวลกับการพยายามค้นหาเทคนิคกราฟิกที่ดีและไลบรารี R ที่มีเทคนิคการพล็อตที่ดี ฉันได้เห็นสิ่งที่เป็น ggplot และขัดแตะจะทำงานได้ดีและฉันกำลังคิดที่จะทำไวโอลินสำหรับตัวแปรเชิงตัวเลขของฉัน แพคเกจอื่นใดที่ผู้คนจะแนะนำให้แสดงตัวแปรตัวเลขหรือตัวประกอบจำนวนมากในรูปแบบที่ชัดเจนขัดเงาและที่สำคัญที่สุดคือรวบรัด?

8
กราฟิกทางเลือกในการ "จับแถบ" แปลง
ในส่วนของการวิจัยของฉันวิธีที่นิยมในการแสดงข้อมูลคือการใช้แผนภูมิแท่งร่วมกับ "handle-bars" ตัวอย่างเช่น, "มือจับบาร์" สลับกันระหว่างข้อผิดพลาดมาตรฐานและส่วนเบี่ยงเบนมาตรฐานขึ้นอยู่กับผู้แต่ง โดยทั่วไปขนาดตัวอย่างสำหรับแต่ละ "บาร์" นั้นค่อนข้างเล็ก - ประมาณหก แผนการเหล่านี้ดูเหมือนจะได้รับความนิยมเป็นพิเศษในสาขาวิทยาศาสตร์ชีวภาพ - ดูตัวอย่างเอกสารสองสามฉบับแรกของBMC Biology, vol 3สำหรับตัวอย่าง ดังนั้นคุณจะนำเสนอข้อมูลนี้อย่างไร ทำไมฉันไม่ชอบแปลงเหล่านี้ ส่วนตัวฉันไม่ชอบแปลงเหล่านี้ เมื่อขนาดตัวอย่างเล็กทำไมไม่เพียงแสดงจุดข้อมูลแต่ละจุด มันคือ sd หรือ se ที่กำลังถูกแสดง? ไม่มีใครตกลงที่จะใช้ ทำไมต้องใช้บาร์เลย ข้อมูลไม่ได้ (ปกติ) ไปจาก 0 แต่ผ่านครั้งแรกที่กราฟแสดงให้เห็นว่ามันไม่ กราฟไม่ได้ให้ข้อมูลเกี่ยวกับช่วงหรือขนาดตัวอย่างของข้อมูล สคริปต์ R นี่คือรหัส R ที่ฉันใช้ในการสร้างพล็อต ด้วยวิธีนี้คุณสามารถ (ถ้าคุณต้องการ) ใช้ข้อมูลเดียวกัน #Generate the data set.seed(1) names = c("A1", "A2", "A3", …

1
วิธีที่ดีที่สุดในการแสดงความสัมพันธ์จากแบบจำลองเชิงเส้นหลายแบบ
ฉันมีโมเดลเชิงเส้นพร้อมตัวทำนายประมาณ 6 ตัวและฉันจะนำเสนอการประมาณค่า F ค่า p ฯลฯ ตัวแปรการตอบสนอง? scatterplot? พล็อตตามเงื่อนไข? พล็อตเอฟเฟกต์? etc? ฉันจะตีความพล็อตนั้นได้อย่างไร ฉันจะทำสิ่งนี้ใน R ดังนั้นอย่าลังเลที่จะให้ตัวอย่างถ้าคุณทำได้ แก้ไข: ฉันเกี่ยวข้องกับการนำเสนอความสัมพันธ์ระหว่างตัวทำนายที่ได้รับและตัวแปรการตอบสนองเป็นหลัก

3
จะลงจุดข้อมูลเอาต์พุตของการทำคลัสเตอร์ได้อย่างไร
ฉันพยายามจัดกลุ่มชุดข้อมูล (ชุดเครื่องหมาย) และมี 2 กลุ่ม ฉันต้องการที่จะเป็นตัวแทนกราฟิก บิตสับสนเกี่ยวกับการเป็นตัวแทนเนื่องจากฉันไม่มีพิกัด (x, y) กำลังมองหาฟังก์ชัน MATLAB / Python สำหรับการทำเช่นนั้น แก้ไข ฉันคิดว่าการโพสต์ข้อมูลทำให้คำถามชัดเจนขึ้น ฉันมีสองกลุ่มที่ฉันทำโดยใช้การจัดกลุ่ม kmeans ใน Python (ไม่ใช้ scipy) พวกเขาเป็น class 1: a=[3222403552.0, 3222493472.0, 3222491808.0, 3222489152.0, 3222413632.0, 3222394528.0, 3222414976.0, 3222522768.0, 3222403552.0, 3222498896.0, 3222541408.0, 3222403552.0, 3222402816.0, 3222588192.0, 3222403552.0, 3222410272.0, 3222394560.0, 3222402704.0, 3222298192.0, 3222409264.0, 3222414688.0, 3222522512.0, 3222404096.0, 3222486720.0, 3222403968.0, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.