คำถามติดแท็ก interpretation

อ้างถึงข้อสรุปที่สำคัญจากผลการวิเคราะห์ทางสถิติ

5
โมเดลการจำแนกประเภทที่ตีความได้มากที่สุด
ยกเว้นต้นไม้ตัดสินใจและการถดถอยโลจิสติกโมเดลการจำแนกประเภทอื่นใดที่ให้การตีความที่ดี ฉันไม่สนใจความถูกต้องหรือพารามิเตอร์อื่น ๆ การตีความผลลัพธ์เป็นสิ่งสำคัญเท่านั้น

3
วิธีการดึงข้อมูลจากเมทริกซ์สแคทเทอร์พล็อตเมื่อคุณมี N ขนาดใหญ่ข้อมูลแยกและตัวแปรจำนวนมาก
ฉันกำลังเล่นกับชุดข้อมูลมะเร็งเต้านมและสร้าง scatterplot ของคุณลักษณะทั้งหมดเพื่อให้ได้ไอเดียว่าอันไหนมีผลมากที่สุดในการทำนายคลาสmalignant(สีน้ำเงิน) ของbenign(สีแดง) ฉันเข้าใจว่าแถวนั้นแทนแกน x และคอลัมน์แทนแกน y แต่ฉันไม่เห็นว่าการสังเกตใดที่ฉันสามารถทำได้เกี่ยวกับข้อมูลหรือคุณลักษณะจากสแกตเตอร์แปลงนี้ ฉันกำลังมองหาความช่วยเหลือในการตีความ / ทำการสังเกตเกี่ยวกับข้อมูลจาก scatterplot นี้หรือถ้าฉันควรใช้การสร้างภาพข้อมูลอื่น ๆ เพื่อให้เห็นภาพข้อมูลนี้ ฉันใช้รหัส R link <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff" breast <- read.arff(link) cols <- character(nrow(breast)) cols[] <- "black" cols[breast$class == 2] <- "red" cols[breast$class == 4] <- "blue" pairs(breast, col=cols)

1
จะตีความการทดสอบ Cochran-Mantel-Haenszel ได้อย่างไร
ฉันกำลังทดสอบความเป็นอิสระของตัวแปรสองตัวคือ A และ B แบ่งเป็นชั้น ๆ โดย C. A และ B เป็นตัวแปรไบนารีและ C คือหมวดหมู่ (5 ค่า) ทำการทดสอบที่แม่นยำของฟิชเชอร์สำหรับ A และ B (ชั้นทั้งหมดรวมกัน) ฉันได้รับ: ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 OR: 1.75 (1.25 -- 2.44), p = 0.0007 * โดยที่ OR เป็นอัตราต่อรอง (ประมาณและช่วงความมั่นใจ 95%) …

2
ความแตกต่างในนิยามของเคิร์ตซีสและการตีความ
ฉันเพิ่งรู้ว่ามีความแตกต่างในค่าเคิร์ตซีให้ SPSS และ Stata ดูhttp://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm ความเข้าใจของฉันคือการตีความที่เหมือนกันจึงจะแตกต่างกัน คำแนะนำเกี่ยวกับวิธีการจัดการกับเรื่องนี้?

1
วิธีการตีความ biplot PCA นี้มาจากการสำรวจสิ่งที่ผู้คนมีความสนใจในพื้นที่?
ความเป็นมา:ฉันถามผู้เข้าร่วมหลายร้อยคนในแบบสำรวจของฉันว่าพวกเขาสนใจในพื้นที่ที่เลือกไว้มากเพียงใด (โดยห้าจุด Likert มี 1 ตัวบ่งชี้ว่า "ไม่สนใจ" และ 5 ระบุว่า "สนใจ") จากนั้นฉันก็ลอง PCA ภาพด้านล่างเป็นการฉายภาพลงในองค์ประกอบหลักสองประการแรก สีที่ใช้สำหรับเพศและลูกศร PCA เป็นตัวแปรดั้งเดิม (เช่นความสนใจ) ฉันสังเกตว่า: จุด (ผู้ตอบแบบสอบถาม) ค่อนข้างแยกจากกันโดยองค์ประกอบที่สอง ไม่มีลูกศรชี้ไปทางซ้าย ลูกศรบางตัวสั้นกว่าลูกศรอื่นมาก ตัวแปรมีแนวโน้มที่จะสร้างกลุ่ม แต่ไม่ใช่การสังเกต ดูเหมือนว่าลูกศรชี้ลง (สำหรับผู้ชาย) ส่วนใหญ่เป็นความสนใจของผู้ชายและลูกศรชี้ขึ้นส่วนใหญ่เป็นความสนใจของผู้หญิง ลูกศรบางตัวชี้ไม่ขึ้นหรือลง คำถาม:วิธีการตีความความสัมพันธ์ระหว่างจุดอย่างถูกต้อง (ผู้ตอบแบบสอบถาม), สี (เพศ) และลูกศร (ตัวแปร) ได้อย่างไร? ข้อสรุปอื่น ๆ เกี่ยวกับผู้ตอบและความสนใจของพวกเขาสามารถขุดได้จากแผนนี้ ข้อมูลที่สามารถพบได้ที่นี่

1
การตีความความหนาแน่นแบบมีเงื่อนไข
ฉันต้องการทราบวิธีการตีความแปลงความหนาแน่นตามเงื่อนไขอย่างถูกต้อง ฉันได้ใส่สองด้านล่างที่ผมสร้างขึ้นใน R cdplotกับ ตัวอย่างเช่นความน่าจะเป็นของผลลัพธ์เท่ากับ 1 เมื่อVar 1เท่ากับ 150 ประมาณ 80% หรือไม่ พื้นที่สีเทาเข้มคือความน่าจะเป็นแบบมีเงื่อนไขResultซึ่งเท่ากับ 1 ใช่ไหม? จากcdplotเอกสารประกอบ: cdplot คำนวณความหนาแน่นตามเงื่อนไขของ x ที่กำหนดระดับของ y ที่ถ่วงน้ำหนักด้วยการแจกแจงส่วนขอบของ y ความหนาแน่นจะได้รับมาจากระดับ y การสะสมนี้มีผลต่อการตีความแปลงเหล่านี้อย่างไร

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
ค่าสัมประสิทธิ์การถดถอยแบบโลจิสติกแบบเอ็กซ์โปเนนเชียลแตกต่างจากอัตราต่อรอง
ดังที่ฉันเข้าใจแล้วค่าเบต้าที่ยกกำลังจากการถดถอยโลจิสติกคืออัตราส่วนอัตราต่อรองของตัวแปรนั้นสำหรับตัวแปรตามความสนใจ อย่างไรก็ตามค่าไม่ตรงกับอัตราส่วนอัตราต่อรองที่คำนวณด้วยตนเอง แบบจำลองของฉันกำลังทำนายการสตัน (ตัวชี้วัดการขาดสารอาหาร) โดยใช้ตัวชี้วัดอื่น ๆ ในการประกัน // Odds ratio from LR, being done in stata logit stunting insurance age ... etc. or_insurance = exp(beta_value_insurance) // Odds ratio, manually calculated odds_stunted_insured = num_stunted_ins/num_not_stunted_ins odds_stunted_unins = num_stunted_unins/num_not_stunted_unins odds_ratio = odds_stunted_ins/odds_stunted_unins เหตุผลทางความคิดสำหรับค่าเหล่านี้แตกต่างกันอย่างไร การควบคุมปัจจัยอื่น ๆ ในการถดถอยหรือไม่? เพียงแค่ต้องการที่จะสามารถอธิบายความแตกต่าง

1
ความแตกต่างระหว่างตัวแบบขอบและแบบมีเงื่อนไข
รุ่นร่อแร่บัญชีสำหรับความสัมพันธ์ในแต่ละคลัสเตอร์ ตัวแบบเงื่อนไขยังคำนึงถึงความสัมพันธ์ภายในแต่ละคลัสเตอร์ด้วย คำถามของฉันคือ: แบบจำลองส่วนขอบมีผลกระทบหลักในประชากรหรือไม่ในขณะที่แบบจำลองแบบมีเงื่อนไขมีผลกระทบหลักภายในกลุ่มและข้ามประชากรหรือไม่ การตีความสัมประสิทธิ์ของโมเดลร่อแร่นั้นเหมือนกับ "โมเดลปกติ" แต่สัมประสิทธิ์ของแบบจำลองตามเงื่อนไขนั้นเป็นอย่างไร

3
การแสดงผลขนาดทวินาม (BESD) เป็นการนำเสนอขนาดที่ทำให้เข้าใจผิดหรือไม่?
มันยากสำหรับฉันที่จะยอมรับว่าโดนัลด์รูบินจะมาพร้อมกับเทคนิคมะนาวที่แท้จริง แต่นั่นคือการรับรู้ของฉันเกี่ยวกับ BESD [ 1 , 2 , 3 ] กระดาษต้นฉบับโดย Rosenthal และ Rubin (1982)อ้างว่ามีค่าในการแสดง "วิธีการสร้างความสัมพันธ์กับช่วงเวลาของผลิตภัณฑ์ใด ๆ ในการแสดง [2x2] ไม่ว่าจะเป็นข้อมูลต้นฉบับที่ต่อเนื่องหรือเป็นหมวดหมู่" ตารางด้านล่างมาจากหน้า 451 ของลิงค์ที่ 2 ด้านบน: R2R2R^2φϕ\phi ฉันขาดสิ่งที่มีค่าอย่างแท้จริงที่นี่ นอกจากนี้ฉันมีความประทับใจว่าในช่วง 10 ปีที่ผ่านมาชุมชนสถิติได้ปฏิเสธโดยวิธีนี้อย่างมากและถูกต้องตามกฎหมาย - ฉันผิดหรือเปล่า? EEEคCCs Rsrsr Es R= .50 + r / 2Esr=.50+r/2E_{sr} = .50 + r/2 และ คs R= .50 - …

1
คำอธิบายที่ใช้งานง่ายของ logloss
ในการแข่งขันหลายต่อรองคะแนนอยู่บนพื้นฐานของ "logloss" เรื่องนี้เกี่ยวข้องกับข้อผิดพลาดการจัดหมวดหมู่ นี่คือคำตอบทางเทคนิคแต่ฉันกำลังมองหาคำตอบที่ใช้งานง่าย ฉันชอบคำตอบสำหรับคำถามนี้เกี่ยวกับระยะทาง Mahalanobis แต่ PCA ไม่ใช่ logloss ฉันสามารถใช้ค่าที่ซอฟต์แวร์การจำแนกประเภทออกมา แต่ฉันไม่เข้าใจจริงๆ ทำไมเราใช้มันแทนที่จะเป็นอัตราบวก / ลบจริง / เท็จ? คุณช่วยฉันได้ไหมเพื่อที่ฉันจะสามารถอธิบายเรื่องนี้กับคุณยายหรือมือใหม่ในสนามได้? ฉันชอบและเห็นด้วยกับคำพูด: คุณไม่เข้าใจอะไรจริงๆเว้นแต่คุณจะสามารถอธิบายให้คุณยายของคุณได้ - อัลเบิร์ตไอน์สไตน์ ฉันพยายามตอบคำถามนี้ด้วยตัวเองก่อนโพสต์ที่นี่ ลิงก์ที่ฉันไม่พบว่าใช้งานง่ายหรือมีประโยชน์จริงๆ ได้แก่ : http://www.r-bloggers.com/making-sense-of-logarithmic-loss/ https://www.quora.com/What-is-an-intuitive-explanation-for-the-log-loss-function https://lingpipe-blog.com/2010/11/02/evaluating-with-probabilistic-truth-log-loss-vs-0-1-loss/ https://www.kaggle.com/wiki/LogarithmicLoss เหล่านี้เป็นข้อมูลและถูกต้อง มีไว้สำหรับผู้ชมด้านเทคนิค พวกเขาไม่ได้วาดภาพอย่างง่ายหรือให้ตัวอย่างที่ง่ายและเข้าถึงได้ พวกเขาไม่ได้เขียนถึงคุณยายของฉัน

2
วิธีการตีความแปลง ACF และ PACF
ฉันแค่ต้องการตรวจสอบว่าฉันกำลังตีความแปลง ACF และ PACF อย่างถูกต้อง: ข้อมูลสอดคล้องกับข้อผิดพลาดที่เกิดขึ้นระหว่างจุดข้อมูลจริงและการประมาณการที่สร้างขึ้นโดยใช้แบบจำลอง AR (1) ฉันดูคำตอบที่นี่: ประมาณค่าสัมประสิทธิ์ ARMA ผ่านการตรวจ ACF และ PACF หลังจากอ่านแล้วดูเหมือนว่าข้อผิดพลาดนั้นไม่ได้มีความสัมพันธ์กันโดยอัตโนมัต แต่ฉันแค่อยากจะแน่ใจว่าข้อกังวลของฉันคือ: 1. ) ข้อผิดพลาดแรกอยู่ที่ขอบเขต (เมื่อเป็นกรณีนี้ฉันควรยอมรับหรือปฏิเสธว่ามีความสัมพันธ์กันโดยอัตโนมัติที่ล่าช้า 1) 2. ) เส้นแสดงช่วงความมั่นใจ 95% และกำหนดว่ามีความล่าช้า 116 ครั้งที่ฉันคาดหวังไม่เกิน (0.05 * 116 = 5.8 ซึ่งฉันปัดขึ้นเป็น 6) 6 ความล่าช้าจะเกินขอบเขต สำหรับ ACF เป็นกรณีนี้ แต่สำหรับ PACF มีข้อยกเว้นประมาณ 10 ข้อ หากคุณรวมสิ่งเหล่านี้ไว้ที่ชายแดนมันจะเป็น 14 หรือไม่? สิ่งนี้ยังบ่งบอกว่าไม่มีความสัมพันธ์อัตโนมัติหรือไม่ …

1
การตีความค่าสัมประสิทธิ์ของการโต้ตอบระหว่างตัวแปรเด็ดขาดและตัวแปรต่อเนื่อง
ฉันมีคำถามเกี่ยวกับการตีความค่าสัมประสิทธิ์ของการโต้ตอบระหว่างตัวแปรแบบต่อเนื่องและหมวดหมู่ นี่คือแบบจำลองของฉัน: model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), data=base_708) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 21.4836 2.0698 10.380 < 2e-16 *** lg_hag 8.5691 3.7688 2.274 0.02334 * raceblack -8.4715 1.7482 -4.846 1.61e-06 *** racemexican -3.0483 1.7073 -1.785 0.07469 . racemulti/other -4.6002 2.3098 -1.992 0.04687 * pdg 2.8038 0.4268 6.570 1.10e-10 *** sexfemale 4.5691 …

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
ทำความเข้าใจกับแผนการขายไอศกรีมของ PCA นี้เทียบกับอุณหภูมิ
ฉันกำลังใช้ข้อมูลหุ่นจำลองของอุณหภูมิเทียบกับการขายไอศกรีมและจัดหมวดหมู่โดยใช้ K หมายถึง (n กลุ่ม = 2) เพื่อแยกแยะความแตกต่าง 2 ประเภท (หุ่นจำลองทั้งหมด) ตอนนี้ฉันกำลังทำการวิเคราะห์ส่วนประกอบหลักในข้อมูลนี้และเป้าหมายของฉันคือเข้าใจสิ่งที่ฉันเห็น ฉันรู้ว่าวัตถุประสงค์ PCA คือการลดมิติ (ไม่ชัดเจนในกรณีนี้) และแสดงความแปรปรวนขององค์ประกอบ แต่คุณจะอ่านพล็อต PCA ด้านล่างได้อย่างไรนั่นคือเรื่องราวที่คุณสามารถบอกเกี่ยวกับอุณหภูมิเทียบกับไอศกรีมในพล็อต PCA ได้อย่างไร พีซีรุ่น 1 (X) และ 2nd (Y) หมายถึงอะไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.