คำถามติดแท็ก spss

SPSS เป็นชุดซอฟต์แวร์เชิงสถิติ ใช้แท็กนี้สำหรับคำถามในหัวข้อใด ๆ ที่ (a) เกี่ยวข้องกับ SPSS ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวังและ (b) ไม่เพียงเกี่ยวกับวิธีการใช้ SPSS

25
Python เป็นโต๊ะทำงานสถิติ
ผู้คนจำนวนมากใช้เครื่องมือหลักเช่น Excel หรือสเปรดชีตอื่น SPSS, Stata หรือ R สำหรับความต้องการทางสถิติ พวกเขาอาจหันไปใช้แพคเกจเฉพาะสำหรับความต้องการพิเศษมาก แต่หลายสิ่งสามารถทำได้ด้วยสเปรดชีตอย่างง่ายหรือแพคเกจสถิติทั่วไปหรือสภาพแวดล้อมการเขียนโปรแกรมสถิติ ฉันชอบ Python เป็นภาษาการเขียนโปรแกรมเสมอและสำหรับความต้องการง่าย ๆ มันง่ายที่จะเขียนโปรแกรมสั้น ๆ ที่คำนวณสิ่งที่ฉันต้องการ Matplotlib ให้ฉันพล็อตมัน มีใครเปลี่ยนจากพูด R เป็น Python อย่างสมบูรณ์หรือไม่ R (หรือแพ็คเกจสถิติอื่น ๆ ) มีฟังก์ชันการทำงานเฉพาะสำหรับสถิติจำนวนมากและมีโครงสร้างข้อมูลที่ช่วยให้คุณคิดเกี่ยวกับสถิติที่คุณต้องการดำเนินการและน้อยกว่าเกี่ยวกับการแสดงข้อมูลภายในของคุณ Python (หรือภาษาไดนามิกอื่น ๆ ) มีประโยชน์ในการอนุญาตให้ฉันเขียนโปรแกรมในภาษาระดับสูงที่คุ้นเคยและช่วยให้ฉันโต้ตอบกับระบบในโลกแห่งความเป็นจริงซึ่งข้อมูลอยู่หรือที่ฉันสามารถทำการวัดได้ แต่ฉันไม่ได้พบแพ็คเกจ Python ใด ๆ ที่จะอนุญาตให้ฉันแสดงสิ่งต่าง ๆ ด้วย "คำศัพท์เชิงสถิติ" - จากสถิติเชิงพรรณนาอย่างง่ายไปจนถึงวิธีการหลายตัวแปรที่ซับซ้อนมากขึ้น คุณสามารถแนะนำอะไรได้ถ้าฉันต้องการใช้ Python เป็น "สถิติ workbench" เพื่อแทนที่ …
355 r  spss  stata  python 

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
เมื่อ R กำลังสองเป็นค่าลบ
ความเข้าใจของฉันคือว่าไม่สามารถลบได้เนื่องจากมันเป็นสแควร์ของ R อย่างไรก็ตามฉันใช้การถดถอยเชิงเส้นอย่างง่ายใน SPSS ด้วยตัวแปรอิสระเดี่ยวและตัวแปรตาม เอาท์พุท SPSS ของฉันให้ฉันเป็นค่าลบสำหรับ 2 ถ้าฉันจะคำนวณด้วยมือจาก R แล้วจะเป็นค่าบวก SPSS ทำอะไรเพื่อคำนวณสิ่งนี้ว่าเป็นลบR2R2R^2R 2R2R2R^2R2R2R^2 R=-.395 R squared =-.156 B (un-standardized)=-1261.611 รหัสที่ฉันใช้: DATASET ACTIVATE DataSet1. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT valueP /METHOD=ENTER ageP ฉันได้รับค่าลบ ใครช่วยอธิบายสิ่งนี้ได้บ้าง?

8
PCA ตามมาด้วยการหมุน (เช่น varimax) ยังคงเป็น PCA หรือไม่
ฉันได้ลองทำซ้ำการวิจัย (ใช้ PCA) จาก SPSS ใน R จากประสบการณ์ของฉันprincipal() ฟังก์ชั่นจากแพ็คเกจpsychเป็นฟังก์ชั่นเดียวที่เข้ามาใกล้ (หรือถ้าหน่วยความจำของฉันทำหน้าที่ฉันถูกต้องตาย) เพื่อให้ตรงกับผลลัพธ์ เพื่อให้ตรงกับผลเช่นเดียวกับในโปรแกรม SPSS principal(..., rotate = "varimax")ผมต้องใช้พารามิเตอร์ ฉันเคยเห็นเอกสารพูดคุยเกี่ยวกับวิธีที่พวกเขาทำ PCA แต่จากผลของ SPSS และการใช้การหมุนมันฟังดูคล้ายกับการวิเคราะห์ตัวประกอบ คำถาม: PCA คือแม้หลังจากหมุน (โดยใช้varimax) ยังคง PCA หรือไม่ ฉันรู้สึกว่านี่อาจเป็นการวิเคราะห์ตัวประกอบจริง ๆ ... ในกรณีที่ไม่ได้ฉันมีรายละเอียดอะไรบ้าง

7
ทำไม“ สำคัญทางสถิติ” ไม่เพียงพอ?
ฉันเสร็จสิ้นการวิเคราะห์ข้อมูลและได้รับ "ผลลัพธ์ที่มีนัยสำคัญทางสถิติ" ซึ่งสอดคล้องกับสมมติฐานของฉัน อย่างไรก็ตามนักเรียนในสถิติบอกว่านี่เป็นข้อสรุปก่อนวัยอันควร ทำไม? จำเป็นต้องมีสิ่งอื่นอีกไหมในรายงานของฉัน?

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
วิธีการสกัดปัจจัยที่ดีที่สุดในการวิเคราะห์ปัจจัย
SPSS เสนอวิธีการสกัดปัจจัยหลายวิธี: องค์ประกอบหลัก (ซึ่งไม่ใช่การวิเคราะห์ปัจจัยทั้งหมด) ไม่ยกกำลังสองน้อยที่สุด ทั่วไปกำลังสองน้อยที่สุด โอกาสสูงสุด แกนหลัก แฟคตอริ่ง ภาพแฟ ไม่สนใจวิธีแรกซึ่งไม่ใช่การวิเคราะห์ปัจจัย (แต่การวิเคราะห์องค์ประกอบหลักคือ PCA) วิธีใดที่ "ดีที่สุด" อะไรคือข้อดีข้อได้เปรียบของวิธีการที่แตกต่างกันอย่างไร โดยพื้นฐานแล้วฉันจะเลือกใช้อันไหนดี? คำถามเพิ่มเติม: ควรได้รับผลลัพธ์ที่คล้ายกันจากทั้ง 6 วิธี?

1
ทำการวิเคราะห์องค์ประกอบหลักหรือการวิเคราะห์ปัจจัยกับข้อมูลไบนารี
ฉันมีชุดข้อมูลที่มีคำตอบใช่ / ไม่ใช่จำนวนมาก ฉันสามารถใช้ส่วนประกอบหลัก (PCA) หรือการวิเคราะห์การลดข้อมูลอื่น ๆ (เช่นการวิเคราะห์ปัจจัย) สำหรับข้อมูลประเภทนี้ได้หรือไม่ โปรดแนะนำวิธีการใช้ SPSS

4
การทดสอบที่แน่นอนของ Fisher ในตารางฉุกเฉินที่มีขนาดใหญ่กว่า 2x2
ฉันได้รับการสอนให้ใช้การทดสอบที่แน่นอนของฟิชเชอร์ในตารางฉุกเฉินที่ 2x2 เท่านั้น คำถาม: ทำฟิชเชอร์ของตัวเองที่เคยวาดภาพการทดสอบนี้จะใช้ในตารางขนาดใหญ่กว่า 2x2 (ฉันรู้เรื่องของเขาการณ์การทดสอบในขณะที่พยายามที่จะคาดเดาว่าหญิงชราคนหนึ่งสามารถบอกได้ว่านมถูกบันทึกอยู่ในชาหรือชาถูกบันทึกอยู่ในนม ) Stata อนุญาตให้ฉันใช้การทดสอบที่แน่นอนของฟิชเชอร์ในตารางใด ๆ ที่อาจเกิดขึ้น ถูกต้องหรือไม่ ควรใช้ FET หรือไม่หากคาดว่าจำนวนเซลล์ในตารางฉุกเฉินเป็น <5?

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
ความแตกต่างระหว่างทวินามลบทวินามและการถดถอยปัวซอง
ฉันกำลังมองหาข้อมูลบางอย่างเกี่ยวกับความแตกต่างระหว่างทวินามลบทวินามและปัวซองการถดถอยและสถานการณ์ที่เหมาะสมที่สุดสำหรับการถดถอยเหล่านี้ มีการทดสอบใดบ้างที่ฉันสามารถทำได้ใน SPSS ที่สามารถบอกได้ว่าการถดถอยแบบใดที่ดีที่สุดสำหรับสถานการณ์ของฉัน นอกจากนี้ฉันจะเรียกใช้ปัวซองหรือทวินามลบใน SPSS ได้อย่างไรเนื่องจากไม่มีตัวเลือกเช่นที่ฉันเห็นในส่วนการถดถอย หากคุณมีลิงค์ที่มีประโยชน์ฉันจะขอบคุณมันมาก

2
CHAID vs CRT (หรือรถเข็น)
ฉันใช้การจำแนกประเภทต้นไม้ตัดสินใจโดยใช้SPSSในชุดข้อมูลที่มีตัวพยากรณ์ประมาณ 20 ตัว (จัดหมวดหมู่ด้วยบางประเภท) CHAID (การตรวจจับปฏิกิริยาอัตโนมัติไคสแควร์) และ CRT / CART (การจำแนกและต้นไม้การถดถอย) กำลังให้ต้นไม้ที่ต่างกัน ใครสามารถอธิบายข้อดีของ CHAID กับ CRT ได้บ้าง ความหมายของการใช้วิธีหนึ่งกับอีกวิธีหนึ่งคืออะไร?
23 spss  cart 

2
วิธีการจัดเวลาแบบกลุ่ม
ฉันมีคำถามเกี่ยวกับการวิเคราะห์กลุ่ม มี 3,000 บริษัท ที่ต้องทำคลัสเตอร์ตามการใช้พลังงานในระยะเวลา 5 ปี แต่ละ บริษัท มีค่าสำหรับทุก ๆ ชั่วโมงในช่วง 5 ปี ฉันต้องการทราบว่าบาง บริษัท มีรูปแบบการใช้พลังงานเหมือนกันในช่วงระยะเวลาหนึ่งหรือไม่ ควรใช้ผลลัพธ์เพื่อทำนายการใช้พลังงานรายวัน หากคุณมีความคิดบางอย่างเกี่ยวกับวิธีการจัดลำดับเวลาใน SPSS โปรดแบ่งปันกับฉัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.