คำถามติดแท็ก categorical-data

ข้อมูลหมวดหมู่ (เรียกอีกอย่างว่าเล็กน้อย) สามารถใช้ค่าที่เป็นไปได้จำนวน จำกัด ที่เรียกว่าหมวดหมู่ ค่าหมวดหมู่ "ป้ายกำกับ" จะไม่ "วัด" โปรดใช้แท็ก [ลำดับข้อมูล] สำหรับประเภทข้อมูลที่แยก แต่สั่งซื้อ

1
ทำการวิเคราะห์องค์ประกอบหลักหรือการวิเคราะห์ปัจจัยกับข้อมูลไบนารี
ฉันมีชุดข้อมูลที่มีคำตอบใช่ / ไม่ใช่จำนวนมาก ฉันสามารถใช้ส่วนประกอบหลัก (PCA) หรือการวิเคราะห์การลดข้อมูลอื่น ๆ (เช่นการวิเคราะห์ปัจจัย) สำหรับข้อมูลประเภทนี้ได้หรือไม่ โปรดแนะนำวิธีการใช้ SPSS

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
การทำนายด้วยคุณสมบัติที่ต่อเนื่องและจัดหมวดหมู่
เทคนิคการสร้างแบบจำลองการทำนายบางอย่างได้รับการออกแบบมาเพื่อการจัดการตัวทำนายอย่างต่อเนื่องในขณะที่เทคนิคอื่น ๆ นั้นดีกว่าสำหรับการจัดการกับตัวแปรเด็ดขาด แน่นอนว่ามีเทคนิคในการแปลงประเภทหนึ่งไปเป็นอีกประเภทหนึ่ง (discretization, ตัวแปรจำลอง) อย่างไรก็ตามมีเทคนิคการสร้างแบบจำลองการคาดการณ์ที่ออกแบบมาเพื่อจัดการอินพุตทั้งสองประเภทในเวลาเดียวกันโดยไม่ต้องเปลี่ยนประเภทของคุณสมบัติหรือไม่ ถ้าเป็นเช่นนั้นเทคนิคการสร้างแบบจำลองเหล่านี้มีแนวโน้มที่จะทำงานได้ดีขึ้นกับข้อมูลที่พวกเขาเป็นแบบธรรมชาติมากขึ้น? สิ่งที่ใกล้เคียงที่ฉันรู้จะเป็นที่มักจะต้นไม้ตัดสินใจจัดการกับข้อมูลที่ไม่ต่อเนื่องได้ดีและพวกเขาจัดการข้อมูลอย่างต่อเนื่องโดยไม่ต้องมีขึ้นด้านหน้าไม่ต่อเนื่อง อย่างไรก็ตามนี่ไม่ใช่สิ่งที่ฉันกำลังมองหาเนื่องจากการแยกคุณสมบัติอย่างต่อเนื่องได้อย่างมีประสิทธิภาพเป็นเพียงการแยกส่วนแบบไดนามิก สำหรับการอ้างอิงต่อไปนี้เป็นคำถามที่เกี่ยวข้องและไม่ซ้ำกัน: ต้นไม้การตัดสินใจแยกควรนำมาใช้อย่างไรเมื่อทำนายตัวแปรต่อเนื่อง ฉันสามารถใช้การถดถอยแบบหลายครั้งได้หรือไม่เมื่อฉันมีตัวทำนายที่เป็นหมวดหมู่และแบบต่อเนื่องผสมกัน? มันสมเหตุสมผลไหมที่จะรักษาข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่อง? การวิเคราะห์ข้อมูลตัวแปรอย่างต่อเนื่องและเป็นหมวดหมู่

3
การตีความคำศัพท์โต้ตอบในการถดถอยโลจิทด้วยตัวแปรเด็ดขาด
ฉันมีข้อมูลจากการทดสอบการสำรวจซึ่งผู้ตอบถูกสุ่มให้กับหนึ่งในสี่กลุ่ม: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 ในขณะที่กลุ่มการรักษาทั้งสามแตกต่างกันเล็กน้อยในการกระตุ้นที่ใช้ความแตกต่างหลักที่ฉันสนใจคือระหว่างกลุ่มควบคุมและกลุ่มการรักษา ดังนั้นฉันจึงกำหนดตัวแปรหุ่นจำลองControl: > summary(df$Control) TRUE FALSE 59 191 ในการสำรวจผู้ตอบแบบสอบถามถูกถาม (เหนือสิ่งอื่นใด) เพื่อเลือกสิ่งที่พวกเขาต้องการสองสิ่ง: > summary(df$Prefer) A B NA's 152 93 5 จากนั้นหลังจากได้รับการกระตุ้นตามที่กำหนดโดยกลุ่มการรักษาของพวกเขา (และไม่มีถ้าพวกเขาอยู่ในกลุ่มควบคุม) ผู้ตอบแบบสอบถามถูกขอให้เลือกระหว่างสองสิ่งเดียวกัน: > summary(df$Choice) A B 149 101 ฉันต้องการทราบว่าการอยู่ในหนึ่งในสามกลุ่มการรักษามีผลต่อการเลือกของผู้ตอบแบบสอบถามในคำถามสุดท้ายนี้หรือไม่ สมมติฐานของฉันคือว่าผู้ตอบแบบสอบถามที่ได้รับการรักษาที่มีแนวโน้มที่จะเลือกกว่า AB เนื่องจากฉันทำงานกับข้อมูลที่เป็นหมวดหมู่ฉันได้ตัดสินใจใช้การถดถอยแบบ logit (อย่าลังเลที่จะพูดสอดหากคุณคิดว่าไม่ถูกต้อง) เนื่องจากผู้ตอบถูกสุ่มเลือกฉันอยู่ภายใต้การแสดงผลที่ฉันไม่ควรจำเป็นต้องควบคุมตัวแปรอื่น ๆ (เช่นข้อมูลประชากร) ดังนั้นฉันจึงทิ้งคำถามเหล่านี้ไว้ รุ่นแรกของฉันเป็นเพียงต่อไปนี้: …


1
วิธีการมองเห็นตารางฉุกเฉินที่กระจัดกระจายอย่างมาก?
ฉันมีสองตัวแปร: ชื่อยา (DN) และเหตุการณ์ไม่พึงประสงค์ที่เกี่ยวข้อง (AE) ที่เกี่ยวข้องซึ่งมีความสัมพันธ์แบบกลุ่มต่อกลุ่ม ชื่อยา 33,556 รายการและเหตุการณ์ไม่พึงประสงค์ 9,516 รายการ ขนาดตัวอย่างประมาณ 5.8 ล้านข้อสังเกต ฉันต้องการศึกษาและเข้าใจความสัมพันธ์ / ความสัมพันธ์ระหว่าง DN และ AE ฉันกำลังคิดเกี่ยวกับวิธีการมองภาพชุดนี้ใน R เพราะจะดีกว่าที่จะดูรูปภาพ ฉันไม่แน่ใจว่าจะทำอย่างไร ...

3
ชั่วโมงของวันเป็นตัวแปรเด็ดขาดหรือไม่?
"ชั่วโมงของวัน" คือค่าที่สามารถเป็น 0, 1, 2, ... , 23 เป็นตัวแปรเด็ดขาดหรือไม่ ฉันอยากจะปฏิเสธว่าตั้งแต่ 5 เป็นต้นไปว่า 'ใกล้' ถึง 4 หรือ 6 มากกว่าที่จะเป็น 3 หรือ 7 ในทางตรงกันข้ามมีความไม่ต่อเนื่องระหว่าง 23 และ 0 ดังนั้นโดยทั่วไปถือว่าเป็นหมวดหมู่หรือไม่ โปรดทราบว่า 'ชั่วโมง' เป็นหนึ่งในตัวแปรอิสระไม่ใช่ตัวแปรที่ฉันพยายามทำนาย

3
การแจกแจงทวินามลบกับการแจกแจงทวินาม
อะไรคือความแตกต่างระหว่างการแจกแจงทวินามลบและการแจกแจงทวินาม ฉันลองอ่านออนไลน์และฉันพบว่าการแจกแจงทวินามลบเมื่อจุดข้อมูลไม่ต่อเนื่อง แต่ฉันคิดว่าแม้กระทั่งการแจกแจงทวินามก็สามารถใช้สำหรับจุดข้อมูลแบบแยก

3
ทำไมเราต้องเปลี่ยนตัวแปรหมวดหมู่ของหลอกตา
ฉันไม่แน่ใจว่าทำไมเราต้องจำลองตัวแปรโค้ดหลอกตา ตัวอย่างเช่นถ้าฉันมีตัวแปรเด็ดขาดที่มีค่าที่เป็นไปได้สี่ค่า 0,1,2,3 ฉันสามารถแทนที่ด้วยสองมิติ ถ้าตัวแปรมีค่า 0 มันจะมี 0,0 ในสองมิติถ้ามันมี 3 มันจะมี 1,1 ในสองมิติเป็นต้น ฉันไม่แน่ใจว่าทำไมเราต้องทำเช่นนี้?

1
ปล่อยคอลัมน์ใดคอลัมน์หนึ่งเมื่อใช้การเข้ารหัสแบบร้อนแรง
ความเข้าใจของฉันคือในการเรียนรู้ของเครื่องมันอาจเป็นปัญหาหากชุดข้อมูลของคุณมีคุณสมบัติที่มีความสัมพันธ์สูงเนื่องจากจะเข้ารหัสข้อมูลเดียวกันได้อย่างมีประสิทธิภาพ เมื่อเร็ว ๆ นี้มีคนบางคนชี้ให้เห็นว่าเมื่อคุณทำการเข้ารหัสแบบร้อนแรงบนตัวแปรเด็ดขาดคุณจะต้องจบลงด้วยฟีเจอร์ที่สัมพันธ์กันดังนั้นคุณควรวางหนึ่งในนั้นเป็น "อ้างอิง" ตัวอย่างเช่นการเข้ารหัสเพศเป็นตัวแปรสองตัวis_maleและis_femaleสร้างคุณสมบัติสองอย่างที่มีความสัมพันธ์เชิงลบอย่างสมบูรณ์ดังนั้นพวกเขาจึงแนะนำให้ใช้เพียงหนึ่งตัวตั้งค่าพื้นฐานให้พูดว่าเป็นเพศชายได้อย่างมีประสิทธิภาพแล้วดูว่าคอลัมน์ is_female มีความสำคัญ . นั่นทำให้รู้สึกถึงฉัน แต่ฉันไม่ได้พบอะไรออนไลน์เพื่อแนะนำนี้อาจเป็นกรณีดังนั้นผิดหรือฉันขาดอะไรบางอย่าง? เป็นไปได้ (ยังไม่ได้รับคำตอบ) ซ้ำซ้อน: การเชื่อมโยงกันของคุณสมบัติที่เข้ารหัสร้อนแรงมีความสำคัญสำหรับ SVM และ LogReg หรือไม่

8
คุณจะเห็นภาพความสัมพันธ์ระหว่างตัวแปรเด็ดขาด 3 ตัวได้อย่างไร
ฉันมีชุดข้อมูลที่มีตัวแปรเด็ดขาดสามชุดและฉันต้องการเห็นภาพความสัมพันธ์ระหว่างทั้งสามในกราฟเดียว ความคิดใด ๆ ขณะนี้ฉันกำลังใช้กราฟสามตัวต่อไปนี้: กราฟแต่ละกราฟใช้สำหรับระดับพื้นฐานของภาวะซึมเศร้า (Mild, Moderate, Severe) จากนั้นในแต่ละกราฟฉันดูความสัมพันธ์ระหว่างการรักษา (0,1) และการปรับปรุงอาการซึมเศร้า (ไม่มี, ปานกลาง, เป็นกอบเป็นกำ) กราฟ 3 ตัวนี้ทำงานเพื่อดูความสัมพันธ์แบบ 3 ทาง แต่มีวิธีการทำเช่นนี้กับกราฟเดียวหรือไม่

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
การถดถอยสำหรับตัวแปรอิสระอย่างเด็ดขาดและขึ้นอยู่กับอย่างต่อเนื่อง
ฉันเพิ่งรู้ว่าฉันได้ทำงานเสมอปัญหาการถดถอยที่ตัวแปรอิสระเป็นตัวเลขเสมอ ฉันสามารถใช้การถดถอยเชิงเส้นในกรณีที่ตัวแปรอิสระทั้งหมดจัดหมวดหมู่ได้หรือไม่?

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
ความสำคัญของตัวพยากรณ์เชิงหมวดหมู่ในการถดถอยโลจิสติกส์
ฉันมีปัญหาในการตีความค่า z สำหรับตัวแปรเด็ดขาดในการถดถอยโลจิสติก ในตัวอย่างด้านล่างฉันมีตัวแปรเด็ดขาดที่มี 3 คลาสและตามค่า z CLASS2 อาจมีความเกี่ยวข้องในขณะที่คนอื่นไม่ได้ แต่ตอนนี้สิ่งนี้หมายความว่าอย่างไร ฉันจะรวมคลาสอื่น ๆ เข้าด้วยกันได้หรือไม่ ตัวแปรทั้งหมดอาจไม่ใช่ตัวทำนายที่ดีใช่มั้ย นี่เป็นเพียงตัวอย่างและค่า z ที่แท้จริงที่นี่ไม่ได้มาจากปัญหาจริงฉันแค่มีปัญหาเกี่ยวกับการตีความของพวกเขา Estimate Std. Error z value Pr(>|z|) CLASS0 6.069e-02 1.564e-01 0.388 0.6979 CLASS1 1.734e-01 2.630e-01 0.659 0.5098 CLASS2 1.597e+00 6.354e-01 2.514 0.0119 *

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.