คำถามติดแท็ก categorical-encoding

การแสดงตัวแปรเชิงหมวดหมู่เป็นชุดของตัวแปรตัวเลข จำเป็นในการวิเคราะห์หลายประเภทเพื่อให้พวกเขาประมวลผลข้อมูลเชิงหมวดหมู่ ตัวอย่างทั่วไปคือการใช้ตัวทำนายเชิงหมวดหมู่ในการถดถอย / ANOVA ผ่านการเข้ารหัสแบบจำลองการเข้ารหัสเอฟเฟกต์การเข้ารหัส Helmert ความแตกต่างที่ผู้ใช้กำหนดเองเป็นต้น

6
"หนึ่งร้อน" การเข้ารหัสที่เรียกว่าในวรรณคดีวิทยาศาสตร์คืออะไร?
อะไรคือชื่อของโอเปอเรเตอร์ที่นำเวกเตอร์ที่มีหมวดหมู่และแปลงให้เป็นตัวแทนแบบไบนารี่โดยใช้การเข้ารหัสแบบร้อนแรง ฉันสงสัยเพราะฉันกำลังเขียนบทความทางวิทยาศาสตร์และต้องการชื่อที่เหมาะสมสำหรับสิ่งนั้น

3
ตัวแปรตัวบ่งชี้สำหรับข้อมูลไบนารี: {-1,1} vs {0,1}
ฉันสนใจในการโต้ตอบการรักษาตัวแปรร่วมในบริบทของการทดลอง / ทดลองควบคุมแบบสุ่มกับการรักษาแบบไบนารีตัวบ่งชี้ที่ได้รับมอบหมายTTTT ฉันได้เห็นทั้งและทั้งนี้ขึ้นอยู่กับวิธี / แหล่งที่มาที่เฉพาะเจาะจงสำหรับอาสาสมัครที่ได้รับการรักษาและไม่ได้รับการรักษาตามลำดับT={1,0}T={1,0}T=\{1,0\}T={1,−1}T={1,−1}T=\{1, -1\} มีกฎของหัวแม่มือเมื่อใช้หรือหรือไม่?{1,0}{1,0}\{1,0\}{1,−1}{1,−1}\{1, -1\} การตีความแตกต่างกันอย่างไร

3
วิธีจัดการกับตัวแปรเด็ดขาดที่ไม่ใช่แบบไบนารีในการถดถอยโลจิสติก (SPSS)
ฉันต้องทำการถดถอยโลจิสติกแบบไบนารีด้วยตัวแปรอิสระจำนวนมาก ส่วนใหญ่เป็นไบนารี แต่ตัวแปรเด็ดขาดบางส่วนมีมากกว่าสองระดับ วิธีที่ดีที่สุดในการจัดการกับตัวแปรดังกล่าวคืออะไร? ตัวอย่างเช่นสำหรับตัวแปรที่มีค่าที่เป็นไปได้สามค่าฉันคิดว่าต้องสร้างตัวแปรจำลองสองตัว จากนั้นในขั้นตอนการถดถอยแบบชาญฉลาดควรทดสอบตัวแปรจำลองทั้งสองพร้อมกันหรือทดสอบแยกกัน ฉันจะใช้ SPSS แต่ฉันจำไม่ได้ดีดังนั้น: SPSS จะจัดการกับสถานการณ์นี้ได้อย่างไร ยิ่งไปกว่านั้นสำหรับตัวแปรหมวดหมู่ตามลำดับมันเป็นสิ่งที่ดีหรือไม่ที่จะใช้ตัวแปรจำลองที่สร้างสเกลตามลำดับขึ้นมาใหม่? (ตัวอย่างเช่นการใช้สามตัวแปรดัมมี่สำหรับ 4 รัฐตัวแปรลำดับใส่0-0-0ระดับ , ระดับ2 , ระดับ3และระดับ4แทน, , และสำหรับ 4 ระดับ.)1111-0-02221-1-03331-1-14440-0-01-0-00-1-00-0-1

4
วิธีการพิสูจน์ทางสถิติว่าคอลัมน์มีข้อมูลหมวดหมู่หรือไม่ใช้ Python
ฉันมี data frame ใน python ที่ฉันต้องการค้นหาตัวแปรเด็ดขาดทั้งหมด การตรวจสอบประเภทของคอลัมน์นั้นไม่ได้ผลเสมอไปเพราะintประเภทยังสามารถจัดหมวดหมู่ได้ ดังนั้นฉันจึงขอความช่วยเหลือในการค้นหาวิธีทดสอบสมมติฐานที่ถูกต้องเพื่อระบุว่าคอลัมน์นั้นเป็นหมวดหมู่หรือไม่ ฉันพยายามทดสอบไคสแควร์ด้านล่าง แต่ไม่แน่ใจว่าดีพอหรือไม่ import numpy as np data = np.random.randint(0,5,100) import scipy.stats as ss ss.chisquare(data) กรุณาแนะนำ

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
ทำไมคอลัมน์สกัดกั้นใน model.matrix จึงมาแทนที่ปัจจัยแรก
ฉันพยายามแปลงคอลัมน์ปัจจัยของฉันเป็นตัวแปรจำลอง: str(cards$pointsBin) # Factor w/ 5 levels ".lte100",".lte150",..: 3 2 3 1 4 4 2 2 4 4 ... labels <- model.matrix(~ pointsBin, data=cards) head(labels) # (Intercept) pointsBin.lte150 pointsBin.lte200 pointsBin.lte250 pointsBin.lte300 # 741 1 0 0 0 0 # 407 1 1 0 0 0 # 676 1 0 0 …

4
วิธีการใช้ตัวแปรจำลองโดยใช้ตัวแปร n-1
ถ้าฉันมีตัวแปรที่มี 4 ระดับในทางทฤษฎีฉันต้องใช้ตัวแปร 3 ตัว ในทางปฏิบัติสิ่งนี้เกิดขึ้นจริงได้อย่างไร? ฉันจะใช้ 0-3 ฉันจะใช้ 1-3 และปล่อยว่างไว้ที่ 4 หรือไม่? ข้อเสนอแนะใด ๆ หมายเหตุ: ฉันจะทำงานในอาร์ UPDATE: จะเกิดอะไรขึ้นถ้าฉันใช้คอลัมน์เดียวที่ใช้ 1-4 สอดคล้องกับโฆษณา มันจะทำงานหรือแนะนำปัญหาหรือไม่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.