คำถามติดแท็ก categorical-data

ข้อมูลหมวดหมู่ (เรียกอีกอย่างว่าเล็กน้อย) สามารถใช้ค่าที่เป็นไปได้จำนวน จำกัด ที่เรียกว่าหมวดหมู่ ค่าหมวดหมู่ "ป้ายกำกับ" จะไม่ "วัด" โปรดใช้แท็ก [ลำดับข้อมูล] สำหรับประเภทข้อมูลที่แยก แต่สั่งซื้อ

1
การตีความค่าสัมประสิทธิ์ของการโต้ตอบระหว่างตัวแปรเด็ดขาดและตัวแปรต่อเนื่อง
ฉันมีคำถามเกี่ยวกับการตีความค่าสัมประสิทธิ์ของการโต้ตอบระหว่างตัวแปรแบบต่อเนื่องและหมวดหมู่ นี่คือแบบจำลองของฉัน: model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), data=base_708) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 21.4836 2.0698 10.380 < 2e-16 *** lg_hag 8.5691 3.7688 2.274 0.02334 * raceblack -8.4715 1.7482 -4.846 1.61e-06 *** racemexican -3.0483 1.7073 -1.785 0.07469 . racemulti/other -4.6002 2.3098 -1.992 0.04687 * pdg 2.8038 0.4268 6.570 1.10e-10 *** sexfemale 4.5691 …

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
ปัญหากับดักตัวแปร Dummy
ฉันใช้การถดถอย OLS ขนาดใหญ่ที่ตัวแปรอิสระทั้งหมด (ประมาณ 400) เป็นตัวแปรจำลอง หากรวมทั้งหมดแล้วจะมีความสมบูรณ์แบบหลายค่า (ความแตกต่างของตัวแปรดัมมี่) ดังนั้นฉันต้องตัดตัวแปรตัวใดตัวหนึ่งก่อนที่จะทำการถดถอย คำถามแรกของฉันคือสิ่งที่ควรละเว้นตัวแปร? ฉันได้อ่านแล้วว่าเป็นการดีกว่าถ้าละเว้นตัวแปรที่มีอยู่ในการสังเกตหลายครั้งแทนที่จะเป็นตัวแปรที่มีอยู่ในไม่กี่ตัวเท่านั้น (เช่นถ้าการสังเกตเกือบทั้งหมดเป็น "ผู้ชาย" หรือ "ผู้หญิง" และเพียงไม่กี่คนเท่านั้นที่ไม่รู้จัก "ละเว้น" ชาย "หรือ" หญิง ") เป็นธรรมหรือไม่? หลังจากรันการถดถอยด้วยตัวแปรที่ละเว้นฉันสามารถประเมินค่าสัมประสิทธิ์ของตัวแปรที่ละเว้นได้เพราะฉันรู้ว่าค่าเฉลี่ยโดยรวมของตัวแปรอิสระทั้งหมดของฉันควรเป็น 0 ดังนั้นฉันจึงใช้ความจริงนี้เพื่อเปลี่ยนค่าสัมประสิทธิ์สำหรับทุก ตัวแปรที่รวมอยู่และรับการประมาณค่าสำหรับตัวแปรที่ละเว้น คำถามต่อไปของฉันคือว่ามีเทคนิคที่คล้ายกันบางอย่างที่สามารถใช้เพื่อประเมินข้อผิดพลาดมาตรฐานสำหรับค่าสัมประสิทธิ์ของตัวแปรที่ตัดทิ้งหรือไม่ เนื่องจากฉันต้องเรียกใช้การถดถอยอีกครั้งโดยละเว้นตัวแปรที่แตกต่างกัน (และรวมถึงตัวแปรที่ฉันละเว้นในการถดถอยครั้งแรก) เพื่อรับการประเมินข้อผิดพลาดมาตรฐานสำหรับค่าสัมประสิทธิ์ของตัวแปรที่ละเว้นเดิม ในที่สุดฉันสังเกตเห็นว่าค่าสัมประสิทธิ์ประมาณที่ฉันได้รับ (หลังจากจัดศูนย์กลางอีกครั้งรอบศูนย์) จะแตกต่างกันเล็กน้อยขึ้นอยู่กับตัวแปรที่ถูกละเว้น ในทางทฤษฎีแล้วมันจะดีกว่าไหมถ้าใช้การถดถอยหลาย ๆ ตัวแต่ละตัวจะละเว้นตัวแปรที่ต่างกันแล้วเฉลี่ยค่าสัมประสิทธิ์ประมาณจากการถดถอยทั้งหมด

1
ทำไมคอลัมน์สกัดกั้นใน model.matrix จึงมาแทนที่ปัจจัยแรก
ฉันพยายามแปลงคอลัมน์ปัจจัยของฉันเป็นตัวแปรจำลอง: str(cards$pointsBin) # Factor w/ 5 levels ".lte100",".lte150",..: 3 2 3 1 4 4 2 2 4 4 ... labels <- model.matrix(~ pointsBin, data=cards) head(labels) # (Intercept) pointsBin.lte150 pointsBin.lte200 pointsBin.lte250 pointsBin.lte300 # 741 1 0 0 0 0 # 407 1 1 0 0 0 # 676 1 0 0 …

4
พัฒนาการทดสอบทางสถิติเพื่อแยกความแตกต่างของสองผลิตภัณฑ์
ฉันมีชุดข้อมูลจากแบบสำรวจลูกค้าฉันต้องการปรับใช้การทดสอบทางสถิติเพื่อดูว่ามีความแตกต่างอย่างมีนัยสำคัญระหว่างผลิตภัณฑ์ 1 และผลิตภัณฑ์ 2 หรือไม่ นี่คือชุดข้อมูลของความคิดเห็นของลูกค้า อัตรานี้แย่มากแย่มากโอเคดีถึงดีมาก customer product1 product2 1 very good very bad 2 good bad 3 okay bad 4 very good okay 5 bad very good 6 okay good 7 bad okay 8 very good very bad 9 good good 10 good very good 11 okay okay …

1
วิธีการสำรวจความคิดเห็นส่วนบุคคล
เพื่อนนักสถิติของฉันบอกฉันถึงเทคนิคที่น่าสนใจที่ใช้ในการรับการตอบกลับอย่างซื่อสัตย์จากการสำรวจที่จัดการกับปัญหาที่ละเอียดอ่อน ฉันจำส่วนสำคัญของวิธีการนี้ได้ แต่สงสัยว่ามีใครรู้รายละเอียดบ้างหรือไม่และมีการอ้างอิงที่ใด เรื่องราวคือฟลอริด้าอะ AMA ต้องการประเมินการใช้ยาในหมู่แพทย์ พวกเขาส่งแบบสอบถามพร้อมคนตายหนึ่งคน IIRC คำแนะนำเป็นบางสิ่งบางอย่างตามแนวของ "หมุนตายถ้าคุณเคยเสพยาหรือได้ 6 เขียนลงหก; มิฉะนั้นเขียนลงเลขอะไรก็ตาม" ความคิดที่ว่าถ้ามีคนดึงแบบสอบถามของแพทย์และเห็นหกเขาสามารถบอกว่าเขาไม่ได้ใช้ยาเสพติดเขาเพิ่งเกิดขึ้นหก

2
คุณวางแผนการปฏิสัมพันธ์ระหว่างปัจจัยและ covariate อย่างต่อเนื่องได้อย่างไร
ฉันต้องการลงจุดบนกราฟเดียวกันการทำงานร่วมกันระหว่างตัวทำนายต่อเนื่องของฉันกับผู้ดูแลหมวดหมู่ของฉัน ฉันรู้ว่าต้องทำอย่างไรเมื่อทั้งสองมีการจัดหมวดหมู่ ( การโต้ตอบระหว่างปัจจัย ) แต่ไม่รู้จริง ๆ ว่าจะทำอย่างไรเมื่อมีการต่อเนื่องและมีการจัดหมวดหมู่

2
ความสัมพันธ์ระหว่างหมวดหมู่ระหว่างตัวแปรระบุแน่ชัด
ฉันมีชุดข้อมูลที่มีตัวแปรระบุหมวดหมู่สองชุด ฉันต้องการทราบว่า (และวิธี) ฉันสามารถระบุความสัมพันธ์ที่เป็นไปได้ระหว่างหมวดหมู่จากตัวแปรทั้งสองนี้หรือไม่ กล่าวอีกนัยหนึ่งไม่ว่าตัวอย่างเช่นผลลัพธ์ของหมวดหมู่ ผมii ในตัวแปร 1 แสดงความสัมพันธ์ที่ดีกับหมวดหมู่เฉพาะ Jjj ในตัวแปร 2 เนื่องจากฉันมีสองตัวแปรที่มี 5 หมวดหมู่การวิเคราะห์สหสัมพันธ์ทั้งหมดสำหรับหมวดหมู่ทั้งหมดจะลดลงถึง 25 ผลลัพธ์ (อย่างน้อยถ้ามันทำงานตามที่ฉันหวัง / คาดหวังว่ามันจะทำงาน) ฉันได้พยายามกำหนดปัญหาให้เป็นคำถามที่เป็นรูปธรรม: คำถามที่ 1: สมมติว่าฉันโอนตัวแปรเด็ดขาดเป็นตัวแปรดัมมี่ 5 ตัวต่อค่า (หมวดหมู่) ขั้นตอนเดียวกันนี้ฉันใช้สำหรับตัวแปรที่สองเช่นกัน จากนั้นฉันต้องการหาความสัมพันธ์ระหว่าง dummy 1.i และ 2.i (ตัวอย่าง) มันถูกต้องทางสถิติหรือไม่ที่ฉันจะดำเนินการตามขั้นตอนนี้ด้วยวิธีการของสัมประสิทธิ์สหสัมพันธ์สามัญ? สัมประสิทธิ์สหสัมพันธ์ที่เกิดจากขั้นตอนนี้ให้ข้อมูลเชิงลึกที่เหมาะสมในความสัมพันธ์ระหว่างตัวแปรจำลองทั้งสองหรือไม่? คำถามที่ 2: หากกระบวนการที่อธิบายไว้ในคำถามที่หนึ่งเป็นกระบวนการที่ถูกต้องมีวิธีดำเนินการวิเคราะห์นี้สำหรับทุกหมวดหมู่ของ 2 (หรืออาจมากกว่า) ตัวแปรระบุหมวดหมู่ทั้งหมดในครั้งเดียวหรือไม่? โปรแกรมที่ฉันใช้คือ SPSS (20)

2
พารามิเตอร์การบูตแบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับรุ่นผสม
ตัดต่อไปนี้จะนำมาจากบทความนี้ ฉันเป็นมือใหม่ในการบู๊ตสแตรปและพยายามที่จะใช้การบู๊ตสแปปปิ้งแบบกึ่งพารามิเตอร์แบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับแบบจำลองเชิงเส้นผสมกับR bootแพ็คเกจ รหัส R นี่คือRรหัสของฉัน: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
จะวัดความสัมพันธ์ระหว่างตัวแปรเด็ดขาดอย่างไร [ซ้ำ]
คำถามนี้มีคำตอบอยู่ที่นี่แล้ว : ความสัมพันธ์ระหว่างตัวแปรเด็ดขาด (1 คำตอบ) ปิดให้บริการใน6 เดือนที่ผ่านมา ฉันรู้ว่าเราสามารถใช้ Spearman rho เพื่อวัดความสัมพันธ์ระหว่างตัวแปรตัวเลข แต่จะวัดความสัมพันธ์ระหว่างตัวแปรเด็ดขาดได้อย่างไร

1
ทำอย่างไรจึงจะพอดีกับแบรดลีย์ - เทอร์รี่ - ลูซใน R โดยไม่มีสูตรที่ซับซ้อน?
แบรดลีย์ - เทอร์รี่ – ลูซ (BTL) โมเดลกล่าวว่าโดยที่คือความน่าจะเป็นที่วัตถุถูกตัดสินให้เป็น "ดีกว่า", ที่หนักกว่า ฯลฯ กว่า objectและและเป็นพารามิเตอร์พีJฉัน= l o gผมเสื้อ- 1(δJ-δผม)พีJผม=ล.โอก.ผมเสื้อ-1(δJ-δผม)p_{ji} = logit^{-1}(\delta_j - \delta_i)พีฉันเจพีผมJp_{ij}JJjผมผมiδผมδผม\delta_iδJδJ\delta_j ดูเหมือนว่าจะเป็นตัวเลือกสำหรับฟังก์ชัน glm โดยมี family = binomial อย่างไรก็ตามสูตรจะคล้ายกับ "ความสำเร็จ ~ S1 + S2 + S3 + S4 + ... " โดยที่ Sn เป็นตัวแปรจำลองนั่นคือ 1 ถ้าวัตถุ n เป็นวัตถุแรกในการเปรียบเทียบ -1 ถ้าเป็น วินาทีและ 0 …

4
วิธีการใช้ตัวแปรจำลองโดยใช้ตัวแปร n-1
ถ้าฉันมีตัวแปรที่มี 4 ระดับในทางทฤษฎีฉันต้องใช้ตัวแปร 3 ตัว ในทางปฏิบัติสิ่งนี้เกิดขึ้นจริงได้อย่างไร? ฉันจะใช้ 0-3 ฉันจะใช้ 1-3 และปล่อยว่างไว้ที่ 4 หรือไม่? ข้อเสนอแนะใด ๆ หมายเหตุ: ฉันจะทำงานในอาร์ UPDATE: จะเกิดอะไรขึ้นถ้าฉันใช้คอลัมน์เดียวที่ใช้ 1-4 สอดคล้องกับโฆษณา มันจะทำงานหรือแนะนำปัญหาหรือไม่

2
แนวปฏิบัติที่ดีที่สุดเมื่อรักษาข้อมูลช่วงเป็นต่อเนื่อง
ฉันกำลังดูว่าความอุดมสมบูรณ์นั้นเกี่ยวข้องกับขนาดหรือไม่ ขนาดคือ (แน่นอน) ต่อเนื่องอย่างไรก็ตามความอุดมสมบูรณ์จะถูกบันทึกไว้ในสเกลดังกล่าว A = 0-10 B = 11-25 C = 26-50 D = 51-100 E = 101-250 F = 251-500 G = 501-1000 H = 1001-2500 I = 2501-5000 J = 5001-10,000 etc... A ถึง Q ... 17 ระดับ ฉันคิดว่าวิธีหนึ่งที่เป็นไปได้คือการกำหนดตัวเลขให้กับตัวอักษรแต่ละตัว: อย่างน้อยที่สุด, สูงสุดหรือค่ามัธยฐาน (เช่น A = 5, B = …

3
เอฟเฟกต์แบบสุ่มสามารถใช้ได้กับตัวแปรเด็ดขาดเท่านั้นหรือไม่
คำถามนี้อาจฟังดูงี่เง่า แต่ ... ถูกต้องหรือไม่ว่าเอฟเฟกต์แบบสุ่มสามารถใช้กับตัวแปรเด็ดขาดเท่านั้น (เช่นรหัสบุคคล, รหัสประชากร, ... ) เช่นพูดxผมxix_i เป็นตัวแปรเด็ดขาด: Yผมyiy_i ~ βxผมβxi\beta_{x_i} βxผมβxi\beta_{x_i} ~ ยังไม่มีข้อความo r m ( μ ,δ2)Norm(μ,δ2)Norm(\mu, \delta^2) แต่จากหลักการแล้วเอฟเฟกต์แบบสุ่มไม่สามารถใช้กับตัวแปรต่อเนื่อง (เช่นความสูงมวล ... ) ได้Zผมziz_i: Yผมyiy_i ~ α + β⋅Zผมα+β⋅zi\alpha + \beta \cdot z_{i} เพราะมีค่าสัมประสิทธิ์เดียวเท่านั้น ββ\betaข้อใดไม่ถูก จำกัด ฟังดูมีเหตุผล แต่ฉันสงสัยว่าทำไมมันถึงไม่เคยถูกกล่าวถึงในวรรณคดีเชิงสถิติ! ขอบคุณ! แก้ไข:แต่ถ้าฉัน จำกัดziziz_i ชอบ ziziz_i ~ Norm(μ,δ2)Norm(μ,δ2)Norm(\mu, \delta^2)? มันมีผลแบบสุ่มหรือไม่? …

2
การแก้ไขความต่อเนื่องของ Yates สำหรับตารางฉุกเฉิน 2 x 2
ฉันต้องการรวบรวมข้อมูลจากผู้คนในสนามเกี่ยวกับการแก้ไขความต่อเนื่องของ Yates สำหรับตารางฉุกเฉิน 2 x 2 บทความวิกิพีเดียกล่าวถึงว่ามันอาจปรับได้ไกลเกินไปและถูกนำมาใช้ในแง่ที่ จำกัด เท่านั้น โพสต์ที่เกี่ยวข้องกับที่นี่ไม่ได้มีข้อมูลเชิงลึกต่อไปมาก ดังนั้นสำหรับคนที่ใช้การทดสอบเหล่านี้เป็นประจำคุณมีความคิดเห็นอย่างไร? มันจะดีกว่าที่จะใช้การแก้ไขหรือไม่? และตัวอย่างโลกแห่งความจริงซึ่งจะให้ผลลัพธ์ที่แตกต่างกันในระดับความเชื่อมั่น 95% โปรดทราบว่านี่เป็นปัญหาการบ้าน แต่ชั้นเรียนของเราไม่ได้จัดการกับการแก้ไขความต่อเนื่องของ Yates เลยดังนั้นให้นอนหลับง่ายเพราะรู้ว่าคุณไม่ได้ทำการบ้านให้ฉัน samp <- matrix(c(13, 12, 15, 3), byrow = TRUE, ncol = 2) colnames(samp) <- c("No", "Yes") rownames(samp) <- c("Female", "Male") chisq.test(samp, correct = TRUE) chisq.test(samp, correct = FALSE)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.