คำถามติดแท็ก categorical-data

ข้อมูลหมวดหมู่ (เรียกอีกอย่างว่าเล็กน้อย) สามารถใช้ค่าที่เป็นไปได้จำนวน จำกัด ที่เรียกว่าหมวดหมู่ ค่าหมวดหมู่ "ป้ายกำกับ" จะไม่ "วัด" โปรดใช้แท็ก [ลำดับข้อมูล] สำหรับประเภทข้อมูลที่แยก แต่สั่งซื้อ

1
การตีความเอาต์พุต. L & .Q จาก GLM ทวินามลบที่มีข้อมูลหมวดหมู่
ฉันเพิ่งวิ่ง GLM ลบแบบทวินามและนี่คือผลลัพธ์: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 14.720 < 2e-16 *** method.L -0.6828 …

3
การจัดกึ่งกลางและการปรับขนาดตัวแปรจำลอง
ฉันมีชุดข้อมูลที่มีทั้งตัวแปรเด็ดขาดและตัวแปรต่อเนื่อง ฉันแนะนำให้เปลี่ยนตัวแปรเด็ดขาดเป็นตัวแปรไบนารีสำหรับแต่ละระดับ (เช่น A_level1: {0,1}, A_level2: {0,1}) - ฉันคิดว่าบางคนเรียกว่า "ตัวแปรจำลอง" นี้ ด้วยที่กล่าวว่ามันจะทำให้เข้าใจผิดแล้วศูนย์และปรับขนาดข้อมูลทั้งหมดที่มีตัวแปรใหม่หรือไม่ ดูเหมือนว่าฉันจะสูญเสียความหมาย "เปิด / ปิด" ของตัวแปร หากเป็นการทำให้เข้าใจผิดหมายความว่าฉันควรจัดกึ่งกลางและปรับขนาดตัวแปรต่อเนื่องแยกจากนั้นเพิ่มอีกครั้งลงในชุดข้อมูลของฉันหรือไม่ TIA

6
ฟอเรสต์แบบสุ่ม: จะจัดการระดับปัจจัยใหม่ในชุดทดสอบอย่างไร
ฉันกำลังพยายามทำนายโดยใช้โมเดลฟอเรสต์แบบสุ่มในอาร์ อย่างไรก็ตามฉันได้รับข้อผิดพลาดเนื่องจากปัจจัยบางอย่างมีค่าแตกต่างกันในชุดทดสอบมากกว่าในชุดฝึกอบรม ตัวอย่างเช่นปัจจัยCat_2มีค่า34, 68, 76ฯลฯ ในชุดทดสอบที่ไม่ปรากฏในชุดฝึกอบรม น่าเสียดายที่ฉันไม่สามารถควบคุมชุดทดสอบ ... ฉันต้องใช้มันตามที่เป็นอยู่ as.numeric()วิธีแก้ปัญหาเดียวของฉันคือการแปลงปัจจัยที่มีปัญหากลับไปเป็นค่าตัวเลขที่ใช้ มันใช้งานได้แต่ฉันไม่พอใจมากเนื่องจากค่าเหล่านี้เป็นรหัสที่ไม่มีความรู้สึกเชิงตัวเลข ... คุณคิดว่าจะมีวิธีแก้ไขปัญหาอื่นหรือไม่เพื่อลดค่าใหม่จากชุดทดสอบ แต่ไม่มีการลบค่าปัจจัยอื่น ๆ ทั้งหมด (เช่นค่าการบอกกล่าว1, 2, 14, 32ฯลฯ ) ซึ่งมีทั้งในการฝึกอบรมและการทดสอบและมีข้อมูลที่อาจเป็นประโยชน์สำหรับการคาดการณ์

2
จะแปลงข้อมูลลำดับจากแบบสอบถามเป็นข้อมูลช่วงเวลาที่เหมาะสมได้อย่างไร
มีวิธีการที่ตรงไปตรงมาในการแปลงข้อมูลระดับลำดับเป็นระดับช่วงเวลา (เช่นเดียวกับที่มีสำหรับการทำรอบทางอื่น ๆ )? และสามารถใช้งานได้ใน Excel หรือ SPSS? มีข้อมูลพูดว่า: 10 คำถามเกี่ยวกับระดับลำดับ (กล่าวว่าขนาด 0-5 ที่ 0 = "ไม่ได้เลย", 5 = "ตลอดเวลา") ฉันต้องการที่จะเปลี่ยนพวกเขาเพื่อให้พวกเขาสามารถได้รับการปฏิบัติที่เหมาะสม ข้อมูลระดับช่วงเวลาสำหรับจุดประสงค์ในการทดสอบพารามิเตอร์ (การแจกแจงแบบปกติการทดสอบแบบไม่อิงพารามิเตอร์จากคำถาม) จะขอบคุณอย่างยิ่งสำหรับคำตอบ!

4
จะสรุปข้อมูลหมวดหมู่ได้อย่างไร
ฉันได้รับการดิ้นรนกับปัญหาต่อไปนี้ด้วยความหวังเป็นเรื่องง่ายสำหรับนักสถิติ (ฉันเป็นโปรแกรมเมอร์ที่มีการสัมผัสกับสถิติบางอย่าง) ฉันต้องสรุปคำตอบของแบบสำรวจ (สำหรับการจัดการ) แบบสำรวจมีคำถามมากกว่า 100 ข้อจัดกลุ่มในพื้นที่ต่าง ๆ (มีประมาณ 5 ถึง 10 คำถามต่อพื้นที่) คำตอบทั้งหมดเป็นหมวดหมู่ (ในระดับปกติพวกเขาเป็นเหมือน "ไม่เลย", "ไม่ค่อย" ... "รายวันหรือบ่อยกว่า") ฝ่ายบริหารต้องการที่จะได้รับการสรุปสำหรับแต่ละพื้นที่และนี่คือปัญหาของฉัน: วิธีการรวมคำตอบที่เป็นหมวดหมู่ภายในคำถามที่เกี่ยวข้อง? . คำถามมีมากเกินกว่าที่จะสร้างกราฟหรือแม้แต่พล็อตขัดแตะสำหรับแต่ละพื้นที่ ฉันชอบวิธีการใช้ภาพหากเป็นไปได้เปรียบเทียบกับพูดด้วยตารางที่มีตัวเลข (อนิจจาพวกเขาจะไม่อ่าน) สิ่งเดียวที่ฉันสามารถทำได้คือการนับจำนวนคำตอบในแต่ละพื้นที่จากนั้นพล็อตกราฟ มีอะไรอีกบ้างที่ใช้ได้สำหรับข้อมูลที่เป็นหมวดหมู่? ฉันใช้ R แต่ไม่แน่ใจว่าเกี่ยวข้องหรือไม่ฉันรู้สึกว่านี่เป็นคำถามทั่วไปเกี่ยวกับสถิติมากกว่า

2
การจับภาพฤดูกาลในการถดถอยหลายครั้งสำหรับข้อมูลรายวัน
ฉันมีข้อมูลยอดขายรายวันสำหรับผลิตภัณฑ์ซึ่งเป็นไปตามฤดูกาล ฉันต้องการบันทึกฤดูกาลตามโมเดลการถดถอย ฉันได้อ่านว่าหากคุณมีข้อมูลรายไตรมาสหรือรายเดือนในกรณีนี้คุณสามารถสร้างตัวแปรจำลอง 3 และ 11 ตัวตามลำดับ - แต่ฉันสามารถจัดการกับข้อมูลรายวันได้หรือไม่ ฉันมีข้อมูลรายวันสามปี ตัวแปรอิสระคือจุดราคาแฟล็กการส่งเสริมการขาย (ใช่ / ไม่ใช่) และอุณหภูมิ ตัวแปรตามคือยอดขายของผลิตภัณฑ์นั้น ฉันไม่ได้กำลังมองหาโมเดลอนุกรมเวลาเนื่องจากฉันใช้โมเดลการถดถอยหลายแบบ

2
ทำความเข้าใจกับการสร้างตัวแปรจำลอง (แบบแมนนวลหรือแบบอัตโนมัติ) ใน GLM
หากมีการใช้ตัวแปรปัจจัย (เช่นเพศที่มีระดับ M และ F) ในสูตร glm จะมีการสร้างตัวแปรจำลองและสามารถพบได้ในสรุปแบบจำลอง glm พร้อมกับค่าสัมประสิทธิ์ที่เกี่ยวข้อง (เช่น genderM) หากแทนที่จะอาศัย R เพื่อแยกปัจจัยด้วยวิธีนี้ปัจจัยจะถูกเข้ารหัสในชุดของตัวแปรตัวเลข 0/1 (เช่น genderM (1 สำหรับ M, 0 สำหรับ F), genderF (1 สำหรับ F, 0 สำหรับ M) และใช้ตัวแปรเหล่านี้เป็นตัวแปรตัวเลขในสูตร glm ผลลัพธ์สัมประสิทธิ์จะแตกต่างกันหรือไม่? โดยทั่วไปคำถามคือ: R ใช้การคำนวณสัมประสิทธิ์ที่แตกต่างกันเมื่อทำงานกับตัวแปรปัจจัยเทียบกับตัวแปรตัวเลขหรือไม่ คำถามติดตามผล (อาจตอบโดยข้างต้น): นอกจากประสิทธิภาพของการปล่อยให้ R สร้างตัวแปรจำลองแล้วยังมีปัญหากับปัจจัยการเข้ารหัสซ้ำเป็นชุดของตัวแปรตัวเลข 0,1 และใช้ในรูปแบบแทนหรือไม่?

2
แนวทางปฏิบัติที่ดีที่สุดสำหรับการเข้ารหัสคุณสมบัติที่เป็นหมวดหมู่สำหรับต้นไม้การตัดสินใจ
เมื่อการเข้ารหัสคุณสมบัติเชิงหมวดหมู่สำหรับการถดถอยเชิงเส้นมีกฎ: จำนวนของหุ่นควรน้อยกว่าหนึ่งในจำนวนทั้งหมดของระดับ (เพื่อหลีกเลี่ยงการ collinearity) มีกฎที่คล้ายกันสำหรับต้นไม้การตัดสินใจ (ถุง, เพิ่มขึ้น) หรือไม่? ฉันถามสิ่งนี้เพราะการฝึกฝนมาตรฐานใน Python ดูเหมือนว่าจะเพิ่มnระดับเป็นnหุ่น (sklearns ' OneHotEncoderหรือ Pandas' pd.get_dummies) ซึ่งดูเหมือนจะไม่ดีสำหรับฉัน สิ่งที่คุณจะแนะนำเป็นแนวทางปฏิบัติที่ดีที่สุดสำหรับการเข้ารหัสคุณสมบัติหมวดหมู่สำหรับต้นไม้การตัดสินใจ?

1
การถดถอยโลจิสติกอันดับใน Python
ฉันต้องการเรียกใช้การถดถอยแบบลอจิสติกอันดับใน Python สำหรับตัวแปรตอบกลับที่มีสามระดับและมีปัจจัยที่อธิบายน้อย statsmodelsแพคเกจสนับสนุน logit ไบนารีและ logit พหุนาม (MNLogit) รุ่น แต่ไม่ได้รับคำสั่ง logit เนื่องจากคณิตศาสตร์พื้นฐานไม่แตกต่างกันฉันจึงสงสัยว่ามันสามารถนำไปใช้งานได้อย่างง่ายดายโดยใช้สิ่งเหล่านี้หรือไม่ (อีกทางหนึ่งคือแพ็คเกจ Python อื่น ๆ ที่ใช้งานได้)

3
ตัวประมาณความน่าจะเป็นสูงสุดของการแจกแจงร่วมที่ให้ไว้มีเพียงจำนวนเล็กน้อย
ให้จะกระจายร่วมกันของสองตัวแปรเด็ดขาดX , Yกับx , y ที่∈ { 1 , ... , K } พูดว่าตัวอย่างnถูกดึงมาจากการกระจายตัวนี้ แต่เราจะได้รับจำนวนเล็กน้อยเท่านั้นสำหรับj = 1 , … , K :px,ypx,yp_{x,y}X,YX,YX,Yx,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\}nnnj=1,…,Kj=1,…,Kj=1,\ldots,K Sj=∑i=1nδ( Xผม= l ) , TJ= ∑i = 1nδ( Yผม= J ) ,Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)}, ประมาณการความน่าจะเป็นสูงสุดคืออะไรได้รับS J , T J ? เป็นที่รู้จักกันไหม? คำนวณความเป็นไปได้? มีแนวทางอื่นที่สมเหตุสมผลสำหรับปัญหานี้นอกเหนือจาก …

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
เบอร์รี่ผกผัน
ฉันมีข้อมูลตลาดรวมขนาดใหญ่ที่กำหนดจากการขายไวน์ในสหรัฐอเมริกาและฉันต้องการประเมินความต้องการไวน์คุณภาพสูงบางตัว หุ้นในตลาดเหล่านี้ได้มาโดยทั่วไปจากแบบอรรถประโยชน์สุ่มของรูปแบบ ที่Xรวมถึงการตั้งข้อสังเกต ลักษณะของผลิตภัณฑ์, Pหมายถึงราคาสินค้าξUijt=X′jtβ−αpjt+ξjt+ϵijt≡δjt+ϵjtUijt=Xjt′β−αpjt+ξjt+ϵijt≡δjt+ϵjtU_{ijt} = X’_{jt}\beta - \alpha p_{jt} + \xi_{jt} + \epsilon_{ijt} \equiv \delta_{jt} + \epsilon_{jt}XXXpppξξ\xiเป็นลักษณะของผลิตภัณฑ์ที่ไม่มีการตรวจสอบซึ่งมีผลต่ออุปสงค์และที่มีความสัมพันธ์กับราคาและคือคำผิดพลาด, iดัชนีบุคคล, ดัชนีผลิตภัณฑ์jและดัชนีดัชนีตลาดt (เมืองในกรณีนี้)ϵϵ\epsiloniiijjjttt ฉันไม่สามารถใช้ปกติรุ่น logit เงื่อนไขเพราะระยะที่มีคุณภาพสังเกตและฉันไม่ได้มีเครื่องมือที่ดี อย่างไรก็ตาม Berry (1994) ได้พัฒนากลยุทธ์สำหรับการปรับระบบเชิงเส้นไม่เชิงเส้นของสมการตลาดในกรอบการทำงานแบบมัลติโนเมียลโลจิคัล แต่ฉันไม่สามารถหาวิธีที่เขาทำขั้นตอนการผกผันได้ξξ\xi ที่ค่าพารามิเตอร์ที่จริงเขาบอกว่าส่วนแบ่งการตลาดประมาณควรจะเท่ากับ“true” ซึ่งเขาก็แนะนำให้กลับหุ้นตลาด ทั้งจาก S J T = sเจที ( δ , α , β ) เพื่อ δ = s - 1 …

3
Mundlak ใช้เอฟเฟกต์คงที่สำหรับการถดถอยโลจิสติกกับหุ่นหรือไม่
ฉันมีชุดข้อมูลที่มี 8000 คลัสเตอร์และการสังเกต 4 ล้านครั้ง น่าเสียดายที่ซอฟต์แวร์สถิติของฉัน Stata ทำงานค่อนข้างช้าเมื่อใช้ฟังก์ชันข้อมูลพาเนลสำหรับการถดถอยโลจิสติก: xtlogitแม้มีตัวอย่าง 10% อย่างไรก็ตามเมื่อใช้logitผลลัพธ์ฟังก์ชั่นที่ไม่ใช่แผงเซลล์ปรากฏเร็วกว่ามาก ดังนั้นฉันจึงอาจได้รับประโยชน์จากการใช้logitข้อมูลที่ถูกแก้ไขซึ่งมีผลกระทบคงที่ ฉันเชื่อว่ากระบวนการนี้มีชื่อว่า "Mundlak fixed effects procedure" (Mundlak, Y. 1978. การรวมกลุ่มของ Time-Series และข้อมูลข้ามส่วน Econometrica, 46 (1), 69-85) ฉันพบคำอธิบายที่เข้าใจง่ายของขั้นตอนนี้ในบทความโดยAntonakis, J. , Bendahan, S. , Jacquart, P. , & Lalive, R. (2010) ในการอ้างเหตุผล: การตรวจสอบและคำแนะนำ ความเป็นผู้นำรายไตรมาส, 21 (6) 1086-1120 ฉันพูด: วิธีหนึ่งในการแก้ไขปัญหาของเอฟเฟกต์ที่ถูกตัดออกและยังรวมถึงตัวแปรระดับ 2 คือการรวมวิธีการคลัสเตอร์ของทุกระดับ …

1
ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom
หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

3
วิธีที่เหมาะสมในการจัดการกับตารางฉุกเฉิน 3 ระดับ
ฉันมีตารางฉุกเฉินสามระดับโดยมีข้อมูลการนับสปีชีส์หลายชนิดพืชโฮสต์ที่พวกเขาถูกรวบรวมและการสะสมนั้นเกิดขึ้นในวันที่ฝนตกหรือไม่ (อันนี้สำคัญจริงๆ!) เมื่อใช้ R ข้อมูลปลอมอาจเป็นดังนี้: count <- rpois(8, 10) species <- rep(c("a", "b"), 4) host <- rep(c("c","c", "d", "d"), 2) rain <- c(rep(0,4), rep(1,4)) my.table <- xtabs(count ~ host + species + rain) , , rain = 0 species host a b c 12 15 d 10 13 , , …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.