คำถามติดแท็ก standardization

มักจะหมายถึง "มาตรฐาน z" ซึ่งเป็นข้อมูลที่ขยับและ rescaling เพื่อให้มั่นใจว่าพวกเขามีค่าเฉลี่ยเป็นศูนย์และความแปรปรวนของหน่วย "มาตรฐาน" อื่น ๆ ก็เป็นไปได้เช่นกัน

2
ทำไมการปรับขนาดจึงมีความสำคัญสำหรับการจัดประเภท SVM เชิงเส้น
เมื่อทำการจัดหมวดหมู่ SVM แบบเส้นตรงมักจะเป็นประโยชน์ในการทำให้ข้อมูลการฝึกอบรมเป็นปกติเช่นการลบค่าเฉลี่ยและหารด้วยค่าเบี่ยงเบนมาตรฐาน ทำไมกระบวนการนี้จึงเปลี่ยนประสิทธิภาพการจำแนกอย่างรวดเร็ว?

1
การแปลง betas ที่ได้มาตรฐานกลับไปเป็นตัวแปรดั้งเดิม
ฉันรู้ว่านี่อาจเป็นคำถามง่าย ๆ แต่หลังจากค้นหาฉันไม่พบคำตอบที่ฉันค้นหา ฉันมีปัญหาที่ฉันจำเป็นต้องสร้างมาตรฐานให้กับตัวแปรที่เรียกใช้ (การถดถอยริดจ์) เพื่อคำนวณค่าประมาณสันเขาของเบต้า ฉันต้องแปลงกลับไปเป็นขนาดดั้งเดิม แต่ฉันจะทำสิ่งนี้ได้อย่างไร ฉันพบสูตรสำหรับกรณีที่มีการแปรสภาพนั้น β∗=β^SxSy.β∗=β^SxSy. \beta^* = \hat\beta \frac{S_x}{S_y} \>. สิ่งนี้ได้รับใน D. Gujarati เศรษฐมิติพื้นฐานหน้า 175 สูตร (6.3.8) โดยที่เป็นตัวประมาณจากการถดถอยที่ทำงานบนตัวแปรมาตรฐานและเป็นตัวประมาณเดียวกันที่แปลงกลับไปเป็นมาตราส่วนดั้งเดิมคือค่าเบี่ยงเบนมาตรฐานตัวอย่างของรีจีสเตอร์และคือค่าเบี่ยงเบนมาตรฐานตัวอย่างβ∗β∗\beta^*β^β^\hat\betaSySyS_ySxSxS_x น่าเสียดายที่หนังสือเล่มนี้ไม่ครอบคลุมผลลัพธ์ที่คล้ายคลึงกันสำหรับการถดถอยหลายครั้ง นอกจากนี้ฉันไม่แน่ใจว่าฉันเข้าใจคดี bivariate หรือไม่ การปรับพีชคณิตอย่างง่ายให้สูตรในระดับเดิม:β^β^\hat\beta β^=β∗SySxβ^=β∗SySx \hat\beta=\beta^* \frac{S_y}{S_x} ดูเหมือนว่าแปลกสำหรับฉันที่ที่คำนวณกับตัวแปรที่ได้รับการยุบแล้วจะต้องมีการยุบโดยอีกครั้งเพื่อที่จะถูกแปลงกลับ? (และทำไมค่าเฉลี่ยไม่ถูกเพิ่มเข้ามา)β^β^\hat\betaSxSxS_xSxSxS_x ดังนั้นใครบางคนสามารถอธิบายวิธีการทำเช่นนี้สำหรับกรณีหลายตัวแปรโดยมีแหล่งที่มาเพื่อให้ฉันเข้าใจผลลัพธ์

1
ตัวแปรตามมาตรฐานภายในกลุ่มในโมเดลข้อมูลพาเนล?
การกำหนดมาตรฐานของตัวแปรตามภายในกลุ่มที่ระบุเหมาะสมหรือไม่? เอกสารการทำงานต่อไปนี้ (การชะลอการตัดไม้ทำลายป่าในกฎหมาย Amazon ราคาหรือนโยบาย, PDF ) ใช้ตัวแปรตามมาตรฐานเพื่อวิเคราะห์ผลของการเปลี่ยนแปลงนโยบายทั่วไปในบราซิลในการทำลายป่า การทำให้เป็นมาตรฐานมีดังนี้: Ynewit=Yit−Yi¯¯¯¯¯sd(Yit)Yitnew=Yit−Yi¯sd(Yit) Y^{new}_{it} = \frac{Y_{it} - \overline{Y_i}}{sd(Y_{it})} ผู้เขียนโต้เถียงสิ่งนี้ทำหน้าที่ "พิจารณาการเปลี่ยนแปลงที่สัมพันธ์กันในการเพิ่มขึ้นของการทำลายป่าในเขตเทศบาล" ผู้เขียนใช้การประมาณค่า FE (หน้า 12) สำหรับข้อมูลพาเนล รวมถึงการโพสต์นโยบายหลอกตาสำหรับแต่ละปีต่อไปนี้หลังจากที่กฎหมายใหม่ ควรตีความค่าสัมประสิทธิ์อย่างไรถ้าตัวแปรตามเป็นมาตรฐานในวิธีนี้ การสร้างมาตรฐานไม่ใช่การแหกคอกเนื่องจากมันให้คุณค่าสูงกว่าในการสังเกตที่กลุ่ม / เทศบาลมีประสบการณ์การเปลี่ยนแปลงที่ลดลงเมื่อเวลาผ่านไป?

5
การกำหนดมาตรฐานตัวแปรอิสระจะช่วยลดความเหลื่อมล้ำหรือไม่?
ฉันเจอข้อความที่ดีมากใน Bayes / MCMC ฝ่ายไอทีแนะนำว่าการสร้างมาตรฐานของตัวแปรอิสระของคุณจะทำให้อัลกอริทึม MCMC (Metropolis) มีประสิทธิภาพมากขึ้น นั่นเป็นเรื่องจริงเหรอ? นี่คือสิ่งที่ฉันควรทำตามมาตรฐาน (ขออภัย) Kruschke 2011, ทำการวิเคราะห์ข้อมูลแบบเบย์ (AP) แก้ไข: ตัวอย่างเช่น > data(longley) > cor.test(longley$Unemployed, longley$Armed.Forces) Pearson's product-moment correlation data: longley$Unemployed and longley$Armed.Forces t = -0.6745, df = 14, p-value = 0.5109 alternative hypothesis: true correlation is not equal to 0 95 percent confidence …

4
ฉันสามารถใช้คะแนน Z กับข้อมูลที่เอียงและไม่ปกติได้หรือไม่ [ปิด]
ปิด คำถามนี้ต้องการรายละเอียดหรือความคมชัด ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ เพิ่มรายละเอียดและชี้แจงปัญหาโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ฉันทำงานกับข้อมูลรอบเวลากระบวนการบางอย่างและปรับขนาดโดยใช้คะแนน z มาตรฐานเพื่อเปรียบเทียบระหว่างส่วนของรอบเวลาทั้งหมด ฉันควรใช้การแปลงรูปแบบอื่นเนื่องจากข้อมูลมีความเบ้อย่างหนัก / ไม่ปกติใช่หรือไม่ ('ค่าผิดปกติ' ไม่สามารถใช้เวลาติดลบและมักใช้เวลานานกว่า 'ค่าเฉลี่ย' มาก) การใช้คะแนน z ยังคงดูเหมือนว่า "ทำงาน" ... ############### # R code ############### mydata <- rweibull(1000,1,1.5) hist(mydata) hist(scale(mydata))

4
น้ำหนักเบต้าแบบมาตรฐานสำหรับการถดถอยหลายระดับ
เราจะได้น้ำหนักที่ถดถอยแบบมาตรฐาน (เอฟเฟกต์คงที่) จากการถดถอยหลายระดับได้อย่างไร และในฐานะ "Add-on": วิธีที่ง่ายที่สุดในการรับน้ำหนักมาตรฐานเหล่านี้จากmer-object คืออะไร (จากlmerฟังก์ชั่นของlme4แพ็คเกจในR)

2
มาตรฐานกับการทำให้เป็นมาตรฐานสำหรับ Lasso / Ridge Regression
ฉันรู้ว่ามันเป็นเรื่องธรรมดาที่จะสร้างมาตรฐานสำหรับฟีเจอร์สำหรับการถดถอยของสันเขาและบ่วงบาศ แต่มันจะเป็นประโยชน์หรือไม่ในการปรับมาตรฐานในสเกล (0,1) ให้เป็นทางเลือกแทนมาตรฐาน z-score สำหรับวิธีการถดถอยเหล่านี้

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
ความแปรปรวนร่วมของตัวแปรมาตรฐานมีความสัมพันธ์กันหรือไม่?
ฉันมีคำถามพื้นฐาน ว่าฉันมีสองตัวแปรสุ่มและYฉันสามารถสร้างมาตรฐานให้พวกเขาโดยการหักค่าเฉลี่ยและหารด้วยค่าเบี่ยงเบนมาตรฐานคือ(X))}XXXYYYXstandardized=(X−E(X))(SD(X))Xstandardized=(X−E(X))(SD(X))X_{standardized} = \frac{(X - E(X))}{(SD(X))} ความสัมพันธ์ของและ ,เท่ากับความแปรปรวนร่วมของและเวอร์ชันมาตรฐานหรือไม่? นั่นคือหรือไม่XXXYYYCor(X,Y)Cor(X,Y)Cor(X, Y)XXXYYYCor(X,Y)=Cov(Xstandardized,Ystandardized)Cor(X,Y)=Cov(Xstandardized,Ystandardized)Cor(X, Y) = Cov(X_{standardized}, Y_{standardized})

1
ข้อมูลประเภทใดที่ควรทำให้เป็นมาตรฐานด้วย KNN?
ฉันรู้ว่ามีการทำให้เป็นปกติมากกว่าสองประเภท ตัวอย่างเช่น, 1- การแปลงข้อมูลโดยใช้คะแนน z หรือคะแนน t ซึ่งมักเรียกว่ามาตรฐาน 2- การลดขนาดข้อมูลให้มีค่าระหว่าง 0 ถึง 1 คำถามตอนนี้ถ้าฉันต้องการ normalizing ข้อมูลประเภทใดที่ควรทำให้เป็นมาตรฐานด้วย KNN? และทำไม?

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
คุณสมบัติการทำให้เป็นมาตรฐานเมื่อใช้ LDA เป็นขั้นตอนการประมวลผลล่วงหน้า
หากมีการใช้การวิเคราะห์เชิงเส้นหลายชั้น (หรือฉันยังอ่านการวิเคราะห์การจำแนกหลาย ๆ ครั้ง) ใช้สำหรับการลดขนาด (หรือการเปลี่ยนแปลงหลังจากการลดมิติผ่าน PCA) ฉันเข้าใจว่าโดยทั่วไปคือ "การทำให้เป็นมาตรฐานของคะแนน Z" (หรือมาตรฐาน) ไม่จำเป็นต้องใช้ฟีเจอร์แม้ว่าจะทำการวัดด้วยเครื่องชั่งที่แตกต่างกันอย่างสมบูรณ์ถูกต้องหรือไม่ เนื่องจาก LDA มีคำที่คล้ายกับระยะทาง Mahalanobis ซึ่งหมายถึงระยะทางแบบยุคลิดแบบดั้งเดิมหรือไม่? ดังนั้นจึงไม่เพียง แต่ไม่จำเป็นเท่านั้น แต่ผลลัพธ์ที่ได้หลังจาก LDA สำหรับคุณสมบัติที่เป็นมาตรฐานและไม่ได้มาตรฐานควรจะเหมือนกันทุกประการ!

6
จะจัดกลุ่มตัวแปรให้เป็นมาตรฐาน / มาตรฐานใน R ได้อย่างไร?
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฟังก์ชั่นที่ฉันคุ้นเคยกับขนาดสเกลจากฐาน R, rescaleจาก ARM บางทีวิธีที่ดีที่สุดคือการใช้ตัวแปรบางส่วนของการใช้งานโดยระบุตัวแปรอย่างน้อยหนึ่งตัวเพื่อใช้เป็นตัวแปรการจัดกลุ่ม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.