คำถามติดแท็ก normalization

โดยปกติ "การทำให้เป็นมาตรฐาน" หมายถึงการแสดงข้อมูลอีกครั้งเพื่อให้ค่าอยู่ในช่วงที่ระบุ

6
การวัดที่แข็งแกร่ง (ไม่ใช่พารามิเตอร์) เช่นค่าสัมประสิทธิ์การแปรผัน - IQR / ค่ามัธยฐานหรือทางเลือก?
สำหรับชุดข้อมูลที่กำหนดการแพร่กระจายมักจะคำนวณเช่นค่าเบี่ยงเบนมาตรฐานหรือเป็น IQR (ช่วงควอไทล์ระหว่าง) ในขณะที่ a standard deviationอยู่ในเกณฑ์ปกติ (คะแนน z, ฯลฯ ) และสามารถนำมาใช้เพื่อเปรียบเทียบการแพร่กระจายจากประชากรสองกลุ่มที่แตกต่างกันนี่ไม่ใช่กรณีที่มี IQR เนื่องจากตัวอย่างจากประชากรสองคนที่แตกต่างกันอาจมีค่าในระดับที่แตกต่างกันสองระดับ e.g. Pop A: 100, 67, 89, 75, 120, ... Pop B: 19, 22, 43, 8, 12, ... สิ่งที่ฉันตามมาคือการวัดที่แข็งแกร่ง (ไม่ใช่พารามิเตอร์) ที่ฉันสามารถใช้เพื่อเปรียบเทียบการเปลี่ยนแปลงภายในประชากรที่แตกต่างกัน ทางเลือกที่ 1: IQR / Median- นี้จะเป็นโดยการเปรียบเทียบกับค่าสัมประสิทธิ์ของการเปลี่ยนแปลงคือการหมู่}σμσμ \frac{\sigma}{\mu} ตัวเลือก 2: Range / IQR คำถาม: มาตรการใดที่มีความหมายมากขึ้นสำหรับการเปรียบเทียบความแปรปรวนระหว่างประชากร? และถ้าเป็นตัวเลือกที่ 1 …

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
มาตรฐานกับการทำให้เป็นมาตรฐานสำหรับ Lasso / Ridge Regression
ฉันรู้ว่ามันเป็นเรื่องธรรมดาที่จะสร้างมาตรฐานสำหรับฟีเจอร์สำหรับการถดถอยของสันเขาและบ่วงบาศ แต่มันจะเป็นประโยชน์หรือไม่ในการปรับมาตรฐานในสเกล (0,1) ให้เป็นทางเลือกแทนมาตรฐาน z-score สำหรับวิธีการถดถอยเหล่านี้

4
การทำให้เป็นมาตรฐานทำให้กระจัดกระจายสำหรับเมทริกซ์สุ่ม
มันเป็นที่รู้จักกันดี (เช่นในด้านการตรวจจับอัด) ที่บรรทัดฐานคือ "sparsity ชักนำ" ในแง่ที่ว่าถ้าเราลดการทำงาน (สำหรับการแก้ไขเมทริกซ์และเวกเตอร์\ vec {ข} ) f_ {หัวใจ , \ vec {b}} (\ vec {x}) = \ | A \ vec {x} - \ vec {b} \ | _2 ^ 2 + \ lambda \ | \ vec {x} \ | _1สำหรับขนาดใหญ่พอ\ แลมบ์ดา> 0เราก็จะมีโอกาสในการเลือกหลาย, \ vec …

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
ข้อมูลประเภทใดที่ควรทำให้เป็นมาตรฐานด้วย KNN?
ฉันรู้ว่ามีการทำให้เป็นปกติมากกว่าสองประเภท ตัวอย่างเช่น, 1- การแปลงข้อมูลโดยใช้คะแนน z หรือคะแนน t ซึ่งมักเรียกว่ามาตรฐาน 2- การลดขนาดข้อมูลให้มีค่าระหว่าง 0 ถึง 1 คำถามตอนนี้ถ้าฉันต้องการ normalizing ข้อมูลประเภทใดที่ควรทำให้เป็นมาตรฐานด้วย KNN? และทำไม?

1
อินพุตการทำให้เป็นมาตรฐานสำหรับเซลล์ประสาท ReLU
ตาม"Efficient Backprop" โดย LeCun et al (1998)เป็นวิธีปฏิบัติที่ดีในการทำให้มาตรฐานอินพุตทั้งหมดเป็นปกติดังนั้นพวกเขาจะอยู่กึ่งกลางรอบ 0 และอยู่ในช่วงของอนุพันธ์อันดับสองสูงสุด ตัวอย่างเช่นเราจะใช้ [-0.5,0.5] สำหรับฟังก์ชั่น "Tanh" นี่คือการช่วยให้ความคืบหน้าในการเผยแผ่กลับไปในขณะที่รัฐ Hessian มีเสถียรภาพมากขึ้น อย่างไรก็ตามฉันไม่แน่ใจว่าจะทำอย่างไรกับเซลล์ประสาท Rectifier ซึ่งมีค่าสูงสุด (0, x) (เช่นเดียวกันกับฟังก์ชั่นลอจิสติกตั้งแต่นั้นเราก็ต้องการ [0.1,0.9] แต่ไม่ได้อยู่ตรงกลางประมาณ 0)

1
คุณสมบัติการทำให้เป็นมาตรฐานเมื่อใช้ LDA เป็นขั้นตอนการประมวลผลล่วงหน้า
หากมีการใช้การวิเคราะห์เชิงเส้นหลายชั้น (หรือฉันยังอ่านการวิเคราะห์การจำแนกหลาย ๆ ครั้ง) ใช้สำหรับการลดขนาด (หรือการเปลี่ยนแปลงหลังจากการลดมิติผ่าน PCA) ฉันเข้าใจว่าโดยทั่วไปคือ "การทำให้เป็นมาตรฐานของคะแนน Z" (หรือมาตรฐาน) ไม่จำเป็นต้องใช้ฟีเจอร์แม้ว่าจะทำการวัดด้วยเครื่องชั่งที่แตกต่างกันอย่างสมบูรณ์ถูกต้องหรือไม่ เนื่องจาก LDA มีคำที่คล้ายกับระยะทาง Mahalanobis ซึ่งหมายถึงระยะทางแบบยุคลิดแบบดั้งเดิมหรือไม่? ดังนั้นจึงไม่เพียง แต่ไม่จำเป็นเท่านั้น แต่ผลลัพธ์ที่ได้หลังจาก LDA สำหรับคุณสมบัติที่เป็นมาตรฐานและไม่ได้มาตรฐานควรจะเหมือนกันทุกประการ!

2
ความสับสนที่เกี่ยวข้องกับการฟื้นฟูข้อมูล
ฉันพยายามเรียนรู้รูปแบบการถดถอยเชิงเส้น อย่างไรก็ตามฉันมีความสับสนเกี่ยวกับการทำให้ข้อมูลกลับสู่ปกติ ฉันปรับมาตรฐานคุณลักษณะ / ตัวทำนายให้เป็นศูนย์ค่าเฉลี่ยและความแปรปรวนของหน่วย ฉันต้องทำเช่นเดียวกันกับเป้าหมายหรือไม่ ถ้าเป็นเช่นนั้นทำไม

1
การแปรปรวนเวลาแบบไดนามิกและการทำให้เป็นมาตรฐาน
ฉันใช้ Dynamic Time Warping เพื่อจับคู่ "เคียวรี" และเส้นโค้ง "เทมเพลต" และประสบความสำเร็จอย่างสมเหตุสมผล แต่ฉันมีคำถามพื้นฐาน: ฉันกำลังประเมิน "การจับคู่" โดยการประเมินว่าผลลัพธ์ DTW น้อยกว่าค่าเกณฑ์ที่ฉันคิดขึ้นเองหรือไม่ นี่เป็นวิธีทั่วไปในการพิจารณา "จับคู่" โดยใช้ DTW หรือไม่ ถ้าไม่ได้โปรดอธิบาย ... สมมติว่าคำตอบของ (1) คือ "ใช่" จากนั้นฉันสับสนเนื่องจากผลของ DTW ค่อนข้างอ่อนไหวต่อ a) ความแตกต่างของแอมพลิจูดของเส้นโค้งและ b) ความยาวของเวกเตอร์เคียวรีและความยาวของ " แม่แบบ "เวกเตอร์ ฉันใช้ฟังก์ชันขั้นตอนสมมาตรดังนั้นสำหรับ (b) ฉันกำลังทำให้ผลลัพธ์ DTW ของฉันเป็นปกติด้วยการหารด้วย M + N (ความกว้าง + ความสูงของเมทริกซ์ DTW) สิ่งนี้ดูเหมือนว่าจะค่อนข้างมีประสิทธิภาพ แต่ดูเหมือนว่ามันจะลงโทษการแข่งขัน …

1
ฉันจะทำให้ข้อมูลเซ็นเซอร์ accelerometer เป็นปกติได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล accelerometer ขนาดใหญ่ที่รวบรวมด้วยเซ็นเซอร์หลายตัวที่สวมใส่โดยหลาย ๆ วิชา น่าเสียดายที่ไม่มีใครที่นี่ดูเหมือนจะรู้ข้อกำหนดทางเทคนิคของอุปกรณ์และฉันไม่คิดว่าพวกเขาได้รับการปรับเทียบใหม่ ฉันไม่มีข้อมูลมากมายเกี่ยวกับอุปกรณ์ ฉันกำลังทำงานเกี่ยวกับวิทยานิพนธ์ปริญญาโทของฉันเครื่องเร่งความเร็วถูกยืมมาจากมหาวิทยาลัยอื่นและสถานการณ์โดยรวมนั้นค่อนข้างไม่โปร่งใส ดังนั้นการประมวลผลล่วงหน้าบนอุปกรณ์? ไม่มีเงื่อนงำ สิ่งที่ฉันรู้ก็คือพวกมันเป็นเครื่องเร่งความเร็วสามแกนที่มีอัตราการสุ่มตัวอย่าง 20Hz; MEMS แบบดิจิทัลและน่าจะเป็น ฉันสนใจพฤติกรรมอวัจนภาษาและการแสดงท่าทางซึ่งแหล่งอ้างอิงของฉันส่วนใหญ่ควรสร้างกิจกรรมในช่วง 0.3-3.5Hz การทำให้ข้อมูลเป็นปกติน่าจะค่อนข้างจำเป็น แต่ฉันไม่แน่ใจว่าจะใช้อะไร ส่วนใหญ่ของข้อมูลอยู่ใกล้กับค่าที่เหลือ (ค่าดิบของ ~ 1000 จากแรงโน้มถ่วง) แต่มีสุดขั้วบางอย่างเช่นสูงถึง 8000 ในบันทึกบางส่วนหรือแม้กระทั่ง 29000 ในอื่น ๆ ดูภาพด้านล่าง ฉันคิดว่านี่เป็นความคิดที่ไม่ดีที่จะหารด้วยค่าสูงสุดหรือค่ามาตรฐานเพื่อทำให้เป็นมาตรฐาน อะไรคือวิธีการปกติในกรณีเช่นนี้? หารด้วยค่ามัธยฐาน? ค่าเปอร์เซ็นต์ไทล์ อื่น ๆ อีก? ในฐานะที่เป็นปัญหาด้านข้างฉันไม่แน่ใจเช่นกันว่าฉันควรจะตัดค่าที่มากที่สุดออกมา .. ขอบคุณสำหรับคำแนะนำใด ๆ ! แก้ไข : นี่คือพล็อตของข้อมูลประมาณ 16 นาที (ตัวอย่าง 20,000) เพื่อให้คุณมีความคิดในการกระจายข้อมูล

2
พารามิเตอร์การบูตแบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับรุ่นผสม
ตัดต่อไปนี้จะนำมาจากบทความนี้ ฉันเป็นมือใหม่ในการบู๊ตสแตรปและพยายามที่จะใช้การบู๊ตสแปปปิ้งแบบกึ่งพารามิเตอร์แบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับแบบจำลองเชิงเส้นผสมกับR bootแพ็คเกจ รหัส R นี่คือRรหัสของฉัน: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
วิธีสร้างควอดรัตสำหรับกระบวนการจุดที่แตกต่างกันอย่างมากในความถี่?
ฉันต้องการทำการวิเคราะห์การนับควอดเรตในกระบวนการจุดต่าง ๆ (หรือกระบวนการจุดหนึ่งที่ทำเครื่องหมายไว้) เพื่อใช้เทคนิคการลดมิติข้อมูลบางอย่าง เครื่องหมายดังกล่าวไม่ได้มีการกระจายเหมือนกันเช่นเครื่องหมายบางอันปรากฏค่อนข้างบ่อยและบางเครื่องหมายค่อนข้างหายาก ดังนั้นฉันไม่สามารถแบ่งพื้นที่ 2D ของฉันในตารางปกติได้เพราะเครื่องหมายที่บ่อยขึ้นจะ "เอาชนะ" พื้นที่ที่มีความถี่น้อยกว่า ดังนั้นฉันจึงพยายามที่จะสร้างกริดของฉันเพื่อให้แต่ละเซลล์มีจุด N มากที่สุดในนั้น (เพื่อทำเช่นนั้นฉันเพียงแค่แบ่งแต่ละเซลล์ออกเป็นสี่เซลล์ขนาดเล็ก (และขนาดเท่ากัน) ซ้ำจนกระทั่งไม่มีเซลล์ใดมีคะแนน N มากกว่า มัน). คุณคิดอย่างไรกับเทคนิค "การทำให้เป็นมาตรฐาน" นี้? มีวิธีมาตรฐานในการทำสิ่งเหล่านี้หรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.