คำถามติดแท็ก java

5
ไลบรารี Java แบบโอเพนซอร์สสำหรับสถิติในระดับที่เสนอโดยหลักสูตรสถิติบัณฑิต
ฉันกำลังเรียนหลักสูตรบัณฑิตศึกษาในสถิติประยุกต์ที่ใช้ตำราเรียนต่อไปนี้ (เพื่อให้คุณรู้สึกถึงระดับของเนื้อหาที่ถูกครอบคลุม): แนวคิดและวิธีการทางสถิติโดย GK Bhattacharyya และ RA Johnson ศาสตราจารย์ต้องการให้เราใช้ SAS สำหรับการบ้าน คำถามของฉันคือ: มีห้องสมุด Java (IES) ที่สามารถใช้แทน SAS สำหรับปัญหาที่มักจะเห็นในชั้นเรียนดังกล่าว ขณะนี้ฉันกำลังพยายามทำกับApache Math Commonsและแม้ว่าฉันจะประทับใจกับห้องสมุด (มันใช้งานง่ายและเข้าใจง่าย) ดูเหมือนจะขาดสิ่งง่าย ๆ เช่นความสามารถในการวาดฮิสโทแกรม (คิดถึงการรวมเข้ากับไลบรารีแผนภูมิ ) ฉันดูที่ Colt แต่ความสนใจเริ่มแรกของฉันก็ลดลงอย่างรวดเร็ว จะขอบคุณอินพุตใด ๆ - และฉันได้ดูคำถามที่คล้ายกันใน Stackoverflow แต่ไม่พบสิ่งใดที่น่าสนใจ หมายเหตุ: ฉันรู้ว่าไลบรารี R, SciPy และ Octave และ java ที่โทรไปหาพวกเขา - ฉันกำลังมองหาไลบรารีดั้งเดิมของ Java หรือชุดของไลบรารีที่สามารถให้คุณสมบัติที่ฉันกำลังมองหาอยู่ด้วยกัน หมายเหตุ: …
15 r  sas  java 

4
การปรับข้อมูลอนุกรมเวลาให้ราบรื่น
ฉันกำลังสร้างแอปพลิเคชัน Android ที่บันทึกข้อมูลมาตรวัดความเร็วในระหว่างการนอนหลับเพื่อวิเคราะห์แนวโน้มการนอนหลับและเลือกให้ผู้ใช้ใกล้เวลาที่ต้องการระหว่างการนอนหลับเบา ฉันได้สร้างส่วนประกอบที่รวบรวมและจัดเก็บข้อมูลรวมถึงการเตือนแล้ว ฉันยังต้องจัดการกับสัตว์ร้ายในการแสดงและบันทึกข้อมูลการนอนหลับอย่างมีความหมายและชัดเจนซึ่งเป็นสิ่งที่ควรนำมาใช้ในการวิเคราะห์ด้วย รูปภาพสองสามภาพบอกสองพันคำ: (ฉันสามารถโพสต์ได้เพียงลิงค์เดียวเนื่องจากเป็นตัวแทนต่ำ) นี่คือข้อมูลที่ไม่มีการกรองผลรวมของการเคลื่อนไหวที่รวบรวมในช่วงเวลา 30 วินาที และข้อมูลเดียวกันเรียบเนียนด้วยการแสดงของฉันเองในการเคลื่อนย้ายเฉลี่ยเรียบ แก้ไข) แผนภูมิทั้งสองแสดงถึงการปรับเทียบ - มีตัวกรอง 'สัญญาณรบกวน' ขั้นต่ำและตัวกรองตัดสูงสุดรวมถึงระดับสัญญาณเรียกเตือน (เส้นสีขาว) น่าเสียดายที่สิ่งเหล่านี้ไม่ได้เป็นคำตอบที่ดีที่สุด - ข้อแรกยากที่จะเข้าใจสำหรับผู้ใช้โดยเฉลี่ยและข้อที่สองซึ่งง่ายต่อการเข้าใจซ่อนสิ่งที่เกิดขึ้นมากมาย โดยเฉพาะอย่างยิ่งค่าเฉลี่ยลบรายละเอียดของแหลมในการเคลื่อนไหว - และฉันคิดว่าสิ่งเหล่านั้นมีความหมาย เหตุใดแผนภูมิเหล่านี้ถึงสำคัญมาก ชุดเวลาเหล่านี้จะปรากฏตลอดทั้งคืนเป็นข้อเสนอแนะให้กับผู้ใช้และจะถูกเก็บไว้สำหรับการตรวจสอบ / วิเคราะห์ในภายหลัง การปรับให้เรียบจะช่วยลดค่าใช้จ่ายในหน่วยความจำ (ทั้ง RAM และที่เก็บข้อมูล) และทำให้การแสดงผลเร็วขึ้นสำหรับโทรศัพท์ / อุปกรณ์ที่ขาดแคลนทรัพยากรเหล่านี้ เห็นได้ชัดว่ามีวิธีที่ดีกว่าในการทำให้ข้อมูลราบรื่นขึ้น - ฉันมีความคิดที่คลุมเครือเช่นการใช้การถดถอยเชิงเส้นเพื่อหาการเปลี่ยนแปลง 'คมชัด' ในการเคลื่อนไหว ฉันต้องการคำแนะนำและข้อมูลเพิ่มเติมก่อนที่จะดำดิ่งลงไปในสิ่งที่สามารถแก้ไขได้อย่างเหมาะสมที่สุด ขอบคุณ!

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
ฉันจะกำหนดพารามิเตอร์ weibull จากข้อมูลได้อย่างไร
ฉันมีฮิสโตแกรมของข้อมูลความเร็วลมซึ่งมักแสดงโดยใช้การแจกแจงแบบ Weibull ฉันต้องการคำนวณรูปร่างของ weibull และสเกลแฟคเตอร์ที่เหมาะสมที่สุดกับฮิสโตแกรม ฉันต้องการโซลูชันเชิงตัวเลข (ตรงข้ามกับโซลูชันกราฟิก ) เนื่องจากเป้าหมายคือการกำหนดรูปแบบ weibull โดยทางโปรแกรม แก้ไข: เก็บตัวอย่างทุก 10 นาทีความเร็วลมเฉลี่ยตลอด 10 นาที ตัวอย่างรวมถึงความเร็วลมสูงสุดและต่ำสุดที่บันทึกไว้ในแต่ละช่วงเวลาซึ่งจะถูกละเว้นในปัจจุบัน แต่ฉันต้องการรวมไว้ในภายหลัง ความกว้างของช่องเก็บคือ 0.5 m / s

3
PCA ช้าเกินไปเมื่อทั้ง n, p มีขนาดใหญ่: ทางเลือก?
การตั้งค่าปัญหา ฉันมีจุดข้อมูล (ภาพ) ที่มีมิติสูง (4096) ซึ่งฉันกำลังพยายามมองเห็นเป็น 2D ด้วยเหตุนี้ผมใช้เสื้อ sne ในลักษณะที่คล้ายกับต่อไปนี้โค้ดตัวอย่างโดย Karpathy เอกสาร scikit เรียนรู้แนะนำให้ใช้ PCA แรกลดขนาดของข้อมูล: ขอแนะนำให้ใช้วิธีการลดขนาดแบบอื่น (เช่น PCA สำหรับข้อมูลหนาแน่นหรือ TruncatedSVD สำหรับข้อมูลแบบเบาบาง) เพื่อลดจำนวนมิติเป็นจำนวนที่เหมาะสม (เช่น 50) หากจำนวนคุณลักษณะสูงมาก ฉันใช้รหัสนี้โดย Darks.Liu เพื่อดำเนินการ PCA ใน Java: //C=X*X^t / m DoubleMatrix covMatrix = source.mmul(source.transpose()).div(source.columns); ComplexDoubleMatrix eigVal = Eigen.eigenvalues(covMatrix); ComplexDoubleMatrix[] eigVectorsVal = Eigen.eigenvectors(covMatrix); ComplexDoubleMatrix eigVectors = …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.