สถิติและข้อมูลขนาดใหญ่ java

5

ไลบรารี Java แบบโอเพนซอร์สสำหรับสถิติในระดับที่เสนอโดยหลักสูตรสถิติบัณฑิต

ฉันกำลังเรียนหลักสูตรบัณฑิตศึกษาในสถิติประยุกต์ที่ใช้ตำราเรียนต่อไปนี้ (เพื่อให้คุณรู้สึกถึงระดับของเนื้อหาที่ถูกครอบคลุม): แนวคิดและวิธีการทางสถิติโดย GK Bhattacharyya และ RA Johnson ศาสตราจารย์ต้องการให้เราใช้ SAS สำหรับการบ้าน คำถามของฉันคือ: มีห้องสมุด Java (IES) ที่สามารถใช้แทน SAS สำหรับปัญหาที่มักจะเห็นในชั้นเรียนดังกล่าว ขณะนี้ฉันกำลังพยายามทำกับApache Math Commonsและแม้ว่าฉันจะประทับใจกับห้องสมุด (มันใช้งานง่ายและเข้าใจง่าย) ดูเหมือนจะขาดสิ่งง่าย ๆ เช่นความสามารถในการวาดฮิสโทแกรม (คิดถึงการรวมเข้ากับไลบรารีแผนภูมิ ) ฉันดูที่ Colt แต่ความสนใจเริ่มแรกของฉันก็ลดลงอย่างรวดเร็ว จะขอบคุณอินพุตใด ๆ - และฉันได้ดูคำถามที่คล้ายกันใน Stackoverflow แต่ไม่พบสิ่งใดที่น่าสนใจ หมายเหตุ: ฉันรู้ว่าไลบรารี R, SciPy และ Octave และ java ที่โทรไปหาพวกเขา - ฉันกำลังมองหาไลบรารีดั้งเดิมของ Java หรือชุดของไลบรารีที่สามารถให้คุณสมบัติที่ฉันกำลังมองหาอยู่ด้วยกัน หมายเหตุ: …

15 r sas java

4

การปรับข้อมูลอนุกรมเวลาให้ราบรื่น

ฉันกำลังสร้างแอปพลิเคชัน Android ที่บันทึกข้อมูลมาตรวัดความเร็วในระหว่างการนอนหลับเพื่อวิเคราะห์แนวโน้มการนอนหลับและเลือกให้ผู้ใช้ใกล้เวลาที่ต้องการระหว่างการนอนหลับเบา ฉันได้สร้างส่วนประกอบที่รวบรวมและจัดเก็บข้อมูลรวมถึงการเตือนแล้ว ฉันยังต้องจัดการกับสัตว์ร้ายในการแสดงและบันทึกข้อมูลการนอนหลับอย่างมีความหมายและชัดเจนซึ่งเป็นสิ่งที่ควรนำมาใช้ในการวิเคราะห์ด้วย รูปภาพสองสามภาพบอกสองพันคำ: (ฉันสามารถโพสต์ได้เพียงลิงค์เดียวเนื่องจากเป็นตัวแทนต่ำ) นี่คือข้อมูลที่ไม่มีการกรองผลรวมของการเคลื่อนไหวที่รวบรวมในช่วงเวลา 30 วินาที และข้อมูลเดียวกันเรียบเนียนด้วยการแสดงของฉันเองในการเคลื่อนย้ายเฉลี่ยเรียบ แก้ไข) แผนภูมิทั้งสองแสดงถึงการปรับเทียบ - มีตัวกรอง 'สัญญาณรบกวน' ขั้นต่ำและตัวกรองตัดสูงสุดรวมถึงระดับสัญญาณเรียกเตือน (เส้นสีขาว) น่าเสียดายที่สิ่งเหล่านี้ไม่ได้เป็นคำตอบที่ดีที่สุด - ข้อแรกยากที่จะเข้าใจสำหรับผู้ใช้โดยเฉลี่ยและข้อที่สองซึ่งง่ายต่อการเข้าใจซ่อนสิ่งที่เกิดขึ้นมากมาย โดยเฉพาะอย่างยิ่งค่าเฉลี่ยลบรายละเอียดของแหลมในการเคลื่อนไหว - และฉันคิดว่าสิ่งเหล่านั้นมีความหมาย เหตุใดแผนภูมิเหล่านี้ถึงสำคัญมาก ชุดเวลาเหล่านี้จะปรากฏตลอดทั้งคืนเป็นข้อเสนอแนะให้กับผู้ใช้และจะถูกเก็บไว้สำหรับการตรวจสอบ / วิเคราะห์ในภายหลัง การปรับให้เรียบจะช่วยลดค่าใช้จ่ายในหน่วยความจำ (ทั้ง RAM และที่เก็บข้อมูล) และทำให้การแสดงผลเร็วขึ้นสำหรับโทรศัพท์ / อุปกรณ์ที่ขาดแคลนทรัพยากรเหล่านี้ เห็นได้ชัดว่ามีวิธีที่ดีกว่าในการทำให้ข้อมูลราบรื่นขึ้น - ฉันมีความคิดที่คลุมเครือเช่นการใช้การถดถอยเชิงเส้นเพื่อหาการเปลี่ยนแปลง 'คมชัด' ในการเคลื่อนไหว ฉันต้องการคำแนะนำและข้อมูลเพิ่มเติมก่อนที่จะดำดิ่งลงไปในสิ่งที่สามารถแก้ไขได้อย่างเหมาะสมที่สุด ขอบคุณ!

14 time-series smoothing signal-processing java

1

R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน

mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

ฉันจะกำหนดพารามิเตอร์ weibull จากข้อมูลได้อย่างไร

ฉันมีฮิสโตแกรมของข้อมูลความเร็วลมซึ่งมักแสดงโดยใช้การแจกแจงแบบ Weibull ฉันต้องการคำนวณรูปร่างของ weibull และสเกลแฟคเตอร์ที่เหมาะสมที่สุดกับฮิสโตแกรม ฉันต้องการโซลูชันเชิงตัวเลข (ตรงข้ามกับโซลูชันกราฟิก ) เนื่องจากเป้าหมายคือการกำหนดรูปแบบ weibull โดยทางโปรแกรม แก้ไข: เก็บตัวอย่างทุก 10 นาทีความเร็วลมเฉลี่ยตลอด 10 นาที ตัวอย่างรวมถึงความเร็วลมสูงสุดและต่ำสุดที่บันทึกไว้ในแต่ละช่วงเวลาซึ่งจะถูกละเว้นในปัจจุบัน แต่ฉันต้องการรวมไว้ในภายหลัง ความกว้างของช่องเก็บคือ 0.5 m / s

10 distributions histogram java

3

PCA ช้าเกินไปเมื่อทั้ง n, p มีขนาดใหญ่: ทางเลือก?

การตั้งค่าปัญหา ฉันมีจุดข้อมูล (ภาพ) ที่มีมิติสูง (4096) ซึ่งฉันกำลังพยายามมองเห็นเป็น 2D ด้วยเหตุนี้ผมใช้เสื้อ sne ในลักษณะที่คล้ายกับต่อไปนี้โค้ดตัวอย่างโดย Karpathy เอกสาร scikit เรียนรู้แนะนำให้ใช้ PCA แรกลดขนาดของข้อมูล: ขอแนะนำให้ใช้วิธีการลดขนาดแบบอื่น (เช่น PCA สำหรับข้อมูลหนาแน่นหรือ TruncatedSVD สำหรับข้อมูลแบบเบาบาง) เพื่อลดจำนวนมิติเป็นจำนวนที่เหมาะสม (เช่น 50) หากจำนวนคุณลักษณะสูงมาก ฉันใช้รหัสนี้โดย Darks.Liu เพื่อดำเนินการ PCA ใน Java: //C=X*X^t / m DoubleMatrix covMatrix = source.mmul(source.transpose()).div(source.columns); ComplexDoubleMatrix eigVal = Eigen.eigenvalues(covMatrix); ComplexDoubleMatrix[] eigVectorsVal = Eigen.eigenvectors(covMatrix); ComplexDoubleMatrix eigVectors = …

9 pca dimensionality-reduction high-dimensional java tsne

คำถามติดแท็ก java