ฉันจะแสดงความคิดเห็น @suncoolsu ที่สอง: มิติข้อมูลของชุดข้อมูลของคุณไม่ใช่เกณฑ์เดียวที่ควรปรับทิศทางคุณไปยังซอฟต์แวร์เฉพาะ ตัวอย่างเช่นหากคุณวางแผนที่จะทำการจัดกลุ่มที่ไม่ได้รับอนุญาตหรือใช้ PCA มีเครื่องมือเฉพาะหลายอย่างที่รับมือกับชุดข้อมูลขนาดใหญ่ดังที่พบโดยทั่วไปในการศึกษาจีโนม
ตอนนี้ r (64 บิต) จัดการข้อมูลขนาดใหญ่สวยดีและคุณยังมีตัวเลือกในการจัดเก็บดิสก์ใช้แทนการเข้าถึง RAM, แต่เห็น CRAN งานดูประสิทธิภาพสูงและ Parallel Computing กับ R Standard GLM รองรับ 20,000 obs ได้อย่างง่ายดาย (แต่ดูspeedglm ด้วย ) ภายในระยะเวลาที่เหมาะสมดังแสดงด้านล่าง:
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
เพื่อให้ภาพประกอบที่เป็นรูปธรรมมากขึ้นฉันใช้ R ในการประมวลผลและวิเคราะห์ข้อมูลทางพันธุกรรมขนาดใหญ่ (800 คน x 800k SNPsซึ่งแบบจำลองทางสถิติหลักคือ GLM แบบแบ่งชั้นที่มีโควาเรียหลายตัว (2 นาที) นั่นทำให้เป็นไปได้ รหัส C มีอยู่ในแพ็คเกจsnpMatrix (ในการเปรียบเทียบแบบเดียวกันใช้เวลาประมาณ 8 นาทีโดยใช้ซอฟต์แวร์ C ++ โดยเฉพาะ ( plink ) นอกจากนี้ฉันยังทำงานในการศึกษาทางคลินิก (ผู้ป่วย 12k x 50 ตัวแปรที่น่าสนใจ) และ R เหมาะกับความต้องการของฉัน ในที่สุดเท่าที่ฉันรู้แพคเกจlme4เป็นซอฟต์แวร์เดียวที่อนุญาตให้พอดีกับโมเดลเอฟเฟกต์ผสมกับชุดข้อมูลที่ไม่สมดุลและมีขนาดใหญ่
Stata / SE เป็นซอฟต์แวร์อื่นที่สามารถจัดการชุดข้อมูลขนาดใหญ่ SAS และ SPSS เป็นซอฟต์แวร์ที่ใช้ไฟล์ดังนั้นพวกเขาจะจัดการกับข้อมูลจำนวนมาก ตรวจสอบเปรียบเทียบของซอฟต์แวร์สำหรับ datamining มีอยู่ในเครื่องมือการทำเหมืองข้อมูล: เป็นที่หนึ่งที่ดีที่สุดสำหรับ CRM สำหรับการสร้างภาพข้อมูลนั้นมีตัวเลือกมากมาย; อาจเป็นการเริ่มต้นที่ดีคือกราฟิกของชุดข้อมูลขนาดใหญ่: แสดงภาพล้านรายการ ( ตรวจสอบใน JSS โดย P Murrell) และหัวข้อที่เกี่ยวข้องทั้งหมดในเว็บไซต์นี้