ฉันใช้ SAS อย่างมืออาชีพมาเกือบ 5 ปีแล้ว ฉันติดตั้งไว้ในแล็ปท็อปของฉันและต้องวิเคราะห์ชุดข้อมูลด้วยตัวแปร 1,000-2,000 ชุดและการสังเกตนับแสนครั้ง
ฉันกำลังมองหาทางเลือกอื่นสำหรับ SAS ที่ให้ฉันทำการวิเคราะห์ในชุดข้อมูลขนาดใกล้เคียงกัน ฉันอยากรู้ว่าคนอื่นใช้อะไรในสถานการณ์เช่นนี้ นี่ไม่ใช่ "ข้อมูลขนาดใหญ่" ในลักษณะที่ใช้ในปัจจุบัน หรือชุดข้อมูลของฉันมีขนาดเล็กพอที่จะเก็บไว้ในหน่วยความจำ ฉันต้องการโซลูชันที่สามารถใช้อัลกอริทึมกับข้อมูลที่เก็บไว้ในฮาร์ดไดรฟ์ นี่คือสิ่งที่ฉันได้ตรวจสอบเพื่อประโยชน์:
- R - BigMemory สามารถสร้างเมทริกซ์ที่เก็บไว้นอกหน่วยความจำได้ แต่องค์ประกอบจะต้องเป็นโหมดเดียวกัน ฉันทำงานกับข้อมูลที่เกือบ 50/50 แยกระหว่างตัวละครและตัวเลข แพ็คเกจ FF เข้าใกล้สิ่งที่ฉันต้องการ แต่ฉันไม่เข้าใจเลยว่าขั้นตอนใดบ้างที่เข้ากันได้ ฉันคิดว่าการสนับสนุนค่อนข้าง จำกัด
- Pandas - ฉันตื่นเต้นมากเกี่ยวกับทางเลือก Pythonic กับ R อย่างไรก็ตามมันก็ต้องเก็บข้อมูลทั้งหมดไว้ในหน่วยความจำด้วย
- Revolution R - อันนี้แสดงค่อนข้างสัญญา ฉันมีสำเนาบนคอมพิวเตอร์ที่บ้านของฉัน (ฟรีหากคุณสมัคร Kaggle) และยังไม่ได้ทดสอบว่าเป็นทางเลือกที่ทำงานได้กับ SAS ความคิดเห็นเกี่ยวกับ Revolution R ในฐานะทางเลือกของ SAS ได้รับการชื่นชมอย่างมาก
ขอบคุณ
อัพเดท 1
การแก้ไขเพื่อเพิ่มว่าฉันกำลังมองหาโซลูชันที่ใช้งานจริงในชีวิตจริงที่ผู้คนใช้งานได้สำเร็จ ส่วนใหญ่แล้ว SAS ช่วยให้ฉันสามารถรับไฟล์ขนาดใหญ่ได้โดยไม่ต้องกังวลเรื่องข้อ จำกัด หน่วยความจำเพียงเล็กน้อย อย่างไรก็ตามมีการใช้งาน SAS พวกเขาหาวิธีทำให้การจัดการหน่วยความจำโปร่งใสสำหรับผู้ใช้ แต่ด้วยหัวใจที่หนักหน่วงที่ฉันใช้ SAS สำหรับงานของฉัน (ฉันต้องทำ) และจะชอบทางเลือก FOSS ที่ช่วยให้ฉันทำงานกับข้อมูล "ใหญ่" โดยไม่ต้องคิดหนักเกินไปว่าข้อมูลอยู่ที่ไหน เวลาที่ระบุ (ในหน่วยความจำหรือดิสก์)
สิ่งที่อยู่ใกล้ฉันได้เจอเป็นแพคเกจ FF R และบางสิ่งบางอย่างบนขอบฟ้าสำหรับงูใหญ่เรียกว่าBlaze แต่ถึงกระนั้นปัญหาเหล่านี้ก็มีอยู่เป็นเวลาหลายปีดังนั้นนักวิเคราะห์ได้ทำอะไรในช่วงเวลานั้น? พวกเขาจัดการปัญหาเดียวกันนี้กับ Memory limit อย่างไร โซลูชั่นที่เสนอส่วนใหญ่ดูเหมือนจะเป็น:
- รับ RAM มากขึ้น - นี่ไม่ใช่ทางออกที่ดี imo ง่ายต่อการค้นหาชุดข้อมูลที่เกิน RAM แต่ยังพอดีกับฮาร์ดไดรฟ์ นอกจากนี้กระบวนการทำงานต้องรองรับโครงสร้างทั้งหมดที่สร้างขึ้นระหว่างการวิเคราะห์ข้อมูลเชิงสำรวจ
- จัดกลุ่มข้อมูล - นี่เป็นสิ่งที่ดีสำหรับการสำรวจ แต่ไม่ใช่สำหรับการสรุปผลลัพธ์และการรายงาน ในที่สุดกระบวนการอะไรก็ตามที่ได้รับการพัฒนาบนชุดย่อยจะต้องนำไปใช้กับชุดข้อมูลทั้งหมด (ในกรณีของฉัน)
- รับรู้ข้อมูล - นี่คือสิ่งที่ฉันต้องการทราบเพิ่มเติมเกี่ยวกับคนที่ใช้กระบวนการทำงานนี้จริง ๆ เป็นอย่างไรบ้าง? ด้วยเครื่องมืออะไร สามารถทำได้ในลักษณะที่โปร่งใสต่อผู้ใช้หรือไม่? (กล่าวคือสร้างโครงสร้างข้อมูลบนดิสก์บางส่วนและเฟรมเวิร์กจะดูแลการเชื่อมต่อภายใต้ประทุน)