แอปพลิเคชันสเปรดชีตที่สามารถรองรับข้อมูลขนาดใหญ่ OS X


2

ฉันทำงานกับ Excel มาระยะหนึ่งแล้วเพื่อทำการวิเคราะห์ทางสถิติที่ฉันทำอยู่เป็นประจำ ขนาดของข้อมูลที่ฉันทำงานด้วยนั้นใหญ่ขึ้นกว่ามากอย่างไรก็ตาม รูปแบบของฐานข้อมูลในคำถามที่ค่อนข้างง่ายมักจะเพียงแค่สามแถวซึ่งรวมถึงเวลาในยูนิกซ์และความคุ้มค่า EST, ค่าตัวเลขที่เป็นกรรมสิทธิ์และในที่สุดค่าเฉลี่ยของแถวที่มีการประทับเวลา +/- 1000 ของแถวนั้นประทับเวลา (เล็ก ๆ น้อย ๆAVERAGEIFS()สูตร ) สูตรนั้นและการแปลง EST เป็นเพียงสูตรเดียวในแผ่นงาน

ฉันเริ่มทำงานกับไฟล์ที่มีแถวมากกว่า 500,000 แถว การรันสูตรเฉลี่ยลงไปทั่วทั้งแถวนั้นจะคงอยู่ตลอดไป ผลลัพธ์ที่ได้คือการผลิตกราฟที่คุ้มค่าการพิมพ์ ฉันกำลังมองหายูทิลิตี UNIX CL หรือแอปพลิเคชันสเปรดชีต / ฐานข้อมูลแยกต่างหากที่สามารถจัดการข้อมูลจำนวนนี้โดยไม่ทำให้ CPU ของฉันละลายหรือทำให้ฉันต้องรอประมาณหนึ่งชั่วโมง มีอะไรเกิดขึ้นบ้างไหม?

TL; DR:แผ่นงาน Excel ที่เรียบง่ายที่มีมากกว่าครึ่งล้านแถวกำลังทำงานช้าเกินไป ทางเลือก OS X


คำถามที่คล้ายกันของคุณตอบใน SO: stackoverflow.com/a/11387240/1248931
andy holaday

โปรดอย่าเสียเวลากับคำถามในสองด้าน ถามในหนึ่ง หากสิ่งนั้นกลายเป็นสถานที่ที่ไม่ถูกต้องให้ตั้งค่าสถานะและขอให้ผู้ดำเนินการโยกย้าย
Julian Knight

@JulianKnight ถ้าคุณดูข้อมูลเฉพาะของคำถามใดคำถามหนึ่งพวกเขาต่างกันโดยเนื้อแท้ ขอบคุณสำหรับคำแนะนำอย่างไรก็ตาม
Peter Kazazes

อืมฉันได้ดูคำถามอื่น แต่ในความเป็นจริงคำตอบดูเหมือนจะเกี่ยวข้องกันอย่างแน่นอน ฉันคิดว่าคงจะดีกว่าถ้ามีคำถามเดียวเช่นนี้ตอบก่อนแล้วจึงตามด้วยคำถามอื่นถ้าต้องการคำชี้แจงเพิ่มเติมหรือต้องการคำถามที่แตกต่างออกไปเล็กน้อย
Julian Knight

คำตอบ:


1

ฉันจะดูว่าคุณสามารถทำได้ในฐานข้อมูลแบบดั้งเดิม (SQL หรือคล้ายกัน) หรือในสิ่งที่ต้องการคอนโซล R หากปัญหาอยู่ในการวางแผนและไม่ใช่การคำนวณฉันจะพยายามกรองบางประเภท (ไม่แน่ใจว่าคุณมีข้อมูลประเภทใดหรือแพร่กระจายอย่างไร แต่ในกรณีใดก็ตามคุณไม่ต้องการจุดข้อมูล 500k + บนแผนภูมิ) เพื่อกำจัดจุดข้อมูลที่ไม่จำเป็นสำหรับพล็อต นั่นจะทำให้การลงจุดเป็นไปอย่างรวดเร็ว (และคุณสามารถใช้ R หรือ gnuplot สำหรับการลงจุดจริงถ้า Excel ช้าเกินไป)


ฉันได้ทำงานบางอย่างใน R เมื่อเร็ว ๆ นี้เนื่องจากมีประสิทธิภาพ ปัญหาเดียวที่ฉันมีในการค้นหาการแทนที่ excel ของฉันกำลังมองหาสเปรดชีตหรือทางเลือกฐานข้อมูลที่สามารถจัดการกับสูตรอาร์เรย์
Peter Kazazes

1
ฉันเห็นด้วยกับคำตอบ - คุณต้องเปลี่ยนไปใช้ฐานข้อมูล บางอย่างเช่น MySQL หรือ Postgres จะทำงาน แน่นอนนี่หมายความว่าคุณจะต้องเรียนรู้ SQL ด้วย สูตรที่คุณใช้อยู่สามารถถูกแทนที่ด้วย SQL อย่างแน่นอน หลังจากที่คุณตั้งค่าและออกเดินทางคุณสามารถกลับมาถามคำถามที่แตกต่างกันเล็กน้อยเกี่ยวกับ SQL ที่ต้องการได้!
Julian Knight

มีแนวโน้มที่จะมีประโยชน์น้อยกว่า แต่ก็น่ากล่าวถึงคือ Google Refine สามารถจัดการชุดข้อมูลขนาดใหญ่ได้อย่างง่ายดาย แต่เน้นการปรับปรุงและแบ่งส่วนข้อมูลมากขึ้น อย่างไรก็ตามมันรองรับการประมวลผลแบบ Python
Julian Knight

@JulianKnight ฉันคิดว่าการปรับแต่งของ Google นั้นเจ๋งมาก แต่นี่เป็นกรณีการใช้งานที่ไม่ดีสำหรับมัน (ในความคิดของฉัน) มันมีความหมายมากกว่าสำหรับการแยกวิเคราะห์และแก้ไขข้อมูลมากกว่าแค่การคำนวณ
soandos

@soandos: ฉันเห็นด้วยกับการปรับแต่งฉันแค่อยากจะพูดถึงในกรณีที่มันกลายเป็นประโยชน์ ฉันไม่เคยดู R มาก่อนดูน่าสนใจโดยเฉพาะ Red-R GUI ตอนนี้ฉันสนใจ IPython ตั้งแต่ฉันรู้จัก Python อยู่แล้วนี่อาจเป็นเครื่องมือที่มีประโยชน์สำหรับฉัน
Julian Knight
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.