ในฐานะผู้ใช้ที่กระตือรือร้นของ R, bash, Python, asciidoc, (La) TeX, ซอฟแวร์โอเพ่นซอร์สหรือเครื่องมือ un * x ใด ๆ ฉันไม่สามารถให้คำตอบที่มีวัตถุประสงค์ได้ ยิ่งกว่านั้นเมื่อฉันโต้เถียงกับการใช้ MS Excel หรือสเปรดชีตทุกชนิด (เช่นคุณเห็นข้อมูลของคุณหรือบางส่วน แต่มีอะไรอีกบ้าง) ฉันจะไม่สนับสนุนการอภิปรายในเชิงบวก ฉันไม่ใช่คนเดียวเช่น
- การติดสเปรดชีตจาก P. Burns
- ความแม่นยำและความแม่นยำของ MS Excel , โพสต์ในรายชื่อผู้รับจดหมาย 2004 R
- L. Knusel, เกี่ยวกับความถูกต้องของการแจกแจงเชิงสถิติใน Microsoft Excel 97 , สถิติการคำนวณและการวิเคราะห์ข้อมูล, 26: 375–377, 1998. ( pdf )
- BD McCullough & B. Wilson, เกี่ยวกับความถูกต้องของขั้นตอนทางสถิติใน Microsoft Excel 2000 และ Excel XP , สถิติการคำนวณและการวิเคราะห์ข้อมูล , 40: 713–721, 2002
- M. Altman, J. Gill & MP McDonald, ปัญหาเชิงตัวเลขในการคำนวณทางสถิติสำหรับนักวิทยาศาสตร์สังคม , Wiley, 2004 [เช่น, หน้า 12–14]
เพื่อนร่วมงานของฉันหลวมมาโครทั้งหมดของเขาเนื่องจากขาดความเข้ากันได้แบบย้อนหลัง ฯลฯ เพื่อนร่วมงานอีกคนหนึ่งพยายามนำเข้าข้อมูลพันธุศาสตร์ (ประมาณ 700 วิชาที่ถูกทำเครื่องหมายบนเครื่องหมาย 800,000, 120 Mo) เพียงเพื่อ "มองดูพวกเขา" Excel ล้มเหลว Notepad ก็เลิก ... ฉันสามารถ "ดูพวกเขา" ด้วย vi และทำการฟอร์แมตข้อมูลใหม่ด้วยสคริปต์ sed / awk หรือ perl ดังนั้นฉันคิดว่ามีหลายระดับที่ควรพิจารณาเมื่อพูดคุยเกี่ยวกับประโยชน์ของสเปรดชีต ไม่ว่าคุณจะทำงานกับชุดข้อมูลขนาดเล็กและต้องการใช้ข้อมูลสถิติเบื้องต้นเท่านั้นและอาจใช้ได้ จากนั้นขึ้นอยู่กับคุณที่จะเชื่อถือผลลัพธ์หรือคุณสามารถขอซอร์สโค้ดได้เสมอ แต่อาจจะง่ายกว่าที่จะทำการทดสอบอย่างรวดเร็วของขั้นตอนอินไลน์ทั้งหมดด้วยเกณฑ์มาตรฐาน NIST. ฉันไม่คิดว่ามันจะสอดคล้องกับวิธีที่ดีในการทำสถิติเพราะนี่ไม่ใช่ซอฟต์แวร์เชิงสถิติที่แท้จริง (IMHO) แม้ว่าจะเป็นรายการอัปเดตของรายการข้างต้น แต่ MS Excel รุ่นใหม่ดูเหมือนว่าได้แสดงการปรับปรุงความถูกต้องสำหรับ การวิเคราะห์ทางสถิติดู Keeling and Pavur, การศึกษาเปรียบเทียบความน่าเชื่อถือของเก้าชุดซอฟต์แวร์เชิงสถิติ ( CSDA 2007 51: 3811)
ถึงกระนั้นกระดาษประมาณ 10 หรือ 20 ชิ้น (ใน biomedicine, จิตวิทยา, จิตเวชศาสตร์) รวมถึงกราฟิกที่ทำด้วย Excel บางครั้งโดยไม่ต้องลบพื้นหลังสีเทา, เส้นสีดำแนวนอนหรือตำนานอัตโนมัติ (Andrew Gelman และ Hadley Wickham มีความสุขอย่างแน่นอน ฉันเมื่อเห็นมัน) แต่โดยทั่วไปแล้วมันมักจะเป็น "ซอฟต์แวร์" ที่ใช้มากที่สุดตามการสำรวจล่าสุดของ FlowingData ซึ่งเตือนฉันถึงการพูดคุยเก่าของ Brian Ripley (ผู้ร่วมเขียนแพ็คเกจ MASS R และเขียนหนังสือที่ยอดเยี่ยมเกี่ยวกับการจดจำรูปแบบ , ท่ามกลางคนอื่น ๆ):
อย่าคิดเลยว่าตัวเรา: ซอฟต์แวร์ที่ใช้กันอย่างแพร่หลายสำหรับสถิติคือ Excel (B. Ripley ผ่าน Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf
ทีนี้ถ้าคุณรู้สึกว่ามันให้วิธีที่รวดเร็วและง่ายกว่าในการทำสถิติให้เสร็จทำไมไม่ล่ะ ปัญหาคือยังมีสิ่งที่ไม่สามารถทำได้ (หรืออย่างน้อยก็ค่อนข้างยุ่งยาก) ในสภาพแวดล้อมเช่นนั้น ฉันคิดถึง bootstrap, permutation, multivariate exploratory data analysis เพื่อบอกชื่อ ถ้าคุณไม่มีความเชี่ยวชาญใน VBA (ซึ่งไม่ใช่การเขียนสคริปต์หรือภาษาการเขียนโปรแกรม) ฉันมีแนวโน้มที่จะคิดว่าแม้การดำเนินการเล็กน้อยของข้อมูลจะได้รับการจัดการที่ดีขึ้นภายใต้ R (หรือ Matlab หรือ Python ให้คุณได้รับเครื่องมือที่เหมาะสมสำหรับการจัดการ ด้วยเช่นที่เรียกว่า data.frame) เหนือสิ่งอื่นใดฉันคิดว่า Excel ไม่ส่งเสริมการปฏิบัติที่ดีมากสำหรับนักวิเคราะห์ข้อมูล (แต่ก็ใช้กับ "cliquodrome" ใด ๆ ดูการอภิปรายเกี่ยวกับ Medstats เกี่ยวกับความจำเป็นในการรักษาบันทึกการประมวลผลข้อมูลการจัดทำเอกสารการวิเคราะห์และการแก้ไขข้อมูล ) และฉันพบว่าโพสต์นี้ในPractical Statsค่อนข้างเป็นตัวอย่างของข้อผิดพลาดของ Excel ถึงกระนั้นมันใช้กับ Excel ฉันไม่ทราบว่ามันแปลเป็น GDocs ได้อย่างไร
เกี่ยวกับการแบ่งปันงานของคุณฉันมักจะคิดว่าGithub (หรือGistสำหรับซอร์สโค้ด) หรือDropbox (แม้ว่า EULA อาจไม่สนับสนุนบางคน) เป็นตัวเลือกที่ดีมาก (ประวัติการแก้ไขการจัดการสิทธิ์หากจำเป็น ฯลฯ ) ฉันไม่สามารถสนับสนุนการใช้ซอฟต์แวร์ซึ่งโดยทั่วไปเก็บข้อมูลของคุณในรูปแบบไบนารี ฉันรู้ว่ามันสามารถนำเข้าใน R, Matlab, Stata, SPSS แต่ตามความเห็นของฉัน:
- ข้อมูลควรอยู่ในรูปแบบข้อความซึ่งสามารถอ่านได้โดยซอฟต์แวร์ทางสถิติอื่น
- การวิเคราะห์ควรทำซ้ำได้ซึ่งหมายความว่าคุณควรให้สคริปต์ที่สมบูรณ์สำหรับการวิเคราะห์ของคุณและควรจะทำงาน (เราเข้าใกล้กรณีที่เหมาะสมที่สุดที่นี่ ... ) ในระบบปฏิบัติการอื่นได้ตลอดเวลา;
- ซอฟต์แวร์ทางสถิติของคุณเองควรใช้อัลกอริทึมที่ยอมรับและควรมีวิธีที่ง่ายในการอัปเดตเพื่อให้สอดคล้องกับแนวปฏิบัติที่ดีที่สุดในการสร้างแบบจำลองทางสถิติ
- ระบบการแบ่งปันที่คุณเลือกควรรวมสิ่งอำนวยความสะดวกในการกำหนดเวอร์ชันและการทำงานร่วมกัน
แค่นั้นแหละ.