คุณบางคนใช้สเปรดชีตของ Google เอกสารเพื่อดำเนินการและแบ่งปันผลงานทางสถิติของคุณกับผู้อื่นหรือไม่?

ฉันรู้ว่าพวกคุณส่วนใหญ่อาจรู้สึกว่า Google เอกสารยังคงเป็นเครื่องมือดั้งเดิม ไม่ใช่ Matlab หรือ R และไม่ใช่แม้แต่ Excel กระนั้นฉันก็รู้สึกงุนงงกับพลังของซอฟต์แวร์ที่ทำงานบนเว็บที่เพิ่งใช้ความสามารถในการทำงานของเบราว์เซอร์

Mike Lawrence ซึ่งทำงานอยู่ในฟอรัมนี้ได้แบ่งปันสเปรดชีตกับเราโดยใช้ Google เอกสารซึ่งทำสิ่งที่น่าสนใจ โดยส่วนตัวแล้วฉันได้จำลองกรอบการทดสอบสมมติฐานอย่างละเอียด (รวมถึงการทดสอบแบบพารามิเตอร์และแบบไม่อิงพารามิเตอร์) ที่ทำใน Excel ใน Google เอกสาร

ฉันสนใจถ้ามีใครในพวกคุณลองใช้ Google เอกสารและผลักมันให้ถึงขีด จำกัด ในแอปพลิเคชันที่น่าสนใจ ฉันสนใจที่จะรับฟังข้อบกพร่องหรือข้อบกพร่องที่คุณพบใน Google เอกสารด้วย

ฉันกำลังตั้งคำถามนี้ว่า "สำหรับวิกิชุมชน" แสดงว่าไม่มีคำตอบที่ดีที่สุดสำหรับเรื่องนี้ เป็นการสำรวจมากกว่าสิ่งใด

software computational-statistics

— Gaetan Lion
แหล่งที่มา

คุณสามารถลิงค์ไปยังสเปรดชีตที่ Mike Lawrence จัดหาให้ได้หรือไม่?

— Andy W

นี่คือ URL spreadsheets.google.com/...มันเกี่ยวข้องกับคำถามของเขาstats.stackexchange.com/questions/2956/...

— Sympa

Google เอกสารเมื่อผ่านการทดสอบอย่างเป็นทางการดำเนินการกับการคำนวณทางสถิติส่วนใหญ่อย่างน่าสังเวช (เมื่อมันสามารถทำได้) ดูKellie B. Keeling และ Robert J. Pavur (2011): ความแม่นยำทางสถิติของซอฟต์แวร์สเปรดชีต, สถิติชาวอเมริกัน, 65: 4, 265-273

— whuber

คำตอบ:

การใช้หลักของฉันสำหรับสเปรดชีตของ Google อยู่กับฟอร์มของ Google เพื่อรวบรวมข้อมูลแล้วนำเข้าสู่ R ได้อย่างง่ายดายนี่คือบทความที่ฉันเขียนเกี่ยวกับเรื่องนี้เมื่อครึ่งปีที่แล้ว:

Google สเปรดชีต + google ฟอร์ม + R = รวบรวมและนำเข้าข้อมูลเพื่อการวิเคราะห์ได้ง่าย

นอกจากนี้หากคุณเข้าร่วมการทำงานเครื่องมือที่ฉันเลือกคือ DropBox ฉันเขียนบทความเกี่ยวกับเรื่องนี้เมื่อไม่กี่เดือนที่ผ่านมา:

การซิงค์ไฟล์ระหว่างคอมพิวเตอร์โดยใช้ DropBox

ตอนนี้ฉันใช้มันมาประมาณครึ่งปีกับโครงการที่มีผู้เขียนร่วม 5 คนและมันมีค่ามาก (การซิงค์ไฟล์ข้อมูลจากผู้ติดต่อ 3 คนทุกคนสามารถดูผลลัพธ์ล่าสุดที่ฉันผลิตได้และทุกคนกำลังมองหา ที่ไฟล์. docx เดียวกันสำหรับบทความ)

โพสต์ทั้งสองมีวิดีโอสอนและคำแนะนำด้วยวาจา

— Tal Galili
แหล่งที่มา

ขอบคุณสำหรับความคิดเห็นของคุณ นี่เป็นประเภทความคิดเห็นที่แน่นอนที่ฉันสนใจคุณใช้ประโยชน์จากการแบ่งปันและนำเข้าส่วนประกอบของ Google เอกสารอย่างแท้จริง ดีสำหรับคุณ. ฉันจะอ่านเนื้อหาของคุณเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับมัน

— Sympa

เรียน Gaetan ฉันดีใจที่คุณตอบกลับ - ขอบคุณสำหรับคำพูดที่ดี ยอดเยี่ยม Tal

— Tal Galili

ในฐานะผู้ใช้ที่กระตือรือร้นของ R, bash, Python, asciidoc, (La) TeX, ซอฟแวร์โอเพ่นซอร์สหรือเครื่องมือ un * x ใด ๆ ฉันไม่สามารถให้คำตอบที่มีวัตถุประสงค์ได้ ยิ่งกว่านั้นเมื่อฉันโต้เถียงกับการใช้ MS Excel หรือสเปรดชีตทุกชนิด (เช่นคุณเห็นข้อมูลของคุณหรือบางส่วน แต่มีอะไรอีกบ้าง) ฉันจะไม่สนับสนุนการอภิปรายในเชิงบวก ฉันไม่ใช่คนเดียวเช่น

การติดสเปรดชีตจาก P. Burns
ความแม่นยำและความแม่นยำของ MS Excel , โพสต์ในรายชื่อผู้รับจดหมาย 2004 R
L. Knusel, เกี่ยวกับความถูกต้องของการแจกแจงเชิงสถิติใน Microsoft Excel 97 , สถิติการคำนวณและการวิเคราะห์ข้อมูล, 26: 375–377, 1998. ( pdf )
BD McCullough & B. Wilson, เกี่ยวกับความถูกต้องของขั้นตอนทางสถิติใน Microsoft Excel 2000 และ Excel XP , สถิติการคำนวณและการวิเคราะห์ข้อมูล , 40: 713–721, 2002
M. Altman, J. Gill & MP McDonald, ปัญหาเชิงตัวเลขในการคำนวณทางสถิติสำหรับนักวิทยาศาสตร์สังคม , Wiley, 2004 [เช่น, หน้า 12–14]

เพื่อนร่วมงานของฉันหลวมมาโครทั้งหมดของเขาเนื่องจากขาดความเข้ากันได้แบบย้อนหลัง ฯลฯ เพื่อนร่วมงานอีกคนหนึ่งพยายามนำเข้าข้อมูลพันธุศาสตร์ (ประมาณ 700 วิชาที่ถูกทำเครื่องหมายบนเครื่องหมาย 800,000, 120 Mo) เพียงเพื่อ "มองดูพวกเขา" Excel ล้มเหลว Notepad ก็เลิก ... ฉันสามารถ "ดูพวกเขา" ด้วย vi และทำการฟอร์แมตข้อมูลใหม่ด้วยสคริปต์ sed / awk หรือ perl ดังนั้นฉันคิดว่ามีหลายระดับที่ควรพิจารณาเมื่อพูดคุยเกี่ยวกับประโยชน์ของสเปรดชีต ไม่ว่าคุณจะทำงานกับชุดข้อมูลขนาดเล็กและต้องการใช้ข้อมูลสถิติเบื้องต้นเท่านั้นและอาจใช้ได้ จากนั้นขึ้นอยู่กับคุณที่จะเชื่อถือผลลัพธ์หรือคุณสามารถขอซอร์สโค้ดได้เสมอ แต่อาจจะง่ายกว่าที่จะทำการทดสอบอย่างรวดเร็วของขั้นตอนอินไลน์ทั้งหมดด้วยเกณฑ์มาตรฐาน NIST. ฉันไม่คิดว่ามันจะสอดคล้องกับวิธีที่ดีในการทำสถิติเพราะนี่ไม่ใช่ซอฟต์แวร์เชิงสถิติที่แท้จริง (IMHO) แม้ว่าจะเป็นรายการอัปเดตของรายการข้างต้น แต่ MS Excel รุ่นใหม่ดูเหมือนว่าได้แสดงการปรับปรุงความถูกต้องสำหรับ การวิเคราะห์ทางสถิติดู Keeling and Pavur, การศึกษาเปรียบเทียบความน่าเชื่อถือของเก้าชุดซอฟต์แวร์เชิงสถิติ ( CSDA 2007 51: 3811)

ถึงกระนั้นกระดาษประมาณ 10 หรือ 20 ชิ้น (ใน biomedicine, จิตวิทยา, จิตเวชศาสตร์) รวมถึงกราฟิกที่ทำด้วย Excel บางครั้งโดยไม่ต้องลบพื้นหลังสีเทา, เส้นสีดำแนวนอนหรือตำนานอัตโนมัติ (Andrew Gelman และ Hadley Wickham มีความสุขอย่างแน่นอน ฉันเมื่อเห็นมัน) แต่โดยทั่วไปแล้วมันมักจะเป็น "ซอฟต์แวร์" ที่ใช้มากที่สุดตามการสำรวจล่าสุดของ FlowingData ซึ่งเตือนฉันถึงการพูดคุยเก่าของ Brian Ripley (ผู้ร่วมเขียนแพ็คเกจ MASS R และเขียนหนังสือที่ยอดเยี่ยมเกี่ยวกับการจดจำรูปแบบ , ท่ามกลางคนอื่น ๆ):

อย่าคิดเลยว่าตัวเรา: ซอฟต์แวร์ที่ใช้กันอย่างแพร่หลายสำหรับสถิติคือ Excel (B. Ripley ผ่าน Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf

ทีนี้ถ้าคุณรู้สึกว่ามันให้วิธีที่รวดเร็วและง่ายกว่าในการทำสถิติให้เสร็จทำไมไม่ล่ะ ปัญหาคือยังมีสิ่งที่ไม่สามารถทำได้ (หรืออย่างน้อยก็ค่อนข้างยุ่งยาก) ในสภาพแวดล้อมเช่นนั้น ฉันคิดถึง bootstrap, permutation, multivariate exploratory data analysis เพื่อบอกชื่อ ถ้าคุณไม่มีความเชี่ยวชาญใน VBA (ซึ่งไม่ใช่การเขียนสคริปต์หรือภาษาการเขียนโปรแกรม) ฉันมีแนวโน้มที่จะคิดว่าแม้การดำเนินการเล็กน้อยของข้อมูลจะได้รับการจัดการที่ดีขึ้นภายใต้ R (หรือ Matlab หรือ Python ให้คุณได้รับเครื่องมือที่เหมาะสมสำหรับการจัดการ ด้วยเช่นที่เรียกว่า data.frame) เหนือสิ่งอื่นใดฉันคิดว่า Excel ไม่ส่งเสริมการปฏิบัติที่ดีมากสำหรับนักวิเคราะห์ข้อมูล (แต่ก็ใช้กับ "cliquodrome" ใด ๆ ดูการอภิปรายเกี่ยวกับ Medstats เกี่ยวกับความจำเป็นในการรักษาบันทึกการประมวลผลข้อมูลการจัดทำเอกสารการวิเคราะห์และการแก้ไขข้อมูล ) และฉันพบว่าโพสต์นี้ในPractical Statsค่อนข้างเป็นตัวอย่างของข้อผิดพลาดของ Excel ถึงกระนั้นมันใช้กับ Excel ฉันไม่ทราบว่ามันแปลเป็น GDocs ได้อย่างไร

เกี่ยวกับการแบ่งปันงานของคุณฉันมักจะคิดว่าGithub (หรือGistสำหรับซอร์สโค้ด) หรือDropbox (แม้ว่า EULA อาจไม่สนับสนุนบางคน) เป็นตัวเลือกที่ดีมาก (ประวัติการแก้ไขการจัดการสิทธิ์หากจำเป็น ฯลฯ ) ฉันไม่สามารถสนับสนุนการใช้ซอฟต์แวร์ซึ่งโดยทั่วไปเก็บข้อมูลของคุณในรูปแบบไบนารี ฉันรู้ว่ามันสามารถนำเข้าใน R, Matlab, Stata, SPSS แต่ตามความเห็นของฉัน:

ข้อมูลควรอยู่ในรูปแบบข้อความซึ่งสามารถอ่านได้โดยซอฟต์แวร์ทางสถิติอื่น
การวิเคราะห์ควรทำซ้ำได้ซึ่งหมายความว่าคุณควรให้สคริปต์ที่สมบูรณ์สำหรับการวิเคราะห์ของคุณและควรจะทำงาน (เราเข้าใกล้กรณีที่เหมาะสมที่สุดที่นี่ ... ) ในระบบปฏิบัติการอื่นได้ตลอดเวลา;
ซอฟต์แวร์ทางสถิติของคุณเองควรใช้อัลกอริทึมที่ยอมรับและควรมีวิธีที่ง่ายในการอัปเดตเพื่อให้สอดคล้องกับแนวปฏิบัติที่ดีที่สุดในการสร้างแบบจำลองทางสถิติ
ระบบการแบ่งปันที่คุณเลือกควรรวมสิ่งอำนวยความสะดวกในการกำหนดเวอร์ชันและการทำงานร่วมกัน

แค่นั้นแหละ.

— chl
แหล่งที่มา

@Gaetan นอกเหนือจากคำตอบของฉันฉันให้ +1 ของฉันกับคำถามเพราะฉันคิดว่ามันมีความเกี่ยวข้องมากสำหรับการอภิปรายเกี่ยวกับการปฏิบัติทางสถิติและการจัดการโครงการ

— chl

ความคิดเห็นสำหรับ downvote จะได้รับการชื่นชมอย่างมาก

— chl

@chl: แม้ว่าฉันจะไม่ได้ลงคะแนนคำตอบนี้ฉันคิดว่าฉันเข้าใจว่าทำไมคนจะลงคะแนนมัน ข้อมูลที่คุณให้นั้นถูกต้องสำคัญมากและกระตุ้นความคิด อย่างไรก็ตามส่วนใหญ่ (ยกเว้นสองย่อหน้าสุดท้าย) ไม่ตอบคำถาม เป็นการดีที่คนจะเขียนข้อจำกัดความรับผิดชอบขนาดใหญ่นี้ที่อื่นและให้ลิงค์ไป

— Boris Gorelik

@chl: แม้จะมีสิ่งที่ฉันพูดในความคิดเห็นของฉันฉันรักคำตอบของคุณและได้รับการโหวต

— Boris Gorelik

@bgbg ขอบคุณสำหรับความคิดเห็นของคุณ บางทีฉันอาจไม่ได้ตอบคำถาม CW อย่างไรก็ตามฉันไม่เคยตั้งใจที่จะให้คำตอบที่เร้าใจอย่างหมดจด OP ถามเกี่ยวกับ "ข้อบกพร่องและข้อบกพร่อง" ที่อาจเกิดขึ้นใน GDocs: ฉันแสดงภาพประกอบเกี่ยวกับสิ่งที่ฉันรู้จาก Excel โดยยอมรับความจริงว่าไม่รู้ว่ามันจะแปลเป็น GDocs อย่างไร ฉันยังเข้าใจส่วนหนึ่งของคำถามว่า "อะไรคือประโยชน์ของการใช้ GDocs สำหรับการวิเคราะห์ข้อมูล" และฉันเพิ่งให้ข้อโต้แย้งกับการใช้สเปรดชีตสำหรับโครงการขนาดใหญ่หรือการวิเคราะห์ที่ขอบเลือด (ยังฉันยอมรับที่ เริ่มต้นว่าสิ่งนี้จะลำเอียง)

— chl

"ฉันสนใจที่จะรับฟังข้อบกพร่องหรือข้อบกพร่องที่คุณพบใน Google เอกสารด้วย"

ฉันจะตอบกลับส่วนนั้นของคำถามดั้งเดิมเท่านั้น การสำรวจของฉันด้วย Google Docs Spreadsheets (GSheets) เกี่ยวข้องกับฟังก์ชันทางคณิตศาสตร์และสถิติ ในท้ายที่สุดการประเมินของฉันคือ Google Spreadsheets อยู่ในความเคารพที่ต่ำกว่ามากในปี 2012 ถึง Excel ที่ไม่ถูกต้องในปี 1997

พยาน: Google ชีตประเมินค่า erfc (x) โดยใช้ erfc (x) = 1-erf (x) สำหรับข้อโต้แย้งที่ erf (x) ใกล้เคียงกับ 1 พวกเขาประเมินค่าเบี่ยงเบนมาตรฐานหรือความแปรปรวนผ่านค่าเฉลี่ยของกำลังสองลบจตุรัส ของค่าเฉลี่ย มันเป็นการฝึกเชิงตัวเลขที่ไม่ดี ฟังก์ชัน Combinatorial และความน่าจะเป็นแบบแยกเช่น Poisson (n, x) = pow (x, n) * exp (-x) / n! ได้รับการประเมินโดยคำนึงถึงปัจจัยทำให้เกิดการไหลล้นที่ไม่จำเป็น แฟกทอเรียลได้รับการประเมินโดยใช้การประมาณค่าปัจจัยโดยสเตอร์ลิงทำให้เกินความจำเป็นอีกต่อไป การแจกแจงปัวซงสะสมถูกประเมินโดยเพียงทำผลรวมแน่นอนดังนั้นคุณสมบัติการทำให้เป็นมาตรฐานจะหายไปในการปัดเศษ เช่นเดียวกับการแจกแจงแบบทวินามสะสม การแจกแจงปกติแบบสะสมนั้นเกิดความสับสน มันอยู่นอกช่วง [0,1] มีการสูญเสียความถูกต้องทั่วไปเมื่อเทียบกับการใช้งานฟังก์ชั่นเดียวกันในแพ็คเกจอื่น ๆ คำอธิบายของฟังก์ชันพื้นฐานเช่นการปัดเศษมักอ่านไม่ออกและไม่สามารถเข้าใจได้ การตีความเป็นเกมที่คาดเดา

ฉันได้บันทึกปัญหาเหล่านี้ไว้ในการโพสต์สองชุดในฟอรัมผลิตภัณฑ์ Google เอกสาร:

(2011-11-13 และใหม่กว่า) normdist ยังคงโยนค่าลบยังคง https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06 และใหม่กว่า) ข้อผิดพลาดและปัญหาอื่น ๆ ที่มีฟังก์ชั่นทางสถิติและทางคณิตศาสตร์ใน GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/

— Bas Braams
แหล่งที่มา

(+1) กล่าวอีกอย่างชัดเจนว่านักสถิติ( หลายคน! ) ของ Google นั้นไม่เกี่ยวข้องกับโครงการนี้

— พระคาร์ดินัล

เพียงส่วนหนึ่งของ Google Docs ผมเคยเป็นบรรณาธิการที่เป็นประโยชน์มากเมื่อร่วมกันแก้ไขในเรียลไทม์ ฉันไม่คิดว่าคอมไพล์และเพื่อน ๆ แก้ปัญหานั้นได้!

— kjetil b halvorsen