ฉันขีดเส้นใต้คำตอบทั้งหมดที่ได้รับมาแล้ว แต่ขอเรียกแมวว่าแมว: ในพื้นที่ทำงานหลายแห่งแทบจะเป็นไปไม่ได้เลยที่จะโน้มน้าวฝ่ายบริหารว่าการลงทุนใน "softwaretools" ที่แปลกใหม่ "(แปลกใหม่สำหรับพวกเขานั่นคือ) เป็นสิ่งจำเป็น มันขึ้นและบำรุงรักษา ฉันได้บอกลูกค้าบางรายว่าพวกเขาจะได้รับประโยชน์อย่างมากจากการจ้างนักสถิติที่มีพื้นฐานด้านซอฟต์แวร์และฐานข้อมูลอย่างละเอียด แต่ "ไม่สามารถทำได้" เป็นการตอบสนองทั่วไป
ตราบใดที่ไม่เกิดขึ้นมีสิ่งง่ายๆที่คุณสามารถทำได้กับ Excel ที่จะทำให้ชีวิตง่ายขึ้น และสิ่งแรกคือการควบคุมเวอร์ชันอย่างไม่ต้องสงสัย ข้อมูลเพิ่มเติมเกี่ยวกับการควบคุมเวอร์ชันกับ Excel สามารถพบได้ที่นี่
บางสิ่งเกี่ยวกับการใช้ excel
ผู้ที่ใช้ EXCEL มักชอบคุณลักษณะของสูตรของ EXCEL มาก แต่นี่เป็นแหล่งที่มาของข้อผิดพลาดที่สำคัญที่สุดในแผ่น EXCEL และปัญหาเมื่อพยายามอ่านในไฟล์ EXCEL เท่าที่ประสบการณ์ของฉันจะไป ฉันปฏิเสธที่จะทำงานกับแผ่นงานที่มีสูตร
ฉันยังบังคับให้ทุกคนที่ฉันทำงานด้วยเพื่อส่งมอบแผ่น EXCEL ในรูปแบบธรรมดาซึ่งหมายความว่า:
- แถวแรกมีชื่อของตัวแปรต่าง ๆ
- สเปรดชีตเริ่มต้นในเซลล์ A1
- ข้อมูลทั้งหมดถูกใส่ในคอลัมน์โดยไม่ต้องมีการขัดจังหวะและไม่มีการจัดรูปแบบ
- หากเป็นไปได้ข้อมูลจะถูกบันทึกในรูปแบบ. csv เช่นกัน การเขียนสคริปต์ VBA ไม่ใช่เรื่องยากที่จะดึงข้อมูลจัดรูปแบบใหม่และวางไว้ในไฟล์. csv นอกจากนี้ยังช่วยให้สามารถควบคุมเวอร์ชันได้ดีขึ้นเนื่องจากคุณสามารถทำการถ่ายโอนข้อมูล. csv ได้ทุกวัน
หากมีโครงสร้างทั่วไปที่ข้อมูลมีอยู่เสมอมันอาจเป็นการดีที่จะพัฒนาแม่แบบที่มีมาโคร VB พื้นฐานเพื่อเพิ่มข้อมูลและสร้างชุดข้อมูลสำหรับการวิเคราะห์ โดยทั่วไปแล้วจะหลีกเลี่ยงไม่ให้พนักงานทุกคนใช้ระบบจัดเก็บข้อมูล "อัจฉริยะ" ของตัวเองและช่วยให้คุณสามารถเขียนรหัสในการทำงานของสิ่งนี้
สิ่งนี้กล่าวว่าหากคุณสามารถโน้มน้าวให้ทุกคนใช้ SQL (และส่วนหน้าสำหรับการป้อนข้อมูล) คุณสามารถเชื่อมโยง R กับที่นั้นได้โดยตรง สิ่งนี้จะเพิ่มประสิทธิภาพอย่างมาก
โครงสร้างข้อมูลและการจัดการ
ตามกฎทั่วไปข้อมูลที่จัดเก็บในฐานข้อมูล (หรือแผ่น EXCEL ถ้ายืนยัน) ควรเป็นค่าต่ำสุดสัมบูรณ์ซึ่งหมายความว่าตัวแปรใด ๆ ที่สามารถคำนวณได้จากตัวแปรอื่น ๆ ไม่ควรมีอยู่ในฐานข้อมูล โปรดทราบว่าบางครั้งมันอาจเป็นประโยชน์ในการเก็บตัวแปรที่ได้มาหรือที่ถูกแปลงเช่นกันหากการคำนวณนั้นน่าเบื่อและใช้เวลานาน แต่สิ่งเหล่านี้ควรถูกเก็บไว้ในฐานข้อมูลแยกหากจำเป็นต้องเชื่อมโยงกับต้นฉบับ
ควรให้ความคิดกับสิ่งที่ถือเป็นกรณีหนึ่ง (และด้วยเหตุนี้หนึ่งแถว) เป็นตัวอย่างผู้คนมักจะผลิตอนุกรมเวลาโดยการสร้างตัวแปรใหม่สำหรับแต่ละจุดเวลา ในขณะที่สิ่งนี้เหมาะสมใน EXCEL การอ่านข้อมูลเหล่านี้ต้องการการพลิกกลับบางส่วนของเมทริกซ์ข้อมูล เหมือนกันสำหรับการเปรียบเทียบกลุ่ม: ควรมีตัวบ่งชี้กลุ่มหนึ่งตัวและหนึ่งตัวแปรตอบกลับไม่ใช่ตัวแปรตอบกลับสำหรับแต่ละกลุ่ม วิธีนี้โครงสร้างข้อมูลสามารถเป็นมาตรฐานได้เช่นกัน
สิ่งสุดท้ายที่ฉันพบบ่อยคือการใช้ตัวชี้วัดที่แตกต่างกัน ความยาวมีหน่วยเป็นเมตรหรือเซนติเมตรอุณหภูมิใน Celcius, Kelvin หรือ Farenheit, ... หนึ่งควรระบุในส่วนหน้าหรือเทมเพลตใด ๆ ที่หน่วยวัดตัวแปร
และแม้กระทั่งหลังจากสิ่งเหล่านี้คุณยังต้องการมีขั้นตอนการควบคุมข้อมูลก่อนที่จะเริ่มการวิเคราะห์ อีกครั้งนี่อาจเป็นสคริปต์ใด ๆ ที่ทำงานทุกวัน (เช่นข้ามคืน) ในรายการใหม่และแจ้งปัญหาทันที (นอกประเภทผิดประเภทฟิลด์ที่ขาดหายไป ... ) เพื่อให้สามารถแก้ไขได้โดยเร็วที่สุด หากคุณต้องกลับไปที่รายการที่ทำเมื่อ 2 เดือนก่อนเพื่อค้นหาว่ามีอะไรผิดปกติและทำไมคุณควรได้รับ "ทักษะ Sherlock" ที่ดีเพื่อแก้ไขให้ถูกต้อง
2 เซ็นต์ของฉัน