ฉันจะให้ผู้คนดูแลข้อมูลได้ดีขึ้นได้อย่างไร


42

สถานที่ทำงานของฉันมีพนักงานจากหลากหลายสาขาดังนั้นเราจึงสร้างข้อมูลในรูปแบบที่แตกต่างกันมากมาย ดังนั้นแต่ละทีมจึงได้พัฒนาระบบของตัวเองเพื่อเก็บข้อมูล บางคนใช้ฐานข้อมูล Access หรือ SQL บางทีม (กับความสยองขวัญของฉัน) พึ่งพาสเปรดชีต Excel เกือบทั้งหมด บ่อยครั้งที่รูปแบบข้อมูลเปลี่ยนจากโครงการเป็นโครงการ ในบางกรณีเรียกมันว่า 'ระบบ' ใจดีเกินไป

ปัญหาที่เกิดขึ้นคือฉันต้องเขียนโค้ดใหม่เพื่อล้างข้อมูลสำหรับทุกโครงการซึ่งมีราคาแพง ผู้คนทำการแก้ไขสเปรดชีตด้วยตนเองทำให้สามารถทำซ้ำได้และตรวจสอบข้อมูลไม่ได้ และยิ่งแย่ลงไปกว่านั้นมีโอกาสที่ข้อมูลจะสูญหายหรือทำให้ข้อมูลไม่ถูกต้อง

ฉันได้รับโอกาสในการหารือเกี่ยวกับปัญหาเหล่านี้กับสมาชิกคณะกรรมการของ บริษัท และฉันต้องอธิบายสิ่งที่จะบอกเขา ฉันคิดว่าฉันได้ชักชวนเขาว่าเรามีปัญหาและการได้รับสิทธินี้จะช่วยให้วิทยาศาสตร์ดีขึ้นและประหยัดเงินได้ คำถามคือเราควรจะตั้งเป้าหมายอะไรและเราจะไปที่นั่นได้อย่างไร

โดยเฉพาะอย่างยิ่ง:

เราควรเก็บข้อมูลอย่างไรในแบบที่ทำให้เราสามารถติดตามได้ตั้งแต่การสร้างไปจนถึงการเผยแพร่ในกระดาษ (ฐานข้อมูลเก็บไว้ในเซิร์ฟเวอร์กลางหรือไม่?)

คุณจะทำอย่างไรเกี่ยวกับรูปแบบฐานข้อมูลมาตรฐาน?

มีแหล่งข้อมูลที่ดีสำหรับการให้การศึกษาแก่ผู้คนเกี่ยวกับวิธีการดูแลข้อมูลหรือไม่ (ตามกฎทั่วไปนักสุขอนามัยและวิศวกรวัตถุระเบิดไม่ใช่ผู้เชี่ยวชาญด้านข้อมูลดังนั้นควรเลือกเนื้อหาที่ไม่ใช่ด้านเทคนิค)


คำถามชื่อแตกต่างจากคำถามสำคัญในการโพสต์ อดีตถามถึงวิธีการโน้มน้าวผู้คนให้ดูแลข้อมูลและคนหลังถามเกี่ยวกับวิธีการเก็บข้อมูลที่ดีที่สุด คำถามใดที่คุณต้องการตอบ
Reinstate Monica

คำตอบ:


16

เป็นมูลค่าการพิจารณาความคิดจากโลกซอฟต์แวร์ โดยเฉพาะอย่างยิ่งคุณอาจนึกถึงการตั้งค่า: ที่เก็บการควบคุมเวอร์ชันและเซิร์ฟเวอร์ฐานข้อมูลกลาง

การควบคุมเวอร์ชันอาจช่วยคุณในการใช้ไฟล์ลอยตัวเช่น Excel และไฟล์ข้อความเป็นต้น แต่อาจรวมถึงไฟล์ที่เกี่ยวข้องกับข้อมูลเช่น R, SAS เป็นต้นแนวคิดก็คือมีระบบที่ติดตามการเปลี่ยนแปลง ไฟล์ของคุณช่วยให้คุณรู้ว่าเกิดอะไรขึ้นเมื่อไหร่และย้อนกลับไปยังจุดที่ผ่านมาหากจำเป็น

ในกรณีที่คุณมีอยู่แล้วฐานข้อมูล SQL สิ่งที่ดีที่สุดที่คุณสามารถทำได้คือการตั้งค่าเซิร์ฟเวอร์กลางและจ้างที่มีความสามารถDBA DBA เป็นบุคคลที่ได้รับมอบหมายให้ดูแลและรักษาความถูกต้องของข้อมูล ส่วนหนึ่งของรายละเอียดของงานเกี่ยวข้องกับสิ่งต่าง ๆ เช่นการสำรองข้อมูลและการปรับแต่ง แต่อีกส่วนหนึ่งมีความเกี่ยวข้องมากขึ้นที่นี่ - การควบคุมวิธีการที่ข้อมูลเข้าสู่ระบบเพื่อให้มั่นใจว่ามีการปฏิบัติตามข้อ จำกัด นโยบายการเข้าถึงมีไว้เพื่อป้องกันอันตรายต่อข้อมูลการตั้งค่ามุมมองเพื่อแสดงรูปแบบข้อมูลที่กำหนดเอง การใช้ระเบียบวิธีรอบกระบวนการข้อมูล แม้ว่าคุณจะไม่ได้จ้าง DBA จริง ๆ (สิ่งที่ดีนั้นยากมากในการรับสมัคร) การมีเซิร์ฟเวอร์กลางยังช่วยให้คุณเริ่มคิดเกี่ยวกับการจัดระเบียบวิธีการบางอย่างเกี่ยวกับข้อมูล


3
เห็นด้วยอย่างแน่นอนเกี่ยวกับการควบคุมเวอร์ชัน ฉันใช้มัน; เช่นเดียวกับนักพัฒนาและนักสถิติ (ฉันต้องการเห็นการยอมรับ 100% แต่ตอนนี้เป็นอีกหนึ่งความฝันของท่อ) สิ่งที่ยากคือการใช้เทคโนโลยี ความคิดใด ๆ ชื่นชม
Richie Cotton

2
@ Richie Cotton: ฉันไม่รู้ว่าทำไม แต่การควบคุมเวอร์ชันดูเหมือนจะเป็นแนวคิดที่ยากสำหรับผู้ที่ไม่ได้ใช้เทคโนโลยี ผู้คนยังคงทำการเปลี่ยนแปลงไฟล์เปลี่ยนชื่อและส่งทางอีเมลต่อไป ฉันจะเกลียดไฟล์ "PaperDraftCorrectedByJohnRevision3RewroteByLeslie-NewVersion3.doc" เหล่านั้นได้อย่างไร ...
nico

12

1
ลิงค์ที่ยอดเยี่ยม ฉันคิดว่าข้อความสำคัญสองข้อความที่ส่งต่อคือ: เราต้องการการตรวจสอบข้อมูลอัตโนมัติมากขึ้นและฉันต้องเริ่มอธิบายเกี่ยวกับการแยกการป้อนข้อมูลและการนำเสนอข้อมูล
Richie Cotton

6

ฉันคิดว่าก่อนอื่นคุณต้องถามตัวเองว่า: ทำไมผู้คนถึงใช้ Excel เพื่อทำงานที่ไม่ได้ทำกับ Excel

1) พวกเขารู้วิธีใช้งานแล้ว 2) ใช้งานได้ อาจจะเป็นวิธีที่งุ่มง่าม แต่มันได้ผลและนั่นคือสิ่งที่พวกเขาต้องการ

ฉันคัดลอกชุดของตัวเลขกดปุ่มและฉันมีพล็อต เป็นเรื่องง่ายเหมือนที่

ดังนั้นทำให้พวกเขาเข้าใจข้อดีที่พวกเขาสามารถทำได้โดยใช้ชุดข้อมูลส่วนกลางฐานข้อมูลที่ถูกต้อง (โปรดทราบว่า Access ไม่ใช่หนึ่งในนั้น) และอื่น ๆ แต่จำจุดสองจุดด้านบน: คุณต้องตั้งค่าระบบที่ใช้งานได้และใช้งานง่าย

ฉันเคยเห็นหลายครั้งที่ระบบที่ทำไม่ดีทำให้ฉันไม่อยากกลับไปที่ Excel แต่ใช้ปากกาและกระดาษ!

ตัวอย่างเช่นเรามีระบบการสั่งซื้อที่น่ากลัวที่ฉันทำงาน

เราเคยต้องกรอกแบบฟอร์มการสั่งซื้อซึ่งเป็นกระดาษคำนวณ Excel ที่คุณจะใส่ชื่อของผลิตภัณฑ์ปริมาณค่าใช้จ่ายอื่น ๆ มันจะเพิ่มทุกอย่างขึ้นเพิ่ม TVA ฯลฯ ฯลฯ คุณพิมพ์ให้กับ เลขาผู้ที่จะออกคำสั่งและนั่นก็คือ ไม่มีประสิทธิภาพ แต่ใช้งานได้

ตอนนี้เรามีระบบสั่งซื้อออนไลน์ด้วยฐานข้อมูลส่วนกลางและทุกอย่าง มันเป็นหนังสยองขวัญ ฉันไม่ควรใช้เวลา 10 นาทีในการกรอกแบบฟอร์มแช่งเพราะแป้นพิมพ์ลัดที่ใช้งานง่ายและสิ่งแปลกประหลาดต่าง ๆ ของซอฟต์แวร์ และโปรดทราบว่าฉันค่อนข้างเข้าใจสารสนเทศดังนั้นลองจินตนาการว่าเกิดอะไรขึ้นกับคนที่ไม่ชอบคอมพิวเตอร์ ...


ตกลงว่าสิ่งต่าง ๆ จะต้องเป็นมิตรกับผู้ใช้ เนื่องจากผู้คนได้รับความคุ้มครองจากการปฏิบัติงานของพวกเขาการเปลี่ยนแปลงใด ๆ จะต้องทำให้ชีวิตของผู้คนง่ายขึ้นหรือล้มเหลว
Richie Cotton

5

ฉันขีดเส้นใต้คำตอบทั้งหมดที่ได้รับมาแล้ว แต่ขอเรียกแมวว่าแมว: ในพื้นที่ทำงานหลายแห่งแทบจะเป็นไปไม่ได้เลยที่จะโน้มน้าวฝ่ายบริหารว่าการลงทุนใน "softwaretools" ที่แปลกใหม่ "(แปลกใหม่สำหรับพวกเขานั่นคือ) เป็นสิ่งจำเป็น มันขึ้นและบำรุงรักษา ฉันได้บอกลูกค้าบางรายว่าพวกเขาจะได้รับประโยชน์อย่างมากจากการจ้างนักสถิติที่มีพื้นฐานด้านซอฟต์แวร์และฐานข้อมูลอย่างละเอียด แต่ "ไม่สามารถทำได้" เป็นการตอบสนองทั่วไป

ตราบใดที่ไม่เกิดขึ้นมีสิ่งง่ายๆที่คุณสามารถทำได้กับ Excel ที่จะทำให้ชีวิตง่ายขึ้น และสิ่งแรกคือการควบคุมเวอร์ชันอย่างไม่ต้องสงสัย ข้อมูลเพิ่มเติมเกี่ยวกับการควบคุมเวอร์ชันกับ Excel สามารถพบได้ที่นี่

บางสิ่งเกี่ยวกับการใช้ excel

ผู้ที่ใช้ EXCEL มักชอบคุณลักษณะของสูตรของ EXCEL มาก แต่นี่เป็นแหล่งที่มาของข้อผิดพลาดที่สำคัญที่สุดในแผ่น EXCEL และปัญหาเมื่อพยายามอ่านในไฟล์ EXCEL เท่าที่ประสบการณ์ของฉันจะไป ฉันปฏิเสธที่จะทำงานกับแผ่นงานที่มีสูตร

ฉันยังบังคับให้ทุกคนที่ฉันทำงานด้วยเพื่อส่งมอบแผ่น EXCEL ในรูปแบบธรรมดาซึ่งหมายความว่า:

  • แถวแรกมีชื่อของตัวแปรต่าง ๆ
  • สเปรดชีตเริ่มต้นในเซลล์ A1
  • ข้อมูลทั้งหมดถูกใส่ในคอลัมน์โดยไม่ต้องมีการขัดจังหวะและไม่มีการจัดรูปแบบ
  • หากเป็นไปได้ข้อมูลจะถูกบันทึกในรูปแบบ. csv เช่นกัน การเขียนสคริปต์ VBA ไม่ใช่เรื่องยากที่จะดึงข้อมูลจัดรูปแบบใหม่และวางไว้ในไฟล์. csv นอกจากนี้ยังช่วยให้สามารถควบคุมเวอร์ชันได้ดีขึ้นเนื่องจากคุณสามารถทำการถ่ายโอนข้อมูล. csv ได้ทุกวัน

หากมีโครงสร้างทั่วไปที่ข้อมูลมีอยู่เสมอมันอาจเป็นการดีที่จะพัฒนาแม่แบบที่มีมาโคร VB พื้นฐานเพื่อเพิ่มข้อมูลและสร้างชุดข้อมูลสำหรับการวิเคราะห์ โดยทั่วไปแล้วจะหลีกเลี่ยงไม่ให้พนักงานทุกคนใช้ระบบจัดเก็บข้อมูล "อัจฉริยะ" ของตัวเองและช่วยให้คุณสามารถเขียนรหัสในการทำงานของสิ่งนี้

สิ่งนี้กล่าวว่าหากคุณสามารถโน้มน้าวให้ทุกคนใช้ SQL (และส่วนหน้าสำหรับการป้อนข้อมูล) คุณสามารถเชื่อมโยง R กับที่นั้นได้โดยตรง สิ่งนี้จะเพิ่มประสิทธิภาพอย่างมาก

โครงสร้างข้อมูลและการจัดการ

ตามกฎทั่วไปข้อมูลที่จัดเก็บในฐานข้อมูล (หรือแผ่น EXCEL ถ้ายืนยัน) ควรเป็นค่าต่ำสุดสัมบูรณ์ซึ่งหมายความว่าตัวแปรใด ๆ ที่สามารถคำนวณได้จากตัวแปรอื่น ๆ ไม่ควรมีอยู่ในฐานข้อมูล โปรดทราบว่าบางครั้งมันอาจเป็นประโยชน์ในการเก็บตัวแปรที่ได้มาหรือที่ถูกแปลงเช่นกันหากการคำนวณนั้นน่าเบื่อและใช้เวลานาน แต่สิ่งเหล่านี้ควรถูกเก็บไว้ในฐานข้อมูลแยกหากจำเป็นต้องเชื่อมโยงกับต้นฉบับ

ควรให้ความคิดกับสิ่งที่ถือเป็นกรณีหนึ่ง (และด้วยเหตุนี้หนึ่งแถว) เป็นตัวอย่างผู้คนมักจะผลิตอนุกรมเวลาโดยการสร้างตัวแปรใหม่สำหรับแต่ละจุดเวลา ในขณะที่สิ่งนี้เหมาะสมใน EXCEL การอ่านข้อมูลเหล่านี้ต้องการการพลิกกลับบางส่วนของเมทริกซ์ข้อมูล เหมือนกันสำหรับการเปรียบเทียบกลุ่ม: ควรมีตัวบ่งชี้กลุ่มหนึ่งตัวและหนึ่งตัวแปรตอบกลับไม่ใช่ตัวแปรตอบกลับสำหรับแต่ละกลุ่ม วิธีนี้โครงสร้างข้อมูลสามารถเป็นมาตรฐานได้เช่นกัน

สิ่งสุดท้ายที่ฉันพบบ่อยคือการใช้ตัวชี้วัดที่แตกต่างกัน ความยาวมีหน่วยเป็นเมตรหรือเซนติเมตรอุณหภูมิใน Celcius, Kelvin หรือ Farenheit, ... หนึ่งควรระบุในส่วนหน้าหรือเทมเพลตใด ๆ ที่หน่วยวัดตัวแปร

และแม้กระทั่งหลังจากสิ่งเหล่านี้คุณยังต้องการมีขั้นตอนการควบคุมข้อมูลก่อนที่จะเริ่มการวิเคราะห์ อีกครั้งนี่อาจเป็นสคริปต์ใด ๆ ที่ทำงานทุกวัน (เช่นข้ามคืน) ในรายการใหม่และแจ้งปัญหาทันที (นอกประเภทผิดประเภทฟิลด์ที่ขาดหายไป ... ) เพื่อให้สามารถแก้ไขได้โดยเร็วที่สุด หากคุณต้องกลับไปที่รายการที่ทำเมื่อ 2 เดือนก่อนเพื่อค้นหาว่ามีอะไรผิดปกติและทำไมคุณควรได้รับ "ทักษะ Sherlock" ที่ดีเพื่อแก้ไขให้ถูกต้อง

2 เซ็นต์ของฉัน


บางจุดที่น่าสนใจมากที่นี่ การชักชวนให้คนทำให้สเปรดชีตของพวกเขาง่ายขึ้นและทำให้เป็นมาตรฐานมีแนวโน้มที่จะประสบความสำเร็จมากกว่าการทิ้งให้ นอกจากนี้ฉันไม่ทราบว่าการควบคุมเวอร์ชันสามารถทำงานร่วมกับ Excel ได้ ดีที่รู้.
Richie Cotton

2
เกี่ยวกับคำแนะนำที่จะไม่เก็บตัวแปรซ้ำซ้อน: สิ่งนี้เหมาะสำหรับ RDBMS แต่ฉันอยากจะแนะนำว่าควรสนับสนุนสิ่งตรงกันข้ามให้กับสเปรดชีต กลไกหลังในการตรวจจับและแก้ไขข้อผิดพลาดนั้นมีแนวโน้มที่จะเกิดข้อผิดพลาด หนึ่งในดีที่สุดประกอบด้วยข้อมูลที่ซ้ำซ้อนเช่นเขตข้อมูลที่คำนวณและสรุปสถิติ ตัวอย่างเช่นถ้าคอลัมน์ C เป็นอัตราส่วนของคอลัมน์ A และ B ดังนั้นข้อผิดพลาดในคอลัมน์เดียวในแถวใดก็ตามที่สามารถตรวจพบได้และมักจะได้รับการแก้ไข
whuber

1
@whuber: นั่นคือสิ่งที่เราตรวจสอบในขั้นตอนการควบคุมข้อมูล คุณสามารถใช้คอลัมน์พิเศษนั้นเพื่อตรวจสอบอย่างรวดเร็ว แต่คุณไม่ควรเก็บไว้ในแผ่นงานสุดท้าย สูตรในสเปรดชีตเป็นเรื่องสยองขวัญและยิ่งสเปรดชีตยิ่งใหญ่ก็ยิ่งยากที่จะนำข้อมูลออกมา นอกจากนี้ในกรณีของ Excel คุณจะต้องต่อสู้กับความแตกต่างระหว่าง. xls และ. xlsx อยู่ดี ตรวจสอบให้แน่ใจว่าการตัดสินใจของผู้จัดการเพื่ออัปเดต Microsoft Office สามารถทำลายโค้ดได้มากมายหากคุณต้องพึ่งพาไฟล์ excel อย่างมาก ดังนั้น: บันทึกเป็น csv และเก็บไฟล์ csv เหล่านี้ให้เล็กที่สุดเท่าที่จะทำได้
Joris Meys

หลังจากใช้เวลาส่วนสำคัญในช่วง 24 ปีที่ผ่านมาในอาชีพของฉันในการรับมือกับข้อมูลที่ส่งผ่านสเปรดชีตและจัดการฐานข้อมูลจำนวนมากฉันต้องไม่เห็นด้วยอย่างเคารพ ไม่มีสิ่งเช่น "การควบคุม" เหนือสเปรดชีต (ไม่ว่าจะเป็น. xls, .xlsx, .wks, .wb *, ฯลฯ ) หรือแม้กระทั่งไฟล์ csv การปรากฏตัวของข้อมูลที่ซ้ำซ้อนในไฟล์ดังกล่าว - แม้ว่าพวกเขาจะมีเฉพาะในรูปแบบที่พิมพ์ - มีการกู้คืนฐานข้อมูลขนาดใหญ่พอสมควรบางส่วน (100k + บันทึก) หลายครั้ง ทุกครั้งที่สิ่งนี้เกิดขึ้นฉัน (และลูกค้าของฉัน) ได้ขอบคุณสำหรับความซ้ำซ้อน
whuber

@whuber: เราทำการควบคุมข้อมูลด้วยสคริปต์พิเศษโดยมองหาค่า / ค่าผิดปกติ / กรณีที่เป็นไปไม่ได้ นั่นคือสิ่งที่ฉันหมายถึงด้วยขั้นตอนการควบคุมข้อมูล นี่คือมาตรฐานอุตสาหกรรม btw ใน บริษัท เช่น SGS และอื่น ๆ ที่ทำการวิเคราะห์การทดลองทางคลินิก ฯลฯ ข้อมูลซ้ำซ้อนที่จำเป็นจะถูกเก็บไว้ในฐานข้อมูลแยกต่างหาก หากหนึ่งในพวกเขาล้มเหลวอื่น ๆ ที่จำเป็นสำหรับการฟื้นคืนชีพ ในกรณีที่คุณไม่ได้มีระบบการสำรองข้อมูลที่ดีนั่นคือ ...
Joris MEYS

3

VisTrails: งูหลามตามทางวิทยาศาสตร์กระบวนการทำงานและระบบ การพูดคุยครั้งนี้ที่ PyCon 2010 มีความคิดที่ดี ควรฟังแม้ว่าคุณจะไม่สนใจใช้ VisTrails หรือ python ในที่สุดฉันคิดว่าถ้าคุณจะต้องการให้มีวิธีเอกสารที่ชัดเจนในการทำซ้ำข้อมูล และต้องการการตรวจสอบที่พวกเขาสามารถทำได้

พิเศษ:

"ในการพูดคุยนี้เราจะให้ภาพรวมของ VisTrails ( http://www.vistrails.org ) ซึ่งเป็นกระบวนการทางวิทยาศาสตร์แบบโอเพนซอร์ซที่ใช้งูเหลือมซึ่งเป็นแหล่งข้อมูลที่ชัดเจน (เช่นเชื้อสาย) ของผลิตภัณฑ์ข้อมูลและกระบวนการที่ใช้ เพื่อให้ได้มาซึ่งผลิตภัณฑ์เหล่านี้เราจะแสดงให้เห็นว่า VisTrails สามารถใช้ในการปรับปรุงการสำรวจข้อมูลและการมองเห็นได้อย่างไรโดยใช้ตัวอย่างจริงเราจะสาธิตคุณสมบัติหลักของระบบรวมถึงความสามารถในการสร้างท่อส่งข้อมูลที่รวมเครื่องมือต่างๆ VTK, pylab และ matplotlib นอกจากนี้เรายังจะแสดงให้เห็นว่า VisTrails ใช้ประโยชน์จากข้อมูลที่มาไม่เพียงเพื่อรองรับการทำซ้ำของผลลัพธ์ แต่ยังทำให้การสร้างและการปรับแต่งของท่อทำได้ง่ายขึ้นด้วย "


Python ไม่แพร่หลายในองค์กรของเรา แต่ดูเหมือนว่าเป็นโครงการที่น่าสนใจ ฉันจะดูว่าฉันสามารถหยิกความคิดบางอย่างเกี่ยวกับสิ่งที่ควรทำจากเอกสารของพวกเขา
Richie Cotton

2

ฉันเพิ่งมาข้ามเว็บเพจนี้เจ้าภาพโดย ICPSR ในแผนการจัดการข้อมูล แม้ว่าฉันคิดว่าเป้าหมายของ ICPSR จะค่อนข้างแตกต่างจากธุรกิจของคุณ (เช่นพวกเขามีความสนใจอย่างมากในการทำให้ข้อมูลสามารถเผยแพร่ได้อย่างง่ายดายโดยไม่ละเมิดความลับ) ฉันคิดว่าพวกเขามีข้อมูลที่เป็นประโยชน์ต่อธุรกิจ คำแนะนำโดยเฉพาะอย่างยิ่งในการสร้างข้อมูลเมตาดูเหมือนว่าฉันจะเป็นสากล


2

ในกรณีที่มีขนาดเล็กกว่ามากฉันพบว่าการใช้ dropbox fora sharing / ซิงค์สำเนาของไฟล์ข้อมูล (และสคริปต์และผลลัพธ์) กับนักวิจัย / ผู้ทำงานร่วมกันคนอื่น ๆ (ฉันเขียนถึงที่นี่ )

เครื่องมืออื่น ๆ ที่ฉันใช้คือ Google เอกสารสำหรับการรวบรวมและแบ่งปันข้อมูล (ซึ่งฉันเขียนไว้ที่นี่ )


0

Dropbox + packratเหมาะสำหรับการแชร์ไฟล์ด้วยการสำรองข้อมูล / การกำหนดเวอร์ชัน

จากนั้นคุณโหลดไฟล์เหล่านั้น (หลังจาก canonicalization / massage อัตโนมัติ) ลงในฐานข้อมูลและทำการวิเคราะห์ข้อมูลที่ถูกลบทิ้ง วางสคริปต์เพื่อทำให้วงจร Extract-Transform-Load เป็นอัตโนมัติภายใต้การควบคุมเวอร์ชัน (หรืออย่างน้อยก็โฟลเดอร์ดรอปบ็อกซ์แยกต่างหากพร้อมตัวเลือก packrat ... )

เมื่อเซิร์ฟเวอร์ฐานข้อมูลของคุณล้มเหลวในที่สุด (หรือจำเป็นต้องมีเศษหรืออะไรก็ตาม) คุณมีขั้นตอนการย้ายข้อมูลจากมิตรต่อผู้คน (Excel, แบบฟอร์มบนเว็บและอื่น ๆ ) ไปจนถึงการวิเคราะห์ที่เป็นมิตร

เฟส "ETL" นั้นมาจากคลังข้อมูล และหากคุณไม่ได้สร้างระบบประมวลผลธุรกรรมออนไลน์คุณอาจกำลังสร้างคลังข้อมูล ดังนั้นจงยอมรับและใช้ประโยชน์จากสิ่งที่ผู้คนเรียนรู้จากการสร้างสิ่งเหล่านั้นในช่วง 30 ปีที่ผ่านมา

มีความสุข.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.