แนวทางปฏิบัติที่ดีที่สุดสำหรับการสร้าง 'ข้อมูลที่เป็นระเบียบ'


12

Hadley Wickham เขียนบทความที่เป็นตัวเอกเรียกว่า "Tidy Data" ( ลิงก์ ) ใน JSS เมื่อปีที่แล้วเกี่ยวกับการจัดการข้อมูลและการนำข้อมูลเข้าสู่สภาพ "เหมาะสม" เพื่อทำการวิเคราะห์ อย่างไรก็ตามฉันสงสัยว่าวิธีปฏิบัติที่ดีที่สุดในแง่ของการนำเสนอข้อมูลแบบตารางในการทำงานคืออะไร สมมติว่าผู้ร่วมงานของคุณขอให้คุณให้ข้อมูลบางอย่างแก่เขา มีกฎทั่วไปอะไรบ้างที่คุณใช้เมื่อจัดโครงสร้างข้อมูลนั้น แนวทางใน "Tidy Data" ใช้ได้กับกรณีที่คุณแบ่งปันข้อมูลกับผู้เชี่ยวชาญที่ไม่ใช่ข้อมูลหรือไม่ เห็นได้ชัดว่านี่เป็นบริบทเฉพาะมาก แต่ฉันถามเกี่ยวกับ 'แนวทางปฏิบัติที่ดีที่สุด' ในระดับสูง


บทความนี้ยังไม่ได้เผยแพร่ (ยัง) ในวารสารซอฟต์แวร์สถิติ
Nick Cox

3
ดูเหมือนว่าแท็ก R ไม่จำเป็นที่นี่ คำถามอยู่เหนือตัวเลือกซอฟต์แวร์โดยเฉพาะ
Nick Cox

คำตอบ:


10

ตามที่คาดหวังจาก Hadley บทความของเขามีคำจำกัดความที่ดีของข้อมูลที่เป็นระเบียบและฉันเห็นด้วยกับเกือบทุกอย่างในบทความของเขาและเชื่อว่ามันไม่เพียงถูกต้องกับ "ผู้เชี่ยวชาญด้านข้อมูล" อย่างไรก็ตามบางประเด็นที่เขาทำนั้นค่อนข้างง่ายต่อการแก้ไข (เช่นกับแพ็คเกจที่เขาแต่งขึ้น) หากหลีกเลี่ยงปัญหาพื้นฐานเพิ่มเติมบางอย่าง ปัญหาเหล่านี้ส่วนใหญ่เป็นผลมาจากการใช้งาน Excel อย่างกว้างขวาง Excel เป็นเครื่องมือที่มีค่าและมีข้อดี แต่สิ่งอำนวยความสะดวกบางอย่างส่งผลให้เกิดปัญหาสำหรับนักวิเคราะห์ข้อมูล

บางจุด (จากประสบการณ์ของฉัน):

  1. บางคนชอบสเปรดชีตที่มีสีสันและใช้ประโยชน์จากตัวเลือกการจัดรูปแบบมากมาย นี่เป็นเรื่องปกติถ้ามันช่วยให้พวกเขาจัดระเบียบข้อมูลและเตรียมตารางสำหรับการนำเสนอ อย่างไรก็ตามมันอันตรายหากสีของเซลล์เข้ารหัสข้อมูลจริง มันง่ายที่จะสูญเสียข้อมูลนี้และยากมากที่จะนำข้อมูลดังกล่าวไปสู่ซอฟต์แวร์ทางสถิติ (เช่นดูคำถามนี้ใน Stack Overflow)
  2. บางครั้งฉันได้รับข้อมูลที่จัดรูปแบบมาอย่างดี (หลังจากที่ฉันบอกผู้คนถึงวิธีการเตรียมข้อมูล) แต่ถึงแม้จะขอให้พวกเขาใช้คอลัมน์เฉพาะหรือไฟล์แยกต่างหากสำหรับความคิดเห็นพวกเขาตัดสินใจที่จะใส่ความคิดเห็นลงในคอลัมน์ค่า ฉันไม่เพียงต้องจัดการกับคอลัมน์นี้ด้วยวิธีพิเศษเมื่อนำเข้าข้อมูล แต่ปัญหาหลักคือฉันจะต้องเลื่อนดูตารางทั้งหมดเพื่อดูความคิดเห็นดังกล่าว (ซึ่งฉันมักจะไม่ทำ) สิ่งนี้ยิ่งแย่ลงถ้าพวกเขาใช้สิ่งอำนวยความสะดวกการแสดงความคิดเห็นของ Excel
  3. สเปรดชีตที่มีหลายตารางในนั้นบรรทัดส่วนหัวหลายเซลล์หรือเซลล์ที่เชื่อมต่อส่งผลให้ทำงานด้วยตนเองเพื่อเตรียมพวกเขาสำหรับการนำเข้าในซอฟต์แวร์ทางสถิติ นักวิเคราะห์ข้อมูลที่ดีมักจะไม่ชอบงานประเภทนี้
  4. ไม่เคยซ่อนคอลัมน์ใน Excel หากไม่ต้องการให้ลบออก หากพวกเขาต้องการแสดงพวกเขา
  5. xls และผู้สืบทอดนั้นไม่ใช่รูปแบบไฟล์ที่เหมาะสมสำหรับการแลกเปลี่ยนข้อมูลกับผู้อื่นหรือเก็บถาวร สูตรได้รับการอัปเดตเมื่อเปิดไฟล์และ Excel เวอร์ชันอื่นอาจจัดการกับไฟล์ต่างกัน ฉันแนะนำไฟล์ CSV ง่าย ๆ แทนเนื่องจากซอฟต์แวร์ที่เกี่ยวข้องกับข้อมูลเกือบทั้งหมดสามารถนำเข้าไฟล์นั้น (แม้แต่ Excel) และสามารถคาดว่าไฟล์นั้นจะไม่เปลี่ยนแปลงในไม่ช้า อย่างไรก็ตามโปรดทราบว่า Excel จะปัดเศษเป็นตัวเลขที่มองเห็นได้เมื่อบันทึกเป็น CSV (ซึ่งเป็นการละทิ้งความแม่นยำ)
  6. หากคุณต้องการทำให้ชีวิตง่ายขึ้นสำหรับผู้อื่นโปรดปฏิบัติตามหลักการที่ระบุไว้ในบทความของ Hadley มีคอลัมน์ค่าสำหรับแต่ละตัวแปรและคอลัมน์ปัจจัยที่กำหนดชั้น

อาจมีหลายจุดเพิ่มเติมที่ไม่ได้อยู่ในใจของฉัน


1
"ไม่ต้องซ่อนคอลัมน์ใน Excel ถ้าไม่จำเป็นให้ลบออกถ้าจำเป็นให้แสดงคอลัมน์เหล่านั้น" ฉันไม่เห็นด้วยกับสิ่งนี้ ข้อมูล / เขตข้อมูลที่ซ่อนอยู่เป็นปัญหา แต่การลบคอลัมน์ข้อมูลอาจกลายเป็นกระบวนการที่ไม่สามารถย้อนกลับได้ด้วยสเปรดชีต ฉันขอแนะนำให้เก็บคอลัมน์ไว้เพราะการซ่อน / การกรองกับพวกมันนั้นง่ายมาก โดยเฉพาะอย่างยิ่งเมื่อเทียบกับการย้อนกลับการลบ
Dan Nguyen

7

ประการแรกฉันมักจะเป็นคนที่ได้รับข้อมูล ดังนั้นนี่อาจเป็นรายการที่ฉันต้องการ

  • จุดที่สำคัญที่สุดของฉันคือ: พูดคุยกับคนที่จะวิเคราะห์ข้อมูล

  • ฉันเหลือบไปที่กระดาษอย่างรวดเร็ว: สิ่งที่ Hadley เขียนสามารถสรุปได้โดย 'ทำให้ฐานข้อมูลเชิงสัมพันธ์ของคุณเป็นปกติ'

  • แต่เขายังกล่าวด้วยว่าขึ้นอยู่กับสิ่งที่เกิดขึ้นจริงมันมีเหตุผลที่จะมีตัวแปรเดียวกันไม่ว่าจะเป็นแบบยาวหรือแบบกว้าง

    นี่เป็นตัวอย่าง: ฉันจัดการกับ spectra จากมุมมองทางกายภาพ / สเปคโทรสโกปีของสเปกตรัมคือเช่นความเข้มของแสงเป็นฟังก์ชันของความยาวคลื่น : I = f (λ) สำหรับเหตุผลทางกายภาพฟังก์ชั่นนี้ต่อเนื่อง (และ differentiable อย่างต่อเนื่อง) การแยกส่วนสำหรับเกิดขึ้นเพียงเพื่อเหตุผลในทางปฏิบัติ (เช่นคอมพิวเตอร์ดิจิตอล, เครื่องมือวัด) สิ่งนี้จะชี้ให้เห็นอย่างชัดเจนในแบบยาว อย่างไรก็ตามเครื่องมือของฉันวัดแตกต่างกันในช่องสัญญาณที่แตกต่างกัน (ของ CCD / สายตรวจจับหรืออาร์เรย์) การวิเคราะห์ข้อมูลยังถือว่าแต่ละเป็นตัวแปร ที่จะเป็นที่โปรดปรานของรูปแบบกว้างIλλiλiλi

  • อย่างไรก็ตามมีข้อได้เปรียบในทางปฏิบัติบางประการสำหรับการแสดง / กระจายข้อมูลที่ไม่ได้มาตรฐาน:

    • มันอาจจะเป็นเรื่องง่ายที่จะตรวจสอบว่าข้อมูลที่สมบูรณ์

    • ตารางที่เชื่อมต่อเช่นเดียวกับในฐานข้อมูลเชิงสัมพันธ์ที่ปกติจะใช้ได้ถ้าข้อมูลอยู่ในฐานข้อมูล (ในแง่ของซอฟต์แวร์) ที่นั่นคุณสามารถใส่ข้อ จำกัด เพื่อให้แน่ใจว่าสมบูรณ์ หากมีการแลกเปลี่ยนข้อมูลในรูปแบบของหลายตารางในทางปฏิบัติลิงก์จะเป็นระเบียบ

    • การปรับสภาพฐานข้อมูลจะลบความซ้ำซ้อน ในชีวิตจริงของห้องปฏิบัติการจะใช้การตรวจสอบซ้ำซ้อนเพื่อตรวจสอบความสมบูรณ์
      ข้อมูลที่ซ้ำซ้อนจึงไม่ควรลบเร็วเกินไป

    • ขนาดหน่วยความจำ / ดิสก์ดูเหมือนว่าจะมีปัญหาน้อยลงในปัจจุบัน แต่ปริมาณของข้อมูลที่เครื่องมือของเราผลิตเพิ่มขึ้น

      ฉันทำงานกับเครื่องมือที่สามารถผลิตข้อมูลคุณภาพสูง 250 GB ได้อย่างง่ายดายภายในไม่กี่ชั่วโมง 250 GB เหล่านั้นอยู่ในรูปแบบอาร์เรย์ การขยายแบบฟอร์มนี้เป็นแบบยาวจะทำให้เกิดปัจจัยอย่างน้อย 4: แต่ละส่วนข้อมูลมิติ (ด้านข้าง x และ y และความยาวคลื่นλ) จะกลายเป็นคอลัมน์บวกหนึ่งคอลัมน์สำหรับความเข้ม) นอกจากนี้ขั้นตอนแรกของฉันในระหว่างการวิเคราะห์ข้อมูลมักจะส่งข้อมูลแบบยาวปกติกลับสู่รูปแบบสเปกตรัมกว้าง

    • โดยปกติแล้วการวิเคราะห์ข้อมูลจะต้องมีรูปแบบเฉพาะ นี่คือเหตุผลที่ฉันแนะนำให้พูดคุยกับคนที่จะวิเคราะห์ข้อมูล
  • งานจัดระเบียบที่ได้รับการจัดการโดยจุดมาตรฐานเหล่านี้น่าเบื่อและไม่ใช่งานที่ดี อย่างไรก็ตามในทางปฏิบัติฉันมักจะใช้เวลามากขึ้นในการจัดระเบียบด้านอื่น ๆ

    • การตรวจสอบให้แน่ใจว่าความสมบูรณ์และความสมบูรณ์ของข้อมูลในทางปฏิบัติเป็นส่วนใหญ่ของงานจัดเก็บข้อมูลของฉัน

    • ข้อมูลไม่อยู่ในรูปแบบที่อ่านได้ง่าย / สลับระหว่างรูปแบบที่แตกต่างกันเล็กน้อย:

      ฉันได้รับข้อมูลจำนวนมากในรูปแบบของไฟล์จำนวนมากและโดยปกติข้อมูลบางอย่างจะถูกเก็บไว้ในชื่อไฟล์และ / หรือเส้นทาง: ซอฟต์แวร์เครื่องมือและ / หรือรูปแบบไฟล์ที่ผลิตไม่อนุญาตให้เพิ่มข้อมูลในลักษณะที่สอดคล้องดังนั้นเราจึง อาจมีตารางเพิ่มเติม (เช่นในฐานข้อมูลเชิงสัมพันธ์) ที่เชื่อมโยงข้อมูลเมตากับชื่อไฟล์หรือชื่อไฟล์เข้ารหัสข้อมูลสำคัญ

      เปลี่ยนรูปแบบหรือเปลี่ยนแปลงเล็กน้อยในรูปแบบของชื่อไฟล์ทำให้เกิดปัญหามากมายที่นี่

    • จัดเก็บจากมุมมองของการวัด: กำจัดการตรวจวัดที่ผิดพลาด (มักเกิดจากกระบวนการทางกายภาพที่รู้จักกันเช่นมีคนเปิดสวิตช์แสงโดยบังเอิญโดยบังเอิญรังสีคอสมิกชนกับเครื่องตรวจจับการเลื่อนเฟรมของกล้อง ... )

2
+1 สำหรับจุดแรกของคุณ นั่นไม่เพียง แต่เป็นคำแนะนำที่ดีสำหรับการบันทึกและถ่ายโอนข้อมูล แต่ควรส่งผลให้เกิดข้อเสนอแนะเกี่ยวกับการออกแบบการทดลองหรือการตรวจสอบ
Roland
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.