มันเป็นเพียงการรวมจุดข้อมูล? หรือมันคือการเป็นตัวแทนของจุดข้อมูลสำหรับองค์ประกอบที่แตกต่างกันในรูปแบบตารางจัดเรียงกับค่าของตัวแปรที่แตกต่างกันอย่างไร มันแตกต่างจากข้อมูลดิบอย่างไร
มันเป็นเพียงการรวมจุดข้อมูล? หรือมันคือการเป็นตัวแทนของจุดข้อมูลสำหรับองค์ประกอบที่แตกต่างกันในรูปแบบตารางจัดเรียงกับค่าของตัวแปรที่แตกต่างกันอย่างไร มันแตกต่างจากข้อมูลดิบอย่างไร
คำตอบ:
จากประสบการณ์ของฉัน "ชุดข้อมูล" (หรือ "ชุดข้อมูล") เป็นคำที่ไม่เป็นทางการที่อ้างถึงการรวบรวมข้อมูล โดยทั่วไปชุดข้อมูลจะมีตัวแปรมากกว่าหนึ่งตัวและเกี่ยวข้องกับหัวข้อเดียว มีแนวโน้มที่จะเกี่ยวข้องกับตัวอย่างเดียว
ข้อผิดพลาดที่ฉันมักจะเห็นผู้เขียนคำถามที่ตรวจสอบข้ามทำคือการใช้ "ชุดข้อมูล" เป็นคำพ้องสำหรับ "ตัวแปร" หรือ "เวกเตอร์"
ฉันคิดว่าWikipediaทำงานได้ดีในการกำหนด:
โดยทั่วไปชุดข้อมูลจะสอดคล้องกับเนื้อหาของตารางฐานข้อมูลเดียวหรือเมทริกซ์ข้อมูลสถิติเดียวโดยที่ทุกคอลัมน์ในตารางแสดงตัวแปรเฉพาะและแต่ละแถวสอดคล้องกับสมาชิกของชุดข้อมูลที่เป็นปัญหา ชุดข้อมูลแสดงรายการค่าสำหรับตัวแปรแต่ละตัวเช่นความสูงและน้ำหนักของวัตถุสำหรับสมาชิกแต่ละคนของชุดข้อมูล แต่ละค่าเรียกว่า datum ชุดข้อมูลอาจประกอบด้วยข้อมูลสำหรับสมาชิกหนึ่งคนขึ้นไปที่สอดคล้องกับจำนวนแถว
คำว่าชุดข้อมูลอาจใช้อย่างอิสระมากขึ้นเพื่ออ้างถึงข้อมูลในชุดของตารางที่เกี่ยวข้องอย่างใกล้ชิดซึ่งสอดคล้องกับการทดสอบหรือเหตุการณ์เฉพาะ ตัวอย่างของประเภทนี้คือชุดข้อมูลที่รวบรวมโดยหน่วยงานอวกาศทำการทดลองด้วยเครื่องมือต่าง ๆ ในยานอวกาศ
ในระเบียบวินัยการเปิดข้อมูลชุดข้อมูลเป็นหน่วยวัดข้อมูลที่เผยแพร่ในที่เก็บข้อมูลสาธารณะแบบเปิด การรวมพอร์ทัลยุโรปเปิดดาต้ารวมมากกว่าครึ่งล้านชุดข้อมูล ในสาขานี้ได้มีการเสนอคำจำกัดความอื่น ๆ แต่ปัจจุบันยังไม่มีคำจำกัดความอย่างเป็นทางการ ปัญหาอื่น ๆ บางอย่าง (แหล่งข้อมูลตามเวลาจริงชุดข้อมูลที่ไม่เกี่ยวข้อง ฯลฯ ) เพิ่มความยากในการเข้าถึงฉันทามติเกี่ยวกับมัน
อย่างที่คุณเห็นคำว่าค่อนข้างคลุมเครือ
ฉันคิดว่าคุณอาจจำเป็นต้องกำหนดจุดข้อมูลก่อนที่คุณจะสามารถกำหนดชุดข้อมูล : เหตุใดจึงเป็นหนึ่งดั้งเดิมและไม่ต้องการคำนิยาม แต่ไม่ใช่ในทางกลับกัน
อย่างน้อยสองคำจำกัดความทำให้รู้สึกถึงฉัน:
การสังเกตอย่างน้อยหนึ่งครั้ง (กรณีบันทึกแถว) สำหรับตัวแปรอย่างน้อยหนึ่งตัว (เขตข้อมูลคอลัมน์)
สิ่งใดก็ตามที่เก็บไว้เป็นข้อมูลภายในไฟล์ที่โปรแกรมอ่านเลือกได้
เค้าโครงตารางเป็นเรื่องธรรมดา แต่ฉันไม่คิดว่ามันเป็นส่วนหนึ่งของคำนิยามใด ๆ วิธีการจัดเก็บข้อมูลสามารถมีความสำคัญในทางปฏิบัติตามธรรมชาติ
ป.ล. คำว่า "รูปแบบ" มีการใช้งานมากจนเกินไปสำหรับฉันแล้ว ฉันเคยเห็นมันใช้สำหรับ
ข้อความทั่วไปหรือรูปแบบไฟล์ไบนารีหรือเฉพาะ
โครงสร้างข้อมูลเช่นตารางหรืออื่น ๆ
การจัดเก็บข้อมูลหรือประเภทตัวแปรเช่นบิตจำนวนเต็มจริงตัวละคร
แสดงรูปแบบการควบคุมการนำเสนอเช่นรายละเอียดเกี่ยวกับจำนวนทศนิยม จอแสดงผลทศนิยมฐานสิบหกหรือเลขฐานสอง
มีคำตอบที่ดีอยู่แล้วที่นี่และฉันไม่คิดว่าฉันสามารถเจาะลึกกว่า Nick Cox หรือ Franck Dernoncourt ปัญหาว่า "ชุดข้อมูล" หมายถึงการรวบรวมแนวคิดของข้อมูลที่เกี่ยวข้องหรือการจัดเรียงข้อมูลเหล่านั้นโดยเฉพาะเช่น ตาราง / เมทริกซ์หรือไฟล์ที่คอมพิวเตอร์อ่านได้ สารสกัดของฟร๊อคกล่าวถึงกรณีขอบเช่นข้อมูลที่รวบรวมอย่างต่อเนื่องหรือข้อมูลแผ่กระจายไปทั่วหลายตารางซึ่งควรคำนึงถึงหากคุณคิดว่าจะมีคำจำกัดความง่ายๆ (ไม่ใช่ซอฟต์แวร์สถิติทั้งหมดที่สามารถจัดการได้ แต่เป็นเรื่องง่ายมากที่จะจินตนาการถึงกรณีที่ข้อมูลถูกเก็บไว้ในฐานข้อมูลเชิงสัมพันธ์ที่มีหลายตารางฐานข้อมูลทั้งหมดเป็น "ชุดข้อมูล" เดียวหรือไม่)
สิ่งหนึ่งที่ฉันจะเพิ่มคือชุดข้อมูลที่ไม่ได้ตั้งค่าโดยทั่วไปในแง่คณิตศาสตร์! Sensu เข้มงวดทั้งชุดมีวัตถุหรือไม่ แต่ไม่สามารถมีมากกว่าหนึ่งสำเนาของวัตถุนั้น ถ้าผมม้วนตายแปดครั้งและคะแนนที่ 1, 4, 3, 5, 5, 4, 6, 4 แล้วชุดของคะแนนรีดเป็นเพียง {1, 3, 4, 5, 6} โปรดทราบว่าองค์ประกอบอาจอยู่ในลำดับใด ๆ ฉันเพิ่งเขียนพวกเขาขึ้นในมูลค่า แต่ชุด {5, 4, 1, 6, 3} เป็นทางคณิตศาสตร์เท่ากับมันเช่น นี่ไม่ใช่สิ่งที่เรามักจะหมายถึงโดยชุดข้อมูล!
แต่เวกเตอร์เป็นเพียงการบันทึกตัวแปรเดียว - สำหรับหลาย ๆ คนมันอาจจะสะดวกกว่าที่จะใช้เมทริกซ์เพื่อจัดระเบียบด้วยการรักษาลำดับ สำหรับสถานการณ์ที่ซับซ้อนมากขึ้นเช่นการวัดคุณสมบัติของตารางvoxelsสามมิติเมื่อเวลาผ่านไปคุณอาจเลื่อนขึ้นเพื่อจัดเรียงข้อมูลในเมตริกซ์ (ดูตัวอย่างเช่นคำถามนี้ )
แต่โปรดทราบว่าแนวคิดมัลติเซ็ตอาจพอเพียงในสถานการณ์ที่ง่ายที่สุดแม้ว่าจะไม่สะดวกสำหรับการใช้งานจริง หากฉันโยนเหรียญพร้อมกันโดยหมุนคนตายและต้องการบันทึกผลลัพธ์ทั้งสองเข้าด้วยกันฉันก็สามารถใช้ชุดมัลติเซตเช่น {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} แทนเมทริกซ์ ชุดธรรมดาจะไม่พอเพียงเพราะมันจะไม่นับความซ้ำซ้อนของ (4, H) เป็นต้น