"ชุดข้อมูล" มีความหมายอะไรกันแน่?


10

มันเป็นเพียงการรวมจุดข้อมูล? หรือมันคือการเป็นตัวแทนของจุดข้อมูลสำหรับองค์ประกอบที่แตกต่างกันในรูปแบบตารางจัดเรียงกับค่าของตัวแปรที่แตกต่างกันอย่างไร มันแตกต่างจากข้อมูลดิบอย่างไร


คุณหมายถึงอะไรโดย "จุดข้อมูล" คุณคาดหวังว่ามันจะเป็น 2D อย่างน้อย? อนุกรมเวลาหรือชุดคะแนนสอบสามารถเป็นชุดข้อมูล อย่างน้อยสิ่งเหล่านั้นอาจเป็นอนุกรมในตัวแปรเดียวอาจไม่มีเลเบลแถว ตามคำตอบโดย @FranckDernoncourt
smci

1
ฉันแค่คิดว่ามันเป็นชุดของข้อมูล นั่นเป็นวิธีที่ฉันใช้คำอย่างแน่นอน ฉันไม่คิดว่าจะมีสิ่งนี้มากเกินไป ไม่ว่าจะเป็นข้อมูลที่ "ดิบ" หรือประมวลผลล่วงหน้าหรือทำความสะอาด ฯลฯ เป็นมุมฉาก
gung - Reinstate Monica

คำตอบ:


9

จากประสบการณ์ของฉัน "ชุดข้อมูล" (หรือ "ชุดข้อมูล") เป็นคำที่ไม่เป็นทางการที่อ้างถึงการรวบรวมข้อมูล โดยทั่วไปชุดข้อมูลจะมีตัวแปรมากกว่าหนึ่งตัวและเกี่ยวข้องกับหัวข้อเดียว มีแนวโน้มที่จะเกี่ยวข้องกับตัวอย่างเดียว

ข้อผิดพลาดที่ฉันมักจะเห็นผู้เขียนคำถามที่ตรวจสอบข้ามทำคือการใช้ "ชุดข้อมูล" เป็นคำพ้องสำหรับ "ตัวแปร" หรือ "เวกเตอร์"


3
ตกลงบนชุดข้อมูลเทียบกับตัวแปรหรือเวกเตอร์ อย่าให้ฉันเริ่มจาก "ข้อมูล" ใน "ฉันมีข้อมูล" ในทางกลับกัน "ฉันมีชุดข้อมูล" เป็นวิธีที่ยอดเยี่ยมที่จะไม่ทำให้ระคายเคืองไม่ว่าจะด้วยวิธีใดก็ตามไม่ว่าจะเป็นการกวนใจผู้ที่ยืนยันว่าข้อมูลนั้นเป็นพหูพจน์
Nick Cox

3
@NickCox ในสงครามไวยากรณ์เรื่อง "data" ฉันอยู่ในกลุ่มที่ได้รับความนิยมน้อยที่สุดซึ่งอ้างว่า "data" เป็นคำนามจำนวนมาก
ประสาทวิทยา

3
ฉันสงสัยว่าส่วนใหญ่ในขณะนี้และอีกอย่างยิ่งคิดว่ามันได้รับความนิยม
Nick Cox

8

ฉันคิดว่าWikipediaทำงานได้ดีในการกำหนด:

โดยทั่วไปชุดข้อมูลจะสอดคล้องกับเนื้อหาของตารางฐานข้อมูลเดียวหรือเมทริกซ์ข้อมูลสถิติเดียวโดยที่ทุกคอลัมน์ในตารางแสดงตัวแปรเฉพาะและแต่ละแถวสอดคล้องกับสมาชิกของชุดข้อมูลที่เป็นปัญหา ชุดข้อมูลแสดงรายการค่าสำหรับตัวแปรแต่ละตัวเช่นความสูงและน้ำหนักของวัตถุสำหรับสมาชิกแต่ละคนของชุดข้อมูล แต่ละค่าเรียกว่า datum ชุดข้อมูลอาจประกอบด้วยข้อมูลสำหรับสมาชิกหนึ่งคนขึ้นไปที่สอดคล้องกับจำนวนแถว

คำว่าชุดข้อมูลอาจใช้อย่างอิสระมากขึ้นเพื่ออ้างถึงข้อมูลในชุดของตารางที่เกี่ยวข้องอย่างใกล้ชิดซึ่งสอดคล้องกับการทดสอบหรือเหตุการณ์เฉพาะ ตัวอย่างของประเภทนี้คือชุดข้อมูลที่รวบรวมโดยหน่วยงานอวกาศทำการทดลองด้วยเครื่องมือต่าง ๆ ในยานอวกาศ

ในระเบียบวินัยการเปิดข้อมูลชุดข้อมูลเป็นหน่วยวัดข้อมูลที่เผยแพร่ในที่เก็บข้อมูลสาธารณะแบบเปิด การรวมพอร์ทัลยุโรปเปิดดาต้ารวมมากกว่าครึ่งล้านชุดข้อมูล ในสาขานี้ได้มีการเสนอคำจำกัดความอื่น ๆ แต่ปัจจุบันยังไม่มีคำจำกัดความอย่างเป็นทางการ ปัญหาอื่น ๆ บางอย่าง (แหล่งข้อมูลตามเวลาจริงชุดข้อมูลที่ไม่เกี่ยวข้อง ฯลฯ ) เพิ่มความยากในการเข้าถึงฉันทามติเกี่ยวกับมัน

อย่างที่คุณเห็นคำว่าค่อนข้างคลุมเครือ


และในการตั้งค่าการมองเห็นคอมพิวเตอร์ชุดข้อมูลอาจเป็นเพียงการรวบรวมภาพธรรมชาติและป้ายกำกับหรือคำอธิบายประกอบ
Sycorax พูดว่า Reinstate Monica

"ฐานข้อมูล * มีความหมายอย่างไร
ankit

@ankit CS ความหมายดั้งเดิมen.wikipedia.org/wiki/Database
Franck Dernoncourt

@Sycorax ใช่ฉันคิดว่าเราสามารถพิจารณาหนึ่งภาพ (หรือสัญญาณอื่น ๆ ) เป็นหนึ่งในฐานข้อมูลหยดในฐานข้อมูล
Franck Dernoncourt

7

ฉันคิดว่าคุณอาจจำเป็นต้องกำหนดจุดข้อมูลก่อนที่คุณจะสามารถกำหนดชุดข้อมูล : เหตุใดจึงเป็นหนึ่งดั้งเดิมและไม่ต้องการคำนิยาม แต่ไม่ใช่ในทางกลับกัน

อย่างน้อยสองคำจำกัดความทำให้รู้สึกถึงฉัน:

  1. การสังเกตอย่างน้อยหนึ่งครั้ง (กรณีบันทึกแถว) สำหรับตัวแปรอย่างน้อยหนึ่งตัว (เขตข้อมูลคอลัมน์)

  2. สิ่งใดก็ตามที่เก็บไว้เป็นข้อมูลภายในไฟล์ที่โปรแกรมอ่านเลือกได้

เค้าโครงตารางเป็นเรื่องธรรมดา แต่ฉันไม่คิดว่ามันเป็นส่วนหนึ่งของคำนิยามใด ๆ วิธีการจัดเก็บข้อมูลสามารถมีความสำคัญในทางปฏิบัติตามธรรมชาติ

ป.ล. คำว่า "รูปแบบ" มีการใช้งานมากจนเกินไปสำหรับฉันแล้ว ฉันเคยเห็นมันใช้สำหรับ

  1. ข้อความทั่วไปหรือรูปแบบไฟล์ไบนารีหรือเฉพาะ

  2. โครงสร้างข้อมูลเช่นตารางหรืออื่น ๆ

  3. การจัดเก็บข้อมูลหรือประเภทตัวแปรเช่นบิตจำนวนเต็มจริงตัวละคร

  4. แสดงรูปแบบการควบคุมการนำเสนอเช่นรายละเอียดเกี่ยวกับจำนวนทศนิยม จอแสดงผลทศนิยมฐานสิบหกหรือเลขฐานสอง


6

มีคำตอบที่ดีอยู่แล้วที่นี่และฉันไม่คิดว่าฉันสามารถเจาะลึกกว่า Nick Cox หรือ Franck Dernoncourt ปัญหาว่า "ชุดข้อมูล" หมายถึงการรวบรวมแนวคิดของข้อมูลที่เกี่ยวข้องหรือการจัดเรียงข้อมูลเหล่านั้นโดยเฉพาะเช่น ตาราง / เมทริกซ์หรือไฟล์ที่คอมพิวเตอร์อ่านได้ สารสกัดของฟร๊อคกล่าวถึงกรณีขอบเช่นข้อมูลที่รวบรวมอย่างต่อเนื่องหรือข้อมูลแผ่กระจายไปทั่วหลายตารางซึ่งควรคำนึงถึงหากคุณคิดว่าจะมีคำจำกัดความง่ายๆ (ไม่ใช่ซอฟต์แวร์สถิติทั้งหมดที่สามารถจัดการได้ แต่เป็นเรื่องง่ายมากที่จะจินตนาการถึงกรณีที่ข้อมูลถูกเก็บไว้ในฐานข้อมูลเชิงสัมพันธ์ที่มีหลายตารางฐานข้อมูลทั้งหมดเป็น "ชุดข้อมูล" เดียวหรือไม่)

สิ่งหนึ่งที่ฉันจะเพิ่มคือชุดข้อมูลที่ไม่ได้ตั้งค่าโดยทั่วไปในแง่คณิตศาสตร์! Sensu เข้มงวดทั้งชุดมีวัตถุหรือไม่ แต่ไม่สามารถมีมากกว่าหนึ่งสำเนาของวัตถุนั้น ถ้าผมม้วนตายแปดครั้งและคะแนนที่ 1, 4, 3, 5, 5, 4, 6, 4 แล้วชุดของคะแนนรีดเป็นเพียง {1, 3, 4, 5, 6} โปรดทราบว่าองค์ประกอบอาจอยู่ในลำดับใด ๆ ฉันเพิ่งเขียนพวกเขาขึ้นในมูลค่า แต่ชุด {5, 4, 1, 6, 3} เป็นทางคณิตศาสตร์เท่ากับมันเช่น นี่ไม่ใช่สิ่งที่เรามักจะหมายถึงโดยชุดข้อมูล!

x¯=1nΣผม=1nxผมx1x2

แต่เวกเตอร์เป็นเพียงการบันทึกตัวแปรเดียว - สำหรับหลาย ๆ คนมันอาจจะสะดวกกว่าที่จะใช้เมทริกซ์เพื่อจัดระเบียบด้วยการรักษาลำดับ สำหรับสถานการณ์ที่ซับซ้อนมากขึ้นเช่นการวัดคุณสมบัติของตารางvoxelsสามมิติเมื่อเวลาผ่านไปคุณอาจเลื่อนขึ้นเพื่อจัดเรียงข้อมูลในเมตริกซ์ (ดูตัวอย่างเช่นคำถามนี้ )

แต่โปรดทราบว่าแนวคิดมัลติเซ็ตอาจพอเพียงในสถานการณ์ที่ง่ายที่สุดแม้ว่าจะไม่สะดวกสำหรับการใช้งานจริง หากฉันโยนเหรียญพร้อมกันโดยหมุนคนตายและต้องการบันทึกผลลัพธ์ทั้งสองเข้าด้วยกันฉันก็สามารถใช้ชุดมัลติเซตเช่น {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} แทนเมทริกซ์ ชุดธรรมดาจะไม่พอเพียงเพราะมันจะไม่นับความซ้ำซ้อนของ (4, H) เป็นต้น


1
ฉันสามารถซื้อความคิดที่ว่าชุดข้อมูลเป็นชุดการสังเกตที่มีเพียงรอยย่นที่อาจต้องใช้ตัวระบุเพื่อทำให้ชัดเจน แต่คุณพูดถูกว่าความหมายตรงนี้คือระยะห่างจากในทฤษฎีเซต ขีดเส้นใต้ตามที่คุณบอกไว้ที่นี่ว่าลำดับของการสังเกตมักมีความสำคัญและมักจะได้รับเวลาหรือตัวแปรการสั่งซื้ออื่น ๆ แต่ไม่เสมอไป
Nick Cox

@NickCox (+1) แน่นอนสิ่งที่ฉันยังไม่พบเวลาหรือมากกว่านั้นเพื่อแสดงว่าการสังเกตมักจะมาพร้อมกับตัวระบุ - บางครั้งชั่วคราวบางครั้งตามสถานที่บางครั้งทั้งสอง เมื่อเราเข้ารหัสข้อมูลลงในเวกเตอร์เมทริกซ์หรือเทนเซอร์นั่นมักจะให้โครงสร้างที่เราต้องการโดยตรงและตัวบ่งชี้ที่ชัดเจน (เช่นดัชนีแบบฮาร์ดโค้ด) อาจแสดงผลโดยไม่จำเป็นโดยเฉพาะอย่างยิ่งถ้ามันเป็นเพียงคำสั่งหรือตำแหน่งสัมพัทธ์ ไม่ต้องสงสัยเลยว่ามีคำศัพท์ที่ถูกต้องทั้งหมดนี้
Silverfish

ฉันไม่มีปัญหา w / บอกว่าคำสั่งนั้นไม่สำคัญ มันไม่ได้มีตัวแปรเดี่ยว การสั่งซื้อมีความสำคัญเมื่อคุณมีค่า X ที่จับคู่กับ / พูดเวลาที่วัด แต่จากนั้นเราสามารถนึกถึงจุดที่เป็นหลายมิติและลำดับของชุดข้อมูลหลายมิตินั้นไม่สำคัญอีกต่อไป ฉันยังไม่มีปัญหา w / คิดว่ามีอยู่จริงหรือโดยนัยบ่งชี้ที่ทำให้สอง 5 ไม่ซ้ำกัน
gung - Reinstate Monica

@ gung ฉันคิดว่าชุดข้อมูลที่เวลาหรือลำดับอนุกรมโดยปริยาย ฉันบอกว่ามันเป็นวิธีปฏิบัติที่ไม่ดีและตอนนี้ไม่จำเป็นไม่ต้องมีตัวแปรการสั่งซื้อที่ชัดเจน แต่การขาดตัวแปรสั่งซื้อดังกล่าวไม่ได้ตัดสิทธิ์จากการเป็นชุดข้อมูล ในความเป็นจริงในทศวรรษที่ 1970 ฉันมักจะประมวลผลชุดข้อมูลเชิงพื้นที่ด้วยตัวระบุโดยนัยเพราะโปรแกรม Fortran ของฉันเองทำให้โปรแกรมแรงงาน (ไม่สำคัญ) ในการป้อนข้อมูลที่ไม่จำเป็น
Nick Cox

นั่นดูเหมือนจะเป็นเรื่องที่ดีสำหรับฉัน @NickCox ฉันจะบอกว่าตัวแปรการสั่งซื้อโดยปริยายในกรณีนั้น แต่ในความรู้สึกยังคงมี
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.