ชุดข้อมูลสำหรับตัวอย่างการสร้างภาพข้อมูลการสอนและการวิจัย


9

ฉันกำลังค้นหาชุดข้อมูลที่มีอยู่ที่เราสามารถใช้เพื่อทดสอบเทคนิคหลายชุดข้อมูลที่เรากำลังทำการวิจัย

ฉันรู้ว่ามีทรัพยากรหลายอย่างเช่นที่รวมอยู่ใน R (ลองplot(Orange)หรือดูที่นี่ )

แต่ฉันต้องการก้าวไปข้างหน้าหนึ่งก้าว:

  • ชุดข้อมูลใดในโลกแห่งความจริงที่ดีที่สุดในการทดสอบเครื่องมือสร้างภาพข้อมูล
  • คุณใช้ชุดข้อมูลใดในเอกสารวิชาการหรือสไลด์การสอนเกี่ยวกับชุดข้อมูล
  • ตัวอย่างที่ดีที่สุดจากโลกแห่งความจริงที่จะแสดงให้เห็นข้อดีของการสร้างกราฟคืออะไร?

2
ตัวอย่างในโลกแห่งความจริงที่ดีหลายโครงการที่เชื่อมโยงบางส่วนให้ชุดข้อมูล (แต่ส่วนใหญ่ทำไม่ได้โชคไม่ดี): infosthetics.com
WSkid

1
คุณกำลังมองหาชุดข้อมูลฟรีหรือไม่?
Fomite

3
การสร้างภาพขึ้นอยู่กับบริบทและผู้ชม (เหนือสิ่งอื่นใด) โดยบอกว่า "ดีที่สุด" นั้นคลุมเครือในบริบทนี้ คุณอาจได้รับคำตอบที่ตรงประเด็นกว่าโดยการระบุว่า "เทคนิค" ที่คุณกำลังค้นคว้าคืออะไร
whuber

1
@whuber เทคนิคเกี่ยวกับการสร้างภาพอัตโนมัติ ดีที่สุดสำหรับการอธิบาย ดีที่สุดสำหรับมาตรฐาน
robermorales

@EpiGrad ใช่ฟรีมากที่สุด
robermorales

คำตอบ:


5

มีฐานข้อมูลจำนวนมากบนอินเทอร์เน็ต คุณสามารถหาแหล่งที่แตกต่างกันขึ้นอยู่กับเรื่อง

ตัวอย่างเช่นในสาขาวิชาการพัฒนามนุษย์คุณสามารถมีแหล่งข้อมูลได้ที่ (http://hdrstats.undp.org/):

http://hdrstats.undp.org/en/tables/default.html

สำหรับการสังเกตการเปลี่ยนแปลงสภาพภูมิอากาศมีเว็บที่มีข้อมูลสภาพภูมิอากาศความละเอียดสูงที่ (http://www.ipcc-data.org/) ตัวอย่างเช่น:

http://www.ipcc-data.org/obs/cru_ts2_1.html

ทั้งสองตัวอย่างมีข้อมูลจริงที่ใช้ในเอกสารทางวิทยาศาสตร์ที่เผยแพร่แล้วและมีข้อมูลจำนวนมาก ข้อมูลที่เกี่ยวข้องกับเวลาและ / หรือพื้นที่ที่เกี่ยวข้อง ความเป็นไปได้ในการแสดงข้อมูลเหล่านั้นไม่มีที่สิ้นสุด


ชุดข้อมูลใดที่เป็นไปได้จากแหล่งที่น่าสนใจเหล่านี้ที่คุณชอบที่สุด ขอบคุณ
robermorales

1
มันขึ้นอยู่กับความเหมาะสมสำหรับ "รสนิยม" ของการสร้างภาพข้อมูล ตัวอย่างเช่นในการสำรวจ / แสดงอนุกรมเวลาเว็บ IPCC มีข้อมูลเพียงพอและมีการใช้อย่างกว้างขวาง (เห็นได้ชัดว่าสำหรับการวิเคราะห์การเปลี่ยนแปลงสภาพภูมิอากาศ) เพื่อแสดงข้อมูลเชิงพื้นที่เว็บไซต์การพัฒนามนุษย์มีข้อมูลที่เกี่ยวข้องกับพื้นที่จำนวนมากรวมถึงข้อมูลที่เกี่ยวข้องกับ เวลา.
Jose Zubcoff

ลิงก์แรกของคุณเสีย (ข้อผิดพลาด DNS)
horaceT

น่าเสียดายที่ลิงก์แรกเสีย (5 ปีต่อมา) แต่มีข้อมูลเปิดอยู่มากมาย: kaggle.com/datasets data.okfn.org/data data.gov data.europa.eu/euodp/en/data
Jose Zubcoff

9

ฉันชอบใช้ชุดข้อมูลAnscombe (มีอยู่ใน R) เพื่อแสดงความสำคัญของการวางแผนเมื่อทำการถดถอย หากคุณไม่คุ้นเคยคุณจะได้รับบรรทัดการถดถอยและการวินิจฉัยเดียวกันจากชุดข้อมูลทั้งสี่ชุดแม้ว่าชุดตัวเองจะดูแตกต่างกันมาก คุณสามารถนำพล็อตด้านล่างและแปลงให้เป็นพล็อตที่เหลือเพื่อแสดงปัญหาที่คุณอาจมองหาในส่วนที่เหลือหลังจากทำการถดถอย

ชุดข้อมูล Anscombe


ใช่เรารู้ชุดข้อมูลนั้นแล้ว มันเป็นจุดเริ่มต้นที่ดี
robermorales

ปัญหาหลักคือมันไม่ใช่ชุดข้อมูลในโลกแห่งความจริง
robermorales

3
@ robermorales ยุติธรรมพอ แต่ฉันคิดว่าการเห็นปัญหา "บริสุทธิ์" ของรุ่นทำให้ง่ายต่อการเข้าใจการแสดงภาพ / ปัญหาในโลกแห่งความเป็นจริงมากขึ้น
Charlie

6

ตัวอย่างใดดีที่สุดในโลกแห่งความจริงที่จะแสดงให้เห็นข้อดีของการสร้างกราฟ

โต๊ะใหญ่ ๆ ตัวอย่างเช่นรูปภาพ Google ของ "ตารางการสำรวจสำมะโนประชากรอย่างเป็นทางการ" คุณจะเห็นสิ่งที่ต้องการอย่างใดอย่างหนึ่งดังต่อไปนี้

ดูที่Gelman et al ด้วย (2002) มาฝึกสิ่งที่เราเทศนา: เปลี่ยนตารางเป็นกราฟ นักสถิติชาวอเมริกัน 56: 121-130

ตารางที่ซับซ้อนมาก


เคล็ดลับที่ดี! เราไม่ทราบการอ้างอิง
robermorales

4

William S. Cleveland มีหนังสือสองเล่มที่เต็มไปด้วยการใช้งานกราฟิกที่ยอดเยี่ยมและข้อมูลและรหัสในการสร้างกราฟใน Visualizing Data อยู่บนเว็บไซต์ของเขา


ชุดข้อมูลใดของ Cleveland ที่คุณชอบมากขึ้น ขอบคุณ
robermorales

1
@ robertomorales ฉันคิดว่าพวกเขาทั้งหมดได้รับเลือกอย่างดีสำหรับวัตถุประสงค์ของพวกเขา ใครก็ตามที่สนใจในกราฟิกสถิติควรศึกษาอย่างรอบคอบ
Peter Flom

1
ข้อมูลสำหรับการแสดงข้อมูลสามารถดูได้ที่lib.stat.cmu.edu/datasets/visualizing.data.zip ฉันไม่สามารถหามันได้ในเว็บไซต์ของคลีฟแลนด์
Nick Cox

4

อาจเป็นไปได้ว่าคุณรู้เรื่องเหล่านี้อยู่แล้ว

UCI เครื่องเรียนรู้ Repositor Y มีหลายสาธารณชนสามารถเข้าถึงโลกแห่งความจริงชุดข้อมูล

รัฐบาลสหรัฐทำให้หลายชุดข้อมูลของประชาชนในdata.gov

หากคุณต้องการข้อมูลการสร้างภาพข้อมูลที่ยุ่งยากฉันขอแนะนำให้ดูที่งานการจัดหมวดหมู่ ดูเหมือนว่าฉันว่า Bag of Words ที่ตั้งอยู่บน UCI MLR มีคุณสมบัติที่ดีบางอย่าง แต่ฉันอาจจะเข้าใจผิด


ขอบคุณ! มีจำนวนมาก !
robermorales

3

ที่นี่มีไม่กี่

ชุดข้อมูลตัวอย่างเครื่องมือ Sci2
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets
ชุดข้อมูลตัวอย่างชุดข้อมูลที่มาพร้อมกับเครื่องมือ Sci2

ชุดข้อมูลตัวอย่างของ Tableau
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
ชุดข้อมูลตัวอย่างสำหรับเริ่มต้นใช้งาน Tableau

ชุดข้อมูลสาธารณะที่ยอดเยี่ยม
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
รายการแหล่งข้อมูลสาธารณะนี้ถูกรวบรวมและจัดเก็บจากบล็อกคำตอบและการตอบกลับของผู้ใช้ ชุดข้อมูลส่วนใหญ่นั้นฟรี แต่บางตัวก็ไม่ใช่

กระทู้นี้ค่อนข้างเก่าหวังว่าชนนี้จะได้รับผลงานใหม่!


2

ฉันเพิ่งสังเกตเห็นชุดข้อมูลจำนวนมากที่นี่:

http://www.inside-r.org/howto/finding-data-internet

ไม่ทราบว่ามีการใช้งานหรือไม่?

ฉันกลัวว่าฉันจะไม่สอนการสร้างภาพข้อมูลดังนั้นฉันจึงไม่สามารถแสดงความคิดเห็นในคำถามเฉพาะของคุณได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.