ค้นหาตัวอย่างข้อมูลที่มีอยู่อย่างอิสระ


98

ฉันกำลังทำงานกับวิธีการใหม่สำหรับการวิเคราะห์และการแยกชุดข้อมูลเพื่อระบุและแยกกลุ่มย่อยของประชากรโดยไม่ทราบล่วงหน้าถึงลักษณะของกลุ่มย่อยใด ๆ ในขณะที่วิธีการทำงานได้ดีพอกับตัวอย่างข้อมูลเทียม (เช่นชุดข้อมูลที่สร้างขึ้นโดยเฉพาะเพื่อจุดประสงค์ในการระบุและแยกกลุ่มย่อยของประชากร) ฉันต้องการลองทดสอบด้วยข้อมูลจริง

สิ่งที่ฉันกำลังมองหาคือแหล่งข้อมูลที่พร้อมใช้งานได้ฟรี (เช่นไม่เป็นความลับไม่ใช่กรรมสิทธิ์) หนึ่งที่มีการแจกแจง bimodal หรือ multimodal หรือชัดเจนประกอบด้วยหลายส่วนย่อยที่ไม่สามารถดึงออกจากกันได้อย่างง่ายดายผ่านวิธีการแบบดั้งเดิม ฉันจะไปหาข้อมูลดังกล่าวที่ไหน?



4
คุณอาจต้องการgetthedata.orgเว็บไซต์คำถามและคำตอบที่ทุ่มเทให้กับการค้นหาชุดข้อมูล
Jeromy Anglim

คำตอบ:



46

รายการต่อไปนี้มีชุดข้อมูลจำนวนมากที่คุณอาจสนใจ:



17

World Bankให้ข้อมูลที่น่าสนใจมากมายและเพิ่งมีการพัฒนา API ที่ดีสำหรับมัน

นอกจากนี้โครงการcommugrateยังมีรายการที่น่าสนใจอีกด้วย

สหรัฐหัวที่เกี่ยวข้องกับสุขภาพข้อมูลตัวชี้วัดสุขภาพคลังสินค้า

แดเนียล Lemire บล็อกจุดเพื่อตัวอย่างที่น่าสนใจไม่กี่ (ส่วนใหญ่ที่เหมาะต่อการวิจัย DB) รวมทั้งแคนาดาสำรวจสำมะโนประชากร 1880และรายงานสรุปเมฆ

และสำหรับวันนี้ (03/04/2012) บันทึกการสำรวจสำมะโนประชากรของสหรัฐในปีพ. ศ .


2
ธนาคารโลกกำลังก้าวไปอีกขั้นด้วยข้อมูลและแผนที่แบบเปิดสำหรับ Stata และ R.
Fr.


11

MLCompมีชุดข้อมูลที่น่าสนใจค่อนข้างน้อยและโบนัสของอัลกอริทึมของคุณจะได้รับการจัดอันดับหากคุณอัปโหลด


10

สถานที่ที่ควรมองดูคือห้องสมุดข้อมูลและเรื่องราวของมหาวิทยาลัย Carnegie Mellon หรือ DASLซึ่งมีไฟล์ข้อมูลที่ "แสดงให้เห็นถึงการใช้วิธีการทางสถิติขั้นพื้นฐาน ... ตัวอย่างที่ดีสามารถทำให้บทเรียนเกี่ยวกับวิธีการทางสถิติที่ชัดเจนและเกี่ยวข้อง DASL คือ ออกแบบมาเพื่อช่วยให้ครูค้นหาและระบุดาต้าไทล์สำหรับการสอนเราหวังว่า DASL จะทำหน้าที่เป็นที่เก็บสำหรับชุดข้อมูลจากเอกสารสถิติ "


9

เริ่ม R data()และพิมพ์ นี่จะแสดงชุดข้อมูลทั้งหมดในเส้นทางการค้นหา ชุดข้อมูลเพิ่มเติมจำนวนมากมีอยู่ในแพ็คเกจเสริม ตัวอย่างเช่นมีชุดข้อมูลทางสังคมศาสตร์โลกจริงที่น่าสนใจในAERแพ็คเกจ




5

ขณะนี้เครือข่าย Stack Exchange มีไซต์ใหม่คือOpen Data (เป็นเบต้า ณ วันที่ 5 มีนาคม 2015) ซึ่งมีข้อมูลเฉพาะ มันอธิบายตัวเองเป็น:

Open Data Stack Exchangeเป็นคำถามและคำตอบสำหรับนักพัฒนาและนักวิจัยที่สนใจข้อมูลแบบเปิด มันสร้างและดำเนินการโดยคุณโดยเป็นส่วนหนึ่งของเครือข่าย Stack Exchange ของไซต์ถามตอบ ด้วยความช่วยเหลือของคุณเราทำงานร่วมกันเพื่อสร้างคลังคำตอบโดยละเอียดสำหรับทุกคำถามเกี่ยวกับข้อมูลที่เปิด

"Open data" หมายถึงชุดข้อมูลที่ทุกคนสามารถใช้และเผยแพร่ซ้ำได้ตามที่ต้องการโดยไม่มีข้อ จำกัด จากลิขสิทธิ์สิทธิบัตรหรือกลไกการควบคุมอื่น ๆ ( Wikipedia ) อย่างไรก็ตามเว็บไซต์ที่ดูเหมือนว่าคล้อยตามการร้องขอสำหรับชุดข้อมูลปิด



3

การเพิ่มคู่รักลงในรายการ:

  • ข้อมูลทางการเงินเชิงลึกจำนวนมากเกี่ยวกับ บริษัท ที่มีการซื้อขายในตลาดหลักทรัพย์ย้อนกลับไปหลายทศวรรษ: http://www.mergent.com/servius

  • ข้อมูลที่หลากหลายในธุรกิจกว่า 16 ล้านรายในสหรัฐอเมริกา: http://compass.webservius.com

ทั้งสองมีให้บริการผ่าน REST API และมีแผนทดลองใช้ฟรี




2

ปีเตอร์ Skomoroch เก็บรายการของชุดข้อมูลที่http://www.datawrangling.com/some-datasets-available-on-the-web ลิงก์จำนวนมากที่มีให้กับสถานที่ที่แสดงรายการชุดข้อมูล



2

ค้นหาชุดข้อมูลที่เหมาะสมสำหรับความต้องการของฉันฉันเพิ่งเจอเว็บไซต์สองแห่งที่เกี่ยวข้องกับการสนทนานี้

Datacite.orgซึ่งอธิบายตนเองว่าเป็น ...

เราเป็นองค์กรระหว่างประเทศที่มีวัตถุประสงค์เพื่อ:

  • สร้างการเข้าถึงข้อมูลการวิจัยได้ง่ายขึ้น
  • เพิ่มการยอมรับข้อมูลการวิจัยว่าเป็นข้อมูลที่ถูกต้องตามกฎหมายในบันทึกทางวิชาการและ
  • สนับสนุนการเก็บถาวรข้อมูลเพื่ออนุญาตให้มีการตรวจสอบและนำไปใช้เพื่อการศึกษาในอนาคต

DataBib.orgที่อธิบายตัวเองว่าเป็น ...

Databib เป็นเครื่องมือสำหรับช่วยให้ผู้คนสามารถระบุและค้นหาที่เก็บข้อมูลออนไลน์ของข้อมูลการวิจัย ผู้ใช้และบรรณานุกรมสร้างและดูแลจัดการระเบียนที่อธิบายที่เก็บข้อมูลที่ผู้ใช้สามารถค้นหาได้

คิดว่าน่าจะเพิ่มมูลค่าลงในรายการที่นี่สำหรับผู้อื่น

ตอนนี้เพื่อค้นหาสิ่งที่อยู่ในลิงค์ที่ตรงกับความต้องการของฉัน!


2

ผมขอแนะนำให้ตรวจสอบจากquandl.com นี่คือความฝันของโปรแกรมเมอร์ข้อมูล มี API ที่ง่ายมากหนึ่งตัวในการเข้าถึงข้อมูลที่แตกต่างกันมากกว่า 10 ล้านรายการ คุณกำลังมองหาข้อมูล bi-modial หรือ multi-variate ดังนั้นฉันขอแนะนำให้ตรวจสอบชุดข้อมูลประชากรต่างๆเช่นแผนภูมิประชากรโลกนี้มีประเทศและส่วนประกอบย่อยที่รวมกัน


1
ข้อมูล quandl บางอย่างฟรีบางอย่าง "พรีเมียม" คือราคา $$ นอกจากนี้ความฝันของ API ของฉันยังรวมถึงซีรี่ย์ nrows, ncols และแผนการออนไลน์ (ฉันต้องการม้า)
เดนิส


1

การใช้งานเมื่อเวลาผ่านไป

สเปรดชีต Excel ขนาดใหญ่มากสำหรับการดาวน์โหลดที่มีจุดข้อมูลสำหรับกิจกรรมออนไลน์ทั้งหมดพร้อมข้อมูลประชากรของผู้ใช้เมื่อเวลาผ่านไป โปรดอ่านแผ่นข้อมูล (ด้านล่าง) ก่อนที่จะดาวน์โหลดหรือใช้สเปรดชีตนี้

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx





0

สิงคโปร์ประกาศความคิดริเริ่มเปิดข้อมูล ตรวจสอบdata.gov.sgคล้ายกับ data.gov ในสหรัฐอเมริกา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.