ชุดข้อมูลที่เผยแพร่สู่สาธารณะ


167

หนึ่งในปัญหาที่พบบ่อยในศาสตร์ข้อมูลคือการรวบรวมข้อมูลจากแหล่งต่าง ๆ ในรูปแบบที่ทำความสะอาด (กึ่งโครงสร้าง) และการรวมตัวชี้วัดจากแหล่งต่าง ๆ เพื่อทำการวิเคราะห์ในระดับที่สูงขึ้น เมื่อมองถึงความพยายามของคนอื่นโดยเฉพาะคำถามอื่น ๆ ในเว็บไซต์นี้ดูเหมือนว่าคนจำนวนมากในสาขานี้กำลังทำงานซ้ำ ๆ ตัวอย่างเช่นการวิเคราะห์ทวีตโพสต์ Facebook บทความ Wikipedia ฯลฯ เป็นส่วนหนึ่งของปัญหาข้อมูลจำนวนมาก

ชุดข้อมูลเหล่านี้บางส่วนสามารถเข้าถึงได้โดยใช้ API สาธารณะที่จัดทำโดยไซต์ผู้ให้บริการ แต่โดยปกติแล้วข้อมูลหรือตัวชี้วัดที่มีค่าบางอย่างจะหายไปจาก API เหล่านี้และทุกคนต้องทำการวิเคราะห์แบบเดียวกันซ้ำแล้วซ้ำอีก ตัวอย่างเช่นแม้ว่าผู้ใช้ที่ทำคลัสเตอร์อาจขึ้นอยู่กับกรณีการใช้งานที่แตกต่างกันและการเลือกคุณสมบัติ แต่การมีการทำคลัสเตอร์พื้นฐานของผู้ใช้ Twitter / Facebook อาจมีประโยชน์ในแอปพลิเคชัน Big Data จำนวนมากซึ่ง API เหล่านี้ไม่ได้จัดหา .

มีเว็บไซต์โฮสติ้งชุดข้อมูลดัชนีหรือสาธารณะที่มีชุดข้อมูลที่มีค่าที่สามารถนำกลับมาใช้ใหม่ในการแก้ปัญหาข้อมูลขนาดใหญ่อื่น ๆ ได้หรือไม่? ฉันหมายถึงบางอย่างเช่น GitHub (หรือกลุ่มของไซต์ / ชุดข้อมูลสาธารณะหรืออย่างน้อยก็เป็นรายการที่ครอบคลุม) สำหรับวิทยาศาสตร์ข้อมูล ถ้าไม่มีเหตุผลอะไรที่ไม่มีแพลตฟอร์มสำหรับวิทยาศาสตร์ข้อมูล? มูลค่าเชิงพาณิชย์ของข้อมูลจำเป็นต้องอัพเดทชุดข้อมูลบ่อยๆ ... ? เราไม่สามารถมีโมเดลโอเพ่นซอร์สสำหรับการแชร์ชุดข้อมูลที่คิดค้นขึ้นสำหรับนักวิทยาศาสตร์ข้อมูลได้หรือไม่?


18
คำถามนี้อาจจะมีความเหมาะสมมากขึ้นในทุ่มเทopendata.SE ที่กล่าวว่าฉันข้ามนิ้วของฉันสำหรับdatซึ่งปรารถนาที่จะกลายเป็น "Git สำหรับข้อมูล"
ojdo

2
@ojdo ขอบคุณฉันไม่เคยได้ยิน opendata.SE ก่อนฉันยังพบนี้ที่น่าสนใจ (และที่คล้ายกันมาก) มีคำถาม
อาเมียร์อาลีอั

2
ดูquora.com/Where-can-I-find-large-datasets-open-to-the-public
Piotr Migdal

ฉันไม่พบชุดข้อมูลที่ครอบคลุมที่ดีใด ๆ สำหรับแอปพลิเคชัน Business Intelligence ทั่วไป ไมโครซอฟท์ขายกระเป๋า BI สาธิตชุดข้อมูลสำหรับอุตสาหกรรมค้าปลีกอย่างเป็นทางการจาก Microsoft Download Centerดาวน์โหลดทำงานร่วมกับบางผลิตภัณฑ์ของ Microsoft (ดูAndyGett บน SharePoint และซอฟแวร์ธุรกิจอื่น ๆ ) แต่ผมไม่เห็น SQL ใด ๆ ธรรมดาหรือทิ้ง CSV ของมันมิได้ข้อมูลใบอนุญาตใด ๆ .
nealmcb

1
คุณเข้าร่วม Open Data Stack Exchange แล้วหรือยัง opendata.stackexchange.com
sss4r

คำตอบ:


87

ในความเป็นจริงเป็นรายการที่สมเหตุสมผลของชุดข้อมูลสาธารณะที่มีการสนับสนุนจากองค์กร / แหล่งข้อมูลที่แตกต่างกัน

บางส่วนของพวกเขาอยู่ด้านล่าง:

ตอนนี้ข้อพิจารณาสองข้อสำหรับคำถามของคุณ นโยบายแรกของการแบ่งปันฐานข้อมูล จากประสบการณ์ส่วนตัวมีฐานข้อมูลบางส่วนที่ไม่สามารถเปิดเผยต่อสาธารณะได้ไม่ว่าจะเกี่ยวข้องกับข้อ จำกัด เรื่องความเป็นส่วนตัว (สำหรับข้อมูลเครือข่ายสังคมออนไลน์) หรือเกี่ยวกับข้อมูลภาครัฐ (เช่นฐานข้อมูลระบบสุขภาพ)

อีกประเด็นที่เกี่ยวข้องกับการใช้งาน / แอปพลิเคชันของชุดข้อมูล แม้ว่าบางฐานสามารถถูกประมวลผลอีกครั้งเพื่อให้เหมาะกับความต้องการของแอปพลิเคชัน แต่ก็เป็นการดีที่จะมีการจัดระเบียบชุดข้อมูลที่ดีตามวัตถุประสงค์ อนุกรมวิธานควรจะเกี่ยวข้องกับการวิเคราะห์กราฟทางสังคม, การทำเหมืองแร่ itemset การจำแนกและจำนวนมากของพื้นที่วิจัยอื่น ๆ ที่อาจจะมี


64

ปรับปรุง:

Kaggle.comบ้านของวิทยาศาสตร์สมัยใหม่ข้อมูลและผู้ที่ชื่นชอบการเรียนรู้เครื่อง :) ให้เปิดมันเป็นพื้นที่เก็บข้อมูลของตัวเองของชุดข้อมูล


นอกจากแหล่งที่ระบุไว้

ชุดข้อมูลเครือข่ายโซเชียลบางชุด:

มีแหล่งข้อมูลมากมายที่สถิติ SE:


37

มีหลายชุดข้อมูลที่มีอยู่อย่างเปิดเผยเป็นหนึ่งในหลาย ๆ คนมักจะมองข้ามคือdata.gov ดังที่กล่าวไว้ก่อนหน้า Freebase นั้นยอดเยี่ยมดังนั้นตัวอย่างทั้งหมดที่โพสต์โดย @Rubens


35

Freebaseเป็นฐานข้อมูลชุมชนที่ขับเคลื่อนด้วยอิสระซึ่งครอบคลุมหัวข้อที่น่าสนใจมากมายและมีข้อเท็จจริงประมาณ 2,500 ล้านในรูปแบบที่เครื่องอ่านได้ นอกจากนี้ยังมี API ที่ดีสำหรับการสืบค้นข้อมูล

นี่คือรายการรวบรวมชุดข้อมูลแบบเปิดอื่น: http://www.datapure.co/open-data-sets


Freebase ปิดตัวลงและฐานข้อมูลจะย้ายไปที่Wikidataในไม่ช้า
cynddl


25

สำหรับข้อมูลอนุกรมเวลาโดยเฉพาะQuandlเป็นทรัพยากรที่ยอดเยี่ยมซึ่งเป็นไดเรกทอรีที่สามารถเรียกดูได้ง่ายของชุดข้อมูลเวลาส่วนใหญ่

หนึ่งในคุณสมบัติที่เจ๋งที่สุดของพวกเขาคือราคาหุ้นแบบเปิดข้อมูล - เช่นข้อมูลทางการเงินที่สามารถแก้ไขได้ในรูปแบบวิกิและไม่ได้ถูกกีดกันจากใบอนุญาต


20

Enigmaเป็นที่เก็บของชุดข้อมูลสาธารณะที่มีอยู่ แผนบริการฟรีให้ค้นหาข้อมูลสาธารณะด้วยการโทร 10k API ต่อเดือน ไม่ใช่ฐานข้อมูลสาธารณะทั้งหมดที่มีอยู่ในรายการ แต่รายการนั้นเพียงพอสำหรับกรณีทั่วไป

ฉันใช้มันเพื่อการวิจัยเชิงวิชาการและช่วยฉันประหยัดเวลาได้มาก


แหล่งข้อมูลที่น่าสนใจอีกอย่างคือโครงการ @unitedstatesซึ่งมีข้อมูลและเครื่องมือในการรวบรวมเกี่ยวกับสหรัฐอเมริกา (สมาชิกสภาคองเกรสรูปร่างทางภูมิศาสตร์ ... )


18

ผมอยากจะชี้ไปที่เปิดสำรวจสำมะโนประชากรของข้อมูล มันเป็นความคิดริเริ่มของมูลนิธิองค์ความรู้เปิดโดยอ้างอิงจากการสนับสนุนข้อมูลแบบเปิดและผู้เชี่ยวชาญจากทั่วโลก

คุณค่าของการเปิดสำรวจสำมะโนประชากรของข้อมูลที่จะเปิดให้บริการชุมชนที่ขับเคลื่อนด้วยระบบและความพยายามในการเก็บรวบรวมและปรับปรุงฐานข้อมูลของชุดข้อมูลเปิดทั่วโลกกับประเทศและในบางกรณีเช่นสหรัฐอเมริกาในระดับเมือง

นอกจากนี้ยังนำเสนอโอกาสในการเปรียบเทียบประเทศและเมืองต่าง ๆ ในพื้นที่ที่คุณสนใจ


18

นอกจากนี้ยังมีแหล่งข้อมูลอื่นโดย The Guardian, British Daily บนเว็บไซต์ของพวกเขา ชุดข้อมูลที่เผยแพร่โดย Guardian Datablog นั้นโฮสต์ทั้งหมด ชุดข้อมูลที่เกี่ยวข้องกับบัญชีฟุตบอลพรีเมียร์ลีก, ข้อมูลอัตราเงินเฟ้อและ GDP ของสหราชอาณาจักร, ข้อมูลรางวัลแกรมมี่เป็นต้นชุดข้อมูลมีให้ที่

ทรัพยากรบางอย่างเพิ่มเติม ชุดข้อมูลบางส่วนอยู่ในรูปแบบ R หรือมีคอมม่า R สำหรับการนำเข้าข้อมูลโดยตรงไปยัง R


17

การค้นหาของ Google ที่กำหนดเอง

คุณสามารถใช้ชุดข้อมูลการค้นหา Google ที่กำหนดเอง:

Google Custom Search: ชุดข้อมูล

มันมีแหล่งข้อมูล 230 ชุดและชุดข้อมูลเมตารวมถึงที่กล่าวถึงทั้งหมดในคำถามนี้ โปรดอย่าลังเลที่จะยกเว้น. gov และเว็บไซต์อื่น ๆ จากผลลัพธ์โดยเพิ่ม "-.gov" หรือ "-site.com" ลงในบรรทัดค้นหา ตัวดำเนินการ Google Search อื่น ๆ ทำงานได้

อย่าลังเลที่จะติดต่อฉันหากคุณมีความคิดว่าจะเพิ่มเว็บไซต์ใด

IOGDS

บริการดังต่อไปนี้จัดหมวดหมู่ชุดข้อมูลสาธารณะมากกว่า 1,000,000 ชุด:

IOGDS: การค้นหาชุดข้อมูลรัฐบาลเปิดระหว่างประเทศ


พารามิเตอร์สำหรับลิงค์การค้นหาที่กำหนดเองที่คุณให้ไว้คืออะไร มันค้นหาในรายการเว็บไซต์คำหลัก ฯลฯ หรือไม่
Amir Ali Akbari

@AmirAliAkbari ค้นหาแหล่งข้อมูลเช่น Data.gov, Quandl และคลังข้อมูลสำคัญอื่น ๆ
Anton Tarasenko

16

ตอบล่าช้า แต่นี่คือรายการชุดข้อมูลที่น่าสนใจมากกว่า 100รายการ

โพสต์บล็อกนั้นสนุกและอ่านง่าย (ฉันไม่มีส่วนเกี่ยวข้อง) มันคุ้มค่าที่จะสแกนผ่านและขูดจากด้านบน:

  • คำพูดสุดท้ายของผู้ต้องขังทุกคนของรัฐเท็กซัสดำเนินการตั้งแต่ปี 1984

  • 10,000 ภาพแมวที่มีคำอธิบายประกอบ

  • 2.2 ล้านแมตช์หมากรุก



15

คุณรู้เกี่ยวกับเกณฑ์มาตรฐานของ PUMA และการดาวน์โหลดชุดข้อมูลหรือไม่? https://sites.google.com/site/farazahmad/pumadatasets

มันรวมถึงต่อไปนี้:

  1. Terasort
  2. วิกิพีเดีย
  3. รายการสินค้า
  4. ตนเองเข้าร่วม
  5. ถ้อยคำ-List
  6. ภาพยนตร์ฐานข้อมูล
  7. การจัดอันดับ-Inverted ดัชนี

15

รัฐบาลสหราชอาณาจักรเป็นแหล่งข้อมูลที่ไม่ใช่ข้อมูลส่วนบุคคลที่ยอดเยี่ยมซึ่งรวบรวมได้จากหน่วยงานรัฐบาล: http://data.gov.uk


14

ฉันยังใหม่กับฟอรัมนี้ การตีลังกาในคำถามนี้สาย ฉันได้รับการบำรุงรักษา (ฉันเป็นผู้ร่วมก่อตั้ง) แคตาล็อกของพอร์ทัลข้อมูลที่เปิดเผยต่อสาธารณะ ปัจจุบันมีรายการมากกว่า 1,000 รายการและครอบคลุมพอร์ทัลในระดับนานาชาติสหพันธรัฐรัฐเทศบาลและระดับการศึกษาทั่วโลก

http://www.opengeocode.org/opendata/


14

ฉันประหลาดใจอย่างหนึ่งที่ไม่ได้กล่าวถึงเรื่องนี้เนื่องจากดูเหมือนว่าค่อนข้างชัดเจน: http://www.kaggle.comมีชุดข้อมูลใหม่และน่าสนใจอย่างต่อเนื่อง ข้อมูลถือเป็นสินทรัพย์บ่อยครั้งที่ บริษัท ไม่ต้องการเปิดเผยข้อมูลนั้น (รวมถึงข้อกังวลเกี่ยวกับความเป็นส่วนตัว) Kaggle ให้ข้อมูลกับคุณและพวกเขาหวังว่าคุณจะแก้ปัญหาทางธุรกิจด้วยการแลกเปลี่ยน


14

ชุดข้อมูล

ชุดข้อมูลจากความน่าเชื่อถือของข้อมูล


1
คุณช่วยกรุณาให้ข้อมูลบางอย่างเกี่ยวกับทั้งชุดข้อมูล / ลิงค์? สิ่งนี้จะช่วยแบ่งเบาภาระของผู้ที่กำลังมองหาชุดข้อมูลชนิดใดชนิดหนึ่ง ดูที่โพสต์อื่น ๆ เพื่อดูว่าข้อมูลที่คุณอ้างอิงหายไปประเภทใด
รูเบนส์

11

ดังที่คุณกล่าวถึง API เป็นส่วนที่ยากไม่ใช่ข้อมูล Quandlดูเหมือนจะแก้ปัญหานี้ได้ด้วยการมอบชุดข้อมูลสาธารณะมากกว่า 10 ล้านชุดภายใต้ API ที่เงียบสงบเพียงครั้งเดียว หากการเขียนโปรแกรมไม่เหมาะกับคุณมีเครื่องมือฟรีที่จะทำให้การโหลดข้อมูลลงใน Excel นั้นง่ายมาก นอกจากนี้ถ้าคุณทำสนุกกับการเขียนโปรแกรมมีห้องสมุดพื้นเมืองในหลายR, Python, Java และอื่น ๆ



11

ฉันเจอชุดนี้ใน Github คอลเลกชันแบ่งออกเป็นเช่นกัน

https://github.com/caesar0301/awesome-public-datasets

และสำหรับส่วนที่เกี่ยวกับ

โมเดลโอเพ่นซอร์สไม่สามารถแชร์ชุดข้อมูลที่คิดค้นขึ้นสำหรับนักวิทยาศาสตร์ข้อมูลได้หรือไม่

คุณสามารถอ้างอิงคำแนะนำกลุ่ม Leek เพื่อการแบ่งปันข้อมูล



9

แหล่งข้อมูลอื่น ๆ หนึ่งที่ผมไม่เห็นระบุไว้เป็นโครงการ GDELT จากเว็บไซต์:

โครงการ GDELT ตรวจสอบข่าวของโลกสิ่งพิมพ์และเว็บจากเกือบทุกมุมของทุกประเทศในกว่า 100 ภาษาและระบุผู้คนที่ตั้งองค์กรจำนวนนับประเด็นสำคัญแหล่งที่มาและกิจกรรมที่ขับเคลื่อนสังคมโลกของเราทุกวินาทีของทุกวัน สร้างแพลตฟอร์มเปิดฟรีสำหรับการคำนวณบนโลกทั้งใบ



6

ฉันสร้าง repo gitHub สำหรับสิ่งนี้ ชุดข้อมูลนั้นไม่ใหญ่ แต่เป็นตัวอย่างขั้นต่ำที่ใช้ในการฝึกฝนและสำรวจเทคนิคการสร้างแบบจำลองเชิงทำนายซึ่งสามารถขยายไปยังชุดข้อมูลขนาดใหญ่ได้

เครื่องเรียนรู้ปัญหาพระคัมภีร์ (MLPB)

สิ่งที่ยอดเยี่ยม / ไม่เหมือนใครเกี่ยวกับ repo นี้คือทุกปัญหาถูกแท็กด้วยแท็กเช่น [หลายคลาส], [ข้อมูลไม่สมดุล], [การถดถอย] ฯลฯ ทำให้ง่ายต่อการค้นหาปัญหา / ชุดข้อมูลบางประเภท



6

นอกจากชุดข้อมูลเหล่านี้หากคุณสนใจข้อมูลที่เกี่ยวข้องกับอินเดีย เว็บไซต์อย่างเป็นทางการของรัฐบาลอินเดียคือ

มันมีชุดข้อมูลจากหน่วยงานต่าง ๆ ของรัฐบาลอินเดียซึ่งสามารถใช้งานได้ดีสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่และการเรียนรู้ของเครื่อง



4

เพียงแค่เราโหลดแพ็คเกจ MASS ใน R เราเข้าถึงหลาย dataframes หรือชุดข้อมูล

install.packages ("MASS") ต้องการ ("MASS")


3

3 ชุดข้อมูลจากhttps://www.jc-bingo.com/about

  • visitor-interest.csv ความสนใจของผู้เข้าชมโดยรวมที่รวบรวมจากบันทึกการเข้าถึงเว็บ 1 สัปดาห์ รวมที่อยู่ IP ของผู้เข้าชมสตริงตัวแทนผู้ใช้ประเทศผู้เข้าชมภาษาของหน้าที่เข้าถึงและหัวข้อ 19,926 บันทึก, 2.9 Mb
  • user-agent.csv ตัวแทนผู้ใช้ผู้เยี่ยมชมจริงเรียงตามความนิยม 4,826 บันทึก, 716 Kb
  • bots.csv หุ่นยนต์ที่อยู่ IP และสตริงตัวแทนผู้ใช้สกัดจากบันทึกการเข้าถึงเว็บ 1,293 บันทึก, 122 Kb

3

เห็นได้ชัดว่ามีฐานข้อมูลสาธารณะจำนวนมาก

สิ่งหนึ่งที่ยังไม่ได้กล่าวถึงนั้นมาจากFAO ( องค์การอาหารและเกษตรแห่งสหประชาชาติ) สามารถเข้าถึงได้ที่:

http://www.fao.org/faostat/

มันมีข้อมูลเกี่ยวกับการผลิตอาหารสำหรับประเทศทั่วโลก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.