ชุดข้อมูล / คำถามวิจัยทางวิทยาศาสตร์ข้อมูลสำหรับวิทยานิพนธ์ปริญญาโทวิทยาศาสตร์สาขาสถิติ


11

ฉันต้องการสำรวจ 'วิทยาศาสตร์ข้อมูล' คำดูเหมือนคลุมเครือเล็กน้อยสำหรับฉัน แต่ฉันคาดหวังว่าจะต้อง:

  1. การเรียนรู้ของเครื่อง (มากกว่าสถิติดั้งเดิม);
  2. ชุดข้อมูลขนาดใหญ่เพียงพอที่คุณต้องเรียกใช้การวิเคราะห์บนคลัสเตอร์

มีชุดข้อมูลและปัญหาอะไรบ้างที่สามารถเข้าถึงได้โดยนักสถิติที่มีพื้นฐานการเขียนโปรแกรมที่ฉันสามารถใช้เพื่อสำรวจสาขาวิทยาศาสตร์ข้อมูลได้

เพื่อให้แคบที่สุดเท่าที่จะทำได้ฉันต้องการเชื่อมโยงไปยังชุดข้อมูลเปิดและชุดข้อมูลที่ใช้งานได้ดีและปัญหาตัวอย่าง

คำตอบ:


8

เพียงไปที่ kaggle.com; มันจะทำให้คุณไม่ว่างเป็นเวลานาน สำหรับข้อมูลที่เปิดมีของUC Irvine เครื่องเรียนรู้ Repository ในความเป็นจริงมีทั้งเว็บไซต์ Stackexchangeทุ่มเทให้กับสิ่งนี้ ดูที่นั่น


5

แสงแดดมูลนิธิเป็นองค์กรที่มุ่งเน้นไปที่การเปิดขึ้นและกระตุ้นการวิเคราะห์ไม่ใช่พรรคของข้อมูลของรัฐบาล

มีการวิเคราะห์มากมายในป่าที่สามารถใช้สำหรับการเปรียบเทียบและหัวข้อที่หลากหลาย

พวกเขาให้เครื่องมือและAPIsสำหรับการเข้าถึงข้อมูลและมีส่วนช่วยในการผลักดันเพื่อให้ข้อมูลที่มีอยู่ในสถานที่เช่นdata.gov

หนึ่งในโครงการที่น่าสนใจคือมีอิทธิพลต่อการสำรวจ คุณสามารถรับข้อมูลต้นฉบับได้ที่นี่รวมถึงการเข้าถึงข้อมูลแบบเรียลไทม์

คุณอาจต้องการดูคำถามยอดนิยมข้อใดข้อหนึ่งของเรา:

ชุดข้อมูลที่เปิดเผยต่อสาธารณชน


5

เป็นผู้เชี่ยวชาญด้านวิทยาศาสตร์คอมพิวเตอร์หรือไม่? สถิติ?

'วิทยาศาสตร์ข้อมูล' จะเป็นจุดศูนย์กลางของวิทยานิพนธ์ของคุณหรือไม่? หรือหัวข้อด้านข้าง

ฉันจะถือว่าคุณอยู่ในสถิติและคุณต้องการมุ่งเน้นวิทยานิพนธ์ของคุณเกี่ยวกับปัญหา 'วิทยาศาสตร์ข้อมูล' ถ้าเป็นเช่นนั้นฉันจะไปกับเมล็ดพืชและแนะนำว่าคุณไม่ควรเริ่มต้นด้วยชุดข้อมูลหรือวิธีการ ML คุณควรค้นหาปัญหาการวิจัยที่น่าสนใจที่เข้าใจได้ไม่ดีหรือวิธีการ ML ยังไม่ได้รับการพิสูจน์ว่าประสบความสำเร็จหรือมีวิธีการแข่งขัน ML หลายวิธี แต่ไม่มีวิธีใดที่ดีไปกว่าวิธีอื่น

พิจารณาแหล่งข้อมูลนี้: Stanford ขนาดใหญ่เครือข่ายการเก็บชุดข้อมูล ในขณะที่คุณสามารถเลือกหนึ่งในชุดข้อมูลเหล่านี้สร้างคำแถลงปัญหาแล้วเรียกใช้รายการวิธีการ ML บางวิธีที่ไม่ได้บอกคุณมากเกี่ยวกับวิทยาศาสตร์ข้อมูลอะไรเกี่ยวกับและในความคิดของฉันไม่ได้ นำไปสู่วิทยานิพนธ์ระดับปริญญาโทที่ดีมาก

คุณอาจทำสิ่งนี้แทน: ค้นหาเอกสารการวิจัยทั้งหมดที่ใช้ ML ในบางหมวดหมู่เช่นเครือข่ายการทำงานร่วมกัน ในขณะที่คุณอ่านกระดาษแต่ละพยายามที่จะหาสิ่งที่พวกเขามีความสามารถที่จะบรรลุกับแต่ละวิธี ML และสิ่งที่พวกเขาไม่สามารถที่จะอยู่ โดยเฉพาะอย่างยิ่งมองหาคำแนะนำสำหรับ "การวิจัยในอนาคต"

บางทีพวกเขาทั้งหมดใช้วิธีเดียวกัน แต่ไม่เคยลองใช้วิธีการแข่งขัน ML หรือบางทีพวกเขาอาจตรวจสอบผลลัพธ์ไม่เพียงพอหรืออาจมีชุดข้อมูลที่มีขนาดเล็กหรืออาจมีคำถามและสมมติฐานการวิจัยที่ง่ายหรือ จำกัด

สิ่งสำคัญที่สุด: พยายามค้นหาว่างานวิจัยนี้จะไปที่ใด ทำไมพวกเขาถึงต้องทำเช่นนี้? อะไรสำคัญกับมัน พวกเขาประสบปัญหาที่ไหนและทำไม


นี่เป็นความคิดที่ดีทีเดียว อาจารย์อยู่ในสถิติ
user3279453
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.