หลักสูตรการออกแบบการทดลองสำหรับนักขุดข้อมูล


11

ฉันเป็นนักวิทยาศาสตร์คอมพิวเตอร์ที่ทำงานด้านการขุดข้อมูล ไม่มีความลับที่จะบอกว่านักวิทยาศาสตร์คอมพิวเตอร์ค่อนข้างยากจนในการออกแบบและประเมินผลการทดลองอย่างเป็นระบบ - การใช้ค่า p-value และการประเมินความเชื่อมั่นถือว่าเป็นขั้นสูง :)

สิ่งที่ฉันอยากรู้ถ้ามีหลักสูตร / วัสดุที่ดีในการสอนนักวิทยาศาสตร์คอมพิวเตอร์เกี่ยวกับการออกแบบการทดลองที่ดี เพื่อทำให้ข้อมูลเฉพาะเจาะจงมากขึ้นฉันจะเพิ่มข้อมูลต่อไปนี้:

  • หลักสูตรนี้ควรมุ่งเน้นไปที่นักศึกษาระดับบัณฑิตศึกษาที่สามารถเข้าใจความเป็นไปได้อย่างสมเหตุสมผล แต่มีพื้นฐานทางสถิติที่ จำกัด
  • หลักสูตรควรเน้นการออกแบบการทดลองใน "การตั้งค่าที่ไม่เป็นธรรมชาติ": กล่าวอีกนัยหนึ่งไม่มีความจริงพื้นฐานทางกายภาพหรือวิธีการควบคุมกระบวนการรวบรวมข้อมูล (เช่นเดียวกับวิชามนุษย์) แน่นอนว่าหลักสูตรที่ดีจะมุ่งเน้นไปที่พื้นฐาน แต่ควรจัดการกับสถานการณ์นี้อย่างมีนัยสำคัญ
  • องค์ประกอบการคำนวณจะเป็นโบนัส แต่ไม่บังคับ เราจัดการกับข้อมูลจำนวนมาก แต่สามารถค้นหาปัญหาการคำนวณด้วยตัวเองหากจำเป็น

1
เงื่อนไขทั้งหมดของการทดสอบที่คุณอธิบายเตือนฉันด้วยการทดสอบ A / B ... เรื่องบังเอิญ? :)
steffen

คำตอบ:


5

[Noah Smith] [1] และ [David Smith] [2] เปิดหลักสูตรที่ JHU เมื่อไม่นานมานี้ด้วยแรงจูงใจที่คล้ายกัน

เค้าร่าง:

  • การบรรยายที่ 1: บทนำการทบทวนสถิติการทดสอบสมมติฐานการสุ่มตัวอย่าง
  • การบรรยายที่ 2: สถิติที่น่าสนใจ: หมายถึงปริมาณความแปรปรวน
  • การบรรยายที่ 3–4: การทดลองกับรันไทม์และ“ พื้นที่”
  • การบรรยายที่ 5: การวิเคราะห์ข้อมูลเชิงสำรวจ
  • การบรรยายที่ 6: การสร้างแบบจำลองพารามิเตอร์การถดถอยและการจำแนกประเภท
  • การบรรยายตอนที่ 7: การดีบักเชิงสถิติและการทำโปรไฟล์
  • การบรรยายที่ 8: สรุปและทบทวน

สำหรับรายละเอียดโปรดดูวิธีการวิจัยเชิงประจักษ์ในวิทยาการคอมพิวเตอร์ (600.408) http://www.cs.jhu.edu/~nasmith/erm/


4

ฉันขอหนังสือสองเล่มแทนคุณได้

คนแรกเป็นโปรแกรมประยุกต์เพื่อชีวสารสนเทศและคนที่สองสำหรับวินัยใด ๆ


1
ตรวจสอบโพสต์นี้stats.stackexchange.com/questions/1815/…
friveroll

3

คำถามที่ดี. ฉันกระตือรือร้นที่จะเห็นคำตอบ

จากมุมมองทางสถิติสองประเด็นที่ต้องกล่าวถึง: สถิติและการออกแบบทางสถิติส่วนใหญ่กล่าวถึงสถิติตัวอย่างขนาดเล็กและวิธีการส่วนใหญ่ที่วิศวกรใช้ไม่ใช่สถิติ "ทันสมัย"

ฉันไม่มีข้อเสนอแนะสำหรับปัญหาแรกที่นอกเหนือจากการศึกษาที่ดีในการขุดข้อมูล / สำรวจและความหมายของสถิติแตกต่างกันเมื่อเผชิญกับการวิเคราะห์สถิติประชากร (หรือกลุ่มตัวอย่างขนาดใหญ่)

อย่างไรก็ตามหนังสือสองเล่มที่น่าสนใจสำหรับแนะนำนักเรียนเกี่ยวกับสถิติน่าจะมาจาก Rand Wilcox (นักจิตวิทยา):

Wilcox, RR (2012) การประมาณค่าที่คาดเดายากและการทดสอบสมมติฐาน, 3 เอ็ด สื่อวิชาการ

Wilcox, RR (2010) ความรู้พื้นฐานของวิธีการทางสถิติสมัยใหม่: การปรับปรุงพลังและความแม่นยำอย่างมีนัยสำคัญ, สปริงเกอร์, เอ็ด 2


2
สำหรับฉันดูเหมือนว่าปัญหาแรกนั้นเป็นประเด็นหนึ่งสำหรับการวิจัยและอาจยังไม่มี "แนวปฏิบัติที่ดีที่สุด" มันอาจเป็นไปได้ว่าการแนะนำขั้นต้นในการทดสอบและการเจาะขั้นพื้นฐานในปัญหาสมมติฐานหลายอย่างอาจเป็นจุดเริ่มต้นที่ดีที่สุด
Suresh Venkatasubramanian
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.