ฉันสามารถเข้าถึงชุดข้อมูลที่มีขนาดใหญ่มาก ข้อมูลมาจากการบันทึกMEGของผู้คนที่ฟังเพลงที่ตัดตอนมาจากหนึ่งในสี่ประเภท ข้อมูลมีดังนี้:
- 6 วิชา
- 3 การทดลองซ้ำ (ตอน)
- 120 การทดลองต่อยุค
- 8 วินาทีของข้อมูลต่อการทดลองที่ 500Hz (= 4000 ตัวอย่าง) จาก 275 MEG channel
ดังนั้น "ตัวอย่าง" นี่คือเมทริกซ์ขนาด [4000x275] และมีตัวอย่าง 2160 ตัวอย่างและนั่นคือก่อนการแยกคุณลักษณะใด ๆ เป้าหมายคือการทำนายประเภทตามสัญญาณสมอง (การจำแนก 4 ระดับ)
เห็นได้ชัดว่ามีบางประเด็นที่ท้าทายที่นี่คือ:
- ชุดข้อมูลไม่พอดีกับหน่วยความจำ
- ข้อมูลจะมีความสัมพันธ์ทางโลกที่แข็งแกร่งและความแปรผันระหว่างหัวข้อจะมีขนาดใหญ่มาก ดังนั้นจึงไม่ชัดเจนว่าจะแบ่งข้อมูลอย่างไร
- อัตราส่วนสัญญาณต่อเสียงรบกวนต่ำมาก
- ไม่ชัดเจนว่าคุณสมบัติที่ถูกต้องสำหรับตัวจําแนกจะเป็นอย่างไร
สิ่งเหล่านี้ในทางกลับกัน:
มีหลายสิ่งที่เราทำได้ ประการแรกเราสามารถลดตัวอย่างได้อย่างปลอดภัยจาก 500Hz ถึง ~ 200Hz แม้ว่าการ จำกัด Nyquist เข้าบัญชีกิจกรรมสมองไม่ได้เกิดขึ้นจริงที่ 100Hz นอกจากนี้เรายังสามารถส่งตัวอย่างจากชุดของช่องทาง (เช่นอยู่ตรงกลางพื้นที่การได้ยิน) แต่เราไม่อยากทำสิ่งนี้มาก่อนเนื่องจากอาจมีกิจกรรมในพื้นที่อื่น ๆ (ด้านหน้า ฯลฯ ) ที่อาจเป็นที่สนใจ เราอาจวางส่วนของหน้าต่างเวลาได้เช่นกัน บางที 2s แรกเท่านั้นที่มีความสำคัญต่องาน ไม่มีใครรู้จริงๆ แน่นอนว่าทุกคนจะตะโกนว่า " การลดขนาด "! "แต่นั่นก็ไม่สำคัญเหมือนกันประการแรกเราต้องระวังอย่างมากเกี่ยวกับการแยกรถไฟ / ทดสอบของเรา (ดู 2) และยังไม่ชัดเจนว่าจะทำสิ่งนี้ก่อนหรือหลังการสร้างคุณลักษณะประการที่สองนอกเหนือจากราคาแพง cross-validation หรือการตรวจสอบด้วยความเจ็บปวดไม่มีวิธีที่ชัดเจนในการเลือกวิธีการที่เหมาะสมหรือจำนวนมิติที่เหมาะสมแน่นอนเราสามารถใช้เช่น PCA, ICA, หรือการฉายแบบสุ่มและหวังว่าจะดีที่สุด ....
นี่เป็นเรื่องยุ่งยาก หากเรามีตัวอย่างต่อเนื่องในชุดการฝึกอบรมเรามีแนวโน้มที่จะทำให้ชุดการฝึกอบรมมากเกินไปในขณะที่ถ้าเรามีตัวอย่างต่อเนื่องที่แบ่งออกเป็นชุดรถไฟและชุดทดสอบเรามีแนวโน้มที่จะเหมาะสมกับชุดฝึกอบรม ดูเหมือนจะมีตัวเลือกต่าง ๆ ที่นี่:
- เรื่องการจำแนกประเภทเดี่ยว ถ่ายภาพบุคคลแต่ละเรื่องด้วยตนเองและแยกตามยุคสมัย นี้ควรจะเป็นงานที่ง่ายที่สุดในขณะที่เราไม่ได้พยายามที่จะคาดการณ์ทั่วสมอง ภายในหนึ่งนี้สามารถใช้ทั้งสองยังคงอยู่ยุคสำหรับการตรวจสอบข้าม เพื่อความสมบูรณ์เราควรหมุนชุดค่าผสมทั้งหมด เราจะรายงานความแม่นยำโดยเฉลี่ยของทุกวิชา แน่นอนว่าเราไม่คาดหวังว่าโมเดลเหล่านี้จะพูดคุยกันได้ดีเลย
- ภายในวิชาการจัดหมวดหมู่ นำอาสาสมัครทั้งหมดมารวมกันแล้วแยกตามยุคสมัย ในความเป็นจริงนี้อาจเป็นงานที่ง่ายที่สุดที่เราจะได้เห็นทุกวิชาในการฝึกอบรม อย่างไรก็ตามเราอาจไม่คาดหวังว่าแบบจำลองจะพูดคุยกับเรื่องใหม่ ๆ ได้ดี ภายในหนึ่งนี้สามารถใช้ทั้งสองยังคงอยู่ยุคสำหรับการตรวจสอบข้าม เพื่อความสมบูรณ์เราควรหมุนชุดค่าผสมทั้งหมด
- ระหว่างการจัดหมวดหมู่วิชา หรือที่รู้จักกันในนาม "การลาออกหนึ่งครั้ง" โดยที่หัวข้อเดียวจะถูกนำไปใช้เป็นข้อมูลการทดสอบและส่วนที่เหลือจะใช้สำหรับการฝึกอบรม จากนั้นเราจะหมุนไปตามทุกวิชา การตรวจสอบข้ามจะถูกดำเนินการผ่านอาสาสมัคร เราคาดหวังว่าสิ่งนี้จะเป็นงานที่ยากมากขึ้นเนื่องจากเราพยายามทำนาย "สมองใหม่" ทุกครั้ง ที่นี่เราคาดว่าแบบจำลองจะสรุปได้ดีกับประชากรที่มีขนาดใหญ่ขึ้นแม้ว่าจะมีปัญหาเรื่องความน่าเชื่อถือของการทดสอบซ้ำ
นี่คือปัญหา "เข็มในกองหญ้า" แบบคลาสสิก - สัญญาณจริงที่เกี่ยวข้องกับการรับรู้ของดนตรีประเภทหรือการประมวลผลเฉพาะประเภทมีแนวโน้มที่จะจิ๋วเมื่อเทียบกับ "ซุป" ของกิจกรรมในสมอง นอกจากนี้ยังมีสิ่งประดิษฐ์ที่มีชื่อเสียงซึ่งสามารถลบออกได้เพียงบางส่วนเท่านั้น (ส่วนใหญ่เกี่ยวข้องกับการเคลื่อนไหว) คุณลักษณะใด ๆ ที่เราได้รับมาจากข้อมูลและวิธีการใด ๆ ที่ข้อมูลได้รับการปฏิบัติควรหลีกเลี่ยงการทำลายส่วนหนึ่งของสัญญาณที่น่าสนใจ
ที่นี่เราสามารถจินตนาการได้ว่าทำสิ่งต่าง ๆ สิ่งแรกคือการใช้ข้อมูลดิบ (ตัดแบ่งเป็นเวกเตอร์) เป็นเวกเตอร์คุณลักษณะ ฉันไม่แน่ใจว่ามีผลอย่างไร - ฉันคิดว่าเวกเตอร์เหล่านี้อาจจะสุ่มอย่างสม่ำเสมอ นี่เป็นคำถามเกี่ยวกับการประมวลสัญญาณจริง ๆ แต่มีแนวทางทั่วไปบางประการที่สามารถปฏิบัติตามได้ สิ่งแรกคือทำการวิเคราะห์ฟูริเยร์แบบมาตรฐานบนหน้าต่างแบบเลื่อนจากที่ส่วนประกอบสามารถแบ่งออกเป็นคลื่นความถี่ที่แตกต่างกัน (อัลฟา / เบต้า / แกมม่า ฯลฯ ) และสถิติของสิ่งเหล่านี้ (หมายถึงค่าเบี่ยงเบนมาตรฐาน) สามารถใช้เป็นคุณลักษณะได้ หรืออย่างใดอย่างหนึ่งอาจใช้ Wavelets, Hilbert Transforms หรือแม้แต่พยายามมองหาตัวดึงดูดที่วุ่นวาย. แน่นอนว่าเรามีทางเลือกของเมล็ด (เชิงเส้นพหุนาม RBF ฯลฯ ) ซึ่งคูณจำนวนพีชคณิต บางทีสิ่งที่ดีที่สุดในการทำที่นี่คือการสร้างชุดคุณลักษณะที่แตกต่างกันให้มากที่สุดแล้วใช้MKLหรือวิธีการเพิ่มประสิทธิภาพเพื่อรวมเข้าด้วยกัน
คุณจะเข้าใกล้ชุดข้อมูลประเภทนี้อย่างไร (หากไม่ใช่ชุดนี้โดยเฉพาะ) มีอะไรที่ฉันพลาดไปบ้างไหม? อะไรคือกลยุทธ์ที่น่าจะประสบความสำเร็จมากที่สุดโดยไม่ต้องเสียเวลาในการทำวิจัยและทรัพยากรในการคำนวณ?