การจัดการกับชุดข้อมูลอนุกรมเวลาที่มีขนาดใหญ่มาก


10

ฉันสามารถเข้าถึงชุดข้อมูลที่มีขนาดใหญ่มาก ข้อมูลมาจากการบันทึกMEGของผู้คนที่ฟังเพลงที่ตัดตอนมาจากหนึ่งในสี่ประเภท ข้อมูลมีดังนี้:

  • 6 วิชา
  • 3 การทดลองซ้ำ (ตอน)
  • 120 การทดลองต่อยุค
  • 8 วินาทีของข้อมูลต่อการทดลองที่ 500Hz (= 4000 ตัวอย่าง) จาก 275 MEG channel

ดังนั้น "ตัวอย่าง" นี่คือเมทริกซ์ขนาด [4000x275] และมีตัวอย่าง 2160 ตัวอย่างและนั่นคือก่อนการแยกคุณลักษณะใด ๆ เป้าหมายคือการทำนายประเภทตามสัญญาณสมอง (การจำแนก 4 ระดับ)

เห็นได้ชัดว่ามีบางประเด็นที่ท้าทายที่นี่คือ:

  1. ชุดข้อมูลไม่พอดีกับหน่วยความจำ
  2. ข้อมูลจะมีความสัมพันธ์ทางโลกที่แข็งแกร่งและความแปรผันระหว่างหัวข้อจะมีขนาดใหญ่มาก ดังนั้นจึงไม่ชัดเจนว่าจะแบ่งข้อมูลอย่างไร
  3. อัตราส่วนสัญญาณต่อเสียงรบกวนต่ำมาก
  4. ไม่ชัดเจนว่าคุณสมบัติที่ถูกต้องสำหรับตัวจําแนกจะเป็นอย่างไร

สิ่งเหล่านี้ในทางกลับกัน:

  1. มีหลายสิ่งที่เราทำได้ ประการแรกเราสามารถลดตัวอย่างได้อย่างปลอดภัยจาก 500Hz ถึง ~ 200Hz แม้ว่าการ จำกัด Nyquist เข้าบัญชีกิจกรรมสมองไม่ได้เกิดขึ้นจริงที่ 100Hz นอกจากนี้เรายังสามารถส่งตัวอย่างจากชุดของช่องทาง (เช่นอยู่ตรงกลางพื้นที่การได้ยิน) แต่เราไม่อยากทำสิ่งนี้มาก่อนเนื่องจากอาจมีกิจกรรมในพื้นที่อื่น ๆ (ด้านหน้า ฯลฯ ) ที่อาจเป็นที่สนใจ เราอาจวางส่วนของหน้าต่างเวลาได้เช่นกัน บางที 2s แรกเท่านั้นที่มีความสำคัญต่องาน ไม่มีใครรู้จริงๆ แน่นอนว่าทุกคนจะตะโกนว่า " การลดขนาด "! "แต่นั่นก็ไม่สำคัญเหมือนกันประการแรกเราต้องระวังอย่างมากเกี่ยวกับการแยกรถไฟ / ทดสอบของเรา (ดู 2) และยังไม่ชัดเจนว่าจะทำสิ่งนี้ก่อนหรือหลังการสร้างคุณลักษณะประการที่สองนอกเหนือจากราคาแพง cross-validation หรือการตรวจสอบด้วยความเจ็บปวดไม่มีวิธีที่ชัดเจนในการเลือกวิธีการที่เหมาะสมหรือจำนวนมิติที่เหมาะสมแน่นอนเราสามารถใช้เช่น PCA, ICA, หรือการฉายแบบสุ่มและหวังว่าจะดีที่สุด ....

  2. นี่เป็นเรื่องยุ่งยาก หากเรามีตัวอย่างต่อเนื่องในชุดการฝึกอบรมเรามีแนวโน้มที่จะทำให้ชุดการฝึกอบรมมากเกินไปในขณะที่ถ้าเรามีตัวอย่างต่อเนื่องที่แบ่งออกเป็นชุดรถไฟและชุดทดสอบเรามีแนวโน้มที่จะเหมาะสมกับชุดฝึกอบรม ดูเหมือนจะมีตัวเลือกต่าง ๆ ที่นี่:

    • เรื่องการจำแนกประเภทเดี่ยว ถ่ายภาพบุคคลแต่ละเรื่องด้วยตนเองและแยกตามยุคสมัย นี้ควรจะเป็นงานที่ง่ายที่สุดในขณะที่เราไม่ได้พยายามที่จะคาดการณ์ทั่วสมอง ภายในหนึ่งนี้สามารถใช้ทั้งสองยังคงอยู่ยุคสำหรับการตรวจสอบข้าม เพื่อความสมบูรณ์เราควรหมุนชุดค่าผสมทั้งหมด เราจะรายงานความแม่นยำโดยเฉลี่ยของทุกวิชา แน่นอนว่าเราไม่คาดหวังว่าโมเดลเหล่านี้จะพูดคุยกันได้ดีเลย
    • ภายในวิชาการจัดหมวดหมู่ นำอาสาสมัครทั้งหมดมารวมกันแล้วแยกตามยุคสมัย ในความเป็นจริงนี้อาจเป็นงานที่ง่ายที่สุดที่เราจะได้เห็นทุกวิชาในการฝึกอบรม อย่างไรก็ตามเราอาจไม่คาดหวังว่าแบบจำลองจะพูดคุยกับเรื่องใหม่ ๆ ได้ดี ภายในหนึ่งนี้สามารถใช้ทั้งสองยังคงอยู่ยุคสำหรับการตรวจสอบข้าม เพื่อความสมบูรณ์เราควรหมุนชุดค่าผสมทั้งหมด
    • ระหว่างการจัดหมวดหมู่วิชา หรือที่รู้จักกันในนาม "การลาออกหนึ่งครั้ง" โดยที่หัวข้อเดียวจะถูกนำไปใช้เป็นข้อมูลการทดสอบและส่วนที่เหลือจะใช้สำหรับการฝึกอบรม จากนั้นเราจะหมุนไปตามทุกวิชา การตรวจสอบข้ามจะถูกดำเนินการผ่านอาสาสมัคร เราคาดหวังว่าสิ่งนี้จะเป็นงานที่ยากมากขึ้นเนื่องจากเราพยายามทำนาย "สมองใหม่" ทุกครั้ง ที่นี่เราคาดว่าแบบจำลองจะสรุปได้ดีกับประชากรที่มีขนาดใหญ่ขึ้นแม้ว่าจะมีปัญหาเรื่องความน่าเชื่อถือของการทดสอบซ้ำ
  3. นี่คือปัญหา "เข็มในกองหญ้า" แบบคลาสสิก - สัญญาณจริงที่เกี่ยวข้องกับการรับรู้ของดนตรีประเภทหรือการประมวลผลเฉพาะประเภทมีแนวโน้มที่จะจิ๋วเมื่อเทียบกับ "ซุป" ของกิจกรรมในสมอง นอกจากนี้ยังมีสิ่งประดิษฐ์ที่มีชื่อเสียงซึ่งสามารถลบออกได้เพียงบางส่วนเท่านั้น (ส่วนใหญ่เกี่ยวข้องกับการเคลื่อนไหว) คุณลักษณะใด ๆ ที่เราได้รับมาจากข้อมูลและวิธีการใด ๆ ที่ข้อมูลได้รับการปฏิบัติควรหลีกเลี่ยงการทำลายส่วนหนึ่งของสัญญาณที่น่าสนใจ

  4. ที่นี่เราสามารถจินตนาการได้ว่าทำสิ่งต่าง ๆ สิ่งแรกคือการใช้ข้อมูลดิบ (ตัดแบ่งเป็นเวกเตอร์) เป็นเวกเตอร์คุณลักษณะ ฉันไม่แน่ใจว่ามีผลอย่างไร - ฉันคิดว่าเวกเตอร์เหล่านี้อาจจะสุ่มอย่างสม่ำเสมอ นี่เป็นคำถามเกี่ยวกับการประมวลสัญญาณจริง ๆ แต่มีแนวทางทั่วไปบางประการที่สามารถปฏิบัติตามได้ สิ่งแรกคือทำการวิเคราะห์ฟูริเยร์แบบมาตรฐานบนหน้าต่างแบบเลื่อนจากที่ส่วนประกอบสามารถแบ่งออกเป็นคลื่นความถี่ที่แตกต่างกัน (อัลฟา / เบต้า / แกมม่า ฯลฯ ) และสถิติของสิ่งเหล่านี้ (หมายถึงค่าเบี่ยงเบนมาตรฐาน) สามารถใช้เป็นคุณลักษณะได้ หรืออย่างใดอย่างหนึ่งอาจใช้ Wavelets, Hilbert Transforms หรือแม้แต่พยายามมองหาตัวดึงดูดที่วุ่นวาย. แน่นอนว่าเรามีทางเลือกของเมล็ด (เชิงเส้นพหุนาม RBF ฯลฯ ) ซึ่งคูณจำนวนพีชคณิต บางทีสิ่งที่ดีที่สุดในการทำที่นี่คือการสร้างชุดคุณลักษณะที่แตกต่างกันให้มากที่สุดแล้วใช้MKLหรือวิธีการเพิ่มประสิทธิภาพเพื่อรวมเข้าด้วยกัน

คุณจะเข้าใกล้ชุดข้อมูลประเภทนี้อย่างไร (หากไม่ใช่ชุดนี้โดยเฉพาะ) มีอะไรที่ฉันพลาดไปบ้างไหม? อะไรคือกลยุทธ์ที่น่าจะประสบความสำเร็จมากที่สุดโดยไม่ต้องเสียเวลาในการทำวิจัยและทรัพยากรในการคำนวณ?

คำตอบ:


4

@tdc ประเด็นทั้งหมดและอีกมากมายที่คุณได้กล่าวถึงในที่นี้เกี่ยวกับการวิเคราะห์ข้อมูลทางประสาท ได้แก่ : การลดขนาด, การจัดหมวดหมู่ภายใน / ระหว่างเรื่อง, อัตราส่วนสัญญาณต่อเสียงรบกวน, ฯลฯ ถูกจัดการโดยกล่องเครื่องมือEEGLABซึ่งออกแบบมาโดยเฉพาะ สำหรับการจัดการข้อมูลประสาทวิทยาศาสตร์ประเภทนั้น:

EEGLAB เป็นกล่องเครื่องมือ Matlab แบบโต้ตอบสำหรับการประมวลผลอย่างต่อเนื่องและที่เกี่ยวข้องกับเหตุการณ์ EEG, MEG และข้อมูล electrophysiological อื่น ๆ ซึ่งประกอบด้วยการวิเคราะห์องค์ประกอบอิสระ (ICA), การวิเคราะห์เวลา / ความถี่, การปฏิเสธสิ่งประดิษฐ์, สถิติเกี่ยวกับเหตุการณ์และโหมดที่มีประโยชน์หลายประการ และข้อมูลการทดลองเดี่ยว

ดังนั้นสำหรับคำถามของคุณ "อะไรคือกลยุทธ์ที่น่าจะประสบความสำเร็จมากที่สุดโดยไม่เสียเวลาในการทำวิจัย" ฉันอยากจะแนะนำให้คุณดูEEGLAB ในการฝึกอบรมเชิงปฏิบัติการและดำเนินการต่อจากที่นั่น ...

อัปเดต:สำหรับข้อมูล ML เพิ่มเติมดูที่รุ่นBCILAB (ใหม่)


1
ฉันเคยใช้ EEGLAB ในอดีตแม้ว่าส่วนใหญ่จะเป็นฟังก์ชันพื้นฐานมากกว่า GUI เต็มรูปแบบ (ซึ่งมีแนวโน้มที่จะช้าและไม่เสถียรเล็กน้อย) อย่างไรก็ตามส่วนใหญ่จะมุ่งไปที่การวิเคราะห์แบบไม่รวมค่าตัวแปรมากกว่าการวิเคราะห์หลายตัวแปรแม้ว่าฉันยอมรับว่าฉันไม่ได้ดูในขณะที่ คุณมีประสบการณ์หรือไม่
tdc

ฉันคิดว่าพวกเขาก้าวหน้าอย่างมากในช่วงสองปีที่ผ่านมา ... และฉันใช้ทั้ง GUI และ matlab-function เวิร์กช็อปนี้จากปี 2010 มีประโยชน์มากและมีการแก้ไขข้อผิดพลาดหลายแบบหลายแบบถูกเพิ่มเข้ามาเช่น STUDY และอื่น ๆ ฉันยินดีเป็นอย่างยิ่งที่ช่วยฉันประหยัดเวลาและเงิน แต่โปรดทราบว่าฉันกำลังทำงานกับข้อมูล EEG เป็นหลักไม่ใช่ MEG
Dov

1
โอเคน่าสนใจ โดยหลักการแล้วฉันไม่เห็นความแตกต่างใด ๆ ระหว่าง EEG และ MEG เนื่องจากพวกมันเป็นทั้งการวัดการทำงานของสมองไฟฟ้านอกเหนือจากประเภทของสิ่งประดิษฐ์และจำนวนของเซ็นเซอร์ คุณรวม EEGLAB เข้ากับการเรียนรู้ของเครื่องหรือไม่?
tdc

แน่ใจ ตลอดเวลา. มันคือทั้งหมดใน matlab ... ดังนั้นเมื่อคุณโหลดข้อมูลของคุณลงใน EEGLAB คุณสามารถใช้ PCA / ICA (นี่คือสิ่งที่ฉันกำลังทำอยู่) จากนั้นฝึกฝนตัวแยกประเภท / การจัดกลุ่ม SVM ที่คุณชื่นชอบฟิชเชอร์หรือ k-mean .. เพียงแค่ตั้งชื่อ
Dov

1
นี่เป็นคำตอบที่ยอดเยี่ยมสำหรับขอบเขต แต่ก็ยินดีที่ได้เห็นการสรุปว่าแต่ละปัญหาเหล่านี้ได้รับการจัดการอย่างไรโดยไม่ขึ้นอยู่กับกล่องเครื่องมือที่อาศัยระบบกรรมสิทธิ์
ดาวรุ่ง
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.