การประยุกต์ใช้เทคนิคการเรียนรู้ของเครื่องในการศึกษาทางคลินิกตัวอย่างขนาดเล็ก


15

คุณคิดอย่างไรเกี่ยวกับการใช้เทคนิคการเรียนรู้ของเครื่องเช่นป่าสุ่มหรือการลงโทษที่ถูกลงโทษ (ด้วยการลงโทษ L1 หรือ L2 หรือการรวมกัน) ในการศึกษาทางคลินิกตัวอย่างขนาดเล็กเมื่อมีวัตถุประสงค์เพื่อแยกตัวทำนายที่น่าสนใจในบริบทการจำแนกประเภท ไม่ใช่คำถามเกี่ยวกับการเลือกแบบจำลองและฉันไม่ถามเกี่ยวกับวิธีการหาค่าประมาณที่เหมาะสมที่สุดของเอฟเฟกต์ / ความสำคัญของตัวแปร ฉันไม่ได้วางแผนที่จะทำการอนุมานที่แข็งแกร่ง แต่ใช้การสร้างแบบจำลองหลายตัวแปรดังนั้นหลีกเลี่ยงการทดสอบตัวทำนายแต่ละตัวต่อผลลัพธ์ที่น่าสนใจในแต่ละครั้งและคำนึงถึงความสัมพันธ์ของพวกเขาด้วย

ฉันแค่สงสัยว่าวิธีการดังกล่าวถูกนำไปใช้แล้วในกรณีที่รุนแรงนี้โดยเฉพาะพูด 20-30 วิชาที่มีข้อมูลเกี่ยวกับ 10-15 หมวดหมู่หรือตัวแปรต่อเนื่อง มันไม่ได้ตรงกรณีและฉันคิดว่านี่คือปัญหาที่เกี่ยวข้องกับจำนวนของชั้นเรียนที่เราพยายามที่จะอธิบาย (ซึ่งมักจะไม่สมดุลกัน) และ (มาก) n ขนาดเล็ก ฉันตระหนักถึงวรรณกรรมจำนวนมากในหัวข้อนี้ในบริบทของชีวสารสนเทศศาสตร์ แต่ฉันไม่พบการอ้างอิงใด ๆ ที่เกี่ยวข้องกับการศึกษาทางชีวการแพทย์ที่มีฟีโนไทป์ที่วัดทางจิตวิทยา (เช่นตลอดแบบสอบถามทางประสาทวิทยา)np

คำแนะนำหรือพอยน์เตอร์ไปยังเอกสารที่เกี่ยวข้อง?

ปรับปรุง

ฉันเปิดให้โซลูชั่นอื่น ๆ สำหรับการวิเคราะห์ข้อมูลประเภทนี้เช่นอัลกอริทึม C4.5 หรืออนุพันธ์วิธีการกฎการเชื่อมโยงและเทคนิคการขุดข้อมูลสำหรับการจำแนกประเภทแบบมีผู้ควบคุมหรือกึ่งมีผู้ดูแล


เพื่อให้ชัดเจน: คำถามของคุณเกี่ยวกับขนาดของข้อมูลไม่ใช่เกี่ยวกับการตั้งค่าใช่ไหม
เชน

ฉันสงสัยว่ามีการอ้างอิงใด ๆ เกี่ยวกับ "น้อยที่สุด" n (wrt. ถึงจำนวนตัวแปรสูง) หรือแม่นยำยิ่งขึ้นหากมีเทคนิคการตรวจสอบข้าม (หรือกลยุทธ์ resampling เช่นใน RFs) ยังคงใช้ได้ในกรณีที่รุนแรง .
chl

คำตอบ:


7

ฉันไม่เคยเห็นสิ่งนี้ใช้ในด้านนอกของชีวสารสนเทศศาสตร์ / การเรียนรู้ของเครื่องจักรเช่นกัน แต่บางทีคุณอาจเป็นคนแรก :)

ในฐานะที่เป็นตัวแทนที่ดีของวิธีการตัวอย่างขนาดเล็กจากชีวสารสนเทศศาสตร์การถดถอยโลจิสติกด้วยการทำให้เป็นมาตรฐาน L1 สามารถให้ความพอดีได้ดีเมื่อจำนวนของพารามิเตอร์เป็นเลขชี้กำลังในจำนวนของการสังเกต ตัวอย่างเช่นDudik, (2004) ) Trevor Hastie ทำงานบางอย่างโดยใช้วิธีการเหล่านี้เพื่อระบุปฏิกิริยาของยีน ในกระดาษด้านล่างเขาใช้เพื่อระบุผลกระทบที่สำคัญจากแบบจำลองที่มีพารามิเตอร์ที่ปรับได้ 310,637 พอดีกับตัวอย่างของการสังเกต 2,400

"การวิเคราะห์ความสัมพันธ์ทั่วทั้งจีโนมโดย Lasso ลงโทษการถดถอยโลจิสติก" ผู้แต่ง: Hastie, T; Sobel, E; วูต. ที; เฉิน, วาย. F; Lange, K Bioinformatics Vol: 25 ปัญหา: 6 ISSN: 1367-4803 วันที่: 03/2009 หน้า: 714 - 721

การนำเสนอที่เกี่ยวข้องโดย Victoria Stodden ( การเลือกรุ่นที่มีตัวแปรมากกว่าการสังเกต )


ใช่ Wu และคณะ ปี 2009 เป็นกระดาษที่ดี บังเอิญฉันทำงานกับ GWAS และ ML ในช่วงสองปีที่ผ่านมา ตอนนี้ฉันพยายามกลับไปที่การศึกษาทางคลินิกซึ่งส่วนใหญ่เราต้องจัดการกับการวัดที่ไม่สมบูรณ์ข้อมูลที่ขาดหายไปและแน่นอน ... ตัวแปรที่น่าสนใจมากมายจากมุมมองของนักฟิสิกส์!
chl

BTW ฉันเพิ่งเจอกระดาษที่ทำให้ฉันคิดว่าคำถามนี้ ... มันเป็นเรื่องยากมากสำหรับเอกสารการเรียนรู้ของเครื่องจักรที่จะพูดคุยเกี่ยวกับช่วงความมั่นใจ แต่นี่เป็นข้อยกเว้นที่น่าทึ่งncbi.nlm.nih.gov/pubmed/19519325
Yaroslav Bulatov

ขอบคุณสำหรับลิงค์เพิ่มเติม สำหรับฉันยังมีปัญหาอยู่กับขนาดเล็กnnpnพี

นี่เป็นคำถามที่น่าสนใจมาก ฉันรวบรวมบทความเหล่านี้และบทความอื่น ๆ ที่ฉันมีในโพสต์บล็อก (หวังว่าคุณจะไม่สนใจ) ฉันแน่ใจว่ามีบางคนอยู่ข้างนอกนั่น
Andrew

5

ฉันจะมีความมั่นใจน้อยมากในความสามารถทั่วไปของผลลัพธ์ของการวิเคราะห์เชิงสำรวจด้วยตัวทำนาย 15 ตัวและขนาดตัวอย่าง 20

  • ช่วงความเชื่อมั่นของการประมาณค่าพารามิเตอร์จะมีขนาดใหญ่ เช่นช่วงความมั่นใจ 95% ของ r = .30 และ n = 20 คือ -0.17 ถึง 0.66
  • ปัญหามีแนวโน้มที่จะรวมกันเมื่อคุณมีตัวทำนายหลายตัวที่ใช้ในการสำรวจและวิธีการขับเคลื่อนข้อมูล

ในสถานการณ์เช่นนี้คำแนะนำของฉันโดยทั่วไปคือการ จำกัด การวิเคราะห์ความสัมพันธ์แบบ bivariate ถ้าคุณใช้มุมมองแบบเบย์ฉันจะบอกว่าความคาดหวังก่อนหน้าของคุณนั้นเท่ากันถ้าไม่สำคัญกว่าข้อมูล


4

กฎทั่วไปข้อหนึ่งคือต้องมีอย่างน้อย 10 เท่าของจำนวนข้อมูลอินสแตนซ์การฝึกอบรม (ไม่พูดถึงข้อมูลการทดสอบ / การตรวจสอบความถูกต้อง ฯลฯ ) เนื่องจากมีพารามิเตอร์ที่ปรับได้ในตัวจําแนก โปรดทราบว่าคุณมีปัญหาที่คุณต้องการไม่เพียง แต่มีข้อมูลที่เพียงพอแต่ยังรวมถึงข้อมูลที่เป็นตัวแทน ในท้ายที่สุดไม่มีกฎเกณฑ์ที่เป็นระบบเพราะมีตัวแปรมากมายเมื่อทำการตัดสินใจนี้ ดังที่ Hastie, Tibshirani และ Friedman กล่าวในองค์ประกอบของการเรียนรู้ทางสถิติ (ดูบทที่ 7):

มันยากเกินไปที่จะให้กฎทั่วไปว่ามีข้อมูลการฝึกอบรมเพียงพอหรือไม่ เหนือสิ่งอื่นใดสิ่งนี้ขึ้นอยู่กับอัตราส่วนสัญญาณต่อสัญญาณรบกวนของฟังก์ชั่นพื้นฐานและความซับซ้อนของแบบจำลองที่เหมาะสมกับข้อมูล

ถ้าคุณยังใหม่กับฟิลด์นี้ฉันขอแนะนำให้อ่านกระดาษสั้น"การจดจำรูปแบบ"นี้จากสารานุกรมวิศวกรรมชีวการแพทย์ซึ่งให้ข้อมูลโดยย่อเกี่ยวกับปัญหาข้อมูลบางอย่าง


ขอบคุณ! ฉันมีหนังสือของ Hastie และของ C. Bishop (การจดจำรูปแบบและการเรียนรู้ของเครื่อง) ฉันรู้ว่าสิ่งเล็ก ๆ น้อย ๆ เช่นนี้จะนำไปสู่ความสัมพันธ์ที่ปลอมแปลงหรือไม่น่าเชื่อถือ (ดูความคิดเห็นของ Jeromy Anglim) อย่างไรก็ตามอัลกอริทึม RF ที่นำมาใช้โดย Breiman อนุญาตให้จัดการกับคุณลักษณะจำนวน จำกัด ในแต่ละครั้งที่ต้นไม้โตขึ้น (ในกรณีของฉัน 3 หรือ 4) และถึงแม้ว่าอัตราความผิดพลาดของ OOB จะค่อนข้างสูง ความสำคัญของตัวแปรทำให้ฉันสรุปได้ว่าฉันจะไปถึงข้อสรุปที่คล้ายกันโดยใช้การทดสอบแบบ bivariate (พร้อมการทดสอบการเปลี่ยนแปลง)
chl

1
กฎของหัวแม่มือนั้นส่วนใหญ่ใช้กับวิธีการแบบดั้งเดิมเช่นความน่าจะเป็นมาตรฐานสูงสุดของ l2, L1 วิธีการทำให้เป็นมาตรฐานสามารถเรียนรู้ได้อย่างมีประสิทธิภาพเมื่อจำนวนพารามิเตอร์ที่ปรับได้เป็นเลขชี้กำลังแทนจำนวนในการสังเกต (เช่น Miroslav Dudik, 2004 COLT paper)
Yaroslav Bulatov

3

ฉันรับรองกับคุณได้ว่า RF จะทำงานในกรณีนั้นและการวัดความสำคัญของมันจะค่อนข้างฉลาด (เพราะจะไม่มีหางขนาดใหญ่ของคุณลักษณะที่ไม่สำคัญที่ทำให้เข้าใจผิดเช่นในมาตรฐาน (n << p) ฉันจำไม่ได้ว่าตอนนี้มีกระดาษที่เกี่ยวข้องกับปัญหาที่คล้ายกัน แต่ฉันจะมองหามัน


1
ขอบคุณ! ฉันได้เข้าร่วมการประชุม EAM-SMABS ครั้งที่สี่เมื่อเดือนที่แล้วและหนึ่งในผู้บรรยายได้นำเสนอการประยุกต์ใช้ ML ในการศึกษาด้านชีวการแพทย์ น่าเสียดายที่นี่เป็นการศึกษาแบบ "มาตรฐาน" กับกลุ่มตัวอย่าง N ~ 300 และ p = 10 ตัวทำนาย เขาเป็นเรื่องเกี่ยวกับที่จะส่งกระดาษที่สถิติในการแพทย์ สิ่งที่ฉันกำลังมองหาเป็นเพียงบทความ / การอ้างอิง wrt การศึกษาทางคลินิกมาตรฐานด้วยเช่นผู้ป่วยนอกซึ่งผลลัพธ์โดยทั่วไปของผลลัพธ์ไม่ได้เป็นปัญหามากนัก
chl

ในที่สุดคุณก็พบกระดาษอะไรบ้าง?
chl

@chl ยังไม่ได้; แต่ขอบคุณสำหรับการเตือน

ไม่ต้องรีบร้อน :) ไม่พบสิ่งที่น่าสนใจเลย บางที Pubmed ไม่ได้เป็นเครื่องมือค้นหาที่เหมาะสมสำหรับกรณีนี้โดยเฉพาะอย่างยิ่ง ...
CHL

@chl นั่นคือปัญหาของฉันที่นี่ ดูเหมือนว่า n << p กลายเป็นคำพ้องความหมายสำหรับข้อมูลชีวการแพทย์

0

หากคุณมีอินพุตไม่ต่อเนื่องฉันจะเขียนโปรแกรมเพื่อทำนายค่าที่ขาดหายไปของอินพุตไบนารี่ที่ได้รับจากอินพุตก่อนหน้า หมวดหมู่ใด ๆ เช่น "1 จาก 6" สามารถแปลงเป็นบิตไบนารี่ได้และมันก็ใช้ได้ดี มันจะไม่ส่งผลกระทบ

วัตถุประสงค์ของอัลกอริทึมที่ฉันเขียนคือการเรียนรู้ให้เร็วที่สุดเท่าที่จะเป็นไปได้ทางคณิตศาสตร์ ดังนั้นมันจึงมีเวลาและความซับซ้อนของพื้นที่ที่ต่ำมาก (ความซับซ้อนของพื้นที่เกี่ยวกับ O (4 ^ N)!

แต่สำหรับการที่คุณได้รับการเรียนรู้แบบ 1 ครั้งเป็นหลักสำหรับระบบใด ๆ ที่สถานะสามารถแสดงเป็นบิตเวกเตอร์ได้ ตัวอย่างเช่นตัวบวกมี 8 สถานะอินพุตที่แตกต่างกัน อัลกอริทึมจะเรียนรู้บวกทั้งหมดอย่างสมบูรณ์หลังจากเพียง 8 ตัวอย่างการฝึกอบรมที่แตกต่างกัน ไม่เพียงแค่นั้น แต่คุณสามารถให้คำตอบและให้มันคาดเดาคำถามหรือให้คำตอบและเป็นส่วนหนึ่งของคำถามและให้มันเติมในส่วนที่เหลือ

ถ้าข้อมูลอินพุตมีบิตจำนวนมากมันจะเป็นการคำนวณและความจำที่เข้มข้น แต่ถ้าคุณมีตัวอย่างน้อยมาก - หรือดังนั้นเป้าหมายการออกแบบคือ - มันจะทำให้คุณได้คำทำนายที่ดีที่สุด

คุณแค่ฝึกมันด้วยบิตเวกเตอร์รวมถึงบิตเวกเตอร์ซึ่งไม่ทราบบิต ในการรับการคาดคะเนคุณก็แค่ป้อนเวกเตอร์บิตซึ่งไม่ทราบบิตและบิตที่คุณต้องการคาดเดา

มีซอร์สโค้ดที่นี่: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.