การใช้งานของค่ามัธยฐานขัดสำหรับการเลือกคุณสมบัติ


9

ในกระดาษที่ฉันอ่านเมื่อเร็ว ๆ นี้ฉันเจอบิตต่อไปนี้ในส่วนการวิเคราะห์ข้อมูล:

จากนั้นตารางข้อมูลจะถูกแบ่งออกเป็นเนื้อเยื่อและเส้นของเซลล์และทั้งสอง subtables แยกเป็นค่ามัธยฐานขัด (แถวและคอลัมน์ถูกปรับซ้ำ ๆ เพื่อให้มีค่ามัธยฐาน 0) ก่อนที่จะรวมกันเป็นตารางเดียว ในที่สุดเราก็เลือกส่วนย่อยของยีนที่มีการแสดงออกแตกต่างกันอย่างน้อย 4 เท่าจากค่ามัธยฐานในตัวอย่างนี้ตั้งค่าในตัวอย่างอย่างน้อยสามตัวอย่าง

ฉันต้องบอกว่าฉันไม่ได้ทำตามเหตุผลจริงๆที่นี่ ฉันสงสัยว่าถ้าคุณสามารถช่วยฉันตอบคำถามสองข้อต่อไปนี้:

  1. เหตุใดจึงเป็นที่ต้องการ / เป็นประโยชน์ในการปรับค่ามัธยฐานในชุดข้อมูล? ทำไมมันควรทำแยกต่างหากสำหรับตัวอย่างประเภทต่างๆ

  2. สิ่งนี้ไม่ได้แก้ไขข้อมูลการทดลองอย่างไร นี่เป็นวิธีที่รู้จักกันดีในการเลือกจำนวนยีน / ตัวแปรจากชุดข้อมูลขนาดใหญ่หรือค่อนข้างเป็นแบบ adhoc

ขอบคุณ


คุณช่วยกรุณาอธิบายรายละเอียดเกี่ยวกับชนิดของข้อมูลที่คุณ / พวกเขาดูได้ไหม? ฉันคิดว่าการตัดสินจากสิ่งที่คุณอ้างถึง - สำหรับฉัน - วิธีการนี้ดูเหมือนจะเป็นแบบเฉพาะกิจ
suncoolsu

@suncoolsu: เป็นข้อมูล microarray หากคุณคุ้นเคยกับแนวคิด ถ้าไม่ฉันอาจสรุปได้ว่าเป็น; ยีนชนิดใดที่แสดงออกถึงขอบเขตในตัวอย่างที่ศึกษา นี่คือคำอธิบายที่ดีกว่า: en.wikipedia.org/wiki/Gene_expression_profiling
posdef

@suncoolsu ข้อมูลการวิเคราะห์การแสดงออกของยีนเกือบแน่นอน
kriegar

โอเค - ฉันไม่แน่ใจนักลำดับถัดไปที่ได้รับความนิยม
suncoolsu

คำตอบ:


10

Tukey Median Polish อัลกอริทึมถูกนำมาใช้ในการทำให้เป็นมาตรฐานของ microarrays RMA ดังที่คุณอาจทราบแล้วว่าข้อมูลไมโครเรย์ค่อนข้างมีเสียงดังดังนั้นพวกเขาจึงต้องการวิธีที่มีประสิทธิภาพมากขึ้นในการประมาณค่าความเข้มของโพรบโดยคำนึงถึงการสังเกตสำหรับโพรบและไมโครเรย์ทั้งหมด นี่เป็นรูปแบบทั่วไปที่ใช้สำหรับปรับความเข้มของโพรบในอาร์เรย์

YผมJ=μผม+αJ+εผมJ
ผม=1,...,ผมJ=1,...,J

ที่ไหน YผมJ คือ ล.โอก. เปลี่ยนความเข้ม PM สำหรับ ผมเสื้อชั่วโมงโพรบบน Jเสื้อชั่วโมง แถว εผมJเป็นเสียงพื้นหลังและสามารถสันนิษฐานได้ว่าสอดคล้องกับเสียงรบกวนในการถดถอยเชิงเส้นปกติ อย่างไรก็ตามสมมติฐานการกระจายε อาจมีข้อ จำกัด ดังนั้นเราจึงใช้ Tukey Median Polish เพื่อรับข้อมูลประมาณการ μผม^ และ αJ^. นี่เป็นวิธีที่มีประสิทธิภาพในการทำ normalizing ข้ามอาร์เรย์เราต้องการแยกสัญญาณความเข้มเนื่องจากโพรบจากเอฟเฟกต์อาร์เรย์α. เราสามารถรับสัญญาณโดย normalizing สำหรับผลอาร์เรย์αJ^สำหรับอาร์เรย์ทั้งหมด ดังนั้นเราจึงเหลือเพียงเอฟเฟกต์ของหัววัดบวกกับเสียงรบกวนแบบสุ่ม

ลิงก์ที่ฉันยกมาก่อนหน้านี้ใช้ Tukey มัธยฐานขัดเพื่อประเมินยีนที่แสดงออกแตกต่างกันหรือยีน "น่าสนใจ" โดยการจัดอันดับโดยผลการสอบสวน อย่างไรก็ตามกระดาษนั้นค่อนข้างเก่าและในเวลานั้นผู้คนก็ยังคงพยายามหาวิธีวิเคราะห์ข้อมูล microarray กระดาษวิธีเบส์แบบไม่ใช้พารามิเตอร์เชิงประจักษ์ของ Efron มาในปี 2544 แต่อาจไม่ได้ใช้กันอย่างแพร่หลาย

อย่างไรก็ตามตอนนี้เราเข้าใจมากเกี่ยวกับ microarrays (สถิติ) และค่อนข้างแน่ใจเกี่ยวกับการวิเคราะห์ทางสถิติ

ข้อมูล Microarray นั้นค่อนข้างดังและ RMA (ซึ่งใช้ Median Polish) เป็นหนึ่งในวิธีการฟื้นฟูที่ได้รับความนิยมมากที่สุดอาจเป็นเพราะความเรียบง่าย วิธีที่ได้รับความนิยมและซับซ้อนอื่น ๆ ได้แก่ : GCRMA, VSN สิ่งสำคัญคือการทำให้เป็นปกติเนื่องจากดอกเบี้ยคือเอฟเฟกต์โพรบและไม่ใช่เอฟเฟ็กต์อาร์เรย์

ตามที่คุณคาดหวังการวิเคราะห์อาจได้รับประโยชน์จากวิธีการบางอย่างที่ใช้ประโยชน์จากการยืมข้อมูลข้ามยีน ซึ่งอาจรวมถึงวิธีการแบบเบย์หรือเชิงประจักษ์ อาจเป็นกระดาษที่คุณกำลังอ่านอยู่นั้นเก่าและเทคนิคเหล่านี้ยังไม่ออกจนกว่าจะถึงตอนนั้น

เกี่ยวกับประเด็นที่สองของคุณใช่ว่าพวกเขาอาจแก้ไขข้อมูลการทดลอง แต่ฉันคิดว่าการปรับเปลี่ยนนี้เป็นสาเหตุที่ดีกว่า เหตุผลที่เป็น

a) ข้อมูล Microarray ค่อนข้างมีเสียงดัง เมื่อความสนใจคือเอฟเฟกต์โพรบการทำให้ข้อมูลเป็นปกติโดย RMA, GCRMA, VSN ฯลฯ เป็นสิ่งที่จำเป็นและอาจใช้ประโยชน์จากโครงสร้างพิเศษใด ๆ ในข้อมูลได้ดี แต่ฉันจะหลีกเลี่ยงการทำส่วนที่สอง นี่เป็นส่วนใหญ่เพราะถ้าเราไม่ทราบโครงสร้างล่วงหน้าจะดีกว่าไม่กำหนดสมมติฐานจำนวนมาก

b) การทดลอง microarray ส่วนใหญ่เป็นการสำรวจตามธรรมชาตินั่นคือนักวิจัยกำลังพยายาม จำกัด ขอบเขตของยีนที่ "น่าสนใจ" ไว้สองสามชุดเพื่อการวิเคราะห์หรือทดลองเพิ่มเติม หากยีนเหล่านี้มีสัญญาณที่แรงการดัดแปลงเช่นการปรับสภาพแบบปกติไม่ควรส่งผลกระทบต่อผลลัพธ์สุดท้าย

ดังนั้นการปรับเปลี่ยนอาจเป็นธรรม แต่ฉันต้องสังเกตว่าการทำตามมาตรฐานมากเกินไปอาจนำไปสู่ผลลัพธ์ที่ไม่ถูกต้อง


+1 นี่เป็นคำตอบที่ดีกว่าความพยายามของฉัน ขอบคุณ
kriegar

@posdef ฉันสงสัยว่ามีนักสถิติเข้าร่วมในการวิเคราะห์ทางสถิติของบทความหรือไม่
suncoolsu

ขอบคุณสำหรับการตอบกลับอย่างละเอียด ฉันคิดว่าความจริงที่ว่านี่เป็นขั้นตอนการประมวลผลล่วงหน้าไม่ได้อธิบายอย่างดี (หรือสันนิษฐานว่าเป็นที่รู้จักกันดี) ในกระดาษ เมื่อพูดถึงเรื่องนี้บทความได้ตีพิมพ์ในปี 2000 (ในธรรมชาติ) ดังนั้นฉันจึงสันนิษฐานว่าพวกเขามีสถิติอย่างน้อยก็ดูวิธีการของพวกเขาหากไม่เกี่ยวข้องกับการเขียน แต่แน่นอนฉันสามารถคาดเดาได้เท่านั้น .. :)
posdef

@posdef Ok- เด็ดตอบคำถามมากมาย 2000 เป็นเวลาที่ผู้คนยังคงหาวิธีการวิเคราะห์ข้อมูล microarray FDR ไม่ได้
นึกถึง

4

คุณอาจพบเบาะแสบางอย่างในหน้า 4 และ 5 ของสิ่งนี้

มันเป็นวิธีการคำนวณเศษซากของแบบจำลอง

Yผม,J=ม.+aผม+J+อีผม,J
โดยการคำนวณค่าสำหรับ ม., aผม และ J ดังนั้นถ้า อีผม,J ถูก tabulated ค่ามัธยฐานของแต่ละแถวและของแต่ละคอลัมน์คือ 0

วิธีการทั่วไปมากขึ้นจำนวนการคำนวณค่าสำหรับ ม., aผม และ J ดังนั้นค่าเฉลี่ย (หรือผลรวม) ของแต่ละแถวและแต่ละคอลัมน์ของค่าคงที่คือ 0

ข้อดีของการใช้ค่ามัธยฐานคือความทนทานต่อค่าผิดปกติเล็กน้อย ข้อเสียคือคุณทิ้งข้อมูลที่เป็นประโยชน์หากไม่มีค่าผิด


ขอบคุณสำหรับคำตอบและลิงค์อ้างอิง อย่างไรก็ตามฉันไม่สามารถดูว่ารุ่นนี้ใช้กับปัญหาที่อยู่ในมือ เนื่องจากข้อมูลนั้นเป็นค่าการแสดงออกเปรียบเทียบ (read: มากมาย) ว่าจะกำหนดได้อย่างไรaผม, J และ อีผม,J??
posdef

ถ้าคุณทำแบบจำลองมากมายเช่นนั้น nผม,J=nผมQJ+อีผม,J หรือคนที่ชอบ ล.โอก.(nผม,J)=ล.โอก.(n)+ล.โอก.(พีผม)+ล.โอก.(QJ)+อีผม,Jจากนั้นคุณสามารถทำสิ่งเดียวกันโดยการทำให้ค่ามัธยฐานของแต่ละแถวและของแต่ละคอลัมน์ของตารางส่วนที่เหลือเท่ากับ 0
Henry

@Henry ข้อมูลใดที่ "โยนออก" พร้อมกับค่ามัธยฐานของการขัดเมื่อไม่มี "ค่าผิดปกติ" (และคุณหมายถึงอะไรโดย "ค่าที่ผิดพลาด" ต่อไป)? ท้ายที่สุดคุณสามารถสร้างข้อมูลใหม่ได้อย่างแม่นยำโดยใช้ค่ามัธยฐานกลางค่ามัธยฐานของแถวและคอลัมน์และค่าส่วนที่เหลือทั้งหมดนี้เป็นผลลัพธ์ของค่ามัธยฐานของการขัดเงา หากคุณหมายถึงสิ่งที่เหลืออยู่จะถูกละทิ้งดังนั้นในแง่นี้คือ "หมายถึงการขัดเงา" (เทียบเท่ากับ OLS) ในแง่นี้แตกต่างกันอย่างไร
whuber

@whuber: ส่วนที่เหลือจะถูกเก็บไว้ในทั้งสองกรณี ค่าเฉลี่ยของการขัดนั้นคำนึงถึงการสังเกตที่ไกลออกไปจากจุดศูนย์กลาง (ในแง่หนึ่งมันถ่วงดุลน้ำหนักของส่วนที่เหลือ) ในขณะที่ค่ามัธยฐานของการขัดเงาจะดูว่าพวกมันอยู่เหนือหรือต่ำกว่าจุดศูนย์กลาง (ในแง่หนึ่ง จำนวนที่เหลือ) ดังนั้นข้อมูลน้ำหนักจึงไม่ถูกใช้เมื่อใช้ค่ามัธยฐานเป็นศูนย์กลาง นี่อาจเป็นสิ่งที่ดีเมื่อน้ำหนัก / สิ่งตกค้างบางอย่างน่าสงสัยว่าผลลัพธ์ของศูนย์ไม่น่าเชื่อถือ แต่เกี่ยวข้องกับการไม่ใช้ข้อมูลหากไม่ได้
Henry

@Henry หากคุณสามารถกู้คืนข้อมูลดั้งเดิมทั้งหมดจากโปแลนด์แล้ว "ข้อมูล" ไม่ "ใช้" อย่างไร BTW, ค่ามัธยฐานของการขัดไม่ได้ทำงานตามที่คุณอธิบาย: ส่วนที่เหลือของมันคือความแตกต่างของค่าที่ไม่ได้อยู่ในอันดับของข้อมูล
whuber

3

ดูเหมือนว่าคุณกำลังอ่านกระดาษที่มีการวิเคราะห์การแสดงออกของยีนที่แตกต่างกัน หลังจากทำวิจัยเกี่ยวกับชิป microarray ฉันสามารถแบ่งปันความรู้เล็ก ๆ น้อย ๆ (หวังว่าถูกต้อง) ฉันมีเกี่ยวกับการใช้ยาขัด

การใช้ค่ามัธยฐานแบบโปแลนด์ระหว่างขั้นตอนการสรุปของการเตรียมล่วงหน้าขนาดเล็กเป็นวิธีมาตรฐานในการกำจัดข้อมูลค่าผิดปกติด้วยโพรบจับคู่ที่สมบูรณ์แบบเฉพาะชิปเท่านั้น (อย่างน้อยสำหรับ RMA)

ค่ามัธยฐานการขัดสำหรับข้อมูล microarray เป็นที่ที่คุณมีเอฟเฟกต์ชิปและเอฟเฟกต์โพรบเป็นแถวและคอลัมน์ของคุณ:

สำหรับชุดโพรบแต่ละชุด (ประกอบด้วยจำนวนโพรบที่เหมือนกันจำนวน n) บนชิป x:

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

โดยที่ iv คือค่าความเข้ม

เนื่องจากความแปรปรวนของความเข้มของโพรบการวิเคราะห์ข้อมูล microarray เกือบทั้งหมดจะถูกประมวลผลล่วงหน้าโดยใช้การแก้ไขพื้นหลังและการทำให้เป็นมาตรฐานก่อนที่จะสรุป

นี่คือลิงค์ไปยังกระทู้รายชื่อผู้รับจดหมาย BioC ที่พูดถึงการใช้มัธยฐานขัดกับวิธีอื่น ๆ :

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

ข้อมูลจากเนื้อเยื่อและเส้นของเซลล์มักจะวิเคราะห์แยกกันเพราะเมื่อเซลล์ถูกเพาะเลี้ยงโปรไฟล์การแสดงออกของพวกเขาเปลี่ยนไปอย่างมากจากตัวอย่างเนื้อเยื่อที่เก็บรวบรวม หากไม่มีกระดาษมากขึ้นเป็นการยากที่จะพูดว่าการแยกสารตัวอย่างนั้นเหมาะสมหรือไม่

การทำให้เป็นมาตรฐานการแก้ไขพื้นหลังและขั้นตอนการสรุปในท่อการวิเคราะห์เป็นการปรับเปลี่ยนข้อมูลการทดลองทั้งหมด แต่ในสถานะที่ยังไม่ได้ประมวลผลเอฟเฟกต์ของชิปเอฟเฟกต์การประมวลผลจะทำให้สัญญาณใด ๆ การทดลอง microarray เหล่านี้สร้างรายการของยีนที่เป็นตัวเลือกสำหรับการติดตามการทดลอง (qPCR, ฯลฯ ) เพื่อยืนยันผลลัพธ์

เท่าที่เป็นเฉพาะกิจให้ถาม 5 คนว่าต้องใช้ความแตกต่างทางพันธุกรรมเท่าไรในการแสดงความแตกต่างและคุณจะได้คำตอบที่แตกต่างกันอย่างน้อย 3 ข้อ


ขอบคุณสำหรับการอัปเดตคำตอบของคุณฉันคิดว่าฉันเริ่มเข้าใจแล้ว ดังนั้นถ้าฉันเข้าใจอย่างถูกต้องการขัดค่ามัธยฐานจะใช้ในการประเมินความแปรปรวนทางเทคนิคเกี่ยวกับการสอบสวนและชิปหรือไม่ ... ก่อนการทดลองจะสรุปได้สูงสุด 1 เมทริกซ์ที่เก็บค่าการแสดงออกของยีนภายใต้เงื่อนไขที่แตกต่างกันอย่างไร
posdef

@posdef จากความเข้าใจของฉันใช่ สำหรับโพรบแต่ละชุดบนชิป (โพรบในลำดับเดียวกัน) มีโพรบกระจายอยู่ทั่ว plmimagegallery.bmbolstad.comสำหรับภาพหลอกบางอย่างของชิป นอกเหนือจากความแปรปรวนภายในชิปตัวเดียวแล้วยังมีความแปรปรวนระหว่างชิปอีกด้วย เนื่องจากความแปรปรวนทางเทคนิคอัลกอริทึมจึงทำงานบนค่าความเข้มดิบเพื่อรับ "นิพจน์ค่า" เดียวสำหรับโพรบ เมทริกซ์ของค่าเหล่านี้มีความเหมาะสมที่จะตรวจสอบว่ายีนนั้นมีการแสดงออกที่แตกต่างกันภายใต้เงื่อนไขที่แตกต่างกันหรือไม่
kriegar
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.