การวิเคราะห์การเพิ่มปริมาณโดยระดับการทำสำเนาของยีน

11

ความเป็นมาทางชีวภาพ

เมื่อเวลาผ่านไปพืชบางชนิดมีแนวโน้มที่จะทำซ้ำจีโนมทั้งหมดของพวกเขาได้รับสำเนาเพิ่มเติมของแต่ละยีน เนื่องจากความไม่แน่นอนของการตั้งค่านี้ทำให้ยีนเหล่านี้จำนวนมากถูกลบออกและจีโนมจัดเรียงตัวเองใหม่และทำให้เสถียรพร้อมที่จะทำซ้ำอีกครั้ง เหตุการณ์การทำซ้ำเหล่านี้เกี่ยวข้องกับการเก็งกำไรและการบุกรุกและทฤษฎีก็คือการทำซ้ำช่วยให้พืชสามารถปรับตัวเข้ากับสภาพแวดล้อมใหม่ได้เร็วขึ้น

Lupinus เป็นพืชดอกออกดอกบุกรุก Andes ในเหตุการณ์ speciation ที่เร็วที่สุดเท่าที่เคยตรวจพบและยิ่งไปกว่านั้นดูเหมือนว่าจะมีสำเนาที่ซ้ำกันในจีโนมมากกว่า Baptisia ที่เกี่ยวข้องมากที่สุด

และตอนนี้ปัญหาทางคณิตศาสตร์:

จีโนมของสมาชิกของ Lupinus และสมาชิกของ Baptisia ได้รับการจัดลำดับโดยให้ข้อมูลดิบประมาณ 25,000 ยีนในแต่ละสปีชีส์ ด้วยการสอบถามกับฐานข้อมูลของยีนที่รู้จักกันในฟังก์ชั่นตอนนี้ฉันมี "คาดเดาที่ดีที่สุด" สำหรับสิ่งที่ฟังก์ชั่นที่ยีนอาจทำ - ตัวอย่างเช่น Gene1298 อาจเกี่ยวข้องกับ "เมตาบอลิซึมฟรุกโตส ฉันอยากรู้ว่าถ้ามีเหตุการณ์การทำซ้ำระหว่าง Baptisia และ Lupinus ไม่ว่าการสูญเสียยีนจะเกิดขึ้นแบบสุ่มหรือว่ายีนที่ทำหน้าที่เฉพาะนั้นมีแนวโน้มที่จะถูกเก็บหรือลบมากกว่า

ฉันมีสคริปต์ที่จะส่งออกตารางเช่นเดียวกับที่แสดงด้านล่าง L * คือจำนวนยีน Lupinus ทั้งหมดที่เกี่ยวข้องกับฟังก์ชัน L 1+ คือจำนวนยีน lupinus ที่เกี่ยวข้องกับฟังก์ชันที่มีสำเนาอย่างน้อยหนึ่งสำเนา ฉันสามารถทำให้มันผลิต L 2+, L 3+ ฯลฯ แม้ว่า L 1+ จะเป็นกลุ่มที่เชื่อถือได้มากกว่า L 2+ เนื่องจากกระบวนการจัดลำดับ

Function            | L *  | L 1+ | B *  | B 1+ |
fructose metabolism | 1000 | 994  | 1290 | 876  |
salt stress         | 56   | 45   | 90   | 54   |
etc.

สิ่งที่ฉันต้องการจะทำคือการทดสอบสำหรับการทำงานของยีนแต่ละตัวไม่ว่าจะมียีนที่มีซ้ำซ้อนกันหรือไม่มากไปกว่าที่คาดไว้โดยบังเอิญใน Lupinus และ Baptisia และ Lupinus นั้นแตกต่างจาก Baptisia ในอัตราส่วนที่สังเกตได้หรือไม่

สิ่งที่ดีที่สุดที่ฉันมี

การศึกษาก่อนหน้านี้เกี่ยวกับสายพันธุ์ที่แตกต่างกันได้ใช้การวิเคราะห์การเพิ่มปริมาณด้วยการทดสอบที่แน่นอนของฟิชเชอร์และการแก้ไข FDR สำหรับการสุ่มตัวอย่างหลายครั้งเพื่อทำการทดสอบฉุกเฉินในแต่ละแถว

มันคงจะดีถ้าได้ปรับปรุงเรื่องนี้ ฉันไม่แน่ใจว่านี่จะเป็นวิธีที่ดีที่สุด

Glen_b แนะนำให้ใช้ GLM เพื่อวิเคราะห์ข้อมูล ฉันได้เล่นกับ GLM ใน JMP8 ซึ่งน่าสนใจ แต่ฉันจะยอมรับว่าไม่ได้เข้าใจจริงๆ

ที่กล่าวว่าฉันพยายามใช้ R แทนตอนนี้

ฉันใช้สิ่งนี้เพื่ออะไร

แต่เดิมนี่น่าจะเป็นส่วนหนึ่งของโครงการวิจัยสั้น ๆ ที่ฉันทำที่มหาวิทยาลัย แต่ตอนนี้ได้ขยายออกไปสู่โครงการบันทึกย่อจีโนมขนาดใหญ่ ทำไม? เพราะชีวสารสนเทศศาสตร์นั้นเย็นสบาย ความสามารถในการใช้สตริง A, T, C และ G และใช้เพื่อสรุปข้อมูลเกี่ยวกับเหตุการณ์ที่เกิดขึ้นหลายล้านปีที่ผ่านมาเป็นสิ่งที่น่าอัศจรรย์

ไม่จำเป็นต้องพูดว่าฉันจะไม่ลองและส่งคำตอบใด ๆ ที่ได้รับกรุณามาเป็นงานของฉันเอง ฉันยินดีที่จะรวมการตอบรับไว้ในกระดาษหากฉันใช้วิธีการที่แนะนำในงานที่ส่งมา

— TDN169
แหล่งที่มา

1

สังเกตปัญหาที่ฉันพูดถึงในคำตอบก่อนหน้าสำหรับคำถามอื่นของคุณ - เกี่ยวกับการทดสอบกับตัวแปรเดียวเท่านั้นเมื่อมีตัวแปรสำคัญอื่น ๆ (ฉันชี้ไปที่บทความวิกิพีเดียเกี่ยวกับ Simpson's Paradox) - การทดสอบที่แน่นอนของ Fisher

— Glen_b -Reinstate Monica

ชีวสารสนเทศศาสตร์นั้นเจ๋ง !! ยินดีต้อนรับสู่เว็บไซต์!

— ไคล์

ฉันจะกลับมาและให้คำตอบที่ครอบคลุมมากขึ้นในไม่ช้า แต่ฟังก์ชันที่เหมาะสมใน R เพื่อดูจะเป็น loglin, loglm (ในแพ็คเกจ MASS ซึ่งมาพร้อมกับ R แต่ไม่ได้ติดตั้งตามค่าเริ่มต้น) และ glm เอง ความเข้าใจของแบบจำลองเหล่านี้จะมีความคล้ายคลึงกันมากในการทำความเข้าใจการถดถอยหลายครั้งและ ANOVA - โดยมีข้อยกเว้นที่การแจกแจงไม่ปกติและล็อกของค่าเฉลี่ยคือแบบจำลองเชิงเส้น

— Glen_b

1

ในขณะที่ฉันยอมรับว่าการทดสอบของฟิชเชอร์ (หรือบางอย่างที่คล้ายกัน) อาจเป็นวิธีที่เป็นธรรมชาติที่สุดในที่นี้ แต่เกี่ยวกับเรื่องนี้:

สำหรับยีนที่ไม่ซ้ำกันแต่ละตัวคุณจะพิจารณาความแตกต่างของจำนวนการทำซ้ำใน L และ B
สั่งซื้อยีนด้วยความแตกต่างนี้ ตอนนี้ยีนที่แสดงความแตกต่างระหว่างเผ่าพันธุ์ส่วนใหญ่จะอยู่ด้านบนของรายการของคุณ
ใช้การทดสอบการเพิ่มประสิทธิภาพของชุดยีนกับรายการลำดับของยีน ตัวอย่างเช่นคุณสามารถใช้วิธีฟิชเชอร์ที่ได้รับการดัดแปลงจากแพ็คเกจtmodซึ่งคุณต้องกำหนดชุดยีนของคุณ (มันควรจะตรงไปตรงมา) โปรดทราบว่าวิธีการของฟิชเชอร์ไม่เกี่ยวข้องกับการทดสอบของฟิชเชอร์

การทดสอบของฟิชเชอร์ที่แก้ไข (ขนานนามว่า CERNO โดยผู้เขียนคนแรกที่อธิบายไว้ในบริบทนี้) ใช้รายการยีนที่เรียงลำดับใด ๆเป็นอินพุตตราบใดที่คุณสามารถจัดกลุ่มพวกมันในบางหมวดหมู่ที่มีประโยชน์

ข้อดีของวิธีนี้คือนอกเหนือจากค่า p คุณสามารถคำนวณขนาดของเอฟเฟกต์ของการตกแต่งและทำให้มองเห็นได้ง่าย (ตัวอย่างเช่นเป็นเส้นโค้ง ROC เหนือรายการลำดับของยีน) สิ่งนี้จะช่วยให้คุณมีความคิดที่ดีขึ้นว่าคุณสังเกตสิ่งที่สำคัญมากสำหรับชีววิทยาที่คุณศึกษา

— มกราคม
แหล่งที่มา

0

อย่างที่คุณพูดคุณกำลังถามคำถามสองข้อที่แตกต่างกัน

คำถามที่ 1 "คืออัตราส่วน L * / L1 + แตกต่างจาก B * / B1 + สำหรับการทำงานของยีนที่กำหนด"

นี่อาจเป็นคำตอบที่ดีที่สุดด้วยการทดสอบที่แม่นยำของฟิชเชอร์โดยใช้ข้อมูลข้ามแถวที่คุณพบก่อนหน้านี้

คำถามที่ 2 "คืออัตราส่วน: ยีนที่มีสำเนา / ยีนเดียวที่มีมากกว่าหนึ่งสำเนาแตกต่างระหว่างฟังก์ชั่นของยีนหรือไม่"

ฉันคิดว่านี่อาจเป็นคำตอบที่ดีที่สุดด้วยการทดสอบที่แน่นอนของฟิชเชอร์ คุณจะทดสอบอัตราส่วน L * / L1 + สำหรับการทำงานของยีน 1 กับ L * / L1 + สำหรับการทำงานของยีน 2 จากนั้นฟังก์ชั่นของยีน 1 เทียบกับการทำงานของยีน 3 และอื่น ๆ

ชุดคำถามเหล่านี้จะไม่ได้รับการดูแลรักษา / ลบได้เร็วกว่าที่คาดหวังไว้เพียงแค่ว่าจะถูกลบ / ดูแลในอัตราที่แตกต่างกันหรือไม่ หากต้องการทราบว่าพวกเขาถูกลบ / ดูแลในอัตราที่แตกต่างจากความบังเอิญคุณจะต้องรู้อัตราส่วนของการคัดลอกหลายครั้ง / สำเนาสำหรับพื้นที่ DNA จำนวนมากที่ได้รับผลกระทบจากโอกาสเท่านั้น หากคุณพบภูมิภาคดังกล่าวคุณจะพบกับ "กลุ่มฟังก์ชั่น" โดยที่ฟังก์ชันคือ "ไม่มี" จากนั้นคุณจะเปรียบเทียบสิ่งนี้กับกลุ่มฟังก์ชันยีนอื่น ๆ ของคุณในลักษณะเดียวกับที่ฉันอธิบายไว้ในคำถาม 2

— ฟิลเอ
แหล่งที่มา