ความเป็นมาทางชีวภาพ
เมื่อเวลาผ่านไปพืชบางชนิดมีแนวโน้มที่จะทำซ้ำจีโนมทั้งหมดของพวกเขาได้รับสำเนาเพิ่มเติมของแต่ละยีน เนื่องจากความไม่แน่นอนของการตั้งค่านี้ทำให้ยีนเหล่านี้จำนวนมากถูกลบออกและจีโนมจัดเรียงตัวเองใหม่และทำให้เสถียรพร้อมที่จะทำซ้ำอีกครั้ง เหตุการณ์การทำซ้ำเหล่านี้เกี่ยวข้องกับการเก็งกำไรและการบุกรุกและทฤษฎีก็คือการทำซ้ำช่วยให้พืชสามารถปรับตัวเข้ากับสภาพแวดล้อมใหม่ได้เร็วขึ้น
Lupinus เป็นพืชดอกออกดอกบุกรุก Andes ในเหตุการณ์ speciation ที่เร็วที่สุดเท่าที่เคยตรวจพบและยิ่งไปกว่านั้นดูเหมือนว่าจะมีสำเนาที่ซ้ำกันในจีโนมมากกว่า Baptisia ที่เกี่ยวข้องมากที่สุด
และตอนนี้ปัญหาทางคณิตศาสตร์:
จีโนมของสมาชิกของ Lupinus และสมาชิกของ Baptisia ได้รับการจัดลำดับโดยให้ข้อมูลดิบประมาณ 25,000 ยีนในแต่ละสปีชีส์ ด้วยการสอบถามกับฐานข้อมูลของยีนที่รู้จักกันในฟังก์ชั่นตอนนี้ฉันมี "คาดเดาที่ดีที่สุด" สำหรับสิ่งที่ฟังก์ชั่นที่ยีนอาจทำ - ตัวอย่างเช่น Gene1298 อาจเกี่ยวข้องกับ "เมตาบอลิซึมฟรุกโตส ฉันอยากรู้ว่าถ้ามีเหตุการณ์การทำซ้ำระหว่าง Baptisia และ Lupinus ไม่ว่าการสูญเสียยีนจะเกิดขึ้นแบบสุ่มหรือว่ายีนที่ทำหน้าที่เฉพาะนั้นมีแนวโน้มที่จะถูกเก็บหรือลบมากกว่า
ฉันมีสคริปต์ที่จะส่งออกตารางเช่นเดียวกับที่แสดงด้านล่าง L * คือจำนวนยีน Lupinus ทั้งหมดที่เกี่ยวข้องกับฟังก์ชัน L 1+ คือจำนวนยีน lupinus ที่เกี่ยวข้องกับฟังก์ชันที่มีสำเนาอย่างน้อยหนึ่งสำเนา ฉันสามารถทำให้มันผลิต L 2+, L 3+ ฯลฯ แม้ว่า L 1+ จะเป็นกลุ่มที่เชื่อถือได้มากกว่า L 2+ เนื่องจากกระบวนการจัดลำดับ
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
สิ่งที่ฉันต้องการจะทำคือการทดสอบสำหรับการทำงานของยีนแต่ละตัวไม่ว่าจะมียีนที่มีซ้ำซ้อนกันหรือไม่มากไปกว่าที่คาดไว้โดยบังเอิญใน Lupinus และ Baptisia และ Lupinus นั้นแตกต่างจาก Baptisia ในอัตราส่วนที่สังเกตได้หรือไม่
สิ่งที่ดีที่สุดที่ฉันมี
การศึกษาก่อนหน้านี้เกี่ยวกับสายพันธุ์ที่แตกต่างกันได้ใช้การวิเคราะห์การเพิ่มปริมาณด้วยการทดสอบที่แน่นอนของฟิชเชอร์และการแก้ไข FDR สำหรับการสุ่มตัวอย่างหลายครั้งเพื่อทำการทดสอบฉุกเฉินในแต่ละแถว
มันคงจะดีถ้าได้ปรับปรุงเรื่องนี้ ฉันไม่แน่ใจว่านี่จะเป็นวิธีที่ดีที่สุด
Glen_b แนะนำให้ใช้ GLM เพื่อวิเคราะห์ข้อมูล ฉันได้เล่นกับ GLM ใน JMP8 ซึ่งน่าสนใจ แต่ฉันจะยอมรับว่าไม่ได้เข้าใจจริงๆ
ที่กล่าวว่าฉันพยายามใช้ R แทนตอนนี้
ฉันใช้สิ่งนี้เพื่ออะไร
แต่เดิมนี่น่าจะเป็นส่วนหนึ่งของโครงการวิจัยสั้น ๆ ที่ฉันทำที่มหาวิทยาลัย แต่ตอนนี้ได้ขยายออกไปสู่โครงการบันทึกย่อจีโนมขนาดใหญ่ ทำไม? เพราะชีวสารสนเทศศาสตร์นั้นเย็นสบาย ความสามารถในการใช้สตริง A, T, C และ G และใช้เพื่อสรุปข้อมูลเกี่ยวกับเหตุการณ์ที่เกิดขึ้นหลายล้านปีที่ผ่านมาเป็นสิ่งที่น่าอัศจรรย์
ไม่จำเป็นต้องพูดว่าฉันจะไม่ลองและส่งคำตอบใด ๆ ที่ได้รับกรุณามาเป็นงานของฉันเอง ฉันยินดีที่จะรวมการตอบรับไว้ในกระดาษหากฉันใช้วิธีการที่แนะนำในงานที่ส่งมา