ในการศึกษาความสัมพันธ์ทั่วทั้งจีโนม (GWAS):
- องค์ประกอบหลักคืออะไร?
- ทำไมถึงใช้
- พวกเขาคำนวณอย่างไร
- สามารถทำการศึกษาความสัมพันธ์ทั่วทั้งจีโนมโดยไม่ต้องใช้ PCA ได้หรือไม่?
ในการศึกษาความสัมพันธ์ทั่วทั้งจีโนม (GWAS):
คำตอบ:
ในบริบทเฉพาะนี้ PCA ส่วนใหญ่จะใช้ในการบัญชีสำหรับการเปลี่ยนแปลงที่เฉพาะเจาะจงของประชากรในการกระจายอัลลีลใน SNPs (หรือเครื่องหมาย DNA อื่น ๆ แม้ว่าฉันจะคุ้นเคยกับกรณี SNP เท่านั้น) ภายใต้การสอบสวน "โครงสร้างประชากร" เช่นนี้ส่วนใหญ่เกิดขึ้นเป็นผลมาจากความถี่ที่แตกต่างกันของอัลลีลเล็กน้อยในบรรพบุรุษที่ห่างไกลทางพันธุกรรม (เช่นญี่ปุ่นและแอฟริกันดำ - ยุโรปหรืออเมริกัน - อเมริกัน) แนวคิดทั่วไปได้รับการอธิบายอย่างดีในโครงสร้างประชากรและ Eigenanalysisโดย Patterson และคณะ ( PLoS Genetics 2006, 2 (12)) หรือLancet 's ฉบับพิเศษเกี่ยวกับระบาดวิทยาทางพันธุกรรม (2005, 366; บทความส่วนใหญ่สามารถพบได้บนเว็บเริ่มต้นด้วย Cordell & Clayton, การศึกษาสมาคมพันธุศาสตร์ )
การสร้างแกนหลักดังต่อไปนี้จากวิธีการแบบดั้งเดิมไปยัง PCA ซึ่งใช้กับเมทริกซ์ที่ปรับขนาด (บุคคลโดย SNPs) ของจีโนไทป์ที่สังเกต (AA, AB, BB; B เป็นอัลลีลเล็กน้อยในทุกกรณี) ยกเว้นว่า อาจใช้การปรับมาตรฐานเพิ่มเติมสำหรับบัญชีการเลื่อนประชากร ทุกอย่างจะถือว่าความถี่ของอัลลีลรอง (รับค่าใน {0,1,2}) ถือได้ว่าเป็นตัวเลขนั่นคือเราทำงานภายใต้แบบจำลองเพิ่มเติม (เรียกอีกอย่างว่าอัลลีลิคปริมาณ) หรือสิ่งใด ๆ ที่เทียบเท่า . ในฐานะที่เป็นพีซี orthogonal ที่ต่อเนื่องจะบัญชีสำหรับความแปรปรวนสูงสุดนี้เป็นวิธีที่จะเน้นกลุ่มของบุคคลที่แตกต่างกันในระดับความถี่อัลลีลรอง ซอฟแวร์ที่ใช้ในการนี้เป็นที่รู้จักกันEigenstrat มันยังมีอยู่ในegscore()
ฟังก์ชั่นจากแพคเกจGenABEL R (ดูเพิ่มเติมที่GenABEL.org ) มันมีค่าที่จะต้องทราบว่ามีการเสนอวิธีการอื่นในการตรวจสอบโครงสร้างพื้นฐานประชากรโดยเฉพาะในการสร้างคลัสเตอร์แบบจำลองขึ้นใหม่ (ดูการอ้างอิงที่ท้าย) ข้อมูลเพิ่มเติมสามารถพบได้โดยการเรียกดูโครงการHapmapและการสอนที่มีอยู่มาจากโครงการBioconductor (ค้นหาบทเรียนที่ดีของ Vince J Carey หรือ David Clayton บน Google)
การแบ่งกลุ่มประชากรในความช่วยเหลือแบบออนไลน์
เมื่อพิจารณาว่า eigenanalysis ช่วยให้เปิดเผยโครงสร้างบางอย่างในระดับบุคคลเราสามารถใช้ข้อมูลนี้เมื่อพยายามอธิบายความแปรปรวนที่สังเกตได้ในฟีโนไทป์ที่กำหนด (หรือการแจกแจงใด ๆ ที่อาจกำหนดตามเกณฑ์ไบนารีเช่นโรคหรือการควบคุมเคส สถานการณ์). โดยเฉพาะเราสามารถปรับการวิเคราะห์ของเราด้วยพีซีเหล่านั้น (เช่นคะแนนปัจจัยของแต่ละบุคคล) ดังแสดงในการวิเคราะห์องค์ประกอบหลักที่ถูกต้องสำหรับการแบ่งชั้นในการศึกษาความสัมพันธ์จีโนมทั่วทั้งสมาคมโดย Price et al ( Nature Genetics 2006, 38 (8)) และหลังจากนั้นทำงาน (มีภาพที่ดีแสดงให้เห็นถึงแกนของการแปรปรวนทางพันธุกรรมในยุโรปในภูมิศาสตร์กระจกทางภูมิศาสตร์ในยุโรป; Nature 2008; รูปที่ 1A ทำซ้ำด้านล่าง) โปรดทราบด้วยว่าโซลูชันอื่นจะดำเนินการวิเคราะห์แบบแบ่งชั้น (โดยรวมถึงเชื้อชาติใน GLM) - ตัวอย่างนี้มีอยู่ในแพ็คเกจsnpMatrix
อ้างอิง