ในการศึกษาความสัมพันธ์ทั่วทั้งจีโนมส่วนประกอบหลักคืออะไร?


20

ในการศึกษาความสัมพันธ์ทั่วทั้งจีโนม (GWAS):

  1. องค์ประกอบหลักคืออะไร?
  2. ทำไมถึงใช้
  3. พวกเขาคำนวณอย่างไร
  4. สามารถทำการศึกษาความสัมพันธ์ทั่วทั้งจีโนมโดยไม่ต้องใช้ PCA ได้หรือไม่?

1
ก่อนถามคำถามคุณค้นหาไซต์ "PCA" หรือสำรวจแท็ก "PCA" หรือไม่ คำถามส่วนใหญ่ของคุณมีคำตอบแล้ว
whuber

1
@ ใครฉันคิดว่า OP กำลังมองหาการใช้ PCA เป็นวิธีการบัญชีและปรับสำหรับการแบ่งชั้นประชากรเมื่อสร้างแบบจำลองผลลัพธ์ที่กำหนด (ฟีโนไทป์อย่างต่อเนื่องหรือกรณีศึกษา / การควบคุม /) และเครื่องหมายดีเอ็นเอ (SNP) ฉันให้อ้างอิงที่นี่: stats.stackexchange.com/questions/1708/variation-in-pca-weights/...
chl

1
GWAS สามารถทำได้อย่างแน่นอนโดยไม่มีส่วนประกอบหลัก ในกรณีที่ไม่มีการแบ่งชั้นของประชากรทั้งหมดที่คุณต้องเป็นพันของ -tests หรือหลายพันของการทดสอบไคสแควร์ เสื้อ
onestop

@onestop (+1) ฉันจะพิจารณาว่าคุณตอบคำถามที่ 2 ว่าฉันไม่ได้พิจารณาคำตอบของฉันเอง
chl

@onestop จะเกิดอะไรขึ้นถ้าแบ่งชนชั้นตามเพศ / เชื้อชาติ กรุณาอธิบายรายละเอียดเกี่ยวกับคำตอบของคุณได้ไหม?
suprvisr

คำตอบ:


27

ในบริบทเฉพาะนี้ PCA ส่วนใหญ่จะใช้ในการบัญชีสำหรับการเปลี่ยนแปลงที่เฉพาะเจาะจงของประชากรในการกระจายอัลลีลใน SNPs (หรือเครื่องหมาย DNA อื่น ๆ แม้ว่าฉันจะคุ้นเคยกับกรณี SNP เท่านั้น) ภายใต้การสอบสวน "โครงสร้างประชากร" เช่นนี้ส่วนใหญ่เกิดขึ้นเป็นผลมาจากความถี่ที่แตกต่างกันของอัลลีลเล็กน้อยในบรรพบุรุษที่ห่างไกลทางพันธุกรรม (เช่นญี่ปุ่นและแอฟริกันดำ - ยุโรปหรืออเมริกัน - อเมริกัน) แนวคิดทั่วไปได้รับการอธิบายอย่างดีในโครงสร้างประชากรและ Eigenanalysisโดย Patterson และคณะ ( PLoS Genetics 2006, 2 (12)) หรือLancet 's ฉบับพิเศษเกี่ยวกับระบาดวิทยาทางพันธุกรรม (2005, 366; บทความส่วนใหญ่สามารถพบได้บนเว็บเริ่มต้นด้วย Cordell & Clayton, การศึกษาสมาคมพันธุศาสตร์ )

การสร้างแกนหลักดังต่อไปนี้จากวิธีการแบบดั้งเดิมไปยัง PCA ซึ่งใช้กับเมทริกซ์ที่ปรับขนาด (บุคคลโดย SNPs) ของจีโนไทป์ที่สังเกต (AA, AB, BB; B เป็นอัลลีลเล็กน้อยในทุกกรณี) ยกเว้นว่า อาจใช้การปรับมาตรฐานเพิ่มเติมสำหรับบัญชีการเลื่อนประชากร ทุกอย่างจะถือว่าความถี่ของอัลลีลรอง (รับค่าใน {0,1,2}) ถือได้ว่าเป็นตัวเลขนั่นคือเราทำงานภายใต้แบบจำลองเพิ่มเติม (เรียกอีกอย่างว่าอัลลีลิคปริมาณ) หรือสิ่งใด ๆ ที่เทียบเท่า . ในฐานะที่เป็นพีซี orthogonal ที่ต่อเนื่องจะบัญชีสำหรับความแปรปรวนสูงสุดนี้เป็นวิธีที่จะเน้นกลุ่มของบุคคลที่แตกต่างกันในระดับความถี่อัลลีลรอง ซอฟแวร์ที่ใช้ในการนี้เป็นที่รู้จักกันEigenstrat มันยังมีอยู่ในegscore()ฟังก์ชั่นจากแพคเกจGenABEL R (ดูเพิ่มเติมที่GenABEL.org ) มันมีค่าที่จะต้องทราบว่ามีการเสนอวิธีการอื่นในการตรวจสอบโครงสร้างพื้นฐานประชากรโดยเฉพาะในการสร้างคลัสเตอร์แบบจำลองขึ้นใหม่ (ดูการอ้างอิงที่ท้าย) ข้อมูลเพิ่มเติมสามารถพบได้โดยการเรียกดูโครงการHapmapและการสอนที่มีอยู่มาจากโครงการBioconductor (ค้นหาบทเรียนที่ดีของ Vince J Carey หรือ David Clayton บน Google)

±6การแบ่งกลุ่มประชากรในความช่วยเหลือแบบออนไลน์

เมื่อพิจารณาว่า eigenanalysis ช่วยให้เปิดเผยโครงสร้างบางอย่างในระดับบุคคลเราสามารถใช้ข้อมูลนี้เมื่อพยายามอธิบายความแปรปรวนที่สังเกตได้ในฟีโนไทป์ที่กำหนด (หรือการแจกแจงใด ๆ ที่อาจกำหนดตามเกณฑ์ไบนารีเช่นโรคหรือการควบคุมเคส สถานการณ์). โดยเฉพาะเราสามารถปรับการวิเคราะห์ของเราด้วยพีซีเหล่านั้น (เช่นคะแนนปัจจัยของแต่ละบุคคล) ดังแสดงในการวิเคราะห์องค์ประกอบหลักที่ถูกต้องสำหรับการแบ่งชั้นในการศึกษาความสัมพันธ์จีโนมทั่วทั้งสมาคมโดย Price et al ( Nature Genetics 2006, 38 (8)) และหลังจากนั้นทำงาน (มีภาพที่ดีแสดงให้เห็นถึงแกนของการแปรปรวนทางพันธุกรรมในยุโรปในภูมิศาสตร์กระจกทางภูมิศาสตร์ในยุโรป; Nature 2008; รูปที่ 1A ทำซ้ำด้านล่าง) โปรดทราบด้วยว่าโซลูชันอื่นจะดำเนินการวิเคราะห์แบบแบ่งชั้น (โดยรวมถึงเชื้อชาติใน GLM) - ตัวอย่างนี้มีอยู่ในแพ็คเกจsnpMatrix

ยีนภูมิศาสตร์กระจกในยุโรป

อ้างอิง

  1. Daniel Falush, Matthew Stephens และ Jonathan K Pritchard (2003) การอนุมานของโครงสร้างประชากรโดยใช้ข้อมูล Multilocus จีโนไทป์: สถานะการเชื่อมโยงและความสัมพันธ์ allele ความถี่ พันธุศาสตร์ , 164 (4): 1567–1587
  2. B Devlin และ K Roeder (1999) การควบคุมเพื่อการศึกษาจีโนมสมาคม ชีวภาพ , 55 (4): 997–1004
  3. JK Pritchard, M Stephens และ P Donnelly (2000) การอนุมานโครงสร้างประชากรโดยใช้ข้อมูลจีโนไทป์แบบหลายจุด พันธุศาสตร์ , 155 (2): 945–959
  4. Gang Zheng, Boris Freidlin, Zhaohai Li และ Joseph L Gastwirth (2005) การควบคุมเพื่อการศึกษาจีโนมสมาคมภายใต้แบบจำลองทางพันธุกรรมต่างๆ ชีวภาพ , 61 (1): 186–92
  5. Chao Tian, ​​Peter K. Gregersen และ Michael F. Seldin1 (2008) การบัญชีสำหรับบรรพบุรุษ: โครงสร้างประชากรและจีโนมทั้งการศึกษาสมาคม พันธุศาสตร์โมเลกุลของมนุษย์ , 17 (R2): R143-R150
  6. Kai Yu การเลือกโครงสร้างย่อยและควบคุมประชากรในการศึกษาความสัมพันธ์ของจีโนมทั่วทั้งองค์กร
  7. Alkes L. Price, Noah A. Zaitlen, David Reich และ Nick Patterson (2010) ใหม่วิธีการแบ่งชั้นของประชากรในจีโนมทั้งการศึกษาสมาคม , ธรรมชาติความคิดเห็นเกี่ยวกับพันธุศาสตร์
  8. Chao Tian และคณะ (2009) โครงสร้างประชากรทางพันธุกรรมของยุโรป: นิยามเพิ่มเติมของตัวบ่งชี้ข้อมูลบรรพบุรุษสำหรับความแตกต่างระหว่างกลุ่มชาติพันธุ์ยุโรปที่หลากหลายการแพทย์ระดับโมเลกุล, 15 (11-12): 371–383

ขอบคุณมาก. คำถามเพิ่มเติมตามปกติแล้วจะเกิดอะไรขึ้น: 1) จะเกิดอะไรขึ้นถ้าฉันเพิกเฉยต่อ PCA และแบ่งกลุ่มตัวอย่าง GWAS ของฉันโดย GENDER / RACE / AGE เท่านั้นและไม่สนใจ PCA มันจะสะท้อนการวิเคราะห์ความสัมพันธ์ของฉันและผลลัพธ์ของมันอย่างไร 2) ถ้าจริง ๆ แล้วฉันต้องการใช้ PCA ต้องมี SNPS จำนวนเท่าไหร่ที่ฉันจะต้องมีจีโนไทป์อย่างน้อยก็ต้องมี PCA จริงด้วย? เพียงพอหรือไม่ พวกเขาจะต้องกระจายอย่างสม่ำเสมอทั่วโครโมโซมทั้งหมดหรือไม่ 3) SNPs ใดที่ใช้ใน PCA เป็นชุดที่กำหนดไว้ล่วงหน้าหรือใด ๆ
suprvisr

@suprvisr ฉันสามารถตอบได้ที่นั่นหรืออัปเดตคำตอบของฉัน แต่ฉันคิดว่ามันจะดีกว่าที่จะถามคำถามใหม่ (sth ตามแนวคิดของ "ข้อดีข้อเสียของการปรับด้วย PCA กับการแบ่งชั้น") และเชื่อมโยงกับคนนี้ สามารถทำการเชื่อมต่อที่จำเป็นได้อย่างชัดเจน
chl

@AndyFrost ปัญหาต่อไปนี้อาจมีตัวเลขอ้างอิง: goo.gl/jNXx0xและรูปภาพที่คุณอาจจะหมายถึงอาจจะอยู่ในgoo.gl/TcK3g8
gung - Reinstate Monica

@chl คุณช่วยอธิบายสิ่งที่คุณหมายถึงได้อย่างไร: "สิ่งที่มักจะทำในกรณีนี้คือการใช้ PCA ในลักษณะวนซ้ำและลบบุคคลที่มีคะแนนต่ำกว่า± 6 ± 6 SD ใน 20 หลักแรกอย่างน้อยหนึ่งรายการ แกน" ฉันกำลังมองหาคำตอบสำหรับโพสต์ของฉันที่นี่: biostars.org/p/180336
MAPK
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.