สถิติและข้อมูลขนาดใหญ่ genetics

6

การเลือกคุณสมบัติสำหรับรุ่น“ ขั้นสุดท้าย” เมื่อทำการตรวจสอบข้ามในการเรียนรู้ของเครื่อง

ฉันสับสนเล็กน้อยเกี่ยวกับการเลือกคุณสมบัติและการเรียนรู้ของเครื่องและฉันสงสัยว่าคุณจะช่วยฉันออกไปได้ไหม ฉันมีชุดข้อมูลขนาดเล็กที่แบ่งออกเป็นสองกลุ่มและมีคุณสมบัติ 1,000 รายการ เป้าหมายของฉันคือการได้รับยีนจำนวนเล็กน้อย (คุณสมบัติของฉัน) (10-20) ในลายเซ็นที่ฉันจะใช้กับชุดข้อมูลอื่น ๆ ในทางทฤษฎีเพื่อจำแนกตัวอย่างเหล่านั้นอย่างเหมาะสมที่สุด เนื่องจากฉันไม่มีตัวอย่างจำนวนมาก (<100) ฉันไม่ได้ใช้ชุดการทดสอบและการฝึกอบรม แต่ใช้การตรวจสอบความถูกต้องแบบลาออกหนึ่งครั้งเพื่อช่วยในการกำหนดความทนทาน ฉันได้อ่านแล้วว่าควรดำเนินการเลือกคุณสมบัติสำหรับตัวอย่างแต่ละตัวอย่าง เลือกหนึ่งตัวอย่างเป็นชุดทดสอบ ในตัวอย่างที่เหลือดำเนินการเลือกคุณสมบัติ ใช้อัลกอริทึมการเรียนรู้ของเครื่องกับตัวอย่างที่เหลือโดยใช้คุณสมบัติที่เลือก ทดสอบว่าชุดการทดสอบนั้นได้รับการจัดประเภทอย่างถูกต้องหรือไม่ ไปที่ 1 หากคุณทำสิ่งนี้คุณอาจได้รับยีนที่แตกต่างกันในแต่ละครั้งดังนั้นคุณจะได้รับตัวจําแนกยีนที่เหมาะสมที่สุดได้อย่างไร? นั่นคือขั้นตอนที่ 6 สิ่งที่ฉันหมายถึงอย่างดีที่สุดคือการรวบรวมยีนที่ควรมีการศึกษาเพิ่มเติม ตัวอย่างเช่นสมมติว่าฉันมีชุดข้อมูลมะเร็ง / ปกติและฉันต้องการค้นหา 10 อันดับแรกของยีนที่จะจัดประเภทเนื้องอกตาม SVM ฉันต้องการทราบชุดของยีนรวมถึงพารามิเตอร์ SVM ที่สามารถใช้ในการทดลองเพิ่มเติมเพื่อดูว่าสามารถใช้เป็นการทดสอบวินิจฉัยได้หรือไม่

76 machine-learning classification cross-validation feature-selection genetics

6

เป็นไปได้ยังไงที่ฉันจะถูกสืบเชื้อสายมาจากบุคคลที่เกิดในปี 1300?

กล่าวอีกนัยหนึ่งตาม p ต่อไปนี้คืออะไร? เพื่อที่จะทำให้นี่เป็นปัญหาทางคณิตศาสตร์มากกว่ามานุษยวิทยาหรือสังคมศาสตร์และเพื่อทำให้ปัญหาง่ายขึ้นสมมติว่าเพื่อนถูกเลือกด้วยความน่าจะเป็นที่เท่าเทียมกันทั่วทั้งประชากรยกเว้นว่าพี่น้องและลูกพี่ลูกน้องแรกไม่เคยผสมพันธุ์กัน รุ่น n1n1n_1 - ประชากรเริ่มต้น ggg - จำนวนรุ่น ccc - จำนวนเด็กโดยเฉลี่ยต่อคู่ (หากจำเป็นสำหรับคำตอบสมมติว่าทุกคู่มีจำนวนลูกเท่ากันทุกประการ) zzz - เปอร์เซ็นต์ของผู้ที่ไม่มีลูกและไม่ถือว่าเป็นส่วนหนึ่งของคู่รัก n2n2n_2 - ประชากรในรุ่นสุดท้าย (ควรได้รับn2n2n_2หรือzzzและ (ฉันคิดว่า) อีกอันสามารถคำนวณได้) ppp - ความน่าจะเป็นของใครบางคนในรุ่นสุดท้ายเป็นผู้สืบทอดของบุคคลใดบุคคลหนึ่งในรุ่นแรก แน่นอนว่าตัวแปรเหล่านี้สามารถเปลี่ยนแปลงละเว้นหรือเพิ่มเข้ามาได้ ฉันกำลังสมมติว่าความเรียบง่ายที่cccและzzzไม่เปลี่ยนแปลงตลอดเวลา ฉันรู้นี้จะได้รับมากประมาณการคร่าวๆ แต่ก็เป็นจุดเริ่มต้น ส่วนที่ 2 (ข้อเสนอแนะสำหรับการวิจัยเพิ่มเติม): คุณจะพิจารณาได้อย่างไรว่าเพื่อน ๆ จะไม่ถูกเลือกด้วยความน่าจะเป็นที่เหมือนกันทั่วโลก? ในความเป็นจริงเพื่อนมีแนวโน้มที่จะมีพื้นที่ทางภูมิศาสตร์เดียวกันภูมิหลังทางเศรษฐกิจและสังคมการแข่งขันและภูมิหลังทางศาสนา หากไม่มีการศึกษาความน่าจะเป็นที่แท้จริงของสิ่งนี้แล้วตัวแปรสำหรับปัจจัยเหล่านี้จะเข้ามาเล่นได้อย่างไร สิ่งนี้สำคัญขนาดไหน?

26 probability stochastic-processes genetics

4

การแก้ไขค่า p สำหรับการทดสอบหลายครั้งที่การทดสอบมีความสัมพันธ์กัน (พันธุศาสตร์)

ฉันมีค่า p จากการทดสอบจำนวนมากและต้องการทราบว่ามีสิ่งที่สำคัญจริง ๆ หลังจากแก้ไขสำหรับการทดสอบหลายครั้ง ภาวะแทรกซ้อน: การทดสอบของฉันไม่ขึ้นกับใคร วิธีที่ฉันคิด (แตกต่างจากวิธีผลิตภัณฑ์ของฟิชเชอร์, Zaykin และคณะ, Genet Epidemiol , 2002) ต้องการความสัมพันธ์ระหว่างค่า p เพื่อที่จะประมาณค่าสหสัมพันธ์นี้ขณะนี้ฉันกำลังคิดถึงกรณี bootstrapping ทำการวิเคราะห์และสหสัมพันธ์ผลเวกเตอร์ของค่า p ใครบ้างมีความคิดที่ดีกว่า หรือแม้แต่ความคิดที่ดีกว่าสำหรับปัญหาดั้งเดิมของฉัน (แก้ไขการทดสอบหลายรายการในการทดสอบที่เกี่ยวข้อง) ความเป็นมา: ฉันกำลังถดถอยอยู่หรือไม่ว่าประชากรของฉันกำลังทุกข์ทรมานจากโรคใดโรคหนึ่งโดยเฉพาะในการมีปฏิสัมพันธ์ระหว่างจีโนไทป์ของพวกเขา (AA, Aa หรือ aa) และ covariate อย่างไรก็ตามจีโนไทป์นั้นมีจำนวนมาก (30-250) ของ Single Nucleotide Polymorphisms (SNPs) ซึ่งแน่นอนว่าไม่เป็นอิสระ แต่อยู่ใน Linkage Disequilibrium

24 correlation multiple-comparisons statistical-significance genetics

4

ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?

ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

1

ในการศึกษาความสัมพันธ์ทั่วทั้งจีโนมส่วนประกอบหลักคืออะไร?

ในการศึกษาความสัมพันธ์ทั่วทั้งจีโนม (GWAS): องค์ประกอบหลักคืออะไร? ทำไมถึงใช้ พวกเขาคำนวณอย่างไร สามารถทำการศึกษาความสัมพันธ์ทั่วทั้งจีโนมโดยไม่ต้องใช้ PCA ได้หรือไม่?

20 pca genetics gwas

1

การทำให้เป็นมาตรฐานของ Quantile ทำงานอย่างไร?

ในการศึกษาการแสดงออกของยีนโดยใช้ microarrays ข้อมูลความเข้มจะต้องเป็นมาตรฐานเพื่อให้ความเข้มสามารถเปรียบเทียบระหว่างบุคคลระหว่างยีน แนวคิดและอัลกอริทึมทำงาน "การทำให้เป็นมาตรฐานของควอไทล์" ได้อย่างไรและคุณจะอธิบายสิ่งนี้กับนักสถิติได้อย่างไร

15 genetics normalization microarray

2

การคำนวณความน่าจะเป็นของรายการยีนที่ทับซ้อนกันระหว่าง RNA seq และชุดข้อมูลชิป ChIP

หวังว่าใครบางคนในฟอรัมเหล่านี้สามารถช่วยฉันแก้ปัญหาพื้นฐานนี้ในการศึกษาการแสดงออกของยีน ฉันจัดลำดับการลึกของเนื้อเยื่อทดลองและเนื้อเยื่อควบคุม จากนั้นฉันได้รับการเพิ่มคุณค่าการพับของยีนในตัวอย่างทดลองมากกว่าการควบคุม จีโนมที่อ้างอิงมียีนประมาณ 15,000 ยีน 3,000 จาก 15,000 ยีนนั้นได้รับการยกระดับให้สูงกว่าตัวอย่างที่ผมสนใจเมื่อเปรียบเทียบกับการควบคุม ดังนั้น: A = ประชากรยีนทั้งหมด = 15,000 B = ประชากรย่อยที่ได้รับการเสริม RNA-Seq = 3,000 ในการทดลองชิป ChIP ก่อนหน้านี้ฉันพบ 400 ยีนที่อุดมไปด้วยชิป ChIP ของยีน 400 ชิปชิพนั้น 100 ยีนอยู่ในกลุ่มของยีน RNA-Seq ที่ได้รับการเสริม 3,000 รายการ ดังนั้น: C = จำนวนทั้งหมดของยีนที่อุดมด้วยชิป ChIP = 400 ความน่าจะเป็นที่ยีน 100 ชิปชิปของฉันจะเพิ่มขึ้นด้วย RNA-Seq โดยบังเอิญเพียงอย่างเดียวคืออะไร อะไรคือวิธีที่ชาญฉลาดที่สุดในการคำนวณว่าการซ้อนทับที่สังเกตระหว่าง …

13 r genetics bioinformatics microarray biostatistics

2

การวิเคราะห์การเพิ่มปริมาณโดยระดับการทำสำเนาของยีน

ความเป็นมาทางชีวภาพ เมื่อเวลาผ่านไปพืชบางชนิดมีแนวโน้มที่จะทำซ้ำจีโนมทั้งหมดของพวกเขาได้รับสำเนาเพิ่มเติมของแต่ละยีน เนื่องจากความไม่แน่นอนของการตั้งค่านี้ทำให้ยีนเหล่านี้จำนวนมากถูกลบออกและจีโนมจัดเรียงตัวเองใหม่และทำให้เสถียรพร้อมที่จะทำซ้ำอีกครั้ง เหตุการณ์การทำซ้ำเหล่านี้เกี่ยวข้องกับการเก็งกำไรและการบุกรุกและทฤษฎีก็คือการทำซ้ำช่วยให้พืชสามารถปรับตัวเข้ากับสภาพแวดล้อมใหม่ได้เร็วขึ้น Lupinus เป็นพืชดอกออกดอกบุกรุก Andes ในเหตุการณ์ speciation ที่เร็วที่สุดเท่าที่เคยตรวจพบและยิ่งไปกว่านั้นดูเหมือนว่าจะมีสำเนาที่ซ้ำกันในจีโนมมากกว่า Baptisia ที่เกี่ยวข้องมากที่สุด และตอนนี้ปัญหาทางคณิตศาสตร์: จีโนมของสมาชิกของ Lupinus และสมาชิกของ Baptisia ได้รับการจัดลำดับโดยให้ข้อมูลดิบประมาณ 25,000 ยีนในแต่ละสปีชีส์ ด้วยการสอบถามกับฐานข้อมูลของยีนที่รู้จักกันในฟังก์ชั่นตอนนี้ฉันมี "คาดเดาที่ดีที่สุด" สำหรับสิ่งที่ฟังก์ชั่นที่ยีนอาจทำ - ตัวอย่างเช่น Gene1298 อาจเกี่ยวข้องกับ "เมตาบอลิซึมฟรุกโตส ฉันอยากรู้ว่าถ้ามีเหตุการณ์การทำซ้ำระหว่าง Baptisia และ Lupinus ไม่ว่าการสูญเสียยีนจะเกิดขึ้นแบบสุ่มหรือว่ายีนที่ทำหน้าที่เฉพาะนั้นมีแนวโน้มที่จะถูกเก็บหรือลบมากกว่า ฉันมีสคริปต์ที่จะส่งออกตารางเช่นเดียวกับที่แสดงด้านล่าง L * คือจำนวนยีน Lupinus ทั้งหมดที่เกี่ยวข้องกับฟังก์ชัน L 1+ คือจำนวนยีน lupinus ที่เกี่ยวข้องกับฟังก์ชันที่มีสำเนาอย่างน้อยหนึ่งสำเนา ฉันสามารถทำให้มันผลิต L 2+, L 3+ ฯลฯ …

11 generalized-linear-model contingency-tables fishers-exact genetics bioinformatics

1

การวิเคราะห์พลังงานเพื่อการวิเคราะห์การเอาชีวิตรอด

ถ้าฉันสมมุติว่าลายเซ็นของยีนจะระบุตัวตนที่มีความเสี่ยงต่ำของการเกิดซ้ำนั่นคือลดลง 0.5 (อัตราส่วนอันตราย 0.5) อัตราการเกิดเหตุการณ์ใน 20% ของประชากรและฉันตั้งใจจะใช้ตัวอย่างจากการศึกษาแบบย้อนหลัง ขนาดตัวอย่างจะต้องมีการปรับสำหรับตัวเลขที่ไม่เท่ากันในสองกลุ่มสมมติฐาน? ตัวอย่างเช่นการใช้ Collett, D: Modeling Data Survival ในการวิจัยทางการแพทย์, Second Edition - 2nd Edition 2003 จำนวนทั้งหมดของเหตุการณ์ที่ต้องการ, d, สามารถพบได้โดยใช้, d=(Zα/2+Zβ/2)2p1p2(θR)2d=(Zα/2+Zβ/2)2p1p2(θR)2\begin{equation} d = \frac{(Z_{\alpha/2} + Z_{\beta/2})^2}{p_1 p_2 (\theta R)^2} \end{equation} โดยที่และเป็นจุดสูงสุดและตอนบนตามลำดับของการแจกแจงแบบปกติมาตรฐานZα/2Zα/2Z_{\alpha/2}Zβ/2Zβ/2Z_{\beta/2}α/2α/2\alpha/2β/2β/2\beta/2 สำหรับค่าเฉพาะ p1=0.20p1=0.20p_1 = 0.20 p2=1−p1p2=1−p1p_2 = 1 - p_1 θR=−0.693θR=−0.693\theta R = -0.693 α=0.05α=0.05\alpha = …

11 survival power-analysis genetics

3

ทำไมคนเราถึงใช้อายุที่เท่ากันในการศึกษาความสัมพันธ์ทางพันธุกรรม?

ทำไมคนเราถึงใช้อายุและอายุเท่ากันในการศึกษาความสัมพันธ์ทางพันธุกรรม? ฉันสามารถเข้าใจการใช้อายุถ้ามันได้รับการระบุว่าเป็นตัวแปรสำคัญ

11 multiple-regression polynomial predictor bioinformatics genetics

2

การลงโทษแบบนุ่มนวลเทียบกับการลงโทษ

ฉันกำลังพยายามสรุปสิ่งที่ฉันเข้าใจจนถึงการวิเคราะห์หลายตัวแปรที่มีการลงโทษด้วยชุดข้อมูลมิติสูงและฉันยังคงดิ้นรนโดยใช้คำจำกัดความที่ถูกต้องเกี่ยวกับการลงโทษที่นุ่มนวลกับLasso (หรือ )L1L1L_1 แม่นยำยิ่งขึ้นฉันใช้การกระจัดกระจาย PLS เพื่อวิเคราะห์โครงสร้างข้อมูลแบบ 2 บล็อกรวมถึงข้อมูลจีโนม ( polymorphisms นิวคลีโอไทด์เดี่ยวที่เราพิจารณาความถี่ของอัลลีลย่อยในช่วง {0,1,2} ซึ่งถือว่าเป็นตัวแปรตัวเลข) และ ฟีโนไทป์ต่อเนื่อง (คะแนนเชิงปริมาณลักษณะบุคลิกภาพหรือความไม่สมดุลของสมองยังถือว่าเป็นตัวแปรต่อเนื่อง) ความคิดคือการแยกตัวทำนายที่มีอิทธิพลมากที่สุด (ที่นี่ความผันแปรทางพันธุกรรมในลำดับดีเอ็นเอ) เพื่ออธิบายการแปรผันของฟีโนไทป์ระหว่างบุคคล ฉันเริ่มใช้แพ็คเกจ mixOmics R (เดิมintegrOmics) ซึ่งมีการลงโทษPLSและCCA ที่ทำให้เป็นมาตรฐาน เมื่อมองไปที่รหัส R เราพบว่า "sparsity" ในตัวทำนายนั้นเกิดจากการเลือกตัวแปรอันดับสูงสุดที่มีการโหลดสูงสุด (ในค่าสัมบูรณ์) บนองค์ประกอบ th, (อัลกอริทึม คือการทำซ้ำและคำนวณตัวแปรของการโหลดในองค์ประกอบทำให้ตัวบล็อกการทำนายในแต่ละการวนซ้ำดูการกระจัดกระจาย PLS: การเลือกตัวแปรเมื่อรวมข้อมูล Omicsสำหรับภาพรวม) ในทางตรงกันข้ามแพ็คเกจsplsร่วมเขียนโดย S. Keleş (ดูkkkiiii=1,…,ki=1,…,ki=1,\dots, kkkkเบาบางบางส่วนแควน้อยถดถอยสำหรับพร้อมกันขนาดลดลงและการคัดเลือกตัวแปรสำหรับคำอธิบายที่เป็นทางการมากขึ้นของวิธีการดำเนินการโดยผู้เขียนเหล่านี้) การดำเนินการ -penalization สำหรับการปรับไหมตัวแปรL1L1L_1 มันไม่ได้เป็นที่เห็นได้ชัดกับผมว่ามีความเข้มงวด "bijection" เพื่อที่จะพูดระหว่างการเลือกคุณลักษณะซ้ำขึ้นอยู่กับนุ่ม thresholding …

11 multivariate-analysis lasso feature-selection genetics

3

ระยะทาง Mahalanobis ผ่าน PCA เมื่อ

ฉันมีเมทริกซ์โดยที่คือจำนวนยีนและคือจำนวนผู้ป่วย ทุกคนที่ทำงานกับข้อมูลดังกล่าวรู้ว่านั้นใหญ่กว่าเสมอ โดยใช้การเลือกคุณลักษณะฉันมีอากาศลงไปจำนวนที่เหมาะสมมากขึ้น แต่ยังคงสูงกว่าnn×pn×pn\times ppppnnnpppnnnppppppnnn ฉันต้องการคำนวณความคล้ายคลึงกันของผู้ป่วยตามโปรไฟล์ทางพันธุกรรมของพวกเขา ฉันสามารถใช้ระยะทางแบบยุคลิดได้ แต่มาฮาโลโนบิสดูเหมือนจะเหมาะสมกว่าเพราะมันเกี่ยวข้องกับความสัมพันธ์ระหว่างตัวแปร ปัญหาที่เกิดขึ้น (ตามที่ระบุไว้ในนี้โพสต์ ) เป็นว่าระยะทาง Mahalanobis เฉพาะเมทริกซ์ความแปรปรวนร่วมไม่ทำงานเมื่อ<p เมื่อฉันเรียกใช้ระยะทาง Mahalanobis ใน R ข้อผิดพลาดที่ฉันได้รับคือ:n<pn<pn < p Error in solve.default(cov, ...) : system is computationally singular: reciprocal condition number = 2.81408e-21 จนถึงตอนนี้ที่จะลองแก้ปัญหานี้ฉันใช้ PCA และแทนที่จะใช้ยีนฉันใช้ส่วนประกอบและดูเหมือนว่าจะทำให้ฉันคำนวณระยะทาง Mahalanobis ได้ 5 ส่วนประกอบแทนประมาณ 80% ของความแปรปรวนดังนั้นตอนนี้Pn>pn>pn > p คำถามของฉันคือ:ฉันสามารถใช้ PCA เพื่อให้ได้ระยะทาง Mahalanobis …

10 correlation pca genetics covariance distance-functions

1

จะคำนวณความผิดพลาดมาตรฐานของอัตราต่อรองได้อย่างไร

ฉันมีสองชุดข้อมูลจากการศึกษาความสัมพันธ์ของจีโนมกว้าง ข้อมูลเท่านั้นที่มีคืออัตราส่วนอัตราต่อรองและค่า p สำหรับชุดข้อมูลแรก สำหรับชุดข้อมูลที่สองฉันมีอัตราต่อรอง, p-value และความถี่อัลลีล (AFD = โรค, AFC = การควบคุม) (เช่น: 0.321) ฉันพยายามทำการวิเคราะห์เมตาดาต้าของข้อมูลเหล่านี้ แต่ฉันไม่มีพารามิเตอร์ขนาดผลเพื่อดำเนินการนี้ มีความเป็นไปได้ในการคำนวณช่วงเวลา SE และ OR สำหรับแต่ละข้อมูลเหล่านี้โดยใช้ข้อมูลที่มีให้หรือไม่? ขอบคุณล่วงหน้า ตัวอย่าง: ข้อมูลที่มีอยู่: Study SNP ID P OR Allele AFD AFC 1 rs12345 0.023 0.85 2 rs12345 0.014 0.91 C 0.32 0.25 ด้วยข้อมูลเหล่านี้ฉันสามารถคำนวณ SE และ CI95% หรือ ขอบคุณ

10 meta-analysis genetics

1

เด็ก ๆ สามารถดึงพ่อแม่ของพวกเขามารวมกันในการฉาย PCA ของชุดข้อมูล GWAS ได้อย่างไร

ใช้เวลาประมาณ 20 จุดสุ่มในพื้นที่ 10,000 มิติที่มีพิกัดแต่ละ IID จาก(0,1) แยกออกเป็น 10 คู่ ("คู่รัก") และเพิ่มค่าเฉลี่ยของแต่ละคู่ ("เด็ก") ไปยังชุดข้อมูล จากนั้นทำ PCA บนผลลัพธ์ 30 คะแนนและลงจุด PC1 กับ PC2N(0,1)N(0,1)\mathcal N(0,1) สิ่งที่น่าทึ่งเกิดขึ้น: "ครอบครัว" แต่ละแห่งก่อให้เกิดจุดที่อยู่ใกล้กัน แน่นอนว่าเด็กทุกคนอยู่ใกล้กับผู้ปกครองแต่ละคนในพื้นที่ 10,000 มิติดั้งเดิมดังนั้นใคร ๆ ก็คาดหวังว่ามันจะอยู่ใกล้กับพ่อแม่ในพื้นที่ PCA อย่างไรก็ตามในพื้นที่ PCA ผู้ปกครองแต่ละคู่อยู่ใกล้กันเช่นกันแม้ว่าในพื้นที่ดั้งเดิมพวกเขาเป็นเพียงจุดสุ่ม! เด็ก ๆ จัดการดึงผู้ปกครองมารวมกันในการฉาย PCA ได้อย่างไร \quad\quad\quad\quad บางคนอาจกังวลว่าสิ่งนี้ได้รับอิทธิพลจากความจริงที่ว่าเด็กมีบรรทัดฐานต่ำกว่าพ่อแม่ สิ่งนี้ดูเหมือนจะไม่สำคัญ: ถ้าฉันสร้างเด็กเป็นโดยที่และเป็นจุดของผู้ปกครองพวกเขาจะมีบรรทัดฐานเดียวกันโดยเฉลี่ยกับผู้ปกครอง แต่ฉันยังคงสังเกตเห็นปรากฏการณ์เชิงคุณภาพในพื้นที่ PCA:(x+y)/2–√(x+y)/2(x+y)/\sqrt{2}xxxyyy \quad\quad\quad\quad คำถามนี้ใช้ชุดข้อมูลของเล่น แต่ได้แรงบันดาลใจจากสิ่งที่ฉันสังเกตเห็นในชุดข้อมูลจริงจากการศึกษาความสัมพันธ์จีโนมกว้าง (GWAS) …

9 pca python high-dimensional genetics gwas

4

จะคำนวณช่วงความมั่นใจสำหรับอัตราส่วนคี่รวมในการวิเคราะห์อภิมานได้อย่างไร

ฉันมีสองชุดข้อมูลจากการศึกษาความสัมพันธ์ของจีโนมกว้าง ข้อมูลเท่านั้นที่มีคืออัตราส่วนคี่และช่วงความมั่นใจ (95%) สำหรับแต่ละ SNP ฉันต้องการสร้างพล็อตป่าเปรียบเทียบสองอัตราต่อรอง แต่ฉันไม่สามารถหาวิธีในการคำนวณช่วงความเชื่อมั่นที่รวมกันเพื่อให้เห็นภาพผลสรุป ฉันใช้โปรแกรมPLINKเพื่อทำการวิเคราะห์เมตาโดยใช้เอฟเฟกต์คงที่ แต่โปรแกรมไม่ได้แสดงช่วงความมั่นใจเหล่านี้ ฉันจะคำนวณช่วงความมั่นใจได้อย่างไร ข้อมูลที่มีคือ: อัตราส่วนที่แปลกสำหรับการศึกษาแต่ละครั้ง ช่วงความมั่นใจ 95% และ ข้อผิดพลาดมาตรฐาน

9 confidence-interval meta-analysis genetics odds-ratio

คำถามติดแท็ก genetics