ความถี่อัลลีลที่สังเกตเห็นมีค่าน้อยกว่าที่คาดการณ์ไว้หรือไม่


10

คำถาม : ฉันจะสร้างการทดสอบเพื่อตรวจสอบได้อย่างไรว่า "ภูเขา" - ความถี่ทั้งหมด (รูปที่ 1) ที่สังเกตได้นั้นลดลงอย่างมีนัยสำคัญในภูเขากลางถึงภาคใต้มากกว่าที่ทำนายไว้ (รูปที่ 2) โดยรูปแบบการเลือกเชิงนิเวศ ( ดูรายละเอียดด้านล่าง )

ปัญหา : ความคิดเริ่มต้นของฉันคือการถดถอยส่วนที่เหลือของแบบจำลองกับละติจูด: ลองจิจูดและระดับความสูง (ซึ่งส่งผลเฉพาะการทำงานร่วมกันระหว่างละติจูดและลองจิจูดเป็นสำคัญ) ปัญหาคือสิ่งที่เหลืออยู่ (รูปที่ 3) อาจสะท้อนถึงการเปลี่ยนแปลงที่ไม่ได้อธิบายโดยแบบจำลองและ / หรือว่าเป็นสิ่งที่เกิดขึ้นทางชีวภาพเช่นอัลลีลไม่มีเวลาที่จะแพร่กระจายไปทางทิศใต้ถึงศักยภาพหรือมีอุปสรรคบางอย่างต่อการไหลของยีน หากคุณเปรียบเทียบความถี่ที่สังเกตได้ (รูปที่ 1) กับที่คาดหวัง (รูปที่ 2) มีความแตกต่างอย่างชัดเจนโดยเฉพาะอย่างยิ่งในภาคกลางถึงภูเขาทางตอนใต้ของสวีเดนและนอร์เวย์ ฉันยอมรับว่าตัวแบบอาจไม่สามารถอธิบายการเปลี่ยนแปลงทั้งหมดได้ แต่ฉันสามารถทดสอบแบบมีเหตุผลเพื่อสำรวจความคิดที่ว่าอัลลีลภูเขาไม่ถึงศักยภาพในใจกลางภูเขาทางตอนใต้หรือไม่

พื้นหลัง: ฉันมีเครื่องหมาย AFLP bi-allelic ซึ่งการกระจายความถี่ดูเหมือนว่าเกี่ยวข้องกับภูเขา (และละติจูด: ลองจิจูด) เมื่อเทียบกับที่อยู่อาศัยระดับต่ำบนคาบสมุทรสแกนดิเนเวีย (รูปที่ 1) "ภูเขา" - อัลลีลเกือบคงที่ในภาคเหนือซึ่งเป็นภูเขา มันเกือบจะหายไปหรือคงที่สำหรับ "ที่ราบลุ่ม" - อัลลีในภาคใต้ซึ่งขาดภูเขา ในขณะที่เคลื่อนไปทางเหนือจรดใต้ในภูเขา "ภูเขา" - อัลลีลเกิดขึ้นในความถี่ต่ำ ความแตกต่างนี้ใน "ภูเขา" - ความถี่ทั้งหมดจากเหนือจรดใต้อาจเป็นเพราะกระบวนการทางประวัติศาสตร์หรือกระบวนการทางประวัติศาสตร์เนื่องจากพื้นที่ถูกล่าอาณานิคมจากทั้งเหนือและใต้ ตัวอย่างเช่นหากอัลลีลภูเขาเกิดขึ้นในประชากรภาคเหนือบางทีมันอาจจะไม่มีเวลาที่จะขยายสู่ประชากรภาคใต้อย่างเต็มที่

สมมติฐานการทำงานของฉันคือว่า "ภูเขา" - ความถี่ทั้งหมดเป็นผลมาจากการเลือกทางนิเวศวิทยา (สมมติฐานว่างคือการเลือกที่เป็นกลาง)

สำหรับรูปแบบการเลือกทางนิเวศวิทยาของฉันฉันใช้โมเดลเสริมทั่วไป (GAM) ที่มีความถี่อัลลีลทวินามเป็นตัวแปรตอบสนอง (129 ไซต์ตัวอย่างทั่วทั้ง Fennoscandinavia โดยมีตัวอย่าง 10 ถึง 20 คนในแต่ละไซต์) และตัวแปรตามฤดูกาลและภูมิอากาศ ตัวแปรทำนาย ผลของแบบจำลองมีดังนี้ (TMAX04-06 = อุณหภูมิสูงสุดในเดือนเมษายน - มิถุนายน, Phen_NPPMN = หมายถึงผลผลิตพืชผักในฤดูปลูก, PET_HE_YR = ศักยภาพในการคายระเหยประจำปี, Dist_Coast = ระยะห่างจากชายฝั่ง):

Family: binomial 
Link function: logit 

Formula: Binomial_WW1 ~ s(TMAX_04) + s(TMAX_05) + s(TMAX_06) + s(Phen_NPPMN) + 
s(PET_HE_YR) + s(Dist_Coast)

Parametric coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -0.74372    0.04736   -15.7   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Approximate significance of smooth terms:
             edf Ref.df Chi.sq  p-value    
s(TMAX_04)    3.8100  4.812 25.729 9.43e-05 ***
s(TMAX_05)    0.8601  1.000  5.887  0.01526 *  
s(TMAX_06)    0.8862  1.000  7.644  0.00569 ** 
s(Phen_NPPMN) 6.2177  7.375 39.028 3.16e-06 ***
s(PET_HE_YR)  3.1882  4.147 18.039  0.00145 ** 
s(Dist_Coast) 2.2882  2.857  9.725  0.01906 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

R-sq.(adj) =  0.909   Deviance explained = 89.7%
REML score = 326.73  Scale est. = 1         n = 129

ป้อนคำอธิบายรูปภาพที่นี่

รูปที่ 1 สังเกต "ภูเขา" - ความถี่ทั้งหมดสำหรับเครื่องหมาย AFLP bi-allelic เส้นรูปโค้ง 0.1 ช่วงความถี่การแรเงาสีคือระดับความสูงพร้อมบลูส์สำหรับค่าต่ำสุดและสีแดงสูงสุด

ป้อนคำอธิบายรูปภาพที่นี่

รูปที่ 2 คาดการณ์ "ภูเขา" - ความถี่ทั้งหมดสำหรับเครื่องหมาย AFLP bi-allelic เส้นรูปโค้ง 0.1 ช่วงความถี่การแรเงาสีคือระดับความสูงพร้อมบลูส์สำหรับค่าต่ำสุดและสีแดงสูงสุด

ป้อนคำอธิบายรูปภาพที่นี่

รูปที่ 3 รูปแบบการเลือกเชิงนิเวศน์ (โดยใช้ GAM) แยกตามพื้นที่การศึกษาทั้งหมด (Fennoscandinavia) และแยกต่างหากสำหรับนอร์เวย์สวีเดนและฟินแลนด์ เส้นประสีแดงเป็นตัวแทนเขตติดต่อรองระหว่างประชากรภาคเหนือและภาคใต้ที่อนุมานจากเครื่องหมาย AFLP อื่น ๆ และการวิเคราะห์ไอโซโทปที่เสถียรของขนนกที่ปลูกในบริเวณฤดูหนาวที่แยกต่างหากในแอฟริกา เส้นประสีดำบาง ๆ เป็นศูนย์กลางของโซน


1
ขอบคุณสำหรับรายละเอียดจำนวนมาก ตัวแบบ null นั้นเกิดขึ้นได้อย่างไร? ดูเหมือนว่ามีเพียงรูปแบบการเลือกเชิงนิเวศวิทยาที่มีความสำคัญเมื่อเทียบกับที่คาดการณ์ไว้
gui11aume

ข้อมูลจริงของคุณที่นี่คืออะไร? ผลลัพธ์ของโมเดลบอกว่า "n = 129" แต่นั่นคือ 129 คนหรือ 129 ตำแหน่งในแต่ละแห่งที่คุณมีความถี่อัลลีลหรือ ... ?
onestop

ขออภัยฉันต้องการให้พื้นหลังมากที่สุดเท่าที่จะเป็นไปได้เพื่อให้ทุกคนเข้าใจตรรกะ (หรือไร้เหตุผล) ของวิธีการของฉันสำหรับต้นฉบับที่ฉันกำลังพัฒนาอยู่ คำถามของฉันอยู่ที่ด้านบนฉันต้องการค้นหาสาเหตุที่จะตรวจสอบว่าความแตกต่างระหว่างการสังเกตและคาดว่าจะแตกต่างกันอย่างมีนัยสำคัญ สิ่งนี้อาจแจ้งให้ฉันทราบว่าอัลลีลยังคงแพร่กระจายอยู่หรือมีอุปสรรคในการเข้าถึงค่าที่คาดหวัง สำหรับ "N = 129" เนื่องจากนี่คือความถี่ของอัลลีลหมายถึง 129 ไซต์ที่มีตัวอย่างระหว่าง 10 ถึง 20 คนที่สุ่มตัวอย่างในแต่ละไซต์
Keith Larson

คุณพูดถึงว่าบุคคลที่ดูเหมือนจะ panmictic สำหรับแม่และ automsomal loci คุณสามารถเข้าถึงข้อมูลเหล่านี้ได้หรือไม่? คุณประเมิน panmixia อย่างไร
Sameer

คำตอบ:


1

คำถามนี้อาจจะตาย แต่กราฟที่นี่งดงามและคำตอบที่นี่รู้สึกชัดเจนอย่างสังหรณ์ใจ หากคุณกำลังมองหาอัลลีล "ภูเขา" ตัวเลือกที่ชัดเจนคือการใช้ความสูง (หรือตัวแทนของมัน) เป็นตัวทำนายของคุณ หากสิ่งนั้นแสดงความสัมพันธ์ที่สำคัญกับความถี่อัลลีลก็จะเป็นหลักฐานที่ดีสำหรับสมมติฐานของคุณ

คุณอาจเพิ่มตัวแปรตัวทำนายที่อธิบายลักษณะอื่น ๆ ของภูเขาได้มากกว่าระดับความสูงตัวอย่างเช่นภูมิประเทศ "ความขรุขระ" หรือประเภทพืชพรรณ - ซึ่งเป็นภูเขาที่ไม่ซ้ำกันและอาจเกี่ยวข้องกับความถี่อัลลีล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.