ความน่าจะเป็นในการหาลำดับคู่ฐานที่เฉพาะเจาะจง


10

การคิดถึงความน่าจะเป็นทำให้ฉันรู้ว่าฉันนับไม่ถ้วน ...

พิจารณาลำดับของตัวอักษรฐานซึ่งมีแนวโน้มที่จะปรากฏขึ้นอย่างเท่าเทียมกัน ความน่าจะเป็นที่ลำดับนี้มีลำดับเฉพาะของคู่เบสที่น่าสนใจของความยาวคืออะไร,nR nA,T,C, and Grn

มีลำดับที่แตกต่างกัน (เท่า ๆ กัน) ที่เป็นไปได้ เริ่มด้วยลำดับความสนใจที่จุดเริ่มต้นของลำดับเต็ม ลำดับเช่นนี้เป็นไปได้ เราสามารถเริ่มต้นลำดับความสนใจของเราในสถานที่ต่างกัน ดังนั้นคำตอบของฉันคือ R4 n - r n + 1 - r ( n + 1 - r ) / 4 r4n4n-Rn+1-R(n+1-R)/4R

ความน่าจะเป็นนี้เพิ่มขึ้นในซึ่งสมเหตุสมผลสำหรับฉัน แต่น่าจะเกิน 1 เมื่อR-1 แต่นั่นไม่สามารถ ความน่าจะเป็นน่าจะเป็น 1 ในขีด จำกัด (ดูเหมือนกับฉัน) แต่ไม่เกินมันn > 4 r + r - 1nn>4R+R-1

ฉันคิดว่าฉันนับบางสิ่ง ฉันกำลังคิดถึงอะไร ขอบคุณ

(FYI ไม่ใช่การบ้านเป็นเพียงตัวอย่างของเล่นในการเตรียมตัวสอบคำถามที่เพื่อนของนักชีววิทยาโมเลกุลถาม)


ที่ถูกต้องเกี่ยวกับเรื่องนี้ไม่ควรเกินหนึ่งเนื่องจากจะเป็นการละเมิดความน่าจะเป็น: books.google.co.th/?hl=th
Chris Simokat

1
(Vaguely) ที่เกี่ยวข้อง: stats.stackexchange.com/questions/12174/…
คาร์ดินัล

คำตอบ:


5

ลองคิดรุ่นเล็กของปัญหานี้กับ 5 โอกาสที่ตัวอักษรห้าตัวจะมีเป้าหมายคืออะไร นี่เป็นเรื่องง่าย:ของลำดับทั้งหมดเริ่มต้นด้วยสตริงนี้อีกจบด้วยสตริงและไม่มีลำดับทั้งที่เริ่มต้นและสิ้นสุดด้วยสตริงนี้ ดังนั้นโอกาสที่เป็น4}A C G T 4 - 4 4 - 4 2 × 4 - 4n=5...AGT...4-44-42×4-4

ในทางกลับกันโอกาสของคืออะไร? อีกครั้งของลำดับเริ่มต้นด้วยสายนี้สัดส่วนเดียวกันจบลงด้วยสายนี้และของลำดับทั้งหมดทำทั้งสองอย่าง ดังนั้นโดยหลักการของการรวม-ยกเว้นคำตอบคือ5}4 - 4 4 - 5 2 × 4 - 4 - 4 - 5...AAAA...4-44-52×4-4-4-5

โดยทั่วไปคำตอบขึ้นอยู่กับโครงสร้างของสตริงย่อย เพื่อให้ชัดเจนยิ่งขึ้นเมื่อคุณสแกนสตริง (จากซ้ายไปขวาพูด) สำหรับคุณจะต้องละเว้นอักขระทั้งหมดจนกว่าคุณจะเห็นเริ่มต้นนั้น หลังจากนั้นมีความเป็นไปได้สามประการ: ตัวละครถัดไปคือการจับคู่สำหรับตัวถัดไปคือการจับคู่ที่ไม่ใช่สำหรับแต่ไม่ใช่ (ดังนั้นคุณจะกลับมาอยู่ในสถานะรอการ ) หรือ หนึ่งต่อไปคือไม่ใช่การแข่งขัน แต่มันเป็นวางคุณเข้าสู่เพียงเลื่อย an- รัฐ ในทางตรงกันข้ามพิจารณาค้นหาสำหรับACTACGสมมติว่าคุณเห็นคำนำหน้าC C C T C G C T C G C C T ... C TAGTAAAAAATAGATA. ตัวละครต่อไปจะตรงกับถ้ามันเป็นGเมื่อไม่ใช่การแข่งขัน (i) aจะทำให้คุณเข้าสู่สถานะรอ - เริ่มต้น( ) (2)มีการเฝ้าระวังและ (iii) aหมายถึงคุณได้เห็นและคุณได้เข้าร่วมการแข่งขันแล้วครึ่งหนึ่ง (และมองหาวินาที) "โครงสร้าง" ที่เกี่ยวข้องอย่างเห็นได้ชัดประกอบด้วยรูปแบบของสตริงย่อยในเป้าหมายที่ตรงกับคำนำหน้าของเป้าหมาย นั่นเป็นเหตุผลที่โอกาสขึ้นอยู่กับสตริงเป้าหมายGAAT...ATA

แผนภาพ FSA ที่ฉันสนับสนุนในการตอบกลับในเวลาที่ใช้เพื่อตีรูปแบบของหัวและก้อยในชุดเหรียญโยนสามารถช่วยให้มีความเข้าใจปรากฏการณ์นี้


3

ประมาณน้ำมันดิบจะ1} คุณใช้ความน่าจะเป็นที่ลำดับของคุณจะไม่เกิดขึ้น ณ สถานที่ใดสถานที่หนึ่งนำไปสู่พลังของจำนวนตำแหน่ง (สมมติว่ามีความเป็นอิสระอย่างไม่น่าเชื่อ) ซึ่งเป็นไม่ใช่และนี่เป็นการประมาณว่า ดังนั้นแล้วคุณต้องลบนี้จาก1 n - R + 1 n - R 11-(1-1/4R)n-R+1n-R+1n-R1

การคำนวณที่แม่นยำจะขึ้นอยู่กับรูปแบบที่แม่นยำที่คุณกำลังมองหา มีแนวโน้มที่จะไม่เกิดขึ้นกว่าATCGTT C G TAAAAAATGT


บางทีมันอาจจะเป็นเพียงฉัน แต่ดูเหมือนว่าบิตที่ชัดเจนในแง่ของการทำความเข้าใจวิธีสมการที่ถูกสร้างขึ้น 1-(1-(1/4)R)n-(R-1)

@JoeRocc - ฉันสงสัยว่านี่เป็นเรื่องส่วนตัว หากคุณอ่านจากหน้าถึงหน้า400ของหนังสือคุณเคยอ่าน400 - 300 + 1 = 101หน้าหรือ400 - ( 300 - 1 ) = 101หน้า? 300400400-300+1=101400-(300-1)=101
เฮนรี่

ไม่ต้องกังวลฉันแค่ทำตามสัญชาตญาณของปัญหา ถ้าเราสังหรณ์ใจรับมาสมการจะเป็นแล้วเมื่อพยายามที่จะอธิบายให้คนที่ผมคิดว่ามันเป็นดีที่สุดที่จะปล่อยให้มันเป็นที่มากกว่าที่จะลดความซับซ้อนของมัน- + c - 1 + d (แม้ว่าสิ่งนี้อาจเป็นเรื่องที่เข้าใจได้ง่ายขึ้นเมื่อพิจารณา) สัญชาติญาณของคุณอาจแตกต่างกันในทุกกรณี :)(a-(-(-1+d)))a-+-1+d

2

คุณกำลังนับลำดับที่รวมลำดับเป้าหมายของคุณหลายครั้งเช่นทั้งที่ตำแหน่ง A และที่ตำแหน่ง B! = A นั่นเป็นเหตุผลที่ความน่าจะเป็นที่ผิดพลาดของคุณอาจเกิน 1


ทำได้ดีมาก! +1
Michael R. Chernick

1

มันเป็นไปได้ที่จะได้รับความน่าจะเป็นที่แน่นอนของการเรียงลำดับโดยใช้การแทนห่วงโซ่มาร์คอฟของปัญหา ลักษณะเฉพาะของวิธีการสร้างห่วงโซ่ขึ้นอยู่กับลำดับความสนใจเฉพาะ แต่ฉันจะยกตัวอย่างสองสามตัวอย่างของวิธีการทำสิ่งนี้


ความน่าจะเป็นที่แน่นอนผ่านทางห่วงโซ่มาร์คอฟ:พิจารณาลำดับต่อเนื่องของผลของการ, T , C , Gที่ผลในลำดับที่มีการแลกเปลี่ยนและสมมติว่าเรามีความสนใจในย่อยของความยาวบางk สำหรับค่าใดก็ตามnให้Wเป็นเหตุการณ์ที่ย่อยของดอกเบี้ยที่เกิดขึ้นและให้Hเป็นเหตุการณ์ที่ผ่านมาผลเป็นครั้งแรก< kตัวละครในย่อยของดอกเบี้ย ( แต่ไม่มากไปกว่านี้) . เราใช้เหตุการณ์เหล่านี้เพื่อให้พาร์ติชันต่อไปนี้ของk + 1A,T,,GknWHaaa<kk+1 สถานะที่น่าสนใจ:

สถานะ 0W¯H0,   1 รัฐW¯H1,   รัฐ 2W¯H2,   รัฐ 3W¯H3,   สถานะ k-1W¯Hk-1,สถานะ kW.  

ตั้งแต่ลำดับของผลที่จะถือว่าเป็นที่แลกเปลี่ยนได้เรามีผลลัพธ์ที่เป็นอิสระเงื่อนไขในความน่าจะเป็นของตนθA+θT+θ+θG=1 1 กระบวนการที่คุณสนใจสามารถแสดงเป็นลูกโซ่มาร์คอฟแบบแยกเวลาที่เริ่มต้นในสถานะ 0ที่n=0และช่วงการเปลี่ยนภาพตามเมทริกซ์ความน่าจะเป็นซึ่งขึ้นอยู่กับสตริงย่อยที่สนใจโดยเฉพาะ เมทริกซ์การเปลี่ยนแปลงจะเป็น(k+1)×(k+1)เมทริกซ์แสดงถึงความน่าจะเป็นของการเปลี่ยนแปลงโดยใช้สถานะข้างต้น หากยังไม่ถึงสตริงย่อยที่สนใจการเปลี่ยนแปลงแต่ละครั้งสามารถนำคุณเข้าใกล้สตริงย่อยได้มากกว่าหนึ่งขั้นหรือสามารถตั้งค่าให้คุณกลับสู่สถานะก่อนหน้าซึ่งขึ้นอยู่กับสตริงย่อยเฉพาะ เมื่อถึงสตริงย่อยนี่คือสถานะการดูดซับของห่วงโซ่ซึ่งแสดงถึงความจริงที่ว่าเหตุการณ์เกิดขึ้น

ตัวอย่างเช่นถ้าย่อยของดอกเบี้ยที่แล้วเมทริกซ์การเปลี่ยนแปลงคือAAAAAA

P=[1-θAθA000001-θA0θA00001-θA00θA0001-θA000θA001-θA0000θA01-θA00000θA0000001]

ตรงกันข้ามหากสตริงย่อยที่น่าสนใจคือATAGเมทริกซ์การเปลี่ยนแปลงคือ:

P=[1-θAθA00001-θA-θθAθ00001-θA-θTθA0θT0001-θA000θA001-θA-θ-θGθAθ00θG01-θA-θθA0000θ0000001]

ดังที่เห็นด้านบนการสร้างเมทริกซ์การเปลี่ยนแปลงต้องให้ความสนใจกับสตริงย่อยเฉพาะ ผลลัพธ์ที่ไม่ถูกต้องทำให้คุณกลับสู่สถานะก่อนหน้าในสตริงที่ขึ้นอยู่กับสตริงย่อยที่สนใจ เมื่อเมทริกซ์การเปลี่ยนแปลงที่สร้างขึ้นสำหรับการกำหนดค่าของnความน่าจะเป็นของการมี substring ในห่วงโซ่คือP(W|n)={Pn}0,k k (ความน่าจะเป็นนี้เป็นศูนย์สำหรับทุกn<k .)


การเขียนโปรแกรมสิ่งนี้ใน R:คุณสามารถโปรแกรมนี้เป็นฟังก์ชั่นRโดยการสร้างฟังก์ชั่นที่สร้างเมทริกซ์การเปลี่ยนแปลงสำหรับห่วงโซ่มาร์คอฟและอาเรย์ของพลังได้ถึงจำนวนการทดลองที่ต้องการ จากนั้นคุณสามารถอ่านความน่าจะเป็นการเปลี่ยนแปลงที่เหมาะสมสำหรับค่าของnที่เป็นที่สนใจ นี่คือตัวอย่างของรหัสที่จะทำ:

#Create function to give n-step transition matrix for n = 1...N
#We will use the example of the substring of interest "AAAAAA"

#a is the probability of A
#t is the probability of T
#c is the probability of C
#g is the probability of G
#N is the last value of n
PROB <- function(N,a,t,c,g) { TOT <- a+t+c+g;
                              a <- a/TOT; 
                              t <- t/TOT; 
                              c <- c/TOT; 
                              g <- g/TOT; 

                              P <- matrix(c(1-a, a, 0, 0, 0, 0, 0,
                                            1-a, 0, a, 0, 0, 0, 0,
                                            1-a, 0, 0, a, 0, 0, 0,
                                            1-a, 0, 0, 0, a, 0, 0,
                                            1-a, 0, 0, 0, 0, a, 0,
                                            1-a, 0, 0, 0, 0, 0, a,
                                              0, 0, 0, 0, 0, 0, 1),
                                          nrow = 7, ncol = 7, 
                                          byrow = TRUE);
                              PPP <- array(0, dim = c(7,7,N));
                              PPP[,,1] <- P;
                              for (n in 2:N) { PPP[,,n] <- PPP[,,n-1] %*% P; } 
                              PPP }

#Calculate probability for N = 100 for equiprobable outcomes
N <- 100;
a <- 1/4;
t <- 1/4;
c <- 1/4;
g <- 1/4;
PROB(N,a,t,c,g)[1,7,N];

[1] 0.01732435

AAAAAAn=1000.01732435

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.