ชุดค่าผสม / คำถามความน่าจะเป็นแบบง่ายโดยพิจารณาจากความยาวสตริงและอักขระที่เป็นไปได้


9

สมมติว่า "การสุ่มเสร็จสมบูรณ์" และกำหนดสตริงที่มีความยาว 20 อักขระซึ่งแต่ละอักขระอาจเป็นหนึ่งใน 62 ตัวอักษรที่เป็นไปได้:

  • จำนวนชุดค่าผสมทั้งหมดเป็นไปได้เท่าใด (การคาดเดา 20 ต่ออำนาจ 62)
  • นอกจากนี้หากมีการเลือกสตริงใหม่แบบสุ่มหลังจากนั้นอีกหนึ่งรายการและเพิ่มลงในรายการของสตริงที่เลือกไว้จำนวนสตริงที่ต้องเลือกก่อนที่โอกาสในการเลือกสตริงที่เลือกไว้จะต่ำกว่า 1-in-100000 ( )?10-5

หมายเหตุ: 62 มาจาก: ตัวเลขตัวเลข (0-9), ตัวพิมพ์ใหญ่ (AZ) และตัวอักษรตัวเล็ก (az)


2
สัญลักษณ์แสดงหัวข้อย่อยที่สองของคุณสามารถอ่านได้ (อย่างน้อย) สองวิธีที่เป็นไปได้ ฉันสงสัยว่าสิ่งที่คุณสนใจ ( 1 ) ความน่าจะเป็นที่nสตริงที่ตรงกับหนึ่งในสตริงก่อนหน้าหรือ ( 2 ) ความน่าจะเป็นที่ตามเวลาnสตริงที่ถูกเลือกมีบางส่วนที่ซ้ำกันภายในคอลเลกชันของสายวาดจนถึง คำตอบของคำถามสองข้อนี้จะแตกต่างกันมาก :)
พระคาร์ดินัล

1
บางทีการพิจารณาตัวอักษรสองตัวจะทำให้เกิดความแตกต่างอย่างชัดเจน ปล่อยให้ตัวอักษรเป็นH และ T. เราสามารถถาม: ( 1 ) สำหรับสิ่งที่n อย่างน้อยเราก็มีโอกาส 99% nข้อความที่ถูกซ้ำกับสตริงก่อนหน้าหรือไม่ n นี่คือ 8 เนื่องจากวิธีเดียวที่เราล้มเหลวคือถ้าลำดับของเราเป็นอย่างใดอย่างหนึ่ง TTTTH หรือ HHHHTซึ่งมีความน่าจะเป็นทั้งหมด 2(n1). หรือเราถาม ( 2 ) สำหรับสิ่งที่nอย่างน้อยเรามีโอกาส 99% ที่เห็นสำเนาซ้ำบ้าง ในกรณีนี้n=3 ตั้งแต่ตอนที่เราเห็นสามสาย H หรือ Tมีการทำซ้ำอย่างน้อยหนึ่งครั้ง
พระคาร์ดินัล

1
คำตอบของ Matt จัดการ ( 1 ) ซึ่งตอบคำถามเกี่ยวกับว่าสตริง "my" ตรงกับคนอื่นหรือไม่ แต่ถ้าคุณมีความกังวลใจเกี่ยวกับสายอื่น ๆ บางคนสองคนที่ยังอาจจับคู่แล้วคุณมีความสนใจใน ( 2 ) มันลงมาไม่ว่าคุณจะมีสตริงที่น่าสนใจเป็นพิเศษที่คุณกำลังเปรียบเทียบกับคนอื่นทั้งหมดหรือว่าคุณกำลังเปรียบเทียบสตริงทั้งหมดกับแต่ละอื่น ๆ ฉันไม่แน่ใจว่าฉันทำสิ่งใดให้ชัดเจนขึ้น (ปัญหาของคุณเดือดลงไปถึงหนึ่งในสองสายพันธุ์ที่มีชื่อเสียงที่เรียกว่า "ปัญหาวันเกิด")
cardinal

1
คาร์ดินัลเป็นปกติถูกต้อง ฉันคิดว่าคุณมีสตริง "เป้าหมาย" หนึ่งสายซึ่งคุณสร้างรายการการเดา หากคุณกำลังสร้างสตริงแบบสุ่มและต้องการทราบว่ามันปลอดภัยที่จะสร้างก่อนที่จะมีสองสตริงตรงกันคำตอบนั้นแตกต่างกันมาก ฉันจะแก้ไขคำตอบเพื่อแก้ไขกรณีนั้นถ้าไม่เป็นไร
Matt Krause

1
ฉันไม่ได้ทำให้ตัวอย่างก่อนหน้าของฉันชัดเจนโดยสมบูรณ์ ขอโทษด้วยกับเรื่องนั้น. ฉันกำลังคิดถึงตัวอักษรสองตัว{H,T}และการวาดสตริงที่มีความยาวหนึ่งอัน ดังนั้นเมื่อฉันเขียนHHHHTที่ยืนสำหรับ s1=H, s2=H, ... sn-1=H, sn=T.
พระคาร์ดินัล

คำตอบ:


11

จำนวนความเป็นไปได้ทั้งหมด

1) ปิด! คุณมีตัวเลือกทั้งหมด 62 ตัวเลือกสำหรับตัวละครตัวแรก 62 ตัวที่ 2 และอื่น ๆ ดังนั้นคุณจะจบลงด้วย62626262=6220ซึ่งเป็นจำนวนมหาศาลอย่างไร้เหตุผล

การชนกับสตริง "เป้าหมาย"

2) ในขณะที่เราจัดตั้งขึ้นข้างต้นมี 6220สตริงที่อาจเกิดขึ้น คุณต้องการที่จะรู้ว่าคุณต้องคาดเดาว่าจะมีดีกว่า 1 ใน 100,000 อัตราต่อรองในการคาดเดาสตริง "เป้าหมาย" โดยพื้นฐานแล้วคุณกำลังถามอะไร

x62201105
เพื่อให้ได้จุดคุณจะต้องปัดเศษ x ขึ้น (หรือเพิ่มถ้ามันเท่ากันอย่างแม่นยำ) แต่เมื่อคุณเห็นในวินาทีมันไม่สำคัญ

ผ่านพีชคณิตพื้นฐานเราสามารถจัดเรียงใหม่เป็น

105x6220105x(6.210)20105x6.2201020x6.2201015

ทำคณิตศาสตร์ 6.220 เกี่ยวกับ 71015ดังนั้นเรามาเรียกมันทั้งหมด 71030 หรือรวบรัดมากขึ้นทั้งห่ามาก

แน่นอนว่าทำไมรหัสผ่านที่ยาวทำงานได้ดีจริง ๆ :-) สำหรับรหัสผ่านจริง ๆ คุณต้องกังวลเกี่ยวกับสตริงที่มีความยาวน้อยกว่าหรือเท่ากับยี่สิบซึ่งเพิ่มจำนวนความเป็นไปได้มากขึ้น

ทำซ้ำในรายการ

ตอนนี้ลองพิจารณาสถานการณ์อื่น ๆ สตริงถูกสร้างขึ้นแบบสุ่มและเราต้องการที่จะกำหนดจำนวนที่สามารถสร้างได้ก่อนที่จะมีโอกาส 1: 100,000 ของการจับคู่สตริงสองอัน ปัญหาคลาสสิกของรุ่นนี้เรียกว่าปัญหาวันเกิด (หรือ 'Paradox') และถามว่าความน่าจะเป็นที่คนสองคนมีวันคล้ายวันเกิดเท่าไหร่ บทความวิกิพีเดีย [1] ดูดีและมีบางตารางที่คุณอาจพบว่ามีประโยชน์ อย่างไรก็ตามฉันจะพยายามให้คุณได้คำตอบที่นี่ด้วย

สิ่งที่ควรทราบ:

- ความน่าจะเป็นของการแข่งขันและไม่มีการแข่งขันจะต้องรวมเป็น 1 ดังนั้น P(การจับคู่)=1-P(ไม่มีการแข่งขัน) และในทางกลับกัน.

- สำหรับสองเหตุการณ์อิสระ A และ Bความน่าจะเป็นของ P(A&B)=P(A)P(B).

เพื่อให้ได้คำตอบเราจะเริ่มต้นด้วยการคำนวณความน่าจะเป็นที่จะไม่เห็นการจับคู่สำหรับจำนวนสตริงที่แน่นอน k. เมื่อเรารู้วิธีการทำเช่นนั้นเราสามารถกำหนดสมการนั้นให้เท่ากับขีด จำกัด (1 / 100,000) และแก้หาk. เพื่อความสะดวกขอเรียกยังไม่มีข้อความ จำนวนของสตริงที่เป็นไปได้ (6220)

เราจะ 'เดิน' รายการและคำนวณความน่าจะเป็นที่ k^ {th} สตริงตรงกับสตริงใด ๆ "เหนือ" ในรายการ สำหรับสตริงแรกเรามียังไม่มีข้อความ สตริงทั้งหมดและไม่มีอะไรในรายการดังนั้น Pk=1(ไม่มีการแข่งขัน)=ยังไม่มีข้อความยังไม่มีข้อความ=1. สำหรับสตริงที่สองยังคงมียังไม่มีข้อความ ความเป็นไปได้ทั้งหมด แต่หนึ่งในนั้นถูก "หมด" โดยสตริงแรกดังนั้นความน่าจะเป็นของการจับคู่สำหรับสตริงนี้คือ Pk=2(ไม่มีการแข่งขัน)=ยังไม่มีข้อความ-1ยังไม่มีข้อความ สำหรับสตริงที่สามมีสองวิธีในการจับคู่ดังนั้น ยังไม่มีข้อความ-2 วิธีที่จะไม่ดังนั้น Pk=3(ไม่มีการแข่งขัน)=ยังไม่มีข้อความ-2ยังไม่มีข้อความและอื่น ๆ โดยทั่วไปความน่าจะเป็นของkข้อความที่ไม่ตรงกับที่อื่นคือ

Pk(ไม่มีการแข่งขัน)=ยังไม่มีข้อความ-k+1ยังไม่มีข้อความ

อย่างไรก็ตามเราต้องการความน่าจะเป็นที่ไม่มีสิ่งใดตรงกันระหว่าง kเงื่อนไข เนื่องจากกิจกรรมทั้งหมดมีความเป็นอิสระ (ตามคำถาม) เราจึงสามารถคูณความน่าจะเป็นเหล่านี้เข้าด้วยกันดังนี้:

P(ไม่ตรงกัน)=ยังไม่มีข้อความยังไม่มีข้อความยังไม่มีข้อความ-1ยังไม่มีข้อความยังไม่มีข้อความ-2ยังไม่มีข้อความยังไม่มีข้อความ-k+1ยังไม่มีข้อความ
ที่สามารถลดความซับซ้อนได้เล็กน้อย:
P(ไม่ตรงกัน)=ยังไม่มีข้อความ(ยังไม่มีข้อความ-1)(ยังไม่มีข้อความ-2)(ยังไม่มีข้อความ-k+1)ยังไม่มีข้อความkP(ไม่ตรงกัน)=ยังไม่มีข้อความ!ยังไม่มีข้อความk(ยังไม่มีข้อความ-k)!P(ไม่ตรงกัน)=k!(ยังไม่มีข้อความk)ยังไม่มีข้อความk
ขั้นตอนแรกเพียงแค่คูณเศษส่วนเข้าด้วยกันส่วนที่สองใช้นิยามของแฟคทอเรียล (k!=(k)(k-1)(k-2)1) เพื่อแทนที่ผลิตภัณฑ์ของ ยังไม่มีข้อความ-k+1ยังไม่มีข้อความด้วยบางสิ่งที่จัดการได้ง่ายขึ้นเล็กน้อยและขั้นตอนสุดท้ายสลับเป็นสัมประสิทธิ์ทวินาม สิ่งนี้ทำให้เรามีสมการสำหรับความน่าจะเป็นที่ไม่มีการแข่งขันเลยหลังจากการสร้างkเงื่อนไข ในทางทฤษฎีคุณสามารถตั้งค่านั้นให้เท่ากับ1100,000 และแก้ให้ k. ในทางปฏิบัติมันจะเป็นเรื่องยากที่จะตอบเพราะคุณจะทวีคูณ / หารด้วยจำนวนมาก - แฟคทอเรียลเติบโตอย่างรวดเร็วจริงๆ (100! มีความยาวมากกว่า 150 หลัก)

อย่างไรก็ตามมีการประมาณทั้งในการคำนวณปัจจัยและสำหรับปัญหาทั้งหมด บทความนี้แนะนำ [2]

k=0.5+0.25-2ยังไม่มีข้อความLN(พี)
โดยที่ p คือความน่าจะเป็นที่จะไม่เห็นการแข่งขัน การทดสอบของเขาสูงสุดที่ยังไม่มีข้อความ=48,000แต่มันก็ค่อนข้างแม่นยำ ฉันได้รับประมาณ3.71015.

อ้างอิง

[1] http://en.wikipedia.org/wiki/Birthday_problem

[2] Mathis, Frank H. (มิถุนายน 1991) "ปัญหาวันเกิดทั่วไป" SIAM Review (สมาคมเพื่ออุตสาหกรรมและคณิตศาสตร์ประยุกต์) 33 (2): 265–270 ลิงก์ JSTOR


+1 เจ๋งชัดเจนว่าทักษะคณิตศาสตร์ของฉันแย่ส่งผลให้ถามคำถามดังนั้นฉันจะทิ้งคำถามไว้หนึ่งวัน แต่ดูดีสำหรับฉันและตอบคำถามได้ชัดเจนกว่าที่คาดไว้ - ขอบคุณ!
ความผิดพลาด

1
ดีใจที่ได้ช่วยเหลือ! แจ้งให้เราทราบหากมีอะไรไม่ชัดเจน สำหรับการเตะฉันวิ่งตามหมายเลข คุณจะต้องคาดเดา 7044234255469980229683302646164 เหมือนที่ฉันพูด - มาก!
Matt Krause

+1 @Matt Krause: +1 ความคิดเห็นของคุณด้านล่างคำตอบ; คำตอบและคำมั่นสัญญาของคุณที่จะให้คำตอบที่ดีที่สุดเท่าที่เป็นไปได้คือตัวอย่างที่ดีน่าสังเกตและขอบคุณสำหรับการทำงานหนักทั้งหมดของคุณ!
ความผิดพลาด
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.