ในทางคณิตศาสตร์จะคำนวณเปอร์เซ็นต์ความพร้อมใช้งานตามจำนวนโหนดและเปอร์เซ็นต์ความต่อเนื่องที่เกี่ยวข้องได้อย่างไร


11

คำถามนี้เป็นคำถามทางคณิตศาสตร์มากกว่าคำถามเซิร์ฟเวอร์ แต่เกี่ยวข้องกับเซิร์ฟเวอร์อย่างยิ่ง

หากฉันมีเซิร์ฟเวอร์ที่ฉันสามารถรับประกัน 95% ความพร้อมใช้งานและฉันจะทำให้เซิร์ฟเวอร์นั้นอยู่ในกลุ่มที่ 2 เวลาที่จะเกิดขึ้นจะเป็นเท่าไร ทีนี้สมมุติว่าฉันทำแบบเดียวกัน แต่ฉันทำให้มันเป็น 3 กลุ่ม

เราไม่พิจารณาสิ่งต่าง ๆ เช่นจุดล้มเหลวเพียงจุดเดียว แต่เน้นที่คณิตศาสตร์ที่นี่ หนึ่งในสิ่งที่ทำให้มันซับซ้อนเล็กน้อยคือถ้าเช่นฉันมีเซิร์ฟเวอร์ 2 เครื่องโอกาสที่พวกเขาจะถูกปิดคือ 2 ^ 2 ดังนั้นนั่นคือ 1 / 4th; หรือสำหรับ 3 นั่นคือ 2 ^ 3 ดังนั้น 1/8 เมื่อพิจารณาว่าฉันมีดาวน์ไทม์ 5% สำหรับแต่ละเซิร์ฟเวอร์เหล่านี้แล้วค่าเฉลี่ยทั้งหมดจะเท่ากับ 1 ใน 8 ของ 5% นั้นหรือไม่

คุณจะคำนวณแบบนี้อย่างไร


"95% สถานะการออนไลน์" - อะไรคือสิ่งที่ thaaat ฉันรู้ว่า uptimes 5 วันหรือ 5 ปีคืออะไร เวลาในการทำงาน 0.95 คืออะไร? หน่วยอะไร
poige

1
ทำไมคุณต้องรู้เรื่องนี้? กรณีการใช้งานคืออะไร?
ewwhite

@poige สันนิษฐานว่า "95% ความพร้อมใช้งาน" หมายถึง "ความพร้อมในการทำงาน 95% ของเวลา" แม้ว่าคุณจะพูดจาหยาบคายเกี่ยวกับเรื่องนี้คุณก็สามารถพูดได้ว่าดังนั้นทุกอย่างจะมีความพร้อมขึ้น ~ 0% เพราะมันจะไม่มีอยู่ตลอดเวลา .
คดีกองทุนของโมนิก้า

1) สมมุติว่าผู้เขียนควรตอบ? ;) 2) ฉันคิดว่าก่อนที่จะคำนวณสิ่งที่ดีกว่าที่จะเข้าใจว่ามันคืออะไร ;)
poige

คำตอบ:


11

Uptime เป็นสิ่งที่ลื่น ... ถ้าคุณต้องการที่จะคำนวณความพร้อมของการให้บริการแล้วมันเป็นเพียงแค่

amount of time service is available
-----------------------------------   x 100
  amount of time that has passed 

หากคุณมีคลัสเตอร์ที่ให้บริการดังนั้นโอกาสที่บริการจะไม่พร้อมใช้งานจะลดลง แต่การคำนวณความพร้อมใช้งาน (uptime) สำหรับบริการยังคงเหมือนเดิม


8

โอกาสของเซิร์ฟเวอร์เดียวที่ออฟไลน์คือ (1 - 0.95) โอกาสของเซิร์ฟเวอร์ทั้งสองที่ออฟไลน์คือ (1 - 0.95) * (1 - 0.95) = 0.0025 ฯลฯ ...

ดังนั้นการใช้แบบจำลองของคุณและจากมุมมองทางคณิตศาสตร์ล้วนๆอย่างใดอย่างหนึ่งหรือทั้งสองอย่างของเซิร์ฟเวอร์ควรจะเพิ่มขึ้น 99.75% ของเวลา

อย่างไรก็ตามฉันไม่แน่ใจว่าการใช้แบบจำลองทางคณิตศาสตร์ดังกล่าวเป็นวิธีที่ถูกต้องในการคำนวณเวลาทำงานที่อาจเกิดขึ้นเนื่องจากมีปัจจัยอื่น ๆ ที่อาจส่งผลกระทบต่อสถานการณ์ซึ่งเป็นเรื่องปกติสำหรับเซิร์ฟเวอร์ทั้งสองเช่น 95% อาจเป็นเพราะ 5% ของเวลา มีไฟตัดซึ่งจะส่งผลกระทบต่อเซิร์ฟเวอร์ทั้งสองเพื่อให้มีคลัสเตอร์จะไม่สร้างความแตกต่าง


สวัสดีฟิล พลังงานแน่นอนว่าเป็นองค์ประกอบหนึ่งของความพร้อมใช้งานซึ่งสามารถลดได้โดยการติดตั้งในชั้นวางหลายชั้นและรับพลังงานจากแหล่งต่าง ๆ เป็นต้นความคิดนั้นมาจากจุดยืนทางคณิตศาสตร์อย่างแท้จริงเนื่องจากมีส่วนประกอบที่ชัดเจนมากกว่าเซิร์ฟเวอร์เพียงไม่กี่ตัว :)
Jeroen Landheer

8
ประเด็นก็คือว่าการคำนวณในคำตอบนี้และคำตอบของ Jeroen นั้นจะใช้ได้ก็ต่อเมื่อ up-times เป็นอิสระ (ในแง่คณิตศาสตร์) หากมีความสัมพันธ์กัน (เช่นสายไฟกำลังส่งทั้งสองชั้น) สิ่งต่าง ๆ นั้นไม่ง่าย
TripeHound

@TripeHound นี่คือเหตุผลที่ผมเขียนคำตอบของฉัน :)
เชมัส

5

ขึ้นอยู่กับสาเหตุที่เซิร์ฟเวอร์ของคุณหยุดทำงาน 5% หากคุณมีพลังงาน 95% ของเวลา แต่เซิร์ฟเวอร์ของคุณไม่มีที่ติอย่างใดอย่างหนึ่งเซิร์ฟเวอร์ที่สองที่ตำแหน่งเดียวกันจะไม่เพิ่มเวลาใช้งานของคุณเลย : ถ้ามีใครลงไปทั้งคู่ก็ลงไป นี่คือตัวอย่างของความล้มเหลวเป็นความสัมพันธ์ เป็นไปได้ว่าอย่างน้อยการหยุดทำงานของคุณบางอย่างเกิดจากข้อผิดพลาดที่ส่งผลกระทบต่อเซิร์ฟเวอร์ทั้งหมดเข้าด้วยกัน (กำลังไฟ ... ) แต่การหยุดทำงานบางอย่างจะเป็นอิสระระหว่างเซิร์ฟเวอร์ หากคุณต้องการทำอย่างถูกต้องคุณควรจัดการกับสิ่งเหล่านี้แยกจากกัน ดังนั้นคุณต้องการหาความน่าจะเป็นที่เซิร์ฟเวอร์ 1 ไม่มีข้อผิดพลาดอิสระ (p) และเซิร์ฟเวอร์ 2 ไม่มีข้อผิดพลาดอิสระ (q) และไม่มีข้อผิดพลาดของระบบที่ฆ่าทั้งสอง (r) มันจะค่อนข้างปลอดภัยที่จะสมมติว่าข้อผิดพลาดเหล่านี้เป็นอิสระและทำให้คุณสามารถคูณพวกเขาเข้าด้วยกัน: p q r คือความน่าจะเป็นของเซิร์ฟเวอร์บางตัวกำลังเกิดขึ้น

ปัญหาคือคุณไม่สามารถใช้ข้อมูลสถานะการออนไลน์ที่แท้จริงเพื่อให้คุณค่าแก่คุณสำหรับ p, q และ r ยกเว้นว่าถ้าคุณมีเซิร์ฟเวอร์ 1 และมันเพิ่มขึ้น 95% ของเวลาดังนั้น p * r = 0.95


5

ก่อนอื่นความพร้อมใช้งานทั้งหมดหรือความพร้อมในการทำงานของคลัสเตอร์ขึ้นอยู่กับความต้องการส่วนใหญ่ของคลัสเตอร์ที่จะใช้งานเพื่อให้ทั้งคลัสเตอร์พิจารณาว่า 'up'

  • เครื่องหนึ่งทำงานเพียงพอหรือไม่ นั่นหมายความว่าเครื่องใดเครื่องหนึ่งสามารถรับภาระเต็มที่หากจำเป็น
  • พวกเขาทุกคนต้องทำงานพร้อมกันหรือไม่? นั่นคือไม่มีความซ้ำซ้อน
  • หรือบางทีสองในสามของออนไลน์ก็เพียงพอแล้ว สิ่งนี้จะทำให้เวิร์กโหลดมีขนาดใหญ่กว่าเคสแรก

อย่างที่คุณทราบสองกรณีแรกนั้นค่อนข้างง่ายในการคำนวณ ปล่อยให้ความน่าจะเป็นของเซิร์ฟเวอร์เดียวกำลังออนไลน์ในเวลาใดก็ตามp = 0.95 ตอนนี้สำหรับเซิร์ฟเวอร์สามเครื่องความน่าจะเป็นที่พวกเขาออนไลน์ทั้งหมดในเวลาเดียวกันคือp 3 = 0.857375

สำหรับกรณีที่ตรงข้ามกับที่อย่างน้อยหนึ่งเครื่องควรจะใช้งานในเวลาที่กำหนดก็ง่ายในการคำนวณโดย inverting ปัญหาและมองไปที่ความน่าจะเป็นของเครื่องเป็นแบบออฟไลน์ ความน่าจะเป็นที่เครื่องเดียวออฟไลน์คือq = 1- p = 0.05 และด้วยเหตุนี้ความน่าจะเป็นที่เครื่องทั้งหมดลงในเวลาเดียวกันคือq 3 = 0.000125 ให้ความน่าจะเป็น 1- q 3 = 1- (1- p ) 3 = 0.999875 ที่มีอย่างน้อยหนึ่งค่า

การคำนวณ 2 ใน 3 นั้นทำได้ยากกว่าเล็กน้อย มีสถานการณ์ที่เป็นไปได้สี่สถานการณ์ที่เซิร์ฟเวอร์อย่างน้อยสองในสามเซิร์ฟเวอร์หมด 1) ABC เพิ่มขึ้น 2) AB เพิ่มขึ้น 3) AC เพิ่มขึ้น 4) BC เพิ่มขึ้น ความน่าจะเป็นทั้งปวงเหล่านี้ตามลำดับPPP , PPQ , pqpและqpp เนื่องจากกรณีต่างๆไม่เชื่อมโยงกันความน่าจะเป็นที่สามารถรวมเข้าด้วยกันทำให้ A = p 3 + 3 p 2 q = 0.992750

(สิ่งนี้สามารถขยายไปยังเครื่องจักรอื่น ๆ ได้ปัจจัยคือสัมประสิทธิ์ทวินามที่รู้จักกันดีดังนั้นการนับกรณีที่แตกต่างกันด้วยมือทำงานส่วนใหญ่เป็นการออกกำลังกาย)


แน่นอนว่าการคำนวณแบบนี้ง่ายกว่ามากในการจัดการโดยใช้โปรแกรมคอมพิวเตอร์สำเร็จรูป ... อย่างน้อยหนึ่งเครื่องคิดเลขออนไลน์สามารถดูได้ที่นี่:
http://stattrek.com/online-calculator/binomial.aspx

การป้อนค่าอินพุต: ความน่าจะเป็นของความสำเร็จ = 0.95, จำนวนการทดลอง = 3, จำนวนความสำเร็จ = 2 เราได้รับผลลัพธ์ "ความน่าจะเป็นสะสม: P (X ≥ 2) = 0.99275" นอกจากนี้ยังมีการมอบค่าที่เกี่ยวข้องอื่น ๆ และเครื่องมือออนไลน์ช่วยให้เล่นกับหมายเลขอื่นได้ง่าย


และใช่ทั้งหมดข้างต้นถือว่าเซิร์ฟเวอร์ล้มเหลวอย่างอิสระนั่นคือ a) ฉันเพิกเฉยต่อปัญหาใด ๆ ที่ส่งผลกระทบต่อคลัสเตอร์โดยรวม b) ไม่มีอะไรที่เหมือนกับอายุของคอมโพเนนต์ที่จะทำให้เซิร์ฟเวอร์ล้มเหลว หรือเกือบในเวลาเดียวกัน


3

คุณมีเวลาดาวน์ไทม์ 5% สำหรับแต่ละเซิร์ฟเวอร์ดังนั้นคุณจึงคูณมัน - 0.05 * 0.05 = 0.0025 ทำให้คุณมี 1-0.0025 = 0.9975 -> uptime 99% ด้วย 3 เซิร์ฟเวอร์คุณมี 1-0.000125 = 0.999875> 99.9% สถานะการออนไลน์

โดยปกติฉันคิดเป็น 97% ของความพร้อมใช้งานสำหรับโฮสต์แบบสแตนด์อโลน (ที่มี HDD ซ้ำซ้อนและ PSU) โดยให้> 99.9% สำหรับ 2N และ> 99.99% สำหรับความซ้ำซ้อน 3N


3

ฉันทำการขุดเพิ่มเติมและพบชิ้นส่วนของปริศนานี้

การใช้ตัวอย่างของเซิร์ฟเวอร์ที่มีความพร้อม 95% จากนั้นการเพิ่มเซิร์ฟเวอร์ที่สองจะเพิ่มความพร้อมใช้งานเป็น: 95% + (1-95%) * 95% = 99.75% เหตุผลเบื้องหลังคือเมื่อเซิร์ฟเวอร์ตัวที่ 1 หยุดทำงาน (5% ของเวลา) เซิร์ฟเวอร์ตัวที่สองนั้นยังคงเพิ่มขึ้น 95% ของเวลา

การเพิ่มเซิร์ฟเวอร์ตัวที่สามจะวนซ้ำในลักษณะเดียวกัน 2 รายการแรกพร้อมกันแล้ว 99.75% มีให้เลือกดังนั้นการเพิ่มรายการที่ 3 จะเป็น: 99.75% + (1-99.75%) * 95% = 99.9875% และอื่น ๆ และอื่น ๆ. นี่ใกล้เคียงกับคำตอบของฟิล แต่ก็ยังแตกต่างกันเล็กน้อยเนื่องจากคุณจำเป็นต้องใช้ผลลัพธ์ของการวนซ้ำก่อนหน้านี้และใช้ในครั้งต่อไป

สำหรับส่วนประกอบที่ขึ้นอยู่กับแต่ละบุคคลคุณเพียงแค่คูณเปอร์เซ็นต์ความพร้อมใช้งานดังนั้นหากคุณมี 2 องค์ประกอบที่มีให้ 50% คุณจะมีความพร้อมทั้งหมด 25% (เช่นระบบทำงานเฉพาะเมื่อส่วนประกอบทั้งสองทำงาน)


0

สมมติว่าสถานะการออนไลน์ของแต่ละเซิร์ฟเวอร์นั้นขึ้นอยู่กับช่วงเวลาทั้งหมดของเซิร์ฟเวอร์อื่น ๆ

1 - (0.05) ^ n

โดยที่ n คือจำนวนเซิร์ฟเวอร์และ 0.05 คือโอกาสในการหยุดทำงานของเซิร์ฟเวอร์เดียว

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.