เราใช้งานเว็บไซต์สองแห่งจากโครงสร้างพื้นฐาน Amazons AWS เป็นเวลาประมาณสองปีแล้วและเมื่อประมาณสองวันที่ผ่านมาเว็บเซิร์ฟเวอร์เริ่มลงหนึ่งครั้งหรือสองครั้งต่อวันโดยมีข้อผิดพลาดเพียงอย่างเดียวที่ฉันสามารถทำได้:
HTTP/1.1 503 Service Unavailable: Back-end server is at capacity
ไม่มีสัญญาณเตือน (CPU / ดิสก์ IO / DB Conn) ถูกเรียกโดย CloudWatch ฉันพยายามไปที่ไซต์ผ่านทาง IP ที่ยืดหยุ่นเพื่อข้าม ELB และรับสิ่งนี้:
HTTP request sent, awaiting response... Read error (Connection reset by peer) in headers. Retrying.
ฉันไม่เห็นอะไรผิดปกติในบันทึก apache และตรวจสอบว่ามีการหมุนอย่างถูกต้อง ฉันไม่มีปัญหาในการเข้าถึงเครื่องเมื่อ "ลง" ผ่าน SSH และดูรายการกระบวนการที่ฉันเห็นกระบวนการ 151 apache2 ที่ปรากฏตามปกติสำหรับฉัน การรีสตาร์ท apache เป็นการแก้ไขปัญหาชั่วคราว เครื่องนี้ทำงานเป็นเพียงเว็บเซิร์ฟเวอร์ด้านหลัง ELB ข้อเสนอแนะใด ๆ ที่จะได้รับการชื่นชมอย่างมาก.
การใช้งาน CPU โดยเฉลี่ย: 7.45%, ต่ำสุด: 0.00%, สูงสุด: 25.82%
การใช้งานหน่วยความจำเฉลี่ย: 11.04%, ต่ำสุด: 8.76%, สูงสุด: 13.84%
ค่าเฉลี่ยการใช้งานสว็อป: N / A, ขั้นต่ำ: N / A, สูงสุด: N / A
การใช้ประโยชน์พื้นที่ดิสก์สำหรับ / dev / xvda1 ที่ติดตั้งบน / เฉลี่ย: 62.18%, ขั้นต่ำ: 53.39%, สูงสุด: 65.49%
ฉันขอชี้แจงว่าฉันคิดว่าปัญหาเกิดขึ้นกับ EC2 แต่ละตัวไม่ใช่ ELB ที่ฉันไม่ต้องการออกกฎแม้ว่าฉันจะไม่สามารถเข้าถึง IP ที่ยืดหยุ่นได้ ฉันสงสัยว่า ELB เพิ่งส่งคืนผลลัพธ์ของการกด EC2 อินสแตนซ์ที่เกิดขึ้นจริง
อัปเดต: 2014-08-26 ฉันควรจะอัปเดตสิ่งนี้เร็วกว่านี้ แต่การ "แก้ไข" เพื่อถ่ายภาพอินสแตนซ์ "ไม่ดี" และเริ่ม AMI ที่เป็นผลลัพธ์ มันไม่ได้ลงไปตั้งแต่นั้นมา ฉันดูที่การตรวจสอบสุขภาพเมื่อฉันยังคงประสบปัญหาและสามารถไปที่หน้าตรวจสุขภาพ ( curl http://localhost/page.html
) แม้ว่าฉันจะได้รับปัญหาด้านความจุจาก load balancer ฉันไม่เชื่อว่าเป็นปัญหาการตรวจสุขภาพ แต่เนื่องจากไม่มีใครรวมถึง Amazon สามารถให้คำตอบที่ดีกว่าฉันทำเครื่องหมายว่าเป็นคำตอบ ขอขอบคุณ.
ปรับปรุง: 2015-05-06 ฉันคิดว่าฉันจะกลับมาที่นี่และบอกว่าส่วนหนึ่งของปัญหาที่ฉันเชื่อมั่นในตอนนี้คือการตั้งค่าการตรวจสุขภาพ ฉันไม่ต้องการที่จะแยกแยะปัญหาของพวกเขากับ AMI เพราะมันดีกว่าแน่นอนหลังจากการเปิดตัว AMI ใหม่ แต่ฉันพบว่าการตรวจสุขภาพของเรานั้นแตกต่างกันสำหรับเครื่องโหลดบาลานซ์แต่ละเครื่องและเครื่องที่มีปัญหามากที่สุด มีขีด จำกัด ที่ไม่แข็งแรงเชิงรุกและหมดเวลาตอบสนอง ปริมาณการใช้ข้อมูลของเรามีแนวโน้มที่จะเพิ่มขึ้นอย่างคาดไม่ถึงและฉันคิดว่าระหว่างการตั้งค่าการตรวจสุขภาพที่ก้าวร้าวและการเพิ่มขึ้นของการจราจรเป็นพายุที่สมบูรณ์แบบ