วิทยาลัยขนาดเล็กที่ฉันทำงานกำลังประสบปัญหาเครือข่ายแปลก ๆ ฉันกำลังมองหาคำแนะนำหรือความคิดเห็นที่นี่ เราสบายดีในช่วงฤดูร้อน แต่ปัญหาเริ่มขึ้นไม่กี่วันหลังจากนักเรียนกลับไปที่มหาวิทยาลัยเพื่อใช้งานในช่วงฤดูใบไม้ร่วง
อาการ
อาการหลักคือการเข้าถึงอินเทอร์เน็ตจะใช้งานได้ แต่มันช้ามาก ... บ่อยครั้งจนถึงช่วงหมดเวลา ตัวอย่างเช่นผลลัพธ์ทั่วไปจาก Speedtest.net จะส่งคืนการดาวน์โหลด. 4Mbps แต่อนุญาตให้อัปโหลดความเร็ว 3 ถึง 8 Mbps อาการที่น้อยลงอาจรวมถึงประสิทธิภาพที่ จำกัด อย่างรุนแรงในการถ่ายโอนข้อมูลไปยังและจากไฟล์เซิร์ฟเวอร์ของเราหรือในบางกรณีการไม่สามารถลงชื่อเข้าใช้คอมพิวเตอร์ (ไม่สามารถเข้าถึงตัวควบคุมโดเมน) ปัญหาข้าม vlans หลายรายการและมีผลกับอุปกรณ์ใน vlan เกือบทุกเครื่องที่เราใช้งาน
ปัญหาไม่ได้ส่งผลกระทบต่อเครื่องทั้งหมดในเครือข่าย โดยทั่วไปแล้วเครื่องที่ไม่ได้รับผลกระทบจะเห็นการดาวน์โหลดอย่างน้อย 11Mbps จาก speedtest.net และอาจมากขึ้นกับรูปแบบการรับส่งข้อมูลในมหาวิทยาลัยขนาดใหญ่ในเวลานั้น
มีหนึ่งรูปแบบในปัญหาที่ใหญ่กว่า เรามี vlan เพียงอันเดียวที่ผู้ใช้ไม่สามารถเข้าสู่เครื่องเกือบทั้งหมดได้เลย เจ้าหน้าที่ไอทีจะเข้าสู่ระบบโดยใช้บัญชีผู้ดูแลระบบท้องถิ่น (หรือในบางกรณีหนังสือรับรองแคช) และจากนั้นมีการเปิดตัว / ต่ออายุหรือส่ง Ping หรือเกตเวย์จะช่วยให้เครื่องทำงาน ... ในขณะที่ ปัญหาที่ซับซ้อนนี้คือ vlan นี้ครอบคลุมห้องปฏิบัติการคอมพิวเตอร์ของเราซึ่งใช้ซอฟต์แวร์ที่เรียกว่า Deep Freeze เพื่อรีเซ็ตฮาร์ดไดรฟ์ใหม่หลังจากรีบูต มันอาจเป็นปัญหาเดียวกันที่เผยให้เห็นแตกต่างกันเนื่องจากข้อมูลเก่าบนเครื่องที่ไม่ได้เปลี่ยนแปลงข้อมูลระดับต่ำอย่างถาวรเป็นเวลาหลายสัปดาห์ อย่างไรก็ตามเราสามารถแก้ไขปัญหานี้ได้ด้วยการสร้าง vlan ใหม่และย้ายห้องปฏิบัติการไปยังขายส่ง vlan ใหม่
instigations
ในที่สุดเราสังเกตเห็นว่าเครื่องที่ได้รับผลกระทบทั้งหมดมีสัญญาเช่า DHCP ล่าสุด เราสามารถทำนายได้ว่าเมื่อใดที่เครื่องจะ "ช้า" โดยการดูเมื่อสัญญาเช่า DHCP เกิดขึ้นเพื่อต่ออายุ เราเล่นด้วยการตั้งค่าเวลาเช่าสั้นมากสำหรับการทดสอบ vlan แต่สิ่งที่ทำไม่ได้ลบความสามารถของเราในการทำนายว่าเครื่องจะช้าเมื่อใด เครื่องที่มี IP คงที่นั้นทำงานได้ตามปกติ การปล่อย / ต่ออายุที่อยู่ด้วยตนเองจะไม่ทำให้เครื่องช้า ในความเป็นจริงในบางกรณีกระบวนการนี้ได้รับการแก้ไขเครื่องอยู่ในสถานะนั้น แม้ว่าส่วนใหญ่แล้วมันไม่ได้ช่วยอะไร นอกจากนี้เรายังสังเกตเห็นว่าโทรศัพท์มือถือเช่นแล็ปท็อปมีแนวโน้มที่จะช้าเมื่อข้ามไปยัง vlans ใหม่ ระบบไร้สายในมหาวิทยาลัยแบ่งออกเป็น "โซน" ซึ่งแต่ละโซนจะจับคู่กับอาคารขนาดเล็ก การย้ายไปยังสิ่งปลูกสร้างใหม่สามารถทำให้คุณอยู่ในโซนจึงทำให้คุณได้รับที่อยู่ใหม่ เครื่องที่กลับมาทำงานจากโหมดสลีปก็น่าจะช้าเช่นกัน
การบรรเทา
บางครั้ง แต่ไม่เสมอไปการล้างแคช arp บนเครื่องที่ได้รับผลกระทบจะทำให้มันทำงานได้ตามปกติอีกครั้ง ดังกล่าวแล้วการปล่อย / ต่ออายุที่อยู่ IP ของเครื่องในท้องถิ่นสามารถแก้ไขเครื่องนั้น แต่ไม่รับประกัน การส่ง Ping ไปยังเกตเวย์เริ่มต้นบางครั้งก็สามารถช่วยด้วยเครื่องที่ช้า
สิ่งที่น่าจะช่วยได้มากที่สุดในการลดปัญหาคือการล้างแคช arp บนสวิตช์คอร์เลเยอร์ -3 ของเรา สวิตช์นี้ใช้สำหรับระบบ dhcp ของเราเป็นเกตเวย์เริ่มต้นบน vlans ทั้งหมดและจัดการการกำหนดเส้นทางระหว่าง vlan รูปแบบคือ 3Com 4900SX ในการพยายามลดปัญหาเราได้ตั้งค่าการหมดเวลาแคชไว้ที่สวิตช์จนสุดถึงเวลาที่น้อยที่สุด แต่ก็ไม่ได้ช่วยอะไร ฉันยังรวบรวมสคริปต์ที่ทำงานทุกสองสามนาทีเพื่อเชื่อมต่อกับสวิตช์โดยอัตโนมัติและรีเซ็ตแคช น่าเสียดายที่สิ่งนี้ไม่ได้ผลเสมอไปและอาจทำให้บางเครื่องสิ้นสุดลงในช่วงเวลาสั้น ๆ (แม้ว่าสิ่งเหล่านี้จะแก้ไขตัวเองหลังจากนั้นไม่กี่นาที) ขณะนี้เรามีงานที่กำหนดเวลาไว้ซึ่งรันทุกๆ 10 นาทีเพื่อบังคับให้สวิตช์หลักเพื่อล้างแคช ARP แต่สิ่งนี้ยังห่างไกลจากความสมบูรณ์แบบ
การทำสำเนา
ตอนนี้เรามีเครื่องทดสอบที่เราสามารถบังคับให้อยู่ในสภาวะช้าได้ตามต้องการ มันเชื่อมต่อกับสวิตช์พร้อมพอร์ตที่ตั้งค่าไว้สำหรับ vlans แต่ละตัวของเรา เราทำให้เครื่องช้าโดยการเชื่อมต่อกับ vlans ที่แตกต่างกันและหลังจากการเชื่อมต่อใหม่หรือสองมันจะช้า
นอกจากนี้ยังเป็นที่น่าสังเกตในส่วนนี้ว่าสิ่งนี้เคยเกิดขึ้นมาก่อนในตอนต้นของข้อกำหนดก่อนหน้านี้ แต่ในอดีตปัญหาได้หายไปเองหลังจากนั้นไม่กี่วัน มันแก้ไขตัวเองก่อนที่เราจะมีโอกาสทำงานวินิจฉัยมาก ... ดังนั้นทำไมเราอนุญาตให้ลากไปมาในเทอมนี้ ความคาดหวังคือสิ่งนี้จะเป็นสถานการณ์ระยะสั้น
ปัจจัยอื่น ๆ
เป็นมูลค่าการกล่าวขวัญว่าเรามีสวิตช์ประมาณครึ่งโหลที่ล้มเหลวทันทีเมื่อปีที่แล้ว เหล่านี้ส่วนใหญ่เป็น 3 ปี 2546-2547 (ส่วนใหญ่ 4200 แห่ง) ที่วางไว้ในเวลาเดียวกัน พวกเขาควรจะอยู่ภายใต้การรับประกันซื้อ HP ได้รับบริการค่อนข้างยาก ส่วนใหญ่ในแหล่งจ่ายไฟที่ล้มเหลว แต่ในบางกรณีเราได้ใช้แหล่งจ่ายไฟจากสวิตช์ที่มีเมนบอร์ดที่ล้มเหลวเพื่อนำสวิตช์ที่มีแหล่งจ่ายไฟที่ล้มเหลวกลับมามีชีวิตอีกครั้ง เรามีอุปกรณ์ของยูพีเอสทุกตัวยกเว้นสวิตช์สามในสี่ แต่ตอนนี้ไม่ใช่เมื่อฉันเริ่มสองปีครึ่งที่แล้ว ข้อ จำกัด ด้านงบประมาณที่รุนแรง (เราอยู่ในรายชื่อสถาบันการเงินที่ถูกท้าทายด้านการเงินของเอ็ดเมื่อสองสามปีก่อน) ได้บังคับให้ฉันมองไปที่ชอบของ Netgear และ TrendNet เพื่อทดแทน
นอกจากนี้ยังเป็นที่น่าสังเกตว่าการเปลี่ยนแปลงครั้งใหญ่ในเครือข่ายของเราในช่วงฤดูร้อนนี้กำลังจะย้ายจาก SSID ไร้สายข้ามมหาวิทยาลัยไปยังวิธีการส่วนที่กล่าวถึงก่อนหน้านี้ ฉันไม่คิดว่านี่เป็นแหล่งที่มาของปัญหาอย่างที่ฉันเคยพูดว่า: เราเคยเห็นมาก่อน อย่างไรก็ตามอาจเป็นไปได้ว่าปัญหานี้ทวีความรุนแรงมากขึ้นและอาจเป็นสาเหตุที่ทำให้แยกได้ยาก
การวินิจฉัยโรค
ตอนแรกมันชัดเจนสำหรับเราเนื่องจากกำหนดเวลาและลักษณะถาวรของปัญหาว่าแหล่งที่มาของปัญหาคือเครื่องนักเรียนที่ติดเชื้อ (หรือเป็นอันตราย) ที่ทำพิษ ARP แคช อย่างไรก็ตามความพยายามซ้ำ ๆ เพื่อแยกแหล่งที่มาล้มเหลว ความพยายามเหล่านั้นรวมถึงร่องรอยแพกเก็ต wireshark จำนวนมากและแม้แต่การออฟไลน์อาคารทั้งหมดในช่วงเวลาสั้น ๆ เราไม่สามารถแม้แต่จะค้นหา ARP ที่ไม่ใช้ปืนสูบบุหรี่ได้ การคาดเดาที่ดีที่สุดในปัจจุบันของฉันคือสวิตช์หลักที่มีการโหลดมากเกินไปหรือล้มเหลว แต่ฉันไม่แน่ใจเกี่ยวกับวิธีทดสอบสิ่งนี้และค่าใช้จ่ายในการแทนที่สวิตช์แบบสุ่มนั้นก็สูงชัน
อีกครั้งความคิดใด ๆ ชื่นชม
อัปเดต:
สวิตช์หลักจะถูกแทนที่ หลังจาก 4 วันทุกอย่างทำงานได้ดี ... แต่ฉันจะรอสองสัปดาห์ก่อนที่จะแก้ไขปัญหา
mtr
มีประโยชน์ที่นี่