เป็นการยากที่จะให้คำตอบที่เฉพาะเจาะจงเนื่องจาก 90% ของงานนี้เป็นประสบการณ์ที่สอนคุณว่าจะมองหาปัญหาแบบไหนและอีก 90% รู้ว่าจะต้องดูที่ Google เพื่อรับคำแนะนำว่าจะเริ่มจากตรงไหน
ฉันมักจะลองใช้ถุงกระดาษอย่างเช่นทำให้ลูกค้าแสดงให้เห็นถึงปัญหา (ส่วนใหญ่จะแยกแยะปัญหานิ้วมือและปัญหาใด ๆ ที่ลูกค้าอาจอธิบายถึงปัญหาของเขา) จากนั้นลองทำซ้ำปัญหาบนคอมพิวเตอร์เครื่องอื่น การทำเช่นนั้นมักจะช่วยให้คุณมองเห็นสถานที่ได้อย่างชัดเจน
อย่าลืมปัญหาที่ถูกต้องของการรีบูตโดยเฉพาะอย่างยิ่งสำหรับระบบ Windows แม้กระทั่งทุกวันนี้ มันเคยเป็นเช่นนี้มากจนฉันจะถามคนว่า "คุณรีบูทแล้วหรือยังลองดูแล้วแจ้งให้เราทราบหากปัญหายังคงมีอยู่" - นี่เป็นการแก้ไขปัญหาที่ฉันถูกถามเป็นจำนวนมาก
นอกจากนี้ยังมีผลไม้แขวนลอยต่ำในปัญหาการแก้ไข DNS และการเชื่อมต่อพื้นฐาน (ACLs บนเราเตอร์, ช่องว่างอากาศในเครือข่าย, ส่ง Ping / traceroutes / mtrs ไปยังไซต์ระยะไกล ฯลฯ )
สำหรับบริการที่คุณควบคุมโดยตรงการใช้งาน nagios หรือบางอย่างเพื่อให้แน่ใจว่าบริการกำลังทำงานอยู่จริง ๆ สามารถทำให้คุณแก้ไขปัญหาได้ก่อนที่ลูกค้าจะบอกคุณเกี่ยวกับบริการเหล่านั้น คุณอาจต้องการเรียกใช้การรวบรวมสถิติไม่ว่าจะโดยตรงผ่านทางมินนินต์หรืออะไรบางอย่างหรือผ่านทาง SNMP ไปยังสิ่งที่ต้องการ Cacti
ฉันมักจะพยายามให้ Cacti ทำงานอย่างน้อยกับสวิตช์หลักและไฟร์วอลล์ทั้งหมดของฉัน ที่เป็นไปได้ฉันเรียกใช้ Cacti กับทุกสิ่งที่ฉันทำได้ ในกรณีเหล่านี้ฉันมักจะมองหาสิ่งต่าง ๆ เช่นจำนวนข้อผิดพลาดของพอร์ตหรือการรับส่งข้อมูลที่มากเกินไป กราฟไฟร์วอลล์จากอุปกรณ์บางชนิดสามารถแสดงการใช้งาน CPU และเซสชันที่ใช้งานพร้อมกัน คุณจะได้เรียนรู้ว่าอุปกรณ์ไฟร์วอลล์ของคุณมีปัญหาอะไร
ไฟร์วอลล์ของคุณอาจเข้าสู่อุปกรณ์ syslog ถ้าเป็นเช่นนั้นให้บันทึกทุกสิ่งที่คุณทำได้และมองหาคำแนะนำ สิ่งนี้จะง่ายขึ้นหากคุณเรียกใช้บางอย่างเช่น syslog-ng หรือ rsyslog หรือ splunk ที่ให้คุณแบ่งบันทึกของคุณค่อนข้างจะแทนที่จะจัดการกับไฟล์เสาหินเดียว
ฉันยังพยายามใช้ nfsen อย่างน้อยภายในไฟร์วอลล์ของฉันและอัปลิงค์ไปยังผู้ให้บริการอินเทอร์เน็ตหากเป็นไปได้ สิ่งนี้จะช่วยให้คุณย้อนเวลากลับไปดูเซสชันเพื่อดูว่าใครกำลังทำอะไรอยู่ บางครั้งสิ่งนี้สามารถจับพฤติกรรมที่น่าสนใจ