คำถามติดแท็ก job-scheduler

6
Outgrowing cron: กำหนดการต่อไปคืออะไร? [ปิด]
เราใช้ cron มานานเท่าที่ฉันจำได้เพื่อจัดการกับความต้องการการจัดตารางงานทั้งหมดของเรา ทุกอย่างนับตั้งแต่โคลนนิ่งสตอเรจ / สแน็ปช็อตไปจนถึงรายงานจากฐานข้อมูลไปจนถึงรายงานระบบรายวันจนถึงการตรวจสอบการตรวจสอบจะถูกกำหนดไว้ในเซิร์ฟเวอร์สองสามร้อยเครื่องผ่าน cron ข้อเสียคือค่อนข้างชัดเจน: ยากต่อการจัดการงานไม่มีวิธีง่ายๆในการสร้างการอ้างอิง (โดยเฉพาะในเซิร์ฟเวอร์ที่แตกต่างกัน) และแน่นอนว่าเป็นเรื่องที่หลีกเลี่ยงไม่ได้ที่บางคน "ชั่วคราว" ข้ามงาน แต่ภายหลังลืมลบความคิดเห็น เราลองเสนอขายเชิงพาณิชย์ แต่ในที่สุดมันก็ถือว่าแพงเกินไปเมื่อเทียบกับ cron ฉันเห็นตัวเลือกอื่น ๆ เช่น SLURM, Oracle Grid Engine, Torque / Maui, Quartz, DIET, Condor ซึ่งดูเหมือนว่าจะมุ่งเน้นไปที่สภาพแวดล้อมของคลัสเตอร์ที่มีขนาดใหญ่ขึ้นและเป็นเนื้อเดียวกันมากขึ้นด้วยงานซึ่งจะทำงานบนโหนดจำนวนเดียวกัน และไม่ชอบ สภาพแวดล้อมของเรามีความหลากหลาย (Linux, AIX และ FreeBSD) และเราจำเป็นต้องสร้างการพึ่งพาข้ามระบบที่แตกต่างกัน (เช่นงานบนกล่อง Linux อาจต้องพิจารณาว่างานบนกล่อง AIX ควรทำงานหรือไม่) ใครบ้างมีประสบการณ์ใด ๆ ที่ย้ายจาก cron ไปยังข้อเสนอที่จัดการจากส่วนกลางมากขึ้น? มีคำแนะนำในการเลือกซอฟต์แวร์หรือไม่ว่าจะเป็นการดีกว่าที่จะเปิดแหล่งที่มาหรือการค้า

3
งานที่กำหนดเวลาไว้ในช่วงเวลาของการเปลี่ยนแปลงเวลาฤดูใบไม้ร่วง
ฉันสงสัยว่าคนอื่นจัดการกับสถานการณ์นี้อย่างไร จะเป็นอย่างไรถ้าคุณมีงานที่กำหนดให้ทำงานในเวลา 1:30 น. ในฤดูใบไม้ร่วงเมื่อเวลามีการเปลี่ยนแปลงชั่วโมง 1:00:00 ถึง 1:59:59 นจะทำซ้ำตัวเองและเพื่อให้งานทำงานสองครั้ง อาจเป็น Windows Task Scheduler, SQL Agent หรือเครื่องมือการตั้งเวลาอื่น ๆ เครื่องมือเหล่านี้ส่วนใหญ่ดูเหมือนจะขึ้นอยู่กับเวลาของเครื่องไม่ใช่เวลา UTC ถ้าฉันบอกให้ทำงานในเวลา UTC ในแต่ละคืนฉันจะไม่ได้รับปัญหาซ้ำซ้อน

1
เหตุใดการร้องขอ GPUs เป็นทรัพยากรทั่วไปในคลัสเตอร์ที่ใช้ SLURM ที่มีปลั๊กอินในตัวล้มเหลว
คำเตือน: โพสต์นี้ค่อนข้างยาวเพราะฉันพยายามให้ข้อมูลการกำหนดค่าที่เกี่ยวข้องทั้งหมด สถานะและปัญหา: ฉันยอมรับคลัสเตอร์ gpu และฉันต้องการใช้ slurm สำหรับการจัดการงาน โชคไม่ดีที่ฉันไม่สามารถร้องขอ GPU ได้โดยใช้ปลั๊กอินทรัพยากรทั่วไปที่เกี่ยวข้องของ slurm หมายเหตุ: test.sh เป็นสคริปต์ขนาดเล็กที่พิมพ์ตัวแปรสภาพแวดล้อม CUDA_VISIBLE_DEVICES การรันงานด้วย--gres=gpu:1ไม่สมบูรณ์ แสดงsrun -n1 --gres=gpu:1 test.shผลลัพธ์ในข้อผิดพลาดต่อไปนี้: srun: error: Unable to allocate resources: Requested node configuration is not available เข้าสู่ระบบ: gres: gpu state for job 83 gres_cnt:4 node_cnt:0 type:(null) _pick_best_nodes: job 83 never runnable _slurm_rpc_allocate_resources: Requested …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.