Toutes les actualités, formations et événements

Comment soumettre un job ?

01 / 01 / 1970, arnaud_renard

Actualité

Depuis début novembre 2007, le gestionnaire de batch PBSpro est installé. Cet outil apporte plus de fonctionnalités comme la gestion de la mémoire par exemple.


 

Cette page est souvent modifiée.

 

Pour effectuer un calcul il est impératif d'utiliser ce gestionnaire de soumission. Il suffit de créer un fichier de soumission (qui décrit vos besoin et sera utilisé pour lancer le calcul)

 

Afin de planifier au mieux l'utilisation du cluster, le gestionnaire a besoin d'avoir des informations précises sur votre calcul : le nombre de coeurs de calcul et le temps d'utilisation de ceux-ci. Le gestionnaire vous allouera des processeurs de manière exclusive : seul votre programme y aura accès.

 

Rappel :

Le cpu time (paramètre cput) indique le temps effectivement utilisé sur le processeur. C'est une notion différente du walltime qui indique le temps pendant lequel l'unité de calcul vous était dédiée. C'est donc le paramètre walltime qui est important pour bien planifier les exécutions, quelle que soit l'utilisation que votre programme en fait. Pour une exécution sur plusieurs processeur, le walltime correspond bien au temps que vous pouvez noter avec votre montre (ou avec l'horloge on the wall), alors que le cputime additionne les temps de tous les cpus.

 

C'est pourquoi nous avons configuré la gestion des files de la manière suivante :

 

Queue Walltime max Walltime défaut Priorité
courte 3 heures 1 heure 100
longue 3 jours 6 heures 50
infinie 10 jours 12 heures 5

la commande qmgr -c "p s" permet d'avoir la configuration précise

 

Limites imposées :

 

Une limite est fixée quant au nombre maximal de processeurs utilisables par un utilisateur : 40

Cette limite sera certainement modifiée, par exemple pendant les périodes peu chargées que sont les vacances.


Les commandes suivantes permettent d'avoir des informations sur l'état du cluster :

 

Avant de lancer un calcul veillez à bien vérifier l'état du gestionnaire en utilisant la commande rinfo la partition parallel doit être à l'état running avec 96 procs. Vous trouverez une description de chaque nœud de la partition en utilisant la commande rinfo -nl . Enfin, pour obtenir l'état des nœuds dans la partition : pbsnodes –a.

La commande qstat permet d'afficher la liste des jobs, certain en status R (running) et d'autre en Q (attente)

La commande qstat -f permet d'avoir des informations précises sur un job en particulier

Nous avons développé des outils pour facilement connaître l'état de la machine :
/opt/tools/jr : les jobs en exécution
/opt/tools/jq : les jobs en attente
http://194.57.105.43/viewer pour visualiser l'état de la machine

 

 

Voici un script de soumission type, avec ses explications :

 

Les instructions PBSpro commencent toutes par #PBS, le fichier le soumission est lu une première fois par PBSpro, et seules les commande PBSpro sont utilisées. Au moment de l'exécution, le fichier est exécté par le shell et les commandes PBSpro sont alors vues comme des commentaires.

 


### un commentaire

#PBS -N nomJob : nom du job tel qu'il apparaitra dans qstat et nom des fichiers de sortie (limité à 15 caractères)

#PBS -r n : Le job ne peut pas être relancé

#PBS -q longue : (option) choix de la file à utiliser. En fonction des ressources réservées, la file la plus appropriée est choisie, mais il est possible d'en choisir une autre.

#PBS -l nodes=1:ppn=2 : (option) déclaration des ressources processeur, ici un noeud avec 2 processeurs sont réservées (on entend processeur logique, donc un coeur physique). Par défaut un noeud et un coeur sont réservés.

#PBS -l walltime=24:00:00 : (option) temps walltime. Par défaut le temps défaut de la file est utilisé.

#PBS -l pmem=3gb : (option) mémoire utile par processeur (2 gigas par défaut)

#PBS -l mem=6gb : (option) mémoire totale utile (défaut en fonction du nombre de processeur)
#PBS -M adresse@email

Toutes les actualités, formations et événements