Changes with Eclis V6.31 - xrelan, robust pcif
Article mis en ligne le 1er février 2019

par senesi

Les modifications sont détaillées plus bas. Les changements majeurs, en bref , sont :

  • ajout du script ’xrelan’, qui est le couteau suisse de la simu plantée. Cf doc ci-dessous. Couplé avec des mails plus clairs lors de plantage de la simu
  • amélioration du script verifrelan, qui gère désormais toutes simus grâce à xrelan ; ce script est à cron-er sur PC ou serveur (doc jointe)
  • peaufinage des sauvegardes (surtout pour la prod CMIP6) : listings annuels, namelists annuelles, fichier histoire, fichier conf ... le tout dans un tar zippé
  • un script de transfert des sorties incrémentales vers hendrix qui est un peu plus robuste
  • diverses corrections pour CMIP6 (dont la consignation de l’installation des runs de production, la gestion de plusieurs fichier de DR maison...)
  • ajout de plugins : de monitoring (Aurore), et aerosol, landuse, chemistry, CO2, BGchem (Roland, Pierre, Martine)
  • ajout de la directive SBATCH —no-requeue, pour éviter des remises en queue ’système’ mal contrôlées et désatreuses
  • le paramètre DATRES permet de désigner un binaire pour modifier la date dans les restarts Arpege
  • quand on utilise une Data Request : une modalité pour faire exécuter dr2xml seulement, comme il tournera (annuellement) dans la simu. Il suffit d’exécuter le fichier param avec l’argument ’-tdr’ et de lire surtout la fin de l’output
  • nouveau rebuild Nemo plus efficace (Aurore)

Début de l’auto-doc de xrelan :

“ Usage : xrelan EXPID [user] [-go] [-f]

Wrapper for relan, which handles quite smartly the most complex
cases including an experiment EXPID which produces XIOS
incremental files and has ARCHIVING=DURING.

We try to save as much processing time as possible :

- if the crash occurred during post-processing (step.03), we
restart only the post-processing(s)

- otherwise, we restart from the latest reliable date, which
means from an incremental files backup if applicable (i.e.
if IOXSAVEPER is set) and available (otherwise : from INIDATE)

xrelan can manage the case where a step.03 (and the whole run) is
blocked by an error in a former step.03

Without argument ’-go’, xrelan will only tell what it would do.
( and in that case, you can diagnose the experiment of another user)

With argument ’-f’, xrelan won’t block relaunch on time limit errors”

Le détail des changements est le suivant :

  • xrelan has documented exit values. verifrelan uses xrelan
  • xrelan is smart. Improve error mails. Fix logging dr2xml elapsed
  • Embellish namelists filenames and fix logic in OUT_PBS errors
  • Archive EXPID.conf, EXPID_his, and yearly namelists, tar-ed with listings
  • Revert "Archive OTHER_FILES. When LIOXOUT==1, archive namelists anyway (act : content of output dirs)"
  • for CMIP6 runs, add a link to RELDIR in big_brother dir ’actual_runs’
  • tar and archive content of dir ’listings’
  • Archive OTHER_FILES. When LIOXOUT==1, archive namelists anyway (act : content of output dirs)
  • Save _his file on ARCHIVE at end of experiment
  • Ensure that PrePARE error ends up in run crash
  • Archival script pcif.py more robust (use tmp target file + rename)
  • Allow discrepancy between INIDATE and brnach_year_in_child if LDR_EXPID=2
  • Avoid messages on "chmod -R actual_runs"
  • PrePARE output has a date suffix
  • Back to a safe version of postxios_inc.sh (last changes by Aurore)
  • Allow to prefix dr2xml call in DR2XML with var=value pairs
  • Manage monthly instnt files in postxios_inc.sh
  • Update plugin oce_mbg_CMIP6 (mail Roland)
  • add plugin "monito" for simulation monitoring (Aurore)
  • Revert "postxios_inc.sh handles correctly instant monthly files"
  • Change logics for checking and tracking CMIP6 production/test runs
  • postxios_inc.sh handles correctly instant monthly files
  • Fix for saving fixed files at end of simulation
  • Allow for LDR_EXPID=2
  • After step3 lock and relaunch, allow next step3 (for nextdate) to go on
  • postiox_inc.sh is smarter at renaming files before backup (Aurore)
  • Big brother features for CMIP6 runs. Improve checks LDR_EXPID vs.realization
  • Remove adhoc sequence for post-processing areacella (in postxios_inc.sh)
  • Load python module before getting experiment name from DR settings (when needed)
  • Add SBATCH directive —no-requeue for beaufix and prolix
  • Fix on deriving model name from settings at install
  • Fix handling mulitple home DR files
  • Fix managing and checking LDR_EXPID and realization index
  • check LDR vs realization number
  • prepare for providing DATRES
  • Let option -tdr work when using CMIP6’s dr2xml
  • Add plugins (CEDRE/CMIP6) : aerosol, landuse, chemistry, CO2, BGchem
  • Forgot one file for resting DR with insatll option -tdr
  • New rebuild Nemo (Aurore)
  • postxios_inc.sh handle areacella in a CMIP6-specific, adhoc, way
  • restore deleting IOXDIR.$RESDATE ; pcif don’t delete local files
  • Take care of non-writeable dir DATA_IOS_WEIGHTS
  • Install option ’-tdr’ for testing DR ; check expe_settings realization number