Skip to content
Snippets Groups Projects
Select Git revision
  • 976516d7bffddb83a383cb1d54ef80c4353c792c
  • 5.4 default protected
  • 5.5
  • dev/5.5
  • dev/5.4
  • dev/5.6
  • dev/5.3_downgrade
  • feature/experimenttime_hack
  • 5.3 protected
  • _IntenSelect5.3
  • IntenSelect5.3
  • 4.27 protected
  • 4.26 protected
  • 5.0 protected
  • 4.22 protected
  • 4.21 protected
  • UE5.4-2024.1
  • UE5.5-1
  • UE5.4-2024.1-rc1
  • UE5.3-2023.1-rc3
  • UE5.3-2023.1-rc2
  • UE5.3-2023.1-rc
22 results

ToolkitExamples.umap

Blame
  • submit_job_venv_single-node.sh 1.27 KiB
    #!/usr/bin/zsh
    ############################################################
    ### Slurm flags
    ############################################################
    
    #SBATCH --time=00:15:00
    #SBATCH --partition=c23g
    #SBATCH --nodes=1
    #SBATCH --ntasks-per-node=2
    #SBATCH --cpus-per-task=24
    #SBATCH --gres=gpu:2
    
    ############################################################
    ### Load modules or software
    ############################################################
    
    # TODO: load/activate your desired modules and virtual environment
    
    ############################################################
    ### Parameters and Settings
    ############################################################
    
    # print some information about current system
    echo "Job nodes: ${SLURM_JOB_NODELIST}"
    echo "Current machine: $(hostname)"
    nvidia-smi
    
    export NCCL_DEBUG=INFO
    export TF_CPP_MIN_LOG_LEVEL=1 # disable info messages
    export TF_GPU_THREAD_MODE='gpu_private'
    export NCCL_SOCKET_NTHREADS=8 # multi-threading for NCCL communication
    
    ############################################################
    ### Execution (Model Training)
    ############################################################
    
    # each process sets required environment variables and
    # runs the python script
    source set_vars.sh
    python -W ignore train_model.py --strategy 'mirrored'