Build software better, together

microsoft / DeepSpeed

Star

Open

Difference between loss.backward() and model_engine.backward(loss) ?

9

rsn870 commented Aug 21, 2020

Hi ,

I have tried out both loss.backward() and model_engine.backward(loss) for my code. There are several subtle differences that I have observed , for one retain_graph = True does not work for model_engine.backward(loss) . This is creating a problem since buffers are not being retained every time I run the code for some reason.

Please look into this if you could.

cerndb / dist-keras

Star

Distributed Deep Learning, with a focus on distributed training, using Keras and Apache Spark.

data-science machine-learning spark apache-spark deep-learning hadoop tensorflow keras keras-models optimization-algorithms data-parallelism distributed-optimizers

Updated Jul 25, 2018
Python

mratsim / weave

Star

A state-of-the-art multithreading runtime: message-passing based, fast, scalable, ultra-low overhead

runtime scheduler openmp multithreading parallelism task-scheduler message-passing threadpool data-parallelism fork-join work-stealing task-parallelism

Updated Jul 4, 2021
Nim

hpcaitech / ColossalAI

Star

Colossal-AI: A Unified Deep Learning System for Large-Scale Parallel Training

deep-learning hpc large-scale data-parallelism model-parallelism distributed-training pipeline-parallelism

Updated Nov 3, 2021
Python

PaddlePaddle / FleetX

Star

Paddle Distributed Training Extended. 飞桨分布式训练扩展包

benchmark cloud lightning elastic unsupervised-learning large-scale data-parallelism paddlepaddle model-parallelism distributed-algorithm self-supervised-learning pipeline-parallelism pretraining fleet-api paddlecloud

Updated Nov 3, 2021
Shell

dkeras-project / dkeras

Star

Distributed Keras Engine, Make Keras faster with only one line of code.

python distributed-systems machine-learning deep-neural-networks deep-learning neural-network tensorflow parallel-computing keras distributed ray keras-models keras-classification-models keras-neural-networks tensorflow-models keras-tensorflow data-parallelism distributed-deep-learning distributed-keras-engine plaidml

Updated Oct 3, 2019
Python

wenwei202 / terngrad

Star

Ternary Gradients to Reduce Communication in Distributed Deep Learning (TensorFlow)

deep-neural-networks deep-learning sgd quantization data-parallelism distributed-training

Updated Nov 19, 2018
Python

vertexclique / orkhon

Sponsor Star

Orkhon: ML Inference Framework and Server Runtime

machine-learning async tensorflow multiprocessing python3 inference-server data-parallelism

Updated Feb 1, 2021
Rust

kuixu / keras_multi_gpu

Star

Multi-GPU training for Keras

keras multi-gpu data-parallelism

Updated Jun 23, 2017
Python

yangyang14641 / Parallel-Matrix-Multiplication-FOX-Algorithm

Star

☕Implement of Parallel Matrix Multiplication Methods Using FOX Algorithm on Peking University's High-performance Computing System

openmp mpi intel matrix-multiplication high-performance-computing parallel-algorithm algorithm-analysis data-parallelism supercomputing fox-algorithm

Updated Jan 28, 2019
C

namhoonlee / effect-dps-public

Star

Understanding the effects of data parallelism and sparsity on neural network training

sparsity data-parallelism neural-network-training sparse-neural-network

Updated Jul 27, 2021
Python

Oblomov / cldpp

Star

OpenCL Data Parallel Primitives

opencl scan reduction gpgpu data-parallelism

Updated May 14, 2021
C

LER0ever / HPGO

Star

Development of Project HPGO | Hybrid Parallelism Global Orchestration

rust machine-learning tensorflow pytorch data-parallelism model-parallelism distributed-training pipedream gpipe pipeline-parallelism

Updated Mar 26, 2021

zbjob / DiscoPoP

Star

Dependence-Based Code Transformation for Coarse-Grained Parallelism

parallelization code-transformation data-parallelism

Updated Dec 8, 2018
C++

ngrabaskas / Torch-Automatic-Distributed-Neural-Network

Star

Torch Automatic Distributed Neural Network (TorchAD-NN) training library. Built on top of TorchMPI, this module automatically parallelizes neural network training.

machine-learning neural-network torch7 openmpi data-parallelism model-parallelism distributed-machine-learning

Updated Feb 28, 2018
Lua

dscpesu / NetTorrent

Star

A decentralized and distributed framework for training DNNs

distributed-computing data-parallelism model-parallelism p2p-networks

Updated Aug 25, 2019
Python

HiEST / DistMIS

Star

Distributing Deep Learning Hyperparameter Tuning for 3D Medical Image Segmentation

deep-neural-networks deep-learning tensorflow raylib distributed hyperparameter-tuning data-parallelism medical-image-segmentation 3d-unet ray-tune distributed-hyperparameter-tuning experiment-parallelism

Updated Oct 29, 2021
Python

nadeemfazloon / Download-Manager

Star

A C# based download manager that uses task-based programming using Data parallelism, Task Parallel Library in C# Scheduling, controlling and managing tasks

csharp scheduling lambda-expressions download-manager data-parallelism task-based-programming

Updated Apr 2, 2018
C#

EunjuYang / DistributedPyTorch

Star

Example of Distributed pyTorch

pytorch data-parallelism distributed-training multi-node-dataparallelism multi-gpu-training modelparallelism pytorch-mp pytorch-dp

Updated Mar 23, 2019
Python

oriolaranda / DistMIS

Star

Official Repository for the paper: Distributing Deep Learning Hyperparameter Tuning for 3D Medical Image Segmentation

deep-neural-networks deep-learning tensorflow raylib distributed hyperparameter-tuning data-parallelism medical-image-segmentation 3d-unet ray-tune distributed-hyperparameter-tuning experiment-parallelism

Updated Oct 29, 2021
Python

plerros / helsing

Star

A POSIX vampire number generator.

c linux homebrew freebsd algorithm linked-list math makefile quicksort mathematics posix checkpoint checkpoint-restart data-parallelism recreational-mathematics recreational unrolled-linked-list vampire-number

Updated Oct 13, 2021
C

ncl-teu / ncl_mapreducesim

Star

MapReduceSimulator for Scheduling and Provisioning Algorithms

simulator provisioning mapreduce data-parallelism

Updated Oct 28, 2020
Java

data-parallelism

Here are 22 public repositories matching this topic...

microsoft / DeepSpeed

Difference between loss.backward() and model_engine.backward(loss) ?

cerndb / dist-keras

mratsim / weave

hpcaitech / ColossalAI

PaddlePaddle / FleetX

dkeras-project / dkeras

wenwei202 / terngrad

vertexclique / orkhon

kuixu / keras_multi_gpu

yangyang14641 / Parallel-Matrix-Multiplication-FOX-Algorithm

namhoonlee / effect-dps-public

Oblomov / cldpp

LER0ever / HPGO

zbjob / DiscoPoP

ngrabaskas / Torch-Automatic-Distributed-Neural-Network

dscpesu / NetTorrent

HiEST / DistMIS

nadeemfazloon / Download-Manager

EunjuYang / DistributedPyTorch

oriolaranda / DistMIS

plerros / helsing

ncl-teu / ncl_mapreducesim

Improve this page

Add this topic to your repo