Monarch 0.3.0 Release Notes

New Features

Kubernetes Job Support

Monarch now supports running distributed training workloads on Kubernetes clusters. The new KubernetesJob API connects to pre-provisioned GPU pods managed by the https://github.com/meta-pytorch/monarch-kubernetes/ repository, enabling seamless multi-node DDP training on Kubernetes.

Key Capabilities:

Connect to Kubernetes pods using KubernetesJob
Provision GPU workers via the MonarchMesh Custom Resource Definition
Run multi-node DDP training using SPMDActor

Example:

  from monarch.job.kubernetes import KubernetesJob
  from monarch.spmd import SPMDActor

  k8s_job = KubernetesJob(namespace="monarch-tests")
  k8s_job.add_mesh("ddpmesh", num_replicas=2)

  job_state = k8s_job.state()
  proc_mesh = job_state.ddpmesh.spawn_procs({"gpus": 4})
  spmd_actors = proc_mesh.spawn("_SPMDActor", SPMDActor)

See the full tutorial: https://meta-pytorch.org/monarch/generated/examples/ddp/kubernetes_ddp.html

We also publish docker packages, see https://github.com/meta-pytorch/monarch/pkgs/container/monarch

monarch.spmd and monarch.job.spmd SPMDJob

Monarch 0.3.0 Release Notes

New Features

Kubernetes Job Support

Key Capabilities:

Connect to Kubernetes pods using KubernetesJob
Provision GPU workers via the MonarchMesh Custom Resource Definition
Run multi-node DDP training using SPMDActor

Example:

  from monarch.job.kubernetes import KubernetesJob
  from monarch.spmd import SPMDActor

  k8s_job = KubernetesJob(namespace="monarch-tests")
  k8s_job.add_mesh("ddpmesh", num_replicas=2)

  job_state = k8s_job.state()
  proc_mesh = job_state.ddpmesh.spawn_procs({"gpus": 4})
  spmd_actors = proc_mesh.spawn("_SPMDActor", SPMDActor)

See the full tutorial: https://meta-pytorch.org/monarch/generated/examples/ddp/kubernetes_ddp.html

We also publish docker packages, see https://github.com/meta-pytorch/monarch/pkgs/container/monarch

monarch

0.3.0

Monarch 0.3.0 Release Notes

New Features

Kubernetes Job Support

monarch.spmd and monarch.job.spmd SPMDJob

Related Projects

mapbox-navigation-android

ToastFish

barcodelib

haze

0.3.0

Monarch 0.3.0 Release Notes

New Features

Kubernetes Job Support

monarch.spmd and monarch.job.spmd SPMDJob

Experimental Queue Dispatch Mode (Performance)

Real this_proc() for Local Spawning

Zero-Copy Messaging Path from Python

Principles of Ownership in Supervision

SkyPilot Integration (Community Contribution)

Related Projects

mapbox-navigation-android

ToastFish

barcodelib

haze