fix(npu): synchronize stream after backward for dp replicate training by danieldale2026 · Pull Request #60 · OpenMOSS/MOVA

danieldale2026 · 2026-05-11T14:08:10Z

Summary

Fixes #59.

This PR fixes loss=nan in NPU training when dp_replicate_size > 1 by synchronizing the current NPU stream immediately after backward.

Adds torch_npu import in mova/engine/trainer/accelerate/accelerate_trainer.py
Calls torch_npu.npu.current_stream().synchronize() right after self.accelerator.backward(loss)
Keeps the change scoped to NPU stream ordering after backward
Does not modify other training logic

fix(npu): synchronize stream after backward for dp replicate training

9827db8