您好,非常感谢您的工作!它对我帮助很大! 但是,我近期在使用lora微调LongCat-Video模型时,所消耗的显存过大,大概为80多G,就算开启了--use_gradient_checkpointing_offload \也没有太多变化。我想要通过模型并行等方式减小其显存消耗,请问项目中是否有一些集成的方法可以实现这一点,或者是否有适配DiffSynth库的显存降低的代码供参考呢? 如果您能够抽时间解答我的问题,将会对我帮助很大,再次感谢您!