cherry-picks from PR#28787

ywang96 · ywang96 · commit 3781e9a6838b · 2025-11-17T13:01:46.000-08:00
Signed-off-by: Roger Wang &lt;hey@rogerw.io&gt;
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
@@ -728,9 +728,7 @@ def _make_cached_request_data(
                 assert not scheduled_in_prev_step
                 resumed_req_ids.add(req_id)
             if not scheduled_in_prev_step:
-                all_token_ids[req_id] = req.all_token_ids[
-                    : req.num_computed_tokens + num_tokens
-                ]
+                all_token_ids[req_id] = req.all_token_ids.copy()
             new_block_ids.append(
                 req_to_new_blocks[req_id].get_block_ids(allow_none=True)
             )
diff --git a/vllm/v1/utils.py b/vllm/v1/utils.py
@@ -97,6 +97,9 @@ def __len__(self):
     def __repr__(self):
         return f"ConstantList({self._x})"
 
+    def copy(self) -> list[T]:
+        return self._x.copy()
+
 
 class CpuGpuBuffer:
     """Buffer to easily copy tensors between CPU and GPU."""