[Minor] Update the tqdm bar for parallel sampling (#14571)

WoosukKwon · web-flow · commit 0967110e42a3 · 2025-03-10T14:23:48.000-07:00
Signed-off-by: Woosuk Kwon &lt;woosuk.kwon@berkeley.edu&gt;
diff --git a/vllm/entrypoints/llm.py b/vllm/entrypoints/llm.py
@@ -1384,8 +1384,9 @@ def _run_engine(
                     if use_tqdm:
                         if isinstance(output, RequestOutput):
                             # Calculate tokens only for RequestOutput
+                            n = len(output.outputs)
                             assert output.prompt_token_ids is not None
-                            total_in_toks += len(output.prompt_token_ids)
+                            total_in_toks += len(output.prompt_token_ids) * n
                             in_spd = total_in_toks / pbar.format_dict["elapsed"]
                             total_out_toks += sum(
                                 len(stp.token_ids) for stp in output.outputs)
@@ -1394,7 +1395,7 @@ def _run_engine(
                             pbar.postfix = (
                                 f"est. speed input: {in_spd:.2f} toks/s, "
                                 f"output: {out_spd:.2f} toks/s")
-                            pbar.update(len(output.outputs))
+                            pbar.update(n)
                         else:
                             pbar.update(1)