fix style and check tokens number

rnwang04 · rnwang04 · commit e82c0c5e98f6 · 2024-10-10T22:02:15.000+08:00
diff --git a/python/llm/src/ipex_llm/transformers/npu_pipeline_model/pipeline_model.py b/python/llm/src/ipex_llm/transformers/npu_pipeline_model/pipeline_model.py
@@ -65,10 +65,21 @@ def generate(
         if value is not None:
             new_generate_kwargs[var] = value
 
+    if isinstance(inputs[0], torch.Tensor):
+        numpy_input = inputs[0].numpy()
+    else:
+        numpy_input = inputs[0]
+    input_length = numpy.size(numpy_input)
+    
+    new_tokens = new_generate_kwargs['max_new_tokens']
+    invalidInputError(input_length + new_tokens <= self.kv_len + 1,
+                      "Input plus output tokens should not exceed max_output_len.")
+
     # start generate_serve by Thread
-    thread = threading.Thread(target=generate_serve, args=(self.kv_len, self.num_head, self.head_dim,
-                                                         self.num_layers,
-                                                         new_generate_kwargs['max_new_tokens']))
+    thread = threading.Thread(target=generate_serve,
+                              args=(self.kv_len, self.num_head,
+                                    self.head_dim, self.num_layers,
+                                    new_tokens))
     thread.start()
 
     in_pipe_path = "\\\\.\\pipe\\llminputpipe"
@@ -92,12 +103,6 @@ def generate(
         else:
             break
 
-    if isinstance(inputs[0], torch.Tensor):
-        numpy_input = inputs[0].numpy()
-    else:
-        numpy_input = inputs[0]
-    input_length = numpy.size(numpy_input)
-
     bdata = b''
     for i in range(0, input_length):
         d = int(numpy_input[i])