Remove tokenizer creation from sft example script (#4197)

sergiopaniego · web-flow · commit 7ad9ce8accba · 2025-10-06T11:04:20.000+02:00
diff --git a/trl/scripts/sft.py b/trl/scripts/sft.py
@@ -68,7 +68,7 @@
 
 from accelerate import logging
 from datasets import load_dataset
-from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer
+from transformers import AutoConfig, AutoModelForCausalLM
 from transformers.models.auto.modeling_auto import MODEL_FOR_IMAGE_TEXT_TO_TEXT_MAPPING_NAMES
 
 from trl import (
@@ -93,7 +93,7 @@
 
 def main(script_args, training_args, model_args, dataset_args):
     ################
-    # Model init kwargs & Tokenizer
+    # Model init kwargs
     ################
     model_kwargs = dict(
         revision=model_args.model_revision,
@@ -118,11 +118,6 @@ def main(script_args, training_args, model_args, dataset_args):
     else:
         model = AutoModelForCausalLM.from_pretrained(model_args.model_name_or_path, **model_kwargs)
 
-    # Create tokenizer
-    tokenizer = AutoTokenizer.from_pretrained(
-        model_args.model_name_or_path, trust_remote_code=model_args.trust_remote_code, use_fast=True
-    )
-
     # Load the dataset
     if dataset_args.datasets and script_args.dataset_name:
         logger.warning(
@@ -145,7 +140,6 @@ def main(script_args, training_args, model_args, dataset_args):
         args=training_args,
         train_dataset=dataset[script_args.dataset_train_split],
         eval_dataset=dataset[script_args.dataset_test_split] if training_args.eval_strategy != "no" else None,
-        processing_class=tokenizer,
         peft_config=get_peft_config(model_args),
     )