support ernie-thinking

foldl · foldl · commit 43a84eb25ed9 · 2025-09-10T15:50:00.000+08:00
diff --git a/docs/models.md b/docs/models.md
@@ -64,7 +64,8 @@
     Two optimization modes are defined: speed (default) and memory. See `BaseMLAttention`.
 
 * ERNIE (`Ernie4_5_ForCausalLM`, `Ernie4_5_MoeForCausalLM`)
-    * [x] [0.3B](https://huggingface.co/baidu/ERNIE-4.5-0.3B-PT/tree/c163aa422d265f995b024d1322d91c4e3cb52ec8), [A3B](https://huggingface.co/baidu/ERNIE-4.5-21B-A3B-PT/tree/b24b8917f5379129992dad46c279683c7b845c96)
+    * [x] Non-thinking: [0.3B](https://huggingface.co/baidu/ERNIE-4.5-0.3B-PT/tree/c163aa422d265f995b024d1322d91c4e3cb52ec8), [A3B](https://huggingface.co/baidu/ERNIE-4.5-21B-A3B-PT/tree/b24b8917f5379129992dad46c279683c7b845c96)
+    * [x] Thinking: [A3B](https://huggingface.co/baidu/ERNIE-4.5-21B-A3B-Thinking/tree/78d7a200cddb8132b074adffcd5aa2ef3361b0ae)
 
 * EXAONE (`ExaoneForCausalLM`)
     * [x] v3.5: [Instruct-2.4B](https://huggingface.co/LGAI-EXAONE/EXAONE-3.5-2.4B-Instruct), [Instruct-7.8B](https://huggingface.co/LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct), [Instruct-32B](https://huggingface.co/LGAI-EXAONE/EXAONE-3.5-32B-Instruct)
diff --git a/models/ernie.cpp b/models/ernie.cpp
@@ -11,11 +11,72 @@ namespace chatllm::ernie::dense
         void append_ai_opening(int round_idx, std::vector<int> &ids) const override;
     };
 
-    static ChatHistoryEncoder _chat_encoder;
+    class ChatHistoryThinkingEncoder : public BaseHistoryEncoder
+    {
+    public:
+        void append_sys_prompt(std::vector<int> &ids) const override;
+        void append_ai(int round_idx, const std::string &ai, std::vector<int> &ids) const override;
+        void append_user(int round_idx, const std::string &user, std::vector<int> &ids) const override;
+        void append_ai_opening(int round_idx, std::vector<int> &ids) const override;
+        void append_user_opening(int round_idx, std::vector<int> &ids) const override;
+    };
+
+    static ChatHistoryEncoder           _chat_encoder;
+    static ChatHistoryThinkingEncoder   _chat_thinking_encoder;
 
     Tokenizer::Tokenizer(const BaseConfig &config)
-        : chatllm::llama::v2::Tokenizer(config, &_chat_encoder)
-    {}
+        : chatllm::llama::v2::Tokenizer(config, &_chat_encoder),
+          im_start_token_id(-1), im_end_token_id(-1),
+          nl_token_id(-1), think_start_token_id(-1),
+          think_end_token_id(-1)
+    {
+        sys_prompt = "";
+    }
+
+    size_t Tokenizer::load(tokenizer::DataReader *buffer, int n_vocab)
+    {
+        size_t size = chatllm::llama::v2::Tokenizer::load(buffer, n_vocab);
+        im_start_token_id = tp->PieceToId("<|im_start|>");
+        im_end_token_id   = tp->PieceToId("<|im_end|>");
+        std::vector<int> ids;
+        tp->Encode("\n", &ids);
+        nl_token_id = ids[0];
+
+        think_start_token_id = tp->PieceToId("<think>");
+        think_end_token_id   = tp->PieceToId("</think>");
+        if (im_end_token_id >= 0)
+            terminate_ids.emplace(im_end_token_id);
+        return size;
+    }
+
+    void Tokenizer::encode_role(const std::string &role, const std::string &text, std::vector<int> &ids) const
+    {
+        ids.push_back(im_start_token_id);
+        BaseTokenizer::encode(role, ids);
+        ids.push_back(nl_token_id);
+        BaseTokenizer::encode(text, ids);
+        ids.push_back(im_end_token_id);
+        ids.push_back(nl_token_id);
+        ids.push_back(nl_token_id);
+    }
+
+    void Tokenizer::encode_role(const std::string &role, std::vector<int> &ids) const
+    {
+        ids.push_back(im_start_token_id);
+        BaseTokenizer::encode(role, ids);
+    }
+
+    bool Tokenizer::load_config(const json::JSON &config)
+    {
+        auto cfg = config["tokenizer_config.json"];
+        std::string s = cfg["chat_template"].ToString();
+        if (s.find("think_mode=True") != std::string::npos)
+        {
+            set_chat_encoder(&_chat_thinking_encoder);
+        }
+
+        return true;
+    }
 
     void ChatHistoryEncoder::append_ai(int round_idx, const std::string &ai, std::vector<int> &ids) const
     {
@@ -54,6 +115,46 @@ namespace chatllm::ernie::dense
         tok->encode("Assistant:  ", ids);
     }
 
+    void ChatHistoryThinkingEncoder::append_ai(int round_idx, const std::string &ai, std::vector<int> &ids) const
+    {
+        Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
+        tok->encode_role("assistant", ai, ids);
+    }
+
+    void ChatHistoryThinkingEncoder::append_sys_prompt(std::vector<int> &ids) const
+    {
+        Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
+        std::ostringstream oss_prompt;
+
+        ids.push_back(tok->bos_token_id);
+        if (tok->get_system_prompt().size() > 0)
+        {
+            oss_prompt << "<system_setting>\n" << tok->get_system_prompt() << "\n</system_setting>\n\n";
+        }
+        oss_prompt << "<global_setting>\n"
+                    << "think_mode=True\n"
+                    << "</global_setting>";
+        tok->encode_role("system", oss_prompt.str(), ids);
+    }
+
+    void ChatHistoryThinkingEncoder::append_user(int round_idx, const std::string &user, std::vector<int> &ids) const
+    {
+        Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
+        tok->encode_role("user", user, ids);
+    }
+
+    void ChatHistoryThinkingEncoder::append_ai_opening(int round_idx, std::vector<int> &ids) const
+    {
+        Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
+        tok->encode_role("assistant", ids);
+    }
+
+    void ChatHistoryThinkingEncoder::append_user_opening(int round_idx, std::vector<int> &ids) const
+    {
+        Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
+        tok->encode_role("user", ids);
+    }
+
     ConditionalGeneration::ConditionalGeneration(const Config &config, const RuntimeConfig &runtime_config, ModelType type)
         : chatllm::llama::v2::GenericConditionalGeneration<LlamaBlock>(config, runtime_config, type,
             config.num_key_value_heads, config.head_dim, config.max_length, 12, config.tie_word_embeddings != 0)
@@ -196,4 +297,10 @@ namespace chatllm::ernie::moe
 
         ModelProxy::load(loader);
     }
+}
+
+namespace chatllm
+{
+    REGISTER_MODEL_LOADER(ERNIE_DENSE,           ernie::dense, 1);
+    REGISTER_MODEL_LOADER(ERNIE_MOE,             ernie::moe, 1);
 }
diff --git a/models/ernie.h b/models/ernie.h
@@ -19,6 +19,16 @@ namespace chatllm::ernie::dense
     {
     public:
         Tokenizer(const BaseConfig &config);
+        size_t load(tokenizer::DataReader *buffer, int n_vocab) override;
+        void encode_role(const std::string &role, const std::string &text, std::vector<int> &ids) const;
+        void encode_role(const std::string &role, std::vector<int> &ids) const;
+        bool load_config(const json::JSON &config) override;
+    public:
+        int im_start_token_id;
+        int im_end_token_id;
+        int nl_token_id;
+        int think_start_token_id;
+        int think_end_token_id;
     };
 
     class ConditionalGeneration : public chatllm::llama::v2::GenericConditionalGeneration<LlamaBlock>
@@ -55,10 +65,4 @@ namespace chatllm::ernie::moe
         ConditionalGeneration(const Config &config, const RuntimeConfig &runtime_config);
         void load(ModelLoader &loader);
     };
-}
-
-namespace chatllm
-{
-    REGISTER_MODEL_LOADER(ERNIE_DENSE,           ernie::dense, 1);
-    REGISTER_MODEL_LOADER(ERNIE_MOE,             ernie::moe, 1);
 }
diff --git a/src/tokenizer.cpp b/src/tokenizer.cpp
@@ -273,8 +273,9 @@ int Processor::PieceToId(std::string_view piece) const
 
 const std::string Processor::IdToPiece(int id) const
 {
-    if (token_override.contains(id))
-        return token_override.find(id)->second;
+    auto iter = token_override.find(id);
+    if (iter != token_override.end())
+        return iter->second;
 
     if (id < 0) return token_unk_id;
     return id < (int)vocab_.id_to_token.size() ? vocab_.id_to_token[id].tok : token_unk_id;