talk-llama : fix build after ggml sync (ggml-org#1049)

przemoc · web-flow · commit c8005bb976b2 · 2023-06-25T16:13:50.000+03:00
sed -i 's,GGML_BACKEND_CUDA,GGML_BACKEND_GPU,g' examples/talk-llama/llama.cpp
diff --git a/examples/talk-llama/llama.cpp b/examples/talk-llama/llama.cpp
@@ -1002,7 +1002,7 @@ static void llama_model_load_internal(
     }
 
 #ifdef GGML_USE_CUBLAS
-#define LLAMA_BACKEND_OFFLOAD GGML_BACKEND_CUDA
+#define LLAMA_BACKEND_OFFLOAD GGML_BACKEND_GPU
 #else
 #define LLAMA_BACKEND_OFFLOAD GGML_BACKEND_CPU
 #endif
@@ -1054,7 +1054,7 @@ static void llama_model_load_internal(
             layer.w2 = ml->get_tensor(layers_i + ".feed_forward.w2.weight", {  n_ff,   n_embd}, backend);
             layer.w3 = ml->get_tensor(layers_i + ".feed_forward.w3.weight", {n_embd,   n_ff},   backend);
 
-            if (backend == GGML_BACKEND_CUDA) {
+            if (backend == GGML_BACKEND_GPU) {
                 vram_total +=
                     ggml_nbytes(layer.attention_norm) + ggml_nbytes(layer.wq) + ggml_nbytes(layer.wk)             +
                     ggml_nbytes(layer.wv)             + ggml_nbytes(layer.wo) + ggml_nbytes(layer.attention_norm) +
@@ -1115,7 +1115,7 @@ static void llama_model_load_internal(
             }
         }
         for (llama_load_tensor & lt : ml->tensors_map.tensors) {
-            if (lt.ggml_tensor->backend != GGML_BACKEND_CUDA) {
+            if (lt.ggml_tensor->backend != GGML_BACKEND_GPU) {
                 continue;
             }
             if (progress_callback) {

Original file line number	Diff line number	Diff line change
`@@ -1002,7 +1002,7 @@ static void llama_model_load_internal(`
`1002`	`1002`	`}`
`1003`	`1003`
`1004`	`1004`	`#ifdef GGML_USE_CUBLAS`
`1005`		`-#define LLAMA_BACKEND_OFFLOAD GGML_BACKEND_CUDA`
	`1005`	`+#define LLAMA_BACKEND_OFFLOAD GGML_BACKEND_GPU`
`1006`	`1006`	`#else`
`1007`	`1007`	`#define LLAMA_BACKEND_OFFLOAD GGML_BACKEND_CPU`
`1008`	`1008`	`#endif`
`@@ -1054,7 +1054,7 @@ static void llama_model_load_internal(`
`1054`	`1054`	`layer.w2 = ml->get_tensor(layers_i + ".feed_forward.w2.weight", { n_ff, n_embd}, backend);`
`1055`	`1055`	`layer.w3 = ml->get_tensor(layers_i + ".feed_forward.w3.weight", {n_embd, n_ff}, backend);`
`1056`	`1056`
`1057`		`- if (backend == GGML_BACKEND_CUDA) {`
	`1057`	`+ if (backend == GGML_BACKEND_GPU) {`
`1058`	`1058`	`vram_total +=`
`1059`	`1059`	`ggml_nbytes(layer.attention_norm) + ggml_nbytes(layer.wq) + ggml_nbytes(layer.wk) +`
`1060`	`1060`	`ggml_nbytes(layer.wv) + ggml_nbytes(layer.wo) + ggml_nbytes(layer.attention_norm) +`
`@@ -1115,7 +1115,7 @@ static void llama_model_load_internal(`
`1115`	`1115`	`}`
`1116`	`1116`	`}`
`1117`	`1117`	`for (llama_load_tensor & lt : ml->tensors_map.tensors) {`
`1118`		`- if (lt.ggml_tensor->backend != GGML_BACKEND_CUDA) {`
	`1118`	`+ if (lt.ggml_tensor->backend != GGML_BACKEND_GPU) {`
`1119`	`1119`	`continue;`
`1120`	`1120`	`}`
`1121`	`1121`	`if (progress_callback) {`