ROCm
diff --git a/‎example/ck_tile/01_fmha/codegen/cpp_symbol_map.py‎
Lines changed: 9 additions & 0 deletions b/‎example/ck_tile/01_fmha/codegen/cpp_symbol_map.py‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎example/ck_tile/01_fmha/codegen/ops/fmha_fwd.py‎
Lines changed: 48 additions & 44 deletions b/‎example/ck_tile/01_fmha/codegen/ops/fmha_fwd.py‎
Lines changed: 48 additions & 44 deletions
diff --git a/‎example/ck_tile/01_fmha/example_fmha_fwd.cpp‎
Lines changed: 9 additions & 22 deletions b/‎example/ck_tile/01_fmha/example_fmha_fwd.cpp‎
Lines changed: 9 additions & 22 deletions
diff --git a/‎example/ck_tile/01_fmha/fmha_fwd.hpp‎
Lines changed: 13 additions & 10 deletions b/‎example/ck_tile/01_fmha/fmha_fwd.hpp‎
Lines changed: 13 additions & 10 deletions
@@ -62,6 +62,15 @@ def get_mask_check_map(mask: str):
         assert False
         return None
 
+QSCALE_MAP = {
+    "no": "ck_tile::BlockAttentionQuantScaleEnum::NO_SCALE",
+    "pertensor": "ck_tile::BlockAttentionQuantScaleEnum::PERTENSOR",
+}
+
+QSCALE_CHECK_MAP = {
+    "no": "quant_scale_enum::no_scale",
+    "pertensor": "quant_scale_enum::pertensor",
+}
 
 BIAS_MAP = {
     "no": "ck_tile::BlockAttentionBiasEnum::NO_BIAS",
 
@@ -47,16 +47,12 @@ auto create_args(int argc, char* argv[])
         .insert("d_v", "-1", "head dim for v, -1 means equal to d")
         .insert("scale_s",
                 "0",
-                "scale factor of S. 0 means equal to 1/sqrt(hdim).\n"
-                "note when squant=1, this value will be modified")
+                "scale factor of S. 0 means equal to 1/sqrt(hdim)")
+        .insert("qscale",
+                "n",
+                "n or 0, no scale\n"
+                "pt or 1, per-tensor scale\n")
         .insert("logits_soft_cap", "0", "attention logits soft capping value.")
-        .insert("squant",
-                "auto",
-                "if using static quantization fusion or not. auto: fp8 will default use squant, "
-                "other will not\n"
-                "0: no static quant(not implemented) 1: apply scale_p and scale_o with respect to "
-                "P and O.\n"
-                "calculate scale_s, scale_p, scale_o auto")
         .insert("iperm",
                 "1",
                 "permute input\n"
@@ -87,7 +83,8 @@ auto create_args(int argc, char* argv[])
                 "uf",
                 "init method:\n  ui or 0 - uniform random int\n  ni - normalized random int"
                 "\n  uf or 1 - uniform random float\n  nf - normalized random float"
-                "\n  tf or 2 - trig float\n")
+                "\n  tf or 2 - trig float"
+                "\n  tf or 3 - uniform random float, min max is the max of the type\n")
         .insert("seed",
                 "11939",
                 "random seed used for initializing input tensors. 0 for "
@@ -152,6 +149,7 @@ auto run(const ck_tile::ArgParser& arg_parser)
     ck_tile::index_t page_block_size = arg_parser.get_int("page_block_size");
     bool use_cache_batch_idx         = arg_parser.get_bool("cache_batch_idx");
     std::string bias_str             = arg_parser.get_str("bias");
+    std::string qscale_str           = arg_parser.get_str("qscale");
     float p_drop                     = arg_parser.get_float("p_drop");
     uint64_t drop_seed               = arg_parser.get_uint64("drop_seed");
     uint64_t drop_offset             = arg_parser.get_uint64("drop_offset");
@@ -162,13 +160,6 @@ auto run(const ck_tile::ArgParser& arg_parser)
     std::string init_method          = arg_parser.get_str("init");
     uint32_t seed                    = arg_parser.get_uint32("seed");
 
-    bool squant = [&]() {
-        if(arg_parser.get_str("squant") == "auto")
-            return std::is_same_v<DataTypeConfig, FmhaFwdFp8>;
-        else
-            return arg_parser.get_bool("squant");
-    }();
-
     ck_tile::stream_config stream_config{nullptr,
                                          true,
                                          /* log_level = */ (arg_parser.get_bool("kname") ? 1 : 0),
@@ -208,7 +199,7 @@ auto run(const ck_tile::ArgParser& arg_parser)
                                         drop_offset,
                                         drop_prefs,
                                         mask_str,
-                                        squant,
+                                        qscale_str,
                                         is_rotary_interleaved,
                                         num_splits,
                                         init_method,
@@ -239,10 +230,6 @@ int main(int argc, char* argv[])
         {
             return run<FmhaFwdBf16>(arg_parser) == fwd_result::success ? 0 : -2;
         }
-        else if(data_type == "fp8")
-        {
-            return run<FmhaFwdFp8>(arg_parser) == fwd_result::success ? 0 : -2;
-        }
         else if(data_type == "fp8bf16")
         {
             return run<FmhaFwdFp8Bf16>(arg_parser) == fwd_result::success ? 0 : -2;
 
@@ -11,6 +11,7 @@
 
 #include "bias.hpp"
 #include "mask.hpp"
+#include "quant.hpp"
 #include "rotary.hpp"
 
 #include <type_traits>
@@ -178,6 +179,9 @@ struct fmha_fwd_args
     const void* k_ptr;
     const void* v_ptr;
     const void* bias_ptr; // bias or alibi_slope pointer
+    const void* q_descale_ptr;
+    const void* k_descale_ptr;
+    const void* v_descale_ptr;
     void* rand_val_ptr;
     void* lse_ptr;
     void* o_ptr;
@@ -237,9 +241,6 @@ struct fmha_fwd_args
     ck_tile::index_t nhead_k;
 
     float scale_s;
-    float scale_p;
-    float scale_o;
-
     float logits_soft_cap;
 
     ck_tile::index_t stride_q;
@@ -581,6 +582,9 @@ auto fmha_fwd_create_kargs_and_grids(fmha_fwd_args args)
                                              args.k_ptr,
                                              args.v_ptr,
                                              args.bias_ptr,
+                                             args.q_descale_ptr,
+                                             args.k_descale_ptr,
+                                             args.v_descale_ptr,
                                              args.rand_val_ptr,
                                              args.lse_ptr,
                                              args.o_ptr,
@@ -593,8 +597,6 @@ auto fmha_fwd_create_kargs_and_grids(fmha_fwd_args args)
                                              args.nhead_q,
                                              args.nhead_q / args.nhead_k,
                                              args.scale_s,
-                                             args.scale_p,
-                                             args.scale_o,
                                              args.logits_soft_cap,
                                              args.stride_q,
                                              args.stride_k,
@@ -625,6 +627,9 @@ auto fmha_fwd_create_kargs_and_grids(fmha_fwd_args args)
                                              args.k_ptr,
                                              args.v_ptr,
                                              args.bias_ptr,
+                                             args.q_descale_ptr,
+                                             args.k_descale_ptr,
+                                             args.v_descale_ptr,
                                              args.rand_val_ptr,
                                              args.lse_ptr,
                                              args.o_ptr,
@@ -635,8 +640,6 @@ auto fmha_fwd_create_kargs_and_grids(fmha_fwd_args args)
                                              args.nhead_q,
                                              args.nhead_q / args.nhead_k,
                                              args.scale_s,
-                                             args.scale_p,
-                                             args.scale_o,
                                              args.logits_soft_cap,
                                              args.stride_q,
                                              args.stride_k,
@@ -1125,7 +1128,7 @@ template <ck_tile::index_t HDim_,
           ck_tile::BlockAttentionBiasEnum BiasEnum_,
           bool kStoreLse_,
           bool kHasDropout_,
-          bool kDoFp8StaticQuant_,
+          ck_tile::BlockAttentionQuantScaleEnum QScaleEnum_,
           bool kPadS_,
           bool kPadSK_,
           bool kPadD_,
@@ -1150,7 +1153,7 @@ struct fmha_fwd_traits_
     static constexpr auto BiasEnum                   = BiasEnum_;
     static constexpr bool kStoreLse                  = kStoreLse_;
     static constexpr bool kHasDropout                = kHasDropout_;
-    static constexpr bool kDoFp8StaticQuant          = kDoFp8StaticQuant_;
+    static constexpr auto QScaleEnum                 = QScaleEnum_;
     static constexpr bool kPadS                      = kPadS_;
     static constexpr bool kPadSK                     = kPadSK_;
     static constexpr bool kPadD                      = kPadD_;
@@ -1341,7 +1344,7 @@ struct fmha_fwd_traits
     bias_enum bias_type; // 0:no bias, 1:elementwise bias, 2:alibi. sync with BlockAttentionBiasEnum
     bool has_lse;
     bool has_dropout;
-    bool do_fp8_static_quant;
+    quant_scale_enum qscale_type;
     bool skip_min_seqlen_q = false;
     // TODO: padding check is inside this api
 };