[experimental][kleidi] rebase fixes with int to size_t

digantdesai · digantdesai · commit f9a68f93be2c · 2024-10-10T15:29:49.000-05:00
diff --git a/torchao/experimental/kernels/cpu/aarch64/kleidi/kai_matmul_clamp_f32_qai8dxp1x8_qsi4c32p4x8_1x4x32_neon_dotprod.h b/torchao/experimental/kernels/cpu/aarch64/kleidi/kai_matmul_clamp_f32_qai8dxp1x8_qsi4c32p4x8_1x4x32_neon_dotprod.h
@@ -40,7 +40,7 @@ const Ukernel get_ukernel() {
           kai_run_matmul_clamp_f32_qai8dxp1x8_qsi4c32p4x8_1x4x32_neon_dotprod};
 }
 
-int activation_data_size(int m, int k, int group_size) {
+size_t activation_data_size(int m, int k, int group_size) {
   (void)group_size; // unused
   return kai_matmul_clamp_f32_qai8dxp_qsi4c32p::activation_data_size(
       get_ukernel(), m, k);
@@ -57,7 +57,7 @@ void prepare_activation_data(
       get_ukernel(), activation_data, m, k, activations);
 }
 
-int weight_data_size(int n, int k, int group_size) {
+size_t weight_data_size(int n, int k, int group_size) {
   return kai_matmul_clamp_f32_qai8dxp_qsi4c32p::weight_data_size(
       get_ukernel(), n, k, group_size);
 }
@@ -115,7 +115,7 @@ void kernel(
       clamp_max);
 }
 
-size_t get_alignement() {
+size_t get_preferred_alignement() {
   return 16;
 }
 } // namespace neon_dotprod_1x4x32
diff --git a/torchao/experimental/kernels/cpu/aarch64/kleidi/kai_matmul_clamp_f32_qai8dxp1x8_qsi4c32p8x8_1x8x32_neon_dotprod.h b/torchao/experimental/kernels/cpu/aarch64/kleidi/kai_matmul_clamp_f32_qai8dxp1x8_qsi4c32p8x8_1x8x32_neon_dotprod.h
@@ -39,7 +39,7 @@ const Ukernel get_ukernel() {
           kai_run_matmul_clamp_f32_qai8dxp1x8_qsi4c32p8x8_1x8x32_neon_dotprod};
 }
 
-int activation_data_size(int m, int k, int group_size) {
+size_t activation_data_size(int m, int k, int group_size) {
   (void) group_size; // unused
   return kai_matmul_clamp_f32_qai8dxp_qsi4c32p::activation_data_size(get_ukernel(), m, k);
 }
@@ -59,7 +59,7 @@ void prepare_activation_data(
       activations);
 }
 
-int weight_data_size(int n, int k, int group_size) {
+size_t weight_data_size(int n, int k, int group_size) {
   return kai_matmul_clamp_f32_qai8dxp_qsi4c32p::weight_data_size(get_ukernel(), n, k, group_size);
 }
 
@@ -116,7 +116,7 @@ void kernel(
       clamp_max);
 }
 
-size_t get_alignement() {
+size_t get_preferred_alignement() {
   return 16;
 }
 } // namespace neon_dotprod_1x4x32
diff --git a/torchao/experimental/kernels/cpu/aarch64/kleidi/kai_matmul_clamp_f32_qai8dxp_qsi4c32p.h b/torchao/experimental/kernels/cpu/aarch64/kleidi/kai_matmul_clamp_f32_qai8dxp_qsi4c32p.h
@@ -43,7 +43,7 @@ namespace kai_matmul_clamp_f32_qai8dxp_qsi4c32p {
 
 using Ukernel = struct kai_matmul_clamp_f32_qai8dxp_qsi4c32p_ukernel;
 
-int activation_data_size(const Ukernel ukernel, int m, int k) {
+size_t activation_data_size(const Ukernel ukernel, int m, int k) {
   auto lhs_packing = get_lhs_packing();
   return lhs_packing.get_lhs_packed_size(
       m, k, ukernel.get_mr(), ukernel.get_kr(), ukernel.get_sr());
@@ -69,7 +69,7 @@ void prepare_activation_data(
       activation_data);
 }
 
-int weight_data_size(const Ukernel ukernel, int n, int k, int group_size) {
+size_t weight_data_size(const Ukernel ukernel, int n, int k, int group_size) {
   auto rhs_pack = get_rhs_packing();
   return rhs_pack.get_rhs_packed_size(
       n,
diff --git a/torchao/experimental/kernels/cpu/aarch64/tests/test_utils.h b/torchao/experimental/kernels/cpu/aarch64/tests/test_utils.h
@@ -44,7 +44,8 @@ inline std::vector<uint8_t> get_random_lowbit_vector(int size, int nbit) {
 }
 
 // TODO move these to a common utils 
-uint16_t get_bf16_from_float(float f) {
+inline uint16_t
+get_bf16_from_float(float f) {
   uint16_t bf16;
 #if __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
   memcpy(&bf16, &f, sizeof(uint16_t));
@@ -56,7 +57,8 @@ uint16_t get_bf16_from_float(float f) {
   return bf16;
 }
 
-float get_float_from_bf16(uint16_t bf16) {
+inline float
+get_float_from_bf16(uint16_t bf16) {
   float f;
   const uint32_t i32 = (bf16 << 16);
   memcpy(&f, &i32, sizeof(uint32_t));

Original file line number	Diff line number	Diff line change
`@@ -40,7 +40,7 @@ const Ukernel get_ukernel() {`
`40`	`40`	`kai_run_matmul_clamp_f32_qai8dxp1x8_qsi4c32p4x8_1x4x32_neon_dotprod};`
`41`	`41`	`}`
`42`	`42`
`43`		`-int activation_data_size(int m, int k, int group_size) {`
	`43`	`+size_t activation_data_size(int m, int k, int group_size) {`
`44`	`44`	`(void)group_size; // unused`
`45`	`45`	`return kai_matmul_clamp_f32_qai8dxp_qsi4c32p::activation_data_size(`
`46`	`46`	`get_ukernel(), m, k);`
`@@ -57,7 +57,7 @@ void prepare_activation_data(`
`57`	`57`	`get_ukernel(), activation_data, m, k, activations);`
`58`	`58`	`}`
`59`	`59`
`60`		`-int weight_data_size(int n, int k, int group_size) {`
	`60`	`+size_t weight_data_size(int n, int k, int group_size) {`
`61`	`61`	`return kai_matmul_clamp_f32_qai8dxp_qsi4c32p::weight_data_size(`
`62`	`62`	`get_ukernel(), n, k, group_size);`
`63`	`63`	`}`
`@@ -115,7 +115,7 @@ void kernel(`
`115`	`115`	`clamp_max);`
`116`	`116`	`}`
`117`	`117`
`118`		`-size_t get_alignement() {`
	`118`	`+size_t get_preferred_alignement() {`
`119`	`119`	`return 16;`
`120`	`120`	`}`
`121`	`121`	`} // namespace neon_dotprod_1x4x32`
Original file line number	Diff line number	Diff line change
`@@ -39,7 +39,7 @@ const Ukernel get_ukernel() {`
`39`	`39`	`kai_run_matmul_clamp_f32_qai8dxp1x8_qsi4c32p8x8_1x8x32_neon_dotprod};`
`40`	`40`	`}`
`41`	`41`
`42`		`-int activation_data_size(int m, int k, int group_size) {`
	`42`	`+size_t activation_data_size(int m, int k, int group_size) {`
`43`	`43`	`(void) group_size; // unused`
`44`	`44`	`return kai_matmul_clamp_f32_qai8dxp_qsi4c32p::activation_data_size(get_ukernel(), m, k);`
`45`	`45`	`}`
`@@ -59,7 +59,7 @@ void prepare_activation_data(`
`59`	`59`	`activations);`
`60`	`60`	`}`
`61`	`61`
`62`		`-int weight_data_size(int n, int k, int group_size) {`
	`62`	`+size_t weight_data_size(int n, int k, int group_size) {`
`63`	`63`	`return kai_matmul_clamp_f32_qai8dxp_qsi4c32p::weight_data_size(get_ukernel(), n, k, group_size);`
`64`	`64`	`}`
`65`	`65`
`@@ -116,7 +116,7 @@ void kernel(`
`116`	`116`	`clamp_max);`
`117`	`117`	`}`
`118`	`118`
`119`		`-size_t get_alignement() {`
	`119`	`+size_t get_preferred_alignement() {`
`120`	`120`	`return 16;`
`121`	`121`	`}`
`122`	`122`	`} // namespace neon_dotprod_1x4x32`