awslabs
diff --git a/‎tests/assets/aiml-workload/large-sts/config.yaml‎
Lines changed: 116 additions & 0 deletions b/‎tests/assets/aiml-workload/large-sts/config.yaml‎
Lines changed: 116 additions & 0 deletions
diff --git a/‎tests/assets/aiml-workload/large-sts/sts.yaml‎
Lines changed: 117 additions & 0 deletions b/‎tests/assets/aiml-workload/large-sts/sts.yaml‎
Lines changed: 117 additions & 0 deletions
diff --git a/‎tests/assets/aiml-workload/medium-batch-jobs/config.yaml‎
Lines changed: 115 additions & 0 deletions b/‎tests/assets/aiml-workload/medium-batch-jobs/config.yaml‎
Lines changed: 115 additions & 0 deletions
@@ -0,0 +1,116 @@
+# AI/ML Workload test configuration
+# This test creates n number of statefulsets with x replicas each.
+
+
+{{$NAMESPACE := DefaultParam .NAMESPACE "aiml-test2"}}
+{{$STATEFULSETS_COUNT := DefaultParam .STATEFULSETS_COUNT 1}}
+{{$REPLICAS_PER_STATEFULSET := DefaultParam .REPLICAS_PER_STATEFULSET 100000}}
+{{$STATEFULSET_CREATION_QPS := DefaultParam .STATEFULSET_CREATION_QPS 5}}
+{{$SCALING_QPS := DefaultParam .SCALING_QPS 10}}
+{{$BATCH_SIZE := DefaultParam .BATCH_SIZE 500}}
+{{$CREATION_TIMEOUT := DefaultParam .CREATION_TIMEOUT "15m"}}
+{{$REQUEST_CPU := DefaultParam .REQUEST_CPU "100m"}}
+{{$REQUEST_MEMORY := DefaultParam .REQUEST_MEMORY "128Mi"}}
+{{$LIMIT_CPU := DefaultParam .LIMIT_CPU "1000m"}}
+{{$LIMIT_MEMORY := DefaultParam .LIMIT_MEMORY "512Mi"}}
+{{$POD_STARTUP_THRESHOLD := DefaultParam .POD_STARTUP_THRESHOLD "10s"}}
+{{$CLUSTER_NAME := DefaultParam .CLUSTER_NAME "perflab-titan-1"}}
+{{$defaultQps := DefaultParam .CL2_DEFAULT_QPS  1000}}
+{{$defaultBurst := DefaultParam .CL2_DEFAULT_BURST 1000}}
+{{$SLEEP_DURATION := DefaultParam .SLEEP_DURATION 1}}
+
+name: aws-mock-aiml-application-test
+
+tuningSets:
+- name: StatefulSetCreationQPS
+  qpsLoad:
+    qps: {{$STATEFULSET_CREATION_QPS}}
+- name: ScalingQPS
+  qpsLoad:
+    qps: {{$SCALING_QPS}}
+- name: default
+  globalQPSLoad:
+    qps: {{$defaultQps}}
+    burst: {{$defaultBurst}}
+
+steps:
+- name: Starting measurements
+  measurements:
+  - Identifier: PodStartupLatency
+    Method: PodStartupLatency
+    Params:
+      action: start
+      labelSelector: app = aiml-training-job
+      threshold: {{$POD_STARTUP_THRESHOLD}}
+  - Identifier: WaitForRunningStatefulSets
+    Method: WaitForControlledPodsRunning
+    Params:
+      action: start
+      apiVersion: apps/v1
+      kind: StatefulSet
+      labelSelector: app = aiml-training-job
+      operationTimeout: {{$CREATION_TIMEOUT}}
+
+- name: Creating StatefulSets with full replica count
+  phases:
+  - namespaceRange:
+      min: 1
+      max: 1
+      basename: {{$NAMESPACE}}
+    replicasPerNamespace: {{$STATEFULSETS_COUNT}}
+    tuningSet: StatefulSetCreationQPS
+    objectBundle:
+    - basename: aiml-training-job
+      objectTemplatePath: sts.yaml
+      templateFillMap:
+        Group: aiml-training-job
+        Replicas: {{$BATCH_SIZE}}
+        RequestCPU: "{{$REQUEST_CPU}}"
+        RequestMemory: "{{$REQUEST_MEMORY}}"
+        LimitCPU: "{{$LIMIT_CPU}}"
+        LimitMemory: "{{$LIMIT_MEMORY}}"
+        ClusterName: "{{$CLUSTER_NAME}}"
+
+{{range $batch := Loop (SubtractInt (DivideInt $REPLICAS_PER_STATEFULSET $BATCH_SIZE) 1)}}
+- name: Scaling StatefulSets batch {{AddInt $batch 2}}
+  phases:
+  - namespaceRange:
+      min: 1
+      max: 1
+      basename: {{$NAMESPACE}}
+    replicasPerNamespace: {{$STATEFULSETS_COUNT}}
+    tuningSet: ScalingQPS
+    objectBundle:
+    - basename: aiml-training-job
+      objectTemplatePath: sts.yaml
+      templateFillMap:
+        Group: aiml-training-job
+        Replicas: {{MultiplyInt $BATCH_SIZE (AddInt $batch 2)}}
+        RequestCPU: "{{$REQUEST_CPU}}"
+        RequestMemory: "{{$REQUEST_MEMORY}}"
+        LimitCPU: "{{$LIMIT_CPU}}"
+        LimitMemory: "{{$LIMIT_MEMORY}}"
+        ClusterName: "{{$CLUSTER_NAME}}"
+- name: Sleep after scaling batch {{AddInt $batch 2}}
+  measurements:
+  - Identifier: Wait
+    Method: Sleep
+    Params:
+      duration: "{{$SLEEP_DURATION}}s"
+{{end}}
+
+- name: Waiting for StatefulSets to be ready
+  measurements:
+  - Identifier: WaitForRunningStatefulSets
+    Method: WaitForControlledPodsRunning
+    Params:
+      action: gather
+
+- name: Gathering measurements
+  measurements:
+  - Identifier: PodStartupLatency
+    Method: PodStartupLatency
+    Params:
+      action: gather
+      labelSelector: app = aiml-training-job
+      threshold: {{$POD_STARTUP_THRESHOLD}}
@@ -0,0 +1,117 @@
+apiVersion: apps/v1
+kind: StatefulSet
+metadata:
+  name: aiml-training-job-{{.Group}}
+  labels:
+    app: aiml-training-job
+    group: {{.Group}}
+spec:
+  serviceName: aiml-training-service
+  replicas: {{.Replicas}}
+  podManagementPolicy: Parallel 
+  selector:
+    matchLabels:
+      app: aiml-training-job
+      group: {{.Group}}
+  template:
+    metadata:
+      labels:
+        app: aiml-training-job
+        group: {{.Group}}
+    spec:
+      nodeSelector:
+        purpose: ml-large
+      containers:
+      - name: app-with-awsapi
+        image:  953421922360.dkr.ecr.us-west-2.amazonaws.com/aws-cli:2.27.49
+        imagePullPolicy: IfNotPresent
+        resources:
+          requests:
+            cpu: {{.RequestCPU}}
+            memory: {{.RequestMemory}}
+          limits:
+            cpu: {{.LimitCPU}}
+            memory: {{.LimitMemory}}
+        env:
+          - name: CLUSTER_NAME
+            value: "{{.ClusterName}}"
+        command:
+          - sh
+          - -c
+          - |
+            #ToDo remove this once PIA is compliant with exit criteria
+            sleep 3600
+            AUTH_TOKEN=$(cat $AWS_CONTAINER_AUTHORIZATION_TOKEN_FILE)
+            MAX_ATTEMPTS=7
+            INITIAL_DELAY=0.2  # 200ms
+            start_epoch=$(date +%s%3N)
+            METRIC_MAX_RETRIES=3
+            METRIC_RETRY_DELAY=1
+            NAMESPACE=TitanApplicationLatencyForLargeSTS
+            DIMENSION_NAME=ClusterName
+            DIMENSION_VALUE={{.ClusterName}}
+            METRIC_LATENCY_NAME=TitanApplicationLatencyForLargeSTS
+
+            echo "Starting credential fetch and S3 verification process..."
+
+            # Fetch credentials from EKS Pod Identity agent with exponential backoff
+            for i in $(seq 0 $((MAX_ATTEMPTS - 1))); do
+              status_code=$(curl -s -o /dev/null -w "%{http_code}" --max-time 2 -H "Authorization: $AUTH_TOKEN" http://169.254.170.23/v1/credentials)
+              if [ "$status_code" -eq 200 ]; then
+                echo "Successfully fetched credentials at attempt $i"
+                break
+              fi
+
+              if [ "$i" -eq $((MAX_ATTEMPTS - 1)) ]; then
+                echo "Failed to fetch credentials after $MAX_ATTEMPTS attempts. Exiting."
+                exit 1
+              fi
+
+              SLEEP_TIME=$(echo "$INITIAL_DELAY * (2 ^ $i)" | bc -l)
+              echo "Credential fetch failed. Sleeping $SLEEP_TIME seconds before retry..."
+              sleep "$SLEEP_TIME"
+            done
+
+            # Verify S3 access
+            echo "Verifying S3 access..."
+            while ! aws s3 ls; do
+              echo "Waiting for S3 bucket access..."
+              sleep 5
+            done
+            echo "S3 bucket is accessible, proceeding."
+
+            # Calculate total latency for credential fetch + S3 verification
+            end_epoch=$(date +%s%3N)
+            latency_ms=$((end_epoch - start_epoch))
+            latency_sec=$(awk "BEGIN { print $latency_ms / 1000 }")
+            
+            echo "Total operation latency: ${latency_sec} seconds (credential fetch + S3 verification)"
+            
+            # Send combined operation latency metric
+            for ((j=1; j<=METRIC_MAX_RETRIES; j++)); do
+              aws cloudwatch put-metric-data \
+                --namespace "$NAMESPACE" \
+                --metric-name "$METRIC_LATENCY_NAME" \
+                --dimensions "$DIMENSION_NAME=$DIMENSION_VALUE" \
+                --value "$latency_sec" \
+                --unit Seconds && {
+                  echo "Metric $METRIC_LATENCY_NAME sent successfully with value: ${latency_sec}s"
+                  break
+              }
+
+              if [ "$j" -lt "$METRIC_MAX_RETRIES" ]; then
+                echo "Attempt $j failed. Retrying in $METRIC_RETRY_DELAY seconds..." >&2
+                sleep $METRIC_RETRY_DELAY
+                METRIC_RETRY_DELAY=$((METRIC_RETRY_DELAY * 2)) # exponential backoff
+              else
+                echo "Failed to send metric $METRIC_LATENCY_NAME after $METRIC_MAX_RETRIES attempts." >&2
+                exit 1
+              fi
+            done
+
+            echo "Operation completed successfully. Keeping pod alive..."
+            # Keep pod alive
+            while true; do
+              echo "Sleeping for 1 hour..."
+              sleep 3600
+            done
@@ -0,0 +1,115 @@
+# AI/ML Workload test configuration using Kubernetes Jobs
+# This test creates X number of Jobs with AI/ML workload pods, scaling in batches by updating parallelism.
+
+{{$NAMESPACE := DefaultParam .NAMESPACE "aiml-test"}}
+{{$JOBS_COUNT := DefaultParam .JOBS_COUNT 10}}
+{{$COMPLETIONS_PER_JOB := DefaultParam .COMPLETIONS_PER_JOB 10100}}
+{{$BATCH_SIZE := DefaultParam .BATCH_SIZE 200}}
+{{$JOB_CREATION_QPS := DefaultParam .JOB_CREATION_QPS 100}}
+{{$SCALING_QPS := DefaultParam .SCALING_QPS 100}}
+{{$JOB_COMPLETION_TIMEOUT := DefaultParam .JOB_COMPLETION_TIMEOUT "45m"}}
+{{$CREATION_TIMEOUT := DefaultParam .CREATION_TIMEOUT "51m"}}
+{{$REQUEST_CPU := DefaultParam .REQUEST_CPU "1000m"}}
+{{$REQUEST_MEMORY := DefaultParam .REQUEST_MEMORY "128Mi"}}
+{{$LIMIT_CPU := DefaultParam .LIMIT_CPU "1500m"}}
+{{$LIMIT_MEMORY := DefaultParam .LIMIT_MEMORY "512Mi"}}
+{{$CLUSTER_NAME := DefaultParam .CLUSTER_NAME "perflab-titan-1"}}
+{{$defaultQps := DefaultParam .CL2_DEFAULT_QPS  500}}
+{{$defaultBurst := DefaultParam .CL2_DEFAULT_BURST 500}}
+{{$SLEEP_DURATION := DefaultParam .SLEEP_DURATION 2}}
+
+name: aws-mock-aiml-application-large-jobs
+
+tuningSets:
+- name: JobCreationQPS
+  qpsLoad:
+    qps: {{$JOB_CREATION_QPS}}
+- name: ScalingQPS
+  qpsLoad:
+    qps: {{$SCALING_QPS}}
+- name: default
+  globalQPSLoad:
+    qps: {{$defaultQps}}
+    burst: {{$defaultBurst}}
+
+steps:
+- name: Starting measurements
+  measurements:
+  - Identifier: PodStartupLatency
+    Method: PodStartupLatency
+    Params:
+      action: start
+      labelSelector: app = aiml-training-job
+      threshold: 5s
+  - Identifier: WaitForRunningJobs
+    Method: WaitForControlledPodsRunning
+    Params:
+      action: start
+      apiVersion: batch/v1
+      kind: Job
+      labelSelector: app = aiml-training-job
+      operationTimeout: {{$CREATION_TIMEOUT}}
+
+- name: Creating Jobs with initial parallelism
+  phases:
+  - namespaceRange:
+      min: 1
+      max: 1
+      basename: {{$NAMESPACE}}
+    replicasPerNamespace: {{$JOBS_COUNT}}
+    tuningSet: JobCreationQPS
+    objectBundle:
+    - basename: aiml-training-job
+      objectTemplatePath: job-with-fsx.yaml
+      templateFillMap:
+        Group: aiml-training-job
+        Completions: {{$COMPLETIONS_PER_JOB}}
+        Parallelism: {{$BATCH_SIZE}}
+        RequestCPU: "{{$REQUEST_CPU}}"
+        RequestMemory: "{{$REQUEST_MEMORY}}"
+        LimitCPU: "{{$LIMIT_CPU}}"
+        LimitMemory: "{{$LIMIT_MEMORY}}"
+        ClusterName: "{{$CLUSTER_NAME}}"
+
+{{ $numBatches := SubtractInt (DivideInt $COMPLETIONS_PER_JOB $BATCH_SIZE) 1 }}
+{{range $batch := Loop $numBatches}}
+- name: Scaling Jobs batch {{AddInt $batch 2}}
+  phases:
+  - namespaceRange:
+      min: 1
+      max: 1
+      basename: {{$NAMESPACE}}
+    replicasPerNamespace: {{$JOBS_COUNT}}
+    tuningSet: ScalingQPS
+    objectBundle:
+    - basename: aiml-training-job
+      objectTemplatePath: job-with-fsx.yaml
+      updateFromTemplate: true
+      templateFillMap:
+        Group: aiml-training-job
+        Completions: {{$COMPLETIONS_PER_JOB}}  
+        Parallelism: {{MultiplyInt $BATCH_SIZE (AddInt $batch 2)}}
+        RequestCPU: "{{$REQUEST_CPU}}"
+        RequestMemory: "{{$REQUEST_MEMORY}}"
+        LimitCPU: "{{$LIMIT_CPU}}"
+        LimitMemory: "{{$LIMIT_MEMORY}}"
+        ClusterName: "{{$CLUSTER_NAME}}"
+- name: Sleep after scaling batch {{AddInt $batch 2}}
+  measurements:
+  - Identifier: Wait
+    Method: Sleep
+    Params:
+      duration: "{{$SLEEP_DURATION}}s"
+{{end}}
+
+- name: Waiting for Jobs to be ready
+  measurements:
+  - Identifier: WaitForRunningJobs
+    Method: WaitForControlledPodsRunning
+    Params:
+      action: gather
+  - Identifier: PodStartupLatency
+    Method: PodStartupLatency
+    Params:
+      action: gather
+      labelSelector: app = aiml-training-job