regression evals (#583)

seanmcguire12 · web-flow · commit 96fd035eb08e · 2025-03-14T17:17:09.000-07:00
* regressions

* combination needs regression

* separate regression jobs run in parallel

* fix experiment names, fix gh output

* set scores as gh outputs

* add label check for combo

* rm needs label guard for combos

* 2 trials per
diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml
@@ -20,6 +20,7 @@ jobs:
   determine-evals:
     runs-on: ubuntu-latest
     outputs:
+      run-combination: ${{ steps.check-labels.outputs.run-combination }}
       run-extract: ${{ steps.check-labels.outputs.run-extract }}
       run-act: ${{ steps.check-labels.outputs.run-act }}
       run-observe: ${{ steps.check-labels.outputs.run-observe }}
@@ -31,6 +32,7 @@ jobs:
           # Default to running all tests on main branch
           if [[ "${{ github.ref }}" == "refs/heads/main" ]]; then
             echo "Running all tests for main branch"
+            echo "run-combination=true" >> $GITHUB_OUTPUT
             echo "run-extract=true" >> $GITHUB_OUTPUT
             echo "run-act=true" >> $GITHUB_OUTPUT
             echo "run-observe=true" >> $GITHUB_OUTPUT
@@ -40,6 +42,7 @@ jobs:
           fi
 
           # Check for specific labels
+          echo "run-combination=${{ contains(github.event.pull_request.labels.*.name, 'combination') }}" >> $GITHUB_OUTPUT
           echo "run-extract=${{ contains(github.event.pull_request.labels.*.name, 'extract') }}" >> $GITHUB_OUTPUT
           echo "run-act=${{ contains(github.event.pull_request.labels.*.name, 'act') }}" >> $GITHUB_OUTPUT
           echo "run-observe=${{ contains(github.event.pull_request.labels.*.name, 'observe') }}" >> $GITHUB_OUTPUT
@@ -147,7 +150,7 @@ jobs:
         run: npm run e2e:local
 
   run-e2e-bb-tests:
-    needs: [run-e2e-tests]
+    needs: [run-lint, run-build]
     runs-on: ubuntu-latest
     timeout-minutes: 50
     if: >
@@ -183,8 +186,129 @@ jobs:
       - name: Run E2E Tests (browserbase)
         run: npm run e2e:bb
 
+  run-regression-evals-dom-extract:
+    needs:
+      [run-e2e-bb-tests, run-e2e-tests, run-e2e-local-tests, determine-evals]
+    runs-on: ubuntu-latest
+    timeout-minutes: 7
+    outputs:
+      regression_dom_score: ${{ steps.set-dom-score.outputs.regression_dom_score }}
+    env:
+      OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
+      ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}
+      BRAINTRUST_API_KEY: ${{ secrets.BRAINTRUST_API_KEY }}
+      BROWSERBASE_API_KEY: ${{ secrets.BROWSERBASE_API_KEY }}
+      BROWSERBASE_PROJECT_ID: ${{ secrets.BROWSERBASE_PROJECT_ID }}
+      HEADLESS: true
+      EVAL_ENV: browserbase
+    steps:
+      - name: Check out repository code
+        uses: actions/checkout@v4
+
+      - name: Set up Node.js
+        uses: actions/setup-node@v4
+        with:
+          node-version: "20"
+
+      - name: Install dependencies
+        run: |
+          rm -rf node_modules
+          rm -f package-lock.json
+          npm install
+
+      - name: Build Stagehand
+        run: npm run build
+
+      - name: Install Playwright browsers
+        run: npm exec playwright install --with-deps
+
+      - name: Run Regression Evals (domExtract)
+        run: npm run evals category regression_dom_extract trials=2 concurrency=12 env=BROWSERBASE -- --extract-method=domExtract
+
+      - name: Save Regression domExtract Results
+        run: mv eval-summary.json eval-summary-regression-dom.json
+
+      - name: Log and Regression (domExtract) Evals Performance
+        id: set-dom-score
+        run: |
+          experimentNameRegressionDom=$(jq -r '.experimentName' eval-summary-regression-dom.json)
+          regression_dom_score=$(jq '.categories.regression_dom_extract' eval-summary-regression-dom.json)
+          echo "regression_dom_extract category score: ${regression_dom_score}%"
+          echo "View regression_dom_extract results: https://www.braintrust.dev/app/Browserbase/p/stagehand/experiments/${experimentNameRegressionDom}"
+          echo "regression_dom_score=$regression_dom_score" >> "$GITHUB_OUTPUT"
+
+  run-regression-evals-text-extract:
+    needs:
+      [run-e2e-bb-tests, run-e2e-tests, run-e2e-local-tests, determine-evals]
+    runs-on: ubuntu-latest
+    timeout-minutes: 7
+    outputs:
+      regression_text_score: ${{ steps.set-text-score.outputs.regression_text_score }}
+    env:
+      OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
+      ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}
+      BRAINTRUST_API_KEY: ${{ secrets.BRAINTRUST_API_KEY }}
+      BROWSERBASE_API_KEY: ${{ secrets.BROWSERBASE_API_KEY }}
+      BROWSERBASE_PROJECT_ID: ${{ secrets.BROWSERBASE_PROJECT_ID }}
+      HEADLESS: true
+      EVAL_ENV: browserbase
+    steps:
+      - name: Check out repository code
+        uses: actions/checkout@v4
+
+      - name: Set up Node.js
+        uses: actions/setup-node@v4
+        with:
+          node-version: "20"
+
+      - name: Install dependencies
+        run: |
+          rm -rf node_modules
+          rm -f package-lock.json
+          npm install
+
+      - name: Build Stagehand
+        run: npm run build
+
+      - name: Install Playwright browsers
+        run: npm exec playwright install --with-deps
+
+      - name: Run Regression Evals (textExtract)
+        run: npm run evals category regression_text_extract trials=2 concurrency=12 env=BROWSERBASE -- --extract-method=textExtract
+
+      - name: Save Regression textExtract Results
+        run: mv eval-summary.json eval-summary-regression-text.json
+
+      - name: Log Regression (textExtract) Evals Performance
+        id: set-text-score
+        run: |
+          experimentNameRegressionText=$(jq -r '.experimentName' eval-summary-regression-text.json)
+          regression_text_score=$(jq '.categories.regression_text_extract' eval-summary-regression-text.json)
+          echo "regression_text_extract category score: ${regression_text_score}%"
+          echo "View regression_text_extract results: https://www.braintrust.dev/app/Browserbase/p/stagehand/experiments/${experimentNameRegressionText}"
+          echo "regression_text_score=$regression_text_score" >> "$GITHUB_OUTPUT"
+
+  check-regression-evals-score:
+    needs: [run-regression-evals-text-extract, run-regression-evals-dom-extract]
+    runs-on: ubuntu-latest
+    timeout-minutes: 5
+    steps:
+      - name: Compare Overall Regression Evals Score
+        run: |
+          regression_dom_score="${{ needs.run-regression-evals-dom-extract.outputs.regression_dom_score }}"
+          regression_text_score="${{ needs.run-regression-evals-text-extract.outputs.regression_text_score }}"
+
+          overall_score=$(echo "(${regression_dom_score} + ${regression_text_score}) / 2" | bc -l)
+          echo "Overall regression score: ${overall_score}%"
+
+          # Fail if overall score is below 90%
+          if (( $(echo "${overall_score} < 90" | bc -l) )); then
+            echo "Overall regression score is below 90%. Failing CI."
+            exit 1
+          fi
+
   run-combination-evals:
-    needs: [run-e2e-bb-tests, run-e2e-tests, determine-evals]
+    needs: [check-regression-evals-score, determine-evals]
     runs-on: ubuntu-latest
     timeout-minutes: 40
     env:
@@ -199,27 +323,43 @@ jobs:
       - name: Check out repository code
         uses: actions/checkout@v4
 
+      - name: Check for 'combination' label
+        id: label-check
+        run: |
+          if [ "${{ needs.determine-evals.outputs.run-combination }}" != "true" ]; then
+            echo "has_label=false" >> $GITHUB_OUTPUT
+            echo "No label for COMBINATION. Exiting with success."
+          else
+            echo "has_label=true" >> $GITHUB_OUTPUT
+          fi
+
       - name: Set up Node.js
+        if: needs.determine-evals.outputs.run-combination == 'true'
         uses: actions/setup-node@v4
         with:
           node-version: "20"
 
       - name: Install dependencies
+        if: needs.determine-evals.outputs.run-combination == 'true'
         run: |
           rm -rf node_modules
           rm -f package-lock.json
           npm install
 
       - name: Build Stagehand
+        if: needs.determine-evals.outputs.run-combination == 'true'
         run: npm run build
 
       - name: Install Playwright browsers
+        if: needs.determine-evals.outputs.run-combination == 'true'
         run: npm exec playwright install --with-deps
 
       - name: Run Combination Evals
+        if: needs.determine-evals.outputs.run-combination == 'true'
         run: npm run evals category combination
 
       - name: Log Combination Evals Performance
+        if: needs.determine-evals.outputs.run-combination == 'true'
         run: |
           experimentName=$(jq -r '.experimentName' eval-summary.json)
           echo "View results at https://www.braintrust.dev/app/Browserbase/p/stagehand/experiments/${experimentName}"
diff --git a/evals/evals.config.json b/evals/evals.config.json
@@ -26,7 +26,7 @@
     },
     {
       "name": "ionwave",
-      "categories": ["act"]
+      "categories": ["act", "regression_dom_extract"]
     },
     {
       "name": "nonsense_action",
@@ -79,7 +79,7 @@
     },
     {
       "name": "wichita",
-      "categories": ["combination"]
+      "categories": ["combination", "regression_dom_extract"]
     },
 
     {
@@ -104,7 +104,7 @@
     },
     {
       "name": "extract_aigrant_companies",
-      "categories": ["experimental", "text_extract"]
+      "categories": ["experimental", "text_extract", "regression_text_extract"]
     },
     {
       "name": "extract_capacitor_info",
@@ -153,7 +153,7 @@
     },
     {
       "name": "extract_memorial_healthcare",
-      "categories": ["extract"]
+      "categories": ["extract", "regression_dom_extract"]
     },
     {
       "name": "extract_nhl_stats",
@@ -222,11 +222,11 @@
     },
     {
       "name": "observe_github",
-      "categories": ["observe"]
+      "categories": ["observe", "regression_text_extract"]
     },
     {
       "name": "observe_vantechjournal",
-      "categories": ["observe"]
+      "categories": ["observe", "regression_text_extract"]
     },
     {
       "name": "observe_amazon_add_to_cart",
@@ -254,7 +254,7 @@
     },
     {
       "name": "extract_hamilton_weather",
-      "categories": ["targeted_extract"]
+      "categories": ["targeted_extract", "regression_text_extract"]
     },
     {
       "name": "extract_regulations_table",
@@ -286,7 +286,7 @@
     },
     {
       "name": "scroll_75",
-      "categories": ["act"]
+      "categories": ["act", "regression_dom_extract"]
     }
   ]
 }
diff --git a/types/evals.ts b/types/evals.ts
@@ -25,6 +25,8 @@ export const EvalCategorySchema = z.enum([
   "experimental",
   "text_extract",
   "targeted_extract",
+  "regression_text_extract",
+  "regression_dom_extract",
 ]);
 
 export type EvalCategory = z.infer<typeof EvalCategorySchema>;

Original file line number	Diff line number	Diff line change
`@@ -26,7 +26,7 @@`
`26`	`26`	`},`
`27`	`27`	`{`
`28`	`28`	`"name": "ionwave",`
`29`		`- "categories": ["act"]`
	`29`	`+ "categories": ["act", "regression_dom_extract"]`
`30`	`30`	`},`
`31`	`31`	`{`
`32`	`32`	`"name": "nonsense_action",`
`@@ -79,7 +79,7 @@`
`79`	`79`	`},`
`80`	`80`	`{`
`81`	`81`	`"name": "wichita",`
`82`		`- "categories": ["combination"]`
	`82`	`+ "categories": ["combination", "regression_dom_extract"]`
`83`	`83`	`},`
`84`	`84`
`85`	`85`	`{`
`@@ -104,7 +104,7 @@`
`104`	`104`	`},`
`105`	`105`	`{`
`106`	`106`	`"name": "extract_aigrant_companies",`
`107`		`- "categories": ["experimental", "text_extract"]`
	`107`	`+ "categories": ["experimental", "text_extract", "regression_text_extract"]`
`108`	`108`	`},`
`109`	`109`	`{`
`110`	`110`	`"name": "extract_capacitor_info",`
`@@ -153,7 +153,7 @@`
`153`	`153`	`},`
`154`	`154`	`{`
`155`	`155`	`"name": "extract_memorial_healthcare",`
`156`		`- "categories": ["extract"]`
	`156`	`+ "categories": ["extract", "regression_dom_extract"]`
`157`	`157`	`},`
`158`	`158`	`{`
`159`	`159`	`"name": "extract_nhl_stats",`
`@@ -222,11 +222,11 @@`
`222`	`222`	`},`
`223`	`223`	`{`
`224`	`224`	`"name": "observe_github",`
`225`		`- "categories": ["observe"]`
	`225`	`+ "categories": ["observe", "regression_text_extract"]`
`226`	`226`	`},`
`227`	`227`	`{`
`228`	`228`	`"name": "observe_vantechjournal",`
`229`		`- "categories": ["observe"]`
	`229`	`+ "categories": ["observe", "regression_text_extract"]`
`230`	`230`	`},`
`231`	`231`	`{`
`232`	`232`	`"name": "observe_amazon_add_to_cart",`
`@@ -254,7 +254,7 @@`
`254`	`254`	`},`
`255`	`255`	`{`
`256`	`256`	`"name": "extract_hamilton_weather",`
`257`		`- "categories": ["targeted_extract"]`
	`257`	`+ "categories": ["targeted_extract", "regression_text_extract"]`
`258`	`258`	`},`
`259`	`259`	`{`
`260`	`260`	`"name": "extract_regulations_table",`
`@@ -286,7 +286,7 @@`
`286`	`286`	`},`
`287`	`287`	`{`
`288`	`288`	`"name": "scroll_75",`
`289`		`- "categories": ["act"]`
	`289`	`+ "categories": ["act", "regression_dom_extract"]`
`290`	`290`	`}`
`291`	`291`	`]`
`292`	`292`	`}`