Switch to baseten provider for minimax

jahooma · jahooma · commit b28479c0de55 · 2026-03-10T14:24:54.000-07:00
diff --git a/agents/base2/base2.ts b/agents/base2/base2.ts
@@ -30,9 +30,6 @@ export function createBase2(
     publisher,
     model: isFree ? 'minimax/minimax-m2.5' : 'anthropic/claude-opus-4.6',
     providerOptions: isFree ? {
-      only: ['inceptron/fp8'],
-      order: ['inceptron/fp8'],
-      allow_fallbacks: false,
       data_collection: 'deny',
     } : {
       only: ['amazon-bedrock'],
diff --git a/agents/tmux-cli.ts b/agents/tmux-cli.ts
@@ -75,9 +75,6 @@ const definition: AgentDefinition = {
   // Provider options are tightly coupled to the model choice above.
   // If you change the model, update these accordingly.
   providerOptions: {
-    only: ['inceptron/fp8'],
-    order: ['inceptron/fp8'],
-    allow_fallbacks: false,
     data_collection: 'deny',
   },
 
diff --git a/packages/internal/src/env-schema.ts b/packages/internal/src/env-schema.ts
@@ -7,6 +7,7 @@ export const serverEnvSchema = clientEnvSchema.extend({
   OPENAI_API_KEY: z.string().min(1),
   ANTHROPIC_API_KEY: z.string().min(1),
   FIREWORKS_API_KEY: z.string().min(1),
+  BASETEN_API_KEY: z.string().min(1).optional(),
   LINKUP_API_KEY: z.string().min(1),
   CONTEXT7_API_KEY: z.string().optional(),
   GRAVITY_API_KEY: z.string().min(1),
@@ -50,6 +51,7 @@ export const serverProcessEnv: ServerInput = {
   OPENAI_API_KEY: process.env.OPENAI_API_KEY,
   ANTHROPIC_API_KEY: process.env.ANTHROPIC_API_KEY,
   FIREWORKS_API_KEY: process.env.FIREWORKS_API_KEY,
+  BASETEN_API_KEY: process.env.BASETEN_API_KEY,
   LINKUP_API_KEY: process.env.LINKUP_API_KEY,
   CONTEXT7_API_KEY: process.env.CONTEXT7_API_KEY,
   GRAVITY_API_KEY: process.env.GRAVITY_API_KEY,
diff --git a/web/src/app/api/v1/chat/completions/_post.ts b/web/src/app/api/v1/chat/completions/_post.ts
@@ -35,6 +35,12 @@ import type { NextRequest } from 'next/server'
 
 import type { ChatCompletionRequestBody } from '@/llm-api/types'
 
+import {
+  BasetenError,
+  handleBasetenNonStream,
+  handleBasetenStream,
+  isBasetenModel,
+} from '@/llm-api/baseten'
 import {
   FireworksError,
   handleFireworksNonStream,
@@ -354,9 +360,20 @@ export async function postChatCompletions(params: {
     // Handle streaming vs non-streaming
     try {
       if (bodyStream) {
-        // Streaming request — route to Fireworks for supported models
-        const useFireworks = isFireworksModel(typedBody.model)
-        const stream = useFireworks
+        // Streaming request — route to Baseten/Fireworks for supported models
+        const useBaseten = isBasetenModel(typedBody.model)
+        const useFireworks = !useBaseten && isFireworksModel(typedBody.model)
+        const stream = useBaseten
+          ? await handleBasetenStream({
+              body: typedBody,
+              userId,
+              stripeCustomerId,
+              agentId,
+              fetch,
+              logger,
+              insertMessageBigquery,
+            })
+          : useFireworks
           ? await handleFireworksStream({
               body: typedBody,
               userId,
@@ -396,9 +413,10 @@ export async function postChatCompletions(params: {
           },
         })
       } else {
-        // Non-streaming request — route to Fireworks for supported models
+        // Non-streaming request — route to Baseten/Fireworks for supported models
         const model = typedBody.model
-        const useFireworks = isFireworksModel(model)
+        const useBaseten = isBasetenModel(model)
+        const useFireworks = !useBaseten && isFireworksModel(model)
         const modelParts = model.split('/')
         const shortModelName = modelParts.length > 1 ? modelParts[1] : model
         const isOpenAIDirectModel =
@@ -409,7 +427,17 @@ export async function postChatCompletions(params: {
         const shouldUseOpenAIEndpoint =
           isOpenAIDirectModel && typedBody.codebuff_metadata?.n !== undefined
 
-        const nonStreamRequest = useFireworks
+        const nonStreamRequest = useBaseten
+          ? handleBasetenNonStream({
+              body: typedBody,
+              userId,
+              stripeCustomerId,
+              agentId,
+              fetch,
+              logger,
+              insertMessageBigquery,
+            })
+          : useFireworks
           ? handleFireworksNonStream({
               body: typedBody,
               userId,
@@ -463,10 +491,14 @@ export async function postChatCompletions(params: {
       if (error instanceof FireworksError) {
         fireworksError = error
       }
+      let basetenError: BasetenError | undefined
+      if (error instanceof BasetenError) {
+        basetenError = error
+      }
 
       // Log detailed error information for debugging
       const errorDetails = openrouterError?.toJSON()
-      const providerLabel = fireworksError ? 'Fireworks' : 'OpenRouter'
+      const providerLabel = basetenError ? 'Baseten' : fireworksError ? 'Fireworks' : 'OpenRouter'
       logger.error(
         {
           error: getErrorObject(error),
@@ -480,8 +512,8 @@ export async function postChatCompletions(params: {
             ? typedBody.messages.length
             : 0,
           messages: typedBody.messages,
-          providerStatusCode: (openrouterError ?? fireworksError)?.statusCode,
-          providerStatusText: (openrouterError ?? fireworksError)?.statusText,
+          providerStatusCode: (openrouterError ?? fireworksError ?? basetenError)?.statusCode,
+          providerStatusText: (openrouterError ?? fireworksError ?? basetenError)?.statusText,
           openrouterErrorCode: errorDetails?.error?.code,
           openrouterErrorType: errorDetails?.error?.type,
           openrouterErrorMessage: errorDetails?.error?.message,
@@ -509,6 +541,9 @@ export async function postChatCompletions(params: {
       if (error instanceof FireworksError) {
         return NextResponse.json(error.toJSON(), { status: error.statusCode })
       }
+      if (error instanceof BasetenError) {
+        return NextResponse.json(error.toJSON(), { status: error.statusCode })
+      }
 
       return NextResponse.json(
         { error: 'Failed to process request' },
diff --git a/web/src/llm-api/baseten.ts b/web/src/llm-api/baseten.ts
diff --git a/web/src/llm-api/fireworks.ts b/web/src/llm-api/fireworks.ts