Add realtime models and Modality enum

BugorBN · BugorBN · commit 7d5804bf862f · 2025-11-28T22:53:09.000Z
- Add gpt-4o-realtime-preview and gpt-4o-mini-realtime-preview models
- Add dated variants: gpt-4o-realtime-preview-2024-12-17 and gpt-4o-mini-realtime-preview-2024-12-17
- Replace string-based modalities with type-safe Modality enum
- Update modalities parameter from [String] to [Modality]
- Update all usage examples and tests to use [.text, .audio] syntax
- Update AudioConversationManager to use new enum
- Update README documentation with Modality enum
diff --git a/README.md b/README.md
@@ -753,7 +753,7 @@ The Audio Chat API enables audio-to-audio conversations with GPT-4o Audio models
 public struct AudioChatQuery: Codable, Equatable, Streamable, Sendable {
     public let model: Model
     public let messages: [Message]
-    public let modalities: [String]?  // ["text", "audio"]
+    public let modalities: [Modality]?  // [.text, .audio]
     public let audio: AudioConfig?
     public var stream: Bool
 
@@ -767,6 +767,11 @@ public struct AudioChatQuery: Codable, Equatable, Streamable, Sendable {
         public let content: Content  // .text(String) or .parts([ContentPart])
     }
 }
+
+public enum Modality: String, Codable, Sendable {
+    case text
+    case audio
+}
 ```
 
 **Response:**
@@ -806,7 +811,7 @@ let query = AudioChatQuery(
             .init(inputAudio: .init(data: base64Audio, format: .wav))
         ]))
     ],
-    modalities: ["text", "audio"],
+    modalities: [.text, .audio],
     audio: .init(voice: .alloy, format: .pcm16)
 )
 
diff --git a/Sources/OpenAI/Public/Models/AudioChatQuery.swift b/Sources/OpenAI/Public/Models/AudioChatQuery.swift
@@ -24,9 +24,9 @@ public struct AudioChatQuery: Codable, Equatable, Streamable, Sendable {
     /// A list of messages comprising the conversation so far.
     public let messages: [Message]
 
-    /// Output types to enable for this request. Can include "text" and "audio".
-    /// Defaults to ["text", "audio"]
-    public let modalities: [String]?
+    /// Output types to enable for this request. Can include text and audio.
+    /// Defaults to [.text, .audio]
+    public let modalities: [Modality]?
 
     /// Configuration for audio output
     public let audio: AudioConfig?
@@ -59,7 +59,7 @@ public struct AudioChatQuery: Codable, Equatable, Streamable, Sendable {
     public init(
         model: Model,
         messages: [Message],
-        modalities: [String]? = ["text", "audio"],
+        modalities: [Modality]? = [.text, .audio],
         audio: AudioConfig? = nil,
         temperature: Double? = nil,
         maxTokens: Int? = nil,
@@ -236,3 +236,13 @@ public enum AudioFormat: String, Codable, Sendable {
     case opus
     case pcm16
 }
+
+/// Output modality options for audio chat requests
+///
+/// Specifies which types of output the model should generate
+public enum Modality: String, Codable, Sendable {
+    /// Text output
+    case text
+    /// Audio output
+    case audio
+}
diff --git a/Sources/OpenAI/Public/Models/Models/Models.swift b/Sources/OpenAI/Public/Models/Models/Models.swift
@@ -117,13 +117,19 @@ public extension Model {
     ///
     /// This is a preview release of the GPT-4o Realtime model, capable of responding to audio and text inputs in realtime over WebRTC or a WebSocket interface.
     static let gpt_4o_realtime_preview = "gpt-4o-realtime-preview"
-    
+
+    /// GPT-4o Realtime (2024-12-17): Snapshot of gpt-4o-realtime-preview from December 17th 2024
+    static let gpt_4o_realtime_preview_2024_12_17 = "gpt-4o-realtime-preview-2024-12-17"
+
     /// GPT-4o mini Realtime: Smaller realtime model for text and audio inputs and outputs
     ///
     /// `gpt-4o-mini-realtime-preview`
     ///
     /// This is a preview release of the GPT-4o-mini Realtime model, capable of responding to audio and text inputs in realtime over WebRTC or a WebSocket interface.
     static let gpt_4o_mini_realtime_preview = "gpt-4o-mini-realtime-preview"
+
+    /// GPT-4o mini Realtime (2024-12-17): Snapshot of gpt-4o-mini-realtime-preview from December 17th 2024
+    static let gpt_4o_mini_realtime_preview_2024_12_17 = "gpt-4o-mini-realtime-preview-2024-12-17"
     
     // MARK: - Older GPT models
     // Supported older versions of our general purpose and chat models.
diff --git a/Sources/OpenAI/Public/Schemas/Generated/Components.swift b/Sources/OpenAI/Public/Schemas/Generated/Components.swift
@@ -4288,6 +4288,10 @@ public enum Components {
                 case gpt4oAudioPreview20250603 = "gpt-4o-audio-preview-2025-06-03"
                 case gpt4oMiniAudioPreview = "gpt-4o-mini-audio-preview"
                 case gpt4oMiniAudioPreview20241217 = "gpt-4o-mini-audio-preview-2024-12-17"
+                case gpt4oRealtimePreview = "gpt-4o-realtime-preview"
+                case gpt4oRealtimePreview20241217 = "gpt-4o-realtime-preview-2024-12-17"
+                case gpt4oMiniRealtimePreview = "gpt-4o-mini-realtime-preview"
+                case gpt4oMiniRealtimePreview20241217 = "gpt-4o-mini-realtime-preview-2024-12-17"
                 case gpt4oSearchPreview = "gpt-4o-search-preview"
                 case gpt4oMiniSearchPreview = "gpt-4o-mini-search-preview"
                 case gpt4oSearchPreview20250311 = "gpt-4o-search-preview-2025-03-11"
diff --git a/Sources/OpenAI/Public/Utilities/AudioConversationManager.swift b/Sources/OpenAI/Public/Utilities/AudioConversationManager.swift
@@ -81,7 +81,7 @@ public actor AudioConversationManager {
         let query = AudioChatQuery(
             model: .gpt_4o_audio_preview,
             messages: conversationHistory,
-            modalities: ["text", "audio"],
+            modalities: [.text, .audio],
             audio: .init(voice: voice, format: responseFormat)
         )
 
@@ -132,7 +132,7 @@ public actor AudioConversationManager {
         let query = AudioChatQuery(
             model: .gpt_4o_audio_preview,
             messages: conversationHistory,
-            modalities: ["text", "audio"],
+            modalities: [.text, .audio],
             audio: .init(voice: voice, format: responseFormat)
         )
 
diff --git a/Tests/OpenAITests/AudioChatQueryCodingTests.swift b/Tests/OpenAITests/AudioChatQueryCodingTests.swift
@@ -17,7 +17,7 @@ struct AudioChatQueryCodingTests {
                 .init(role: .system, content: .text("You are a helpful assistant")),
                 .init(role: .user, content: .text("Hello"))
             ],
-            modalities: ["text", "audio"],
+            modalities: [.text, .audio],
             audio: .init(voice: .alloy, format: .pcm16)
         )
 
@@ -57,7 +57,7 @@ struct AudioChatQueryCodingTests {
                     .init(inputAudio: .init(data: audioData, format: .wav))
                 ]))
             ],
-            modalities: ["text", "audio"],
+            modalities: [.text, .audio],
             audio: .init(voice: .onyx, format: .pcm16)
         )