Chatgpt Discurso a conversión de texto

Conversión de discurso a texto de chatgpt

Con las capacidades de discurso de chatgpt a texto, puede convertir fácilmente los archivos de audio en texto escrito. Puede decir adiós a la tediosa tarea de transcripción y pasar a una forma más eficiente de procesar contenido de audio. En este artículo, aprenderá cómo convertir el audio en mensajes de texto utilizando las características de ChatGPT.

Introducción

Hace unas dos semanas, Openai presentó el chatgpt Whisper AP. El modelo de versión principal de OpenAi de primera clase Open Source Bread 2 ofrece dos puntos finales en la API de conversión de voz a texto: transcripción y traducción.

Estos puntos finales permiten a los usuarios:

  1. Transcribir audio desde el lenguaje fuente,
  2. Traducir y transcribir audio al inglés.

Sin embargo, tenga en cuenta que las cargas de archivos actualmente están limitadas a 25 MB. La API actualmente admite los siguientes tipos de archivos: MP3, MP4, MPEG, MPGA, M4A, WAV y WebM.

Inicio rápido

Para utilizar la API de transcripción CHATGPT, debe proporcionar el archivo de audio que desea transcribir y especificar el formato de archivo de salida deseado para la transcripción.

# NOTA: debe usar Operai Python V0. 27. 0 # para el código a continuación para trabajar Importar OpenAi Audio_File = Open ("/Path/To/File/Audio. mp3", "RB") Transcript = OpenAI. audio. Transcribe("Whisper-1", audio_file)

Por defecto, obtendrá una respuesta en formato JSON:

Si necesita incluir parámetros adicionales en su solicitud, simplemente puede agregar más líneas de formulario con los parámetros apropiados. Si desea especificar el formato de salida como texto, puede agregar la siguiente línea:

.--Form file=@openai. mp3 {--Form Model = Whisper-1 \ --Form Response_Format = Texto

Traducciones

La API de traducciones toma un archivo de audio en cualquiera de los idiomas compatibles y transcribe el audio al inglés. Es importante tener en cuenta que esto es diferente del punto final /transcripciones, donde la salida se representa en el lenguaje de entrada original en lugar de traducirse al inglés.

Traducir el ejemplo de audio:

# NOTA: debe usar Operai Python V0. 27. 0 # para el código a continuación para trabajar Importar OpenAi Audio_File = Open ("/Path/To/File/German. mp3", "RB") Transcript = OpenAI. audio. Translate("Whisper-1", audio_file)

En este caso, la entrada de audio estaba en alemán, y la salida de texto resultante es la siguiente:

"Hola, mi nombre es Wolfgang y vengo de Alemania. ¿A dónde te diriges hoy?"

Actualmente solo se admite la traducción al inglés

Idiomas compatibles

El discurso de chatgpt a las API de texto actualmente admite los siguientes idiomas a través del punto final de transcripción y traducción:

Afrikaans, árabes, armenios, azerbaiyanos, bielorrusos, bosnios, búlgaros, catalán, chinos, croatas, checos, daneses, holandeses, inglés, estonés, finlandés, francés, gallego, alemán, griego, hebreo, hindi, húngaro, islandés, indonesio, indonesio, Italiano, japonés, japonés, kannada, kazajro, coreano, coreano, letón, lituano, macedonio, malayo, marathi, maorí, nepalí, noruego, persa, polaco, portugués, rumano, ruso, serbio, eslovak, eslovino, español, swahili,, Sueco, tagalo, tamil, tailandés, turco, ucraniano, urdu, vietnamita y galés.

Mientras que el modelo base fue entrenado en 98 idiomas diferentes. Solo los idiomas para los cuales la tasa de error de la palabra (WER) es inferior al 50% se muestran arriba. Este es el punto de referencia estándar de la industria para medir la precisión de un modelo de voz a texto.

La precisión puede reducirse significativamente porque el modelo aún puede proporcionar resultados para idiomas que no sean enumerados.

Entradas más largas

La API Whisper tiene un límite predeterminado de 25 MB para archivos de audio. Si su archivo de audio excede este límite, deberá dividirlo en trozos de 25 MB o menos o usar un formato de audio comprimido.

Vale la pena señalar que para un rendimiento óptimo, se recomienda evitar interrumpir el audio en medio de una oración, ya que esto puede causar cierta pérdida de contexto.

Pista

Al usar la solicitud, puede mejorar la calidad de las transcripciones producidas por la API Whisper. El modelo tiende a coincidir con el estilo de la solicitud, lo que significa que si el aviso usa capitalización y puntuación, es probable que el modelo haga lo mismo.

Las señales pueden ser increíblemente útiles para corregir ciertas palabras o abreviaturas que el modelo a menudo identifica erróneamente en el audio.

Sin embargo, es importante tener en cuenta que nuestro sistema de insinuación actual tiene más limitaciones que otros modelos de idiomas y proporciona solo un control limitado sobre el audio generado.

Chat GPT: red neuronal en español. servicio online en españa