1 votos

¿Cómo puedo utilizar los servicios de texto a voz basados en la nube como voces nativas en Mac OS?

Quiero poder utilizar servicios TTS basados en la nube (como AWS Polly o Google Cloud Text-to-Speech) como si fueran voces instaladas localmente. Las voces nativas me han parecido inadecuadas para algunas necesidades de accesibilidad y los servicios TTS basados en la nube parecen ofrecer la forma más agradable y asequible de resolverlas. Sin embargo, no encuentro ninguna herramienta que pueda ayudarme con esto (por ejemplo, crear una voz de sistema que se conecte a un servicio en una plataforma en la nube y facilite la funcionalidad). ¿Cómo podría hacerlo?

0 votos

¡hola @james ! En qué aplicaciones quieres utilizarlos?

0 votos

Hola @ankii - Principalmente Claroread en este momento, aunque tal vez haría un mayor uso de TTS con otras aplicaciones (como Word) si la funcionalidad que estoy preguntando se puede lograr.

1voto

awy Puntos 500

https://cloud.google.com/text-to-speech/docs/quickstart-protocol Este artículo enumera todos los pasos necesarios.

  • Habilitar la prueba del servicio en la cuenta de Google.
  • Instalación de SDK

^ Esta es una configuración de una sola vez. Hay que repetir lo siguiente.

  • Haga que el curl que puede ejecutar un shell. Esto tiene tres partes, dos de las cuales son fijas: voice tipo y audio config . La tercera, input necesita ser cambiado. *

  • Obtener la respuesta JSON y guardarla en un archivo de texto.

  • Decodificar el archivo de texto, a mp3 usando

    base64 synthesize-output-base64.txt --decode > synthesized-audio.mp3
  • Tócalo.

  • Enlaza todo esto en un acceso directo para la aplicación preferida como servicio.

La mayoría de sus tareas de shell se pueden hacer a través de "ejecutar shell script" en automator.

* Para cambiar la parte del texto, puedes encontrar múltiples preguntas, o incluso pedir una para saber cómo obtener el texto seleccionado en una variable de Automator. Otra opción sería copiar y pegar el texto en la ventana emergente de una aplicación de Automator.

A continuación, pon esa variable de texto en el shell script.

A continuación, haz una carpeta dedicada a todos los archivos de texto y audio que se harán en una acción. Guarde allí la respuesta JSON recibida. El comando para decodificarlo será fijo, ya que la ubicación y el nombre del archivo es el mismo.


Todo esto se puede poner en una aplicación de Automator que muestra una ventana emergente que tiene un campo de texto y un botón de enviar/reproducir.

AppleAyuda.com

AppleAyuda es una comunidad de usuarios de los productos de Apple en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X