Quiero poder utilizar servicios TTS basados en la nube (como AWS Polly o Google Cloud Text-to-Speech) como si fueran voces instaladas localmente. Las voces nativas me han parecido inadecuadas para algunas necesidades de accesibilidad y los servicios TTS basados en la nube parecen ofrecer la forma más agradable y asequible de resolverlas. Sin embargo, no encuentro ninguna herramienta que pueda ayudarme con esto (por ejemplo, crear una voz de sistema que se conecte a un servicio en una plataforma en la nube y facilite la funcionalidad). ¿Cómo podría hacerlo?
Respuesta
¿Demasiados anuncios?https://cloud.google.com/text-to-speech/docs/quickstart-protocol Este artículo enumera todos los pasos necesarios.
- Habilitar la prueba del servicio en la cuenta de Google.
- Instalación de SDK
^ Esta es una configuración de una sola vez. Hay que repetir lo siguiente.
-
Haga que el
curl
que puede ejecutar un shell. Esto tiene tres partes, dos de las cuales son fijas:voice
tipo yaudio config
. La tercera,input
necesita ser cambiado. * -
Obtener la respuesta JSON y guardarla en un archivo de texto.
-
Decodificar el archivo de texto, a mp3 usando
base64 synthesize-output-base64.txt --decode > synthesized-audio.mp3
-
Tócalo.
-
Enlaza todo esto en un acceso directo para la aplicación preferida como servicio.
La mayoría de sus tareas de shell se pueden hacer a través de "ejecutar shell script" en automator.
* Para cambiar la parte del texto, puedes encontrar múltiples preguntas, o incluso pedir una para saber cómo obtener el texto seleccionado en una variable de Automator. Otra opción sería copiar y pegar el texto en la ventana emergente de una aplicación de Automator.
A continuación, pon esa variable de texto en el shell script.
A continuación, haz una carpeta dedicada a todos los archivos de texto y audio que se harán en una acción. Guarde allí la respuesta JSON recibida. El comando para decodificarlo será fijo, ya que la ubicación y el nombre del archivo es el mismo.
Todo esto se puede poner en una aplicación de Automator que muestra una ventana emergente que tiene un campo de texto y un botón de enviar/reproducir.
0 votos
¡hola @james ! En qué aplicaciones quieres utilizarlos?
0 votos
Hola @ankii - Principalmente Claroread en este momento, aunque tal vez haría un mayor uso de TTS con otras aplicaciones (como Word) si la funcionalidad que estoy preguntando se puede lograr.