Несколько проблем с преобразованием речи в текст (транскрипция) Google SDK подробнее

#google-cloud-platform

#google-облачная платформа

Вопрос:

Я столкнулся с несколькими довольно серьезными проблемами в своих попытках разработать приложение для преобразования речи в текст. Некоторые из них (я надеюсь) могут быть просто из-за отсутствия у меня опыта / здравого смысла / глубокого чтения / и т.д. Вот список:

  1. Длинные (> 60 секунд) транскрипции — вынуждают меня использовать пакет GS для первой загрузки звукового файла в пакет. Проблема в следующем: a. Я должен запустить «gcloud auth login» на каждой машине, на которой мне нужно запустить. У меня более 50 компьютеров. Похоже, что это чисто ручная операция, поскольку вам нужно скопировать длинный URL-адрес в свой браузер, нажать enter, щелкнуть по нужной учетной записи, принять разрешения, затем вручную скопировать и вставить представленный ключ обратно в приглашение gcloud и нажать enter там. Хотя это, похоже, в какой-то степени присутствует, оно подвержено одному интересному ограничению: разрешен только 51 компьютер (возможно, 50, я устал пытаться сосчитать). И самый ранний зарегистрированный компьютер отключен от входа в систему, чтобы освободить место для нового входа. Это было очень отвратительно. Все эти проблемы связаны исключительно с использованием пакетов. Более короткая транскрипция не будет использовать GS и завершится без жалоб. Действительно!!!! Неужели нет лучшего способа? Обязательно ли нам использовать gcloud auth login? Вручную???? Количество серверов, которые мы можем использовать с GoogleStorage????

  2. Еще одна проблема с хранилищем Google: для транскрипции требуется, чтобы корзина была «общедоступной». Мы очень беспокоимся о безопасности и конфиденциальности наших клиентов, чьи записи будут в загруженной корзине, даже если они появятся там ненадолго.

  3. Приложение для транскрипции предлагает транскрипции на нескольких языках, но модель «phone_call» привязана к en_US и, похоже, игнорирует языковые настройки. Если я изменю запрос на es_US и предоставлю запись на испанском, она будет вести себя так же. (Но в модели ‘command_and_search’ все работает нормально). Похоже, это эволюционирует, есть идеи, когда / если они перенесут многоязычные функции в модель phone_call?

Если кто-нибудь может помочь, о Мудрейшие, пожалуйста, поделитесь своей мудростью!

murf

Комментарии:

1. Привет, насколько я понимаю, у вас есть 50 компьютеров, и они загружают расшифровку голоса в GS bucket, это правильно? Являются ли эти виртуальные машины GCP или 50 реальной физической машиной? Я думаю, что максимальное количество подключений, которое может принять пакет gs. Я вижу, вы используете команду gcloud auth login, вы пытались использовать gsutil? [1] [1] cloud.google.com/storage/docs/gsutil

2. объявление 1) для этой цели вы можете использовать подписанные URL-адреса: cloud.google.com/storage/docs/access-control /…