#firebase-mlkit #object-recognition #google-mlkit
#firebase-mlkit #распознавание объектов #google-mlkit
Вопрос:
Я хотел бы распознавать и подсчитывать объекты на изображении, например, подсчитывать количество домов на изображении района. Каков наилучший способ сделать это с помощью ML Kit?
Нужно ли мне использовать Object Detection API? Или возможно ли получить несколько тегов «house» с помощью простого средства маркировки изображений?
Ответ №1:
ML Kit Object Detection API (обратите внимание, что теперь он предлагается в виде отдельного SDK) может подсчитывать объекты в потоке изображений / видео, но ограничивается 5 крупнейшими объектами. Кроме того, вы должны оценить, работает ли обнаружение объектов для вашего варианта использования. Это очень общий локализатор, который работает для большинства объектов, однако, когда объекты расположены близко друг к другу / перекрываются, он может не различать их.
Если вам нужно обнаружить более 5 объектов, я бы рекомендовал рассмотреть возможность прямого использования TensorFlow Lite с некоторыми предварительно обученными моделями, доступными в TF Hub, или обучить одну самостоятельно с помощью AutoML Vision Edge, если общие модели не подходят для вашего варианта использования.
Fwiw, Image Labeling присваивает метки, которые описывают сцену изображения. Однако количество объектов не учитывается, обычно вы получаете одну метку «дом».
Комментарии:
1. Возможно ли получить 3D-координаты обнаруженного объекта с помощью MLKit? Или для этого потребуется дополнительный API, такой как ARCore?