Система оптического распознавания текстов (OCR) на Google Drive пополнила список поддерживаемых языков — теперь их количество превышает 200 (клингонского пока нет). Вместе с тем, число систем письма, в которых может быть написан текст, выросло до 25. Для добавления новых языков и улучшения распознавания старых инженеры используют скрытые модели Маркова, которые применяются в компании для возможностей распознавания речи и голосового поиска.
Последовательность распознавания текста очень проста. Необходимо загрузить файл (картинки в JPG, PNG, GIF-форматах или PDF-документ) на сервис:

И открыть его с помощью Google Docs — в примере используется фрагмент на хинди. Аналогично процесс выглядит и …