Распознавание картинок яндекс: Алиса — поиск по картинкам – «Как воспользоваться функцией «Поиск по картинке» в Яндексе и Google?» – Яндекс.Кью

Что вы видите на этой картинке? — Блог Яндекса

25 марта 2015, 13:11

Распознавание изображений — одна из самых сложных задач для компьютера. Мы уже рассказывали о том, как устроено компьютерное зрение и как оно применяется в наших сервисах — например, при поиске похожих изображений в Яндекс.Картинках. Теперь технология компьютерного зрения работает и в Яндекс.Диске — благодаря ей вы можете найти изображения форматов JPEG, GIF и PNG, содержащие текст поискового запроса. Достаточно ввести в поисковую строку нужное слово, и система найдёт на Диске картинки, на которых оно встретится. В результатах поиска вы увидите изображения с этим словом, документы, в тексте которых оно содержится, а также файлы и папки, в названиях и описаниях которых есть это слово.

Когда на Диске тысячи фотографий, разложенных по разным папкам, поиск по текстам позволит быстро найти среди них нужную. Например, скан договора с названием вроде scan723.JPG или фотографию визитки человека, с которым понадобилось связаться. Искать можно не только документы, но и любые фотографии, которые сделаны для того, чтобы сохранить текст, будь то объявление на двери подъезда или любопытный рекламный плакат в метро.

В основе поиска текстов на изображениях лежит технология оптического распознавания символов. Систем распознавания, опирающихся на эту технологию, много, и все они разные. Какие-то решают определённую задачу, например распознают партитуры, какие-то работают только с чистым текстом. Для Яндекс.Диска мы разработали свою универсальную систему, способную распознавать текст на картинках разных по виду, содержанию и, главное, качеству.

Система состоит из двух частей — классификатора картинок и модуля распознавания. Сначала классификатор, глубокая нейронная сеть, отбирает из всех картинок те, на которых изображён текст. Он учится отличать их от прочих на огромной базе изображений. Использование машинного обучения позволяет добиться высокого качества распознавания — ведь алгоритм опирается не на какие-то вручную заданные правила, а на опыт анализа миллионов разных картинок. Когда изображения с текстом отобраны, алгоритм находит на них линии, предположительно содержащие текст, — различать их помогает ещё одна нейронная сеть. На следующем этапе алгоритм оставляет только те линии текста, в которых он уверен.

Затем модуль распознавания разбивает линии текста на отдельные символы. Для каждого символа алгоритм выбирает несколько наиболее вероятных вариантов распознавания среди известных ему. Например, это могут быть буквы «О», «о» и цифра «0», очень похожие друг на друга. После этого в дело вступает языковая модель — алгоритм принимает решение, какой из символов-кандидатов подходит лучше всего. Языковая модель опирается на словари и учитывает не только сходство символов с теми, что знает система, но и контекст, то есть соседние символы. Если из нескольких вероятных символов складывается известное системе слово, то она может принять решение, что на картинке написано именно оно. Даже если некоторые символы-кандидаты в этом слове менее вероятны, чем другие.

Конечно, точность распознавания текста (а значит, и успех поиска) зависит от типа изображения, его чёткости, фона, на котором находится текст, и многих других факторов. Поэтому для разных видов изображений она разная. Например, для отсканированных документов точность распознавания текстов на русском языке составляет около 80%, для фотографий с надписями — 63,2%, а для скриншотов приближается к 100%. Помимо русского языка, система также распознаёт английский, украинский и турецкий. Точность распознавания текстов всего потока изображений более 70%. Это неплохой результат, но мы будем работать над его улучшением.

Яндекс.Диск для работы с фото — Блог Яндекса

28 марта 2019, 12:30

Мы обновили раздел «Фото» в приложении Яндекс.Диска для Android. Он превратился в универсальную фотогалерею — в ней отображаются все ваши фотографии и видеозаписи: и те, которые лежат в памяти смартфона, и те, которые загружены в облако. Больше не нужно вспоминать, где что искать. Снимки из позапрошлогоднего отпуска, свежие сканы документов, видео с мартовского утренника в детском саду — всё хранится в одном приложении.

Для работы с галереей не требуется доступ в интернет. В офлайне можно просматривать фото и видео из памяти смартфона, удалять их и делиться снимками с друзьями — они получат их, как только вы снова подключитесь к сети.

Особое внимание мы уделили скорости работы. Диск составляет маленькие превью фотографий из облака. Такие превью мало весят, но в то же время по ним без труда можно понять, что изображено на снимках. А когда вы открываете ту или иную фотографию во весь экран, приложение сразу начинает загружать следующие за ней снимки, чтобы вам не приходилось долго ждать при перелистывании.

Иногда требуется найти в архиве конкретное фото: снимки собаки, горный пейзаж, скан страхового полиса, картинку с пляжем. Для поиска фотографий Диск использует разработанную в Яндексе технологию компьютерного зрения. Алгоритмы сопоставляют текст запроса и сюжет снимков, хранящихся в вашем облаке, и находят соответствия. Например, если вам понадобилась ксерокопия паспорта, Диск отыщет нужное, даже если в названии файла нет никаких подсказок.

Чтобы вам было проще сориентироваться в потоке фотографий и видеозаписей, Диск раскладывает их по годам и месяцам. Заодно приложение указывает, где они были сняты, — можно быстро восстановить в памяти географию путешествий.

Обновлённое приложение Диска уже доступно в Google Play. Поиск по содержимому фотографий работает и на других платформах: в веб-версии и в приложении для iOS. Диск предоставляет безлимитное пространство для хранения фото — снимки в облако можно грузить гигабайтами, не опасаясь, что место когда-нибудь закончится.

Оптическое распознавание текста (OCR) | Яндекс.Облако

В этом разделе описано, как работает возможность распознавание текста (Optical Character Recognition, OCR).

Подготовка запроса на распознавание

В запросе вы указываете список возможностей для анализа, которые необходимо применить к изображению. Чтобы распознать текст, используйте тип TEXT_DETECTION и задайте список языков в конфигурации.

Конфигурация запроса

В конфигурации указывается:

  • список языков, на основе которого будет определена языковая модель для распознавания.

    Если вы не знаете язык текста, укажите "*", чтобы сервис выбрал наиболее подходящую модель автоматически.

  • модель, которая будет использована для поиска текста на изображении. Доступные модели:

    • page

      (по умолчанию) — подходит для изображений с любым количеством строк текста.

    • line — подходит для распознавания одной строки текста. Например, если вы не хотите передавать изображение целиком, вы можете вырезать строку и отправить на распознавание только ее.

      На изображении должна быть только одна строка текста, а высота текста должна быть не меньше 80% от высоты изображения, иначе результаты распознавания с моделью line будут непредсказуемы. Пример правильного изображения:

      image

Определение языковой модели

Для распознавания текста в сервисе используется языковая модель, обученная на определенном наборе языков. Модель выбирается автоматически на основе списка языков, который вы указываете в конфигурации.

При каждом распознавании текста используется только одна модель. Например, если на изображении текст на китайском и японском, то распознан будет только один из этих языков. Чтобы распознать оба этих языка, укажите в запросе несколько возможностей для анализа с разными списками языков.

Совет

Для текста на русском и английском лучше всего работает англо-русская модель. Чтобы использовать ее, укажите один из этих языков или оба в text_detection_config, но не указывайте другие языки.

Требования к изображению

Изображение в запросе должно соответствовать следующим требованиям:

  • Поддерживаемые форматы файлов: JPEG, PNG, PDF.

    MIME-тип файла вы указываете в свойстве mime_type. По умолчанию image.

  • Максимальный размер файла: 1 МБ.

  • Размер изображения не должен превышать 20 мегапикселей (длина x ширина).

Ответ с результатами распознавания

Сервис выделяет найденный текст на изображении и группирует его по уровням: слова группируются в строки, строки в блоки, блоки в страницы.

image

В результате сервис возвращает объект, где для каждого из уровней дополнительно указывается:

  • страницы (pages[]) — размер страницы;
  • блоки текста (blocks[]) — расположение текста на странице;
  • строки (lines[]) — расположение и достоверность распознавания;
  • слова (words[]) — расположение, достоверность, текст и язык, использованный при распознавании.

Чтобы показать расположение текста, сервис возвращает координаты прямоугольника, обрамляющего текст. Координаты — количество пикселей от левого верхнего угла на изображении.

Координаты прямоугольника считаются от левого верхнего угла и указываются против часовой стрелки:

Пример распознанного слова с координатами:

{
  "boundingBox": {
    "vertices": [{
        "x": "410",
        "y": "404"
      },
      {
        "x": "410",
        "y": "467"
      },
      {
        "x": "559",
        "y": "467"
      },
      {
        "x": "559",
        "y": "404"
      }
    ]
  },
  "languages": [{
    "languageCode": "en",
    "confidence": 0.9412244558
  }],
  "text": "you",
  "confidence": 0.9412244558
}

Достоверность распознавания

Достоверность распознавания показывает уверенность сервиса в результате. Например, значение "confidence": 0.9412244558

для строки we like you означает, что с вероятностью в 94% текст распознан корректно.

Сейчас достоверность считается только для строк. В значение confidence для слов и языка подставляется значение для confidence строки.

Что дальше

Яндекс научился искать без слов — Блог Яндекса

9 сентября 2013, 12:47

Любой поиск в интернете начинается с запроса, который пользователь вводит в поисковую строку. Запросы могут быть разными, и дело даже не в длине или формулировке, а в самой их форме. Обычно запрос — это слово или несколько слов, но иногда проще решить задачу без них. Скажем, описывать словами, что нарисовано на той или иной картинке, бывает затруднительно. А теперь и не нужно — Яндекс научился искать не только с помощью слов, но и с помощью картинок.

В любом поисковике довольно просто найти информацию о Ниагарском водопаде. Но что если у вас есть только фотография водопада, а Ниагарский он или нет — кто его знает? С помощью поиска по картинке можно быстро это выяснить. Поиск по картинке вообще позволяет легко расширить кругозор и узнать, например, что это за зверь:

 


Можно найти не только описание изображения, но и любую другую связанную с ним информацию. Например, по картинке товара можно найти интернет-магазин, в котором он продаётся, а по фотографии певицы — сайт, где её фотографий целая коллекция. Наконец, можно просто поискать такую же картинку, но, например, не обрезанную или без подписей.

Новая возможность работает на технологии  компьютерного зрения,  созданной разработчиками Яндекса. Она называется «Сибирь» (от англ. CBIR – Content-based image retrieval, то есть поиск изображения по содержанию). После того как пользователь загрузил картинку, поисковая машина превращает её в набор визуальных слов. Визуальные слова — это удобные для поиска численные представления ключевых элементов картинки (границы объектов, контрастные области и так далее). После этого поисковая машина выбирает среди известных ей миллиардов картинок изображения, содержащие такие же визуальные слова, как на загруженной картинке, отсекая все остальные. Это важный этап, потому что для увеличения скорости необходимо сузить область поиска. Потом компьютер сопоставляет расположение ключевых элементов на оставшихся изображениях и выстраивает их по близости к загруженной картинке так, что сверху оказываются наиболее похожие. Всё это занимает меньше минуты.

 


Искать похожие изображения среди миллиардов картинок в интернете очень сложно, во всём мире это умеют делать лишь несколько компаний. Наш поиск по картинке — это лишь первый шаг на довольно трудном пути. Сейчас Яндекс ищет картинки, совпадающие с загруженной или имеющие идентичные фрагменты, но постепенно будет учиться большему. К примеру, поиск уже показывает способности к обобщению: иногда находится не просто такая же картинка, а другое изображение, содержащее такой же объект. Например, поиск по изображению Эрмитажа, взятому из панорам на Яндекс.Картах, даёт такой результат.

Так что впереди ещё много интересной работы, результат которой вы обязательно увидите.

Александр Крайнов, менеджер проектов компьютерного зрения

Поиск по фото через Алису — распознавание фото

Уже к середине 2018 года разработчики компании «Яндекс» сумели «научить» голосового помощника Алису распознавать изображение на картинках и фотографиях. Пока система работает не идеально, однако лучшие умы «Яндекса» непрерывно улучшают работу программы.

Как происходит поиск по фото?

Попытки «научить» компьютер различать изображения ведутся уже давно. Специалисты по информационным технологиям и прикладные математики объединили свои усилия и поставили перед машиной задачу классифицировать множество объектов по различным признакам.

Варианты поиска похожей картинки:

  • Перебор видов одного и того же объекта под различными углами, с использованием разных масштабов.
  • Исследование контуров объектов, определение углов, радиусов и форм.
  • Через искусственные нейронные сети. Эти структуры классифицируют объекты и запоминают полученные и обработанные данные. Они способны обучаться в процессе работы, основываясь на результатах выполненных задач.

Поиск по фотографии через Алису

Как Алиса ищет по фото?

Функционирование сервиса основано на взаимодействии нейронных компьютерных сетей и уникального программного обеспечения, созданного IT-сотрудниками компании Yandex.

Разработчики подчеркивают, что программное обеспечение, управляющее сервисом Алиса, использует методики машинного обучения. Это помогает решать новые задачи, учитывая аналогичный опыт и массу данных.

Сервис создавался для облегчения поиска по изображениям в интернете. У него много различных функций и возможностей.

Алиса подскажет, что видно на фотографии, выдаст полезные тематические ссылки. Если сфотографировать собаку, кота или другое животное помощник сообщит породу, а также интересные сведения о нем.

Поиск по фотографии через Алису

Можно сделать снимок таблички с текстом (Алиса переведет текст при помощи службы Яндекс.Переводчик). Это полезно, если попался неизвестный указатель с малопонятной надписью в другой стране. Еще можно перевести любую фразу на различные иностранные языки.

С помощью программы можно быстро отыскать требуемый товар на Яндекс.Маркет – достаточно одной фотографии заинтересовавшего товара: кофточки, туфель, автомобиля неизвестной марки.

Поиск по фотографии через Алису

Как начать работу с Алисой?

Необходимо загрузить на Андроид или iOS браузер Yandex, либо приложение Яндекс Поиск, по умолчанию голосовой помощник там уже есть.

Яндекс Поиск

[ag-appbox googleplay ru.yandex.searchplugin&hl=ru platform=»Android» link=»https://ad.admitad.com/g/4sg9qh5bpt5c1ae38a4ed607c2bbf7/»]

[ag-appbox appstore id1050704155 platform=»AppStore» link=»https://ad.admitad.com/g/hszibk9txu5c1ae38a4e82e8910f05/»]

Яндекс Браузер

[ag-appbox googleplay com.yandex.browser&hl=ru platform=»Android» link=»https://ad.admitad.com/g/34y5hcjxsx5c1ae38a4e0aa7800eed/»]

[ag-appbox appstore id483693909 platform=»AppStore» link=»https://ad.admitad.com/g/yj7kyxk12a5c1ae38a4ea3a38c19f2/»]

В автоматическом режиме установится браузер с функцией голосового помощника. Теперь можно его открыть, нажав на значок в рабочей области экрана.

Примеры поиска по картинкам

В качестве проверки можно попробовать выполнить поиск по фотографиям известных людей, животных, пейзажей, автомобилей. Цель — дать возможность сервису определить тип объекта и убедиться в эффективности работы алгоритма.

Для эксперимента Алисе было предложено определить, что изображено на фотографии.

Фото знаменитостей

Попробуем найти человека по снимку. Для этого можно сделать фото на камеру или загрузить готовую картинку. Как показала практика, Алиса безошибочно узнаёт известных людей не только на цветных кадрах, но и на черно-белых.

Поиск по фотографии через Алису

Фото автомобилей

Алисе было предложено определить марку автомобиля, с чем она отлично справилась.

Ваз 2106

Фото животных

Алиса смогла с первого раза определить вид бабочки.

Поиск по фотографии через Алису

Британский кот также был опознан:

Поиск по фотографии через Алису

Ещё раз убеждаемся, что официальный ресурс не врёт и Алиса действительно может оказать содействие в определении породы питомцев.

Фото пейзажей

Программа сумела узнать известную парижскую башню.

Поиск по фотографии через Алису

И рассказала об особенностях горнолыжного курорта.

Поиск по фотографии через Алису

Фото с текстом на табличках

Алисе также удалось прочитать надпись на табличке с названием улицы.

Поиск по фотографии через Алису

С надписью на английском Алиса тоже справилась и успешно перевела на русский:

Поиск по фотографии через Алису

Множество объектов

В конце эксперимента сервису была показана групповая фотография, и с этим Алиса справилась прекрасно.

Поиск по фотографии через Алису

Польза сервиса

Хотя разработчики прямо заявляют, что над сервисом нужно еще работать не один год, тем не менее уже сейчас его можно использовать.

У Алисы есть конкуренты — помощники со схожими способностями, созданные компаниями Google и Apple, но разработчики Яндекс считают свое детище более гибким и перспективным.

Области применения очевидны:

  • Поиск мест по фотографиям – если Вы забыли название какого-то курорта, на котором отдыхали когда-то, Алиса поможет вспомнить и сделает это в большинстве случаев;
  • Поиск товаров – например, если нужно купить вещь, которая понравилась – достаточно сделать фото и отыскать ее на торговых площадках Яндекса или в других магазинах;
  • Поиск людей – хотя такой эксперимент не проводился, но наверняка можно искать друзей, имеющих аккаунты в социальных сетях, если они опубликовали свои реальные фотографии. Во всяком случае с поиском известных людей Алиса справляется безошибочно.
  • Перевод текстов с фотографий – может пригодиться, если в незнакомой местности попалась неизвестная надпись. Алиса использует способность различать шрифты, затем воспользуется Яндекс-переводчиком и выдаст результат.

Ключевое условие работы сервиса — наличие доступа к сети.

Заключение

Сервис Алиса теперь умеет распознавать фотографии. Хотя ряд пользователей говорят об ошибках, которые были замечены при функционировании этой опции, разработчики уверяют, что совсем скоро программное обеспечение станет работать намного лучше, ведь сама Алиса становится «умнее» благодаря технологии машинного обучения.

Программисты и простые пользователи-энтузиасты постоянно участвуют в модернизации программного кода, добавляя сервису больше полезных функций и навыков.

Просмотры: 6 819

Author: admin

Отправить ответ

avatar
  Подписаться  
Уведомление о