Обработка входящей почты
При обработке входящей почты мы хотим отличать spam от обычных писем. Эта информация тоже записывается в виде матрицы, где строки соответствую текстам, а столбцы — словам. Скажем, элемент в пятой строке и седьмом столбце равен числу вхождения седьмого слова в словаре в пятый текст. При этом мы знаем, что при оценке схожести текстов не все слова нужно учитывать одинаково: тексты, где часто встречаются союзы «и», «а» не обязательно похожи, а тексты, в которых часто упоминаются слова «мебель», «ремонт» — наверняка. Чаще всего используют специальные нормировки, такие как преобразование
TF-IDF, оно позволяет нивелировать предлоги, союзы или артикли, и увеличивать вес слов, которые встречаются реже. Другие примеры задач с текстами: детектирование оскорбительных отзывов на форумах и каталогизация информация на новостных ресурсах (алгоритм кладет новость в папку, которая соответствует теме новости). Есть алгоритмы, которые оценивают гранты с точки зрения их успешности. Они исследует аннотации грантов, описания проектов, состав участников и т.п.
Работа с графической информациейТехнология deep-learning, которая очень популярна на Западе, в основном применяется для распознавания и классификации графической информации: изображений, даже видео-потоков и так далее. Начиная от простых задач типа распознать рукописные цифры до того, что программа отличает, кошка или собака изображены на фотографии. Такие алгоритмы часто не только учатся распознавать, но и показывают, в каком месте фотографии расположен интересующий нас объект.
Обработка естественного языка и искусственный интеллектТехнология
word2vec переводит слова в векторы. В результате анализа большого массива текстов слова отображаются в некотором многомерном пространстве с помощью функции f, то есть каждому слову соответствует числовой вектор. Если мы из функции f слова «Россия» вычтем f от «США» и прибавим f от «Обама», то получится вектор, похожий на f от «Путин». Таким образом, с точки зрения упоминания слов в текстах разница между США и Россией примерно такая же как между Обамой и Путиным, и если мы сделаем то же самое с Германией, не факт, что результатом станет фамилия президента, а не канцлер, поскольку алгоритм смотрит именно на употребляемость. Так же, если из слова «брак» вычесть «Бред Питт» получится «Анджелина Джоли». Подробнее об этом можно почитать
здесь.