Известно, что Facebook ставит на своих пользователях настоящие эксперименты. Один из них - изучение влияния платформы на человеческие эмоции. Скорее всего, решение соцсети добавить к простому «лайку» реакции - любовь, смех, удивление, грусть и злость - стало одним из первых его результатов. То, каким образом пользователь реагирует на тот или иной контент позволяет, с одной стороны, фильтровать ленту для его удобства (ведь давно известно, что мы видим далеко не все, на что подписаны), с другой - таргетировать всевозможную рекламу. Есть ли у этого процесса другие стороны?
Что они могут
Корпорации Facebook Inc принадлежит самое большое в мире хранилище цифровых изображений. Благодаря соцсетям визуальный контент играет все большую роль в виртуальной жизни. Вы сделали фотографию, и открываете Facebook: приложение предлагает вам ее опубликовать, даже если вы не собирались. Вы публикуете фотографию в Facebook, и он автоматически предлагает вам отметить место, где она сделана, и друзей, которые на ней запечатлены. Скорее всего, вы уже отмечали этих людей раньше или часто общаетесь с ними в рамках соцсети. Вы сами научили Facebook распознавать их, и теперь он знает, как они выглядят. Но даже если вы откажетесь отмечать людей, это не означает, что вся информация, которую соцсеть смогла «подтянуть», не попадет в базу данных ресурса для последующей обработки и использования. «Вася Пупкин, с большой вероятностью, есть на этом изображении. В Ницце, 5 февраля 2017 года. За его спиной горы и море. Он рад» - возможно, в хранилище данных описание выглядит не так красиво, но вся эта информация определяется.
Представьте, что вы делаете селфи в людном месте - на центральной улице, в аэропорте, на концерте. Лица каких-то людей на заднем плане хорошо различимы. Их может быть десятки и даже сотни. Кто-то из них попал в объектив вашего смартфона анфас. Искусственный интеллект Facebook может определить их аккаунты.
Программа DeepFace, которую использует Facebook, распознает лица с точностью до 97,35%. Для человека, к слову, этот показатель определен как 97,5%: то есть, считается, в среднем, что даже родная мать по отношению к ребенку может допустить погрешность в 2,5%.
Google, Microsoft, Facebook и Baidu могут автоматически создавать подборки фотографий, на которых вы не ставили специальных тегов и которые не подписывали. В этом можно убедиться, если вы пользуетесь облачными хранилищами Google Photos или Microsoft OneDrive. Google сам создает папки «Места», «Вещи», «Эмоции», в которых можно обнаружить сортировку по городам и странам, даже если не указывали это сами, и по предметам и явлениям, присутствующим на ваших снимках. Например, памятники, машины, собаки, утки, велосипеды, и более абстрактное - море, небо, пейзажи и многое другое. В OneDrive можно ввести ключевое слово в поиск и сервис покажет фотографии, с ним связанные, которые он смог распознать. Очень много из того, что вы наснимали, автоматически распознается искусственным интеллектом и сохраняется в базах: что-то для вашего удобства и гораздо больше, чем можно предположить - для дальнейшего самообучения программы. С одной стороны, это очень удобно и может пригодиться, с другой - немного пугает.
Для того, чтобы собрать фотографии, на которых есть собаки, приложение должно знать, как выглядят самые разные породы и не сплоховать, если собака запечатлена в редкой позе или перевернута, окутана туманом или сливается с дорогой. При этом приложению нужно не путать собаку с волком и с кошкой. И все это основываясь только на цифровых данных, на пикселях. Как это вообще возможно?
Как это происходит
Искусственные интеллекты, или Al, сокращение от английского Artificial Intelligence, способны распознавать людей, объекты и даже ситуации на изображении с той же точностью, как и люди. И, что самое удивительное, эти искусственные «мозги» не являются чем-то суперсложным с точки зрения «железа»; как и люди, в какой-то момент дойдя до определенного внешнего вида, дальше они просто становятся умнее - учатся на примерах, которые предоставляют им их создатели. Моделируют процесс, который происходит в мозге человека, искусственные нейронные сети. Сама история научного исследования этого вопроса насчитывает уже порядка семи десятилетий, но вычислительная емкость первых искусственных нейронных сетей была ограничена гораздо более низкой мощностью доступных раньше компьютеров. Еще около десяти лет назад бытовало мнение, что они останутся теоретической разработкой, которая не сможет применяться на практике.
Идея нейронных сетей появилась в 50-х годах двадцатого века, а большинство критически важных алгоритмов были написаны в 80-х и 90-х. Но в 2000-х был зафиксирован новый уровень мощность компьютеров и появились гигантские объемы данных - изображений, видео, аудио, текстов - что оказалось критически важным для продуктивной работы нейронных сетей.
Помогло распространение графических процессоров. В начале 2000-х они начали массово применяться в создании портативных компьютеров и разной бытовой техники. Современные графические процессоры быстро и эффективно обрабатывают и отображают компьютерную графику. Они стали основой для создания высокоскоростной трехмерной графики для компьютерных игр и постепенно доросли до мгновенного проведения сотен и тысяч простых математических вычислений. Исследователи нейронных сетей поняли, что эта технология - идеальное решение для вычислений, которые требуются для работы искусственной нейронной сети. В конце концов искусственный интеллект получил доступ к нужной вычислительной мощности для работы с пользовательской информацией, объемы которой и сами к тому времени уже начали стремительно увеличиваться.
По мере достижения нового уровня компьютерной мощности стало понятно, что нейронные сети могут состоять из гораздо большего количества нейронных связей, чем считалось возможным ранее. Развитие нейронных связей обернулось новыми возможностями для обучения искусственных систем. Особенно если принять во внимание, что нейронные клетки группируются в плоские «слои», которые затем собираются и связываются друг с другом в последовательности. Исследователи установили, что эти «более глубокие» нейронные сети, состоящие из большого количества слоев, являются гораздо более мощными, чем ранние сети. Раньше слои обучались определять простые объекты на изображениях, а потом стали обучаться объединять эти простые концепты (объекты и идеи) в более сложные. Так появились так называемые глубокие нейронные сети, то есть способные «думать» глубже.
На огромном количестве примеров глубокая нейронная сеть учится делать выводы. Все большее и большее количество тренировочных изображений, звуков и видеозаписей помогает ей снижать погрешность и вводит в свою базу знаний все новые образы и понятия. Если она хорошо поддается тренировке, то начинает «генерализировать»: при передаче новых данных, которые нейронная сеть прежде не видела, она может выдавать результат на основании того, что уже знает.
Когда нам нужно описать знакомого человека, мы можем сообщить, какая у него прическа, цвет волос, глаз, рост и тому подобное, но это в большинстве случаев не то, что поможет другому найти его в толпе. Сколько вокруг голубоглазых коротко стриженных молодых людей среднего роста? Facebook для этого нужно зафиксировать расстояние между бровями, форму губ и улыбки, ширину скул и другие параметры физиогномики. На самом деле так же люди узнают друг друга, но, конечно, не отдавая себе в этом отчета каждый раз, когда встречают знакомого - это происходит слишком быстро.
Например, нужно создать искусственный интеллект, который умеет определять эмоцию человека на фотографии - улыбается он или негодует. Глубокой нейронной сети дают доступ к десятку тысяч изображений улыбающихся людей - тренировочных данных, а затем десять тысяч - негодующих. Во время обучения она просмотрит все изображения тысячи раз, и для каждой картинки будет давать свой прогноз относительно того, что видит на картинке - улыбку или негодование. При верном определении (в каждом случае) настройки нейронной сети не меняются. В противном случае они немного изменяются в расчете на то, что это поможет сети стать умнее. Такая схема применяется к любому объекту, к тому, что нужно научиться определять.
Через нейронную сеть прогоняют тысячи изображений; для каждой картинки сеть делает выводы о том, что она на ней видит. Если ответ правильный, то ей дают следующее изображение, если нет, то немного изменяет настройки.
В идеале в конце такого тренинга нейронная сеть распознает все тренировочные изображения верно и готова к работе с новыми данными - имеет определенный «багаж знаний», который поможет ей обработать еще не виденное изображение с максимальной точностью. Социальные сети располагают огромным количеством контента, львиную его долю предоставляют сами пользователи, которые не задумываются о том, что любой их «чих» на страницах сети обрабатывается и передается в ту или иную базу данных. Неудивительно, что у большинства компаний-владельцев соцсетей есть внутренние лаборатории искусственного интеллекта или налажено сотрудничество с экспертами для обработки пользовательских данных со своих платформ.
Что дальше
Применение разработок в распознавании изображений, конечно, выходит далеко за пределы социальных сетей. Еще один известный каждому пример - Google Translate. Сервис уже научился переводить в рамках нескольких десятков языков разговорные предложения - то есть живые единицы речи, составляемые в логичные языковые структуры. Это уже далеко не просто «умный словарь». Приложение Google Inbox умеет предлагать готовые алгоритмы для ответов на письма - правда, пока короткие и, кажется, только для англоязычных текстов. Примеров множество. Например, есть приложение, которое в один клик может изменить возраст человека на фотографии и эмоциональное состояние - развеселить грустного, разозлить спокойного. Это уже далеко не просто ретушь.
Самое замечательное в нейронных сетях это то, что ни один человек не запрограммировал компьютер на то, что делают они. Грубо говоря, их учат учить самих себя. Сейчас работать с искусственным интеллектом пробуют самые разные компании - от гигантских корпораций до микроприложений: мониторинг, безопасность, распознавание объектов на изображениях и видеозаписях и многое другое. В основном, для рекомендаций контента и таргетированной рекламы. Учитывая важность аналитики данных, компании продолжают вкладываться в исследование и разработку искусственных интеллектов для поиска и обработки информации в своих продуктах. Для работы в этой сфере осенью прошлого года пять ведущих корпораций в разработке искусственных интеллектов - Google, Microsoft, IBM, Facebook, Amazon - образовали некоммерческое общество.
Глубокое обучение может вывести взаимодействие человека с социальными медиа на новый уровень. Представьте, что вы создаете пост в соцсети, а она предлагает вам небольшие изменения и подходящее к записи изображение, которое поможет привлечь ваше внимание на основе анализа выражения вашего же лица!
Всякий раз, когда вы просто читаете страницы Facebook и ничего не публикуете и не комментируете, приложение создает черновик поста. Наверняка вы замечали при заходе в приложение предложение опубликовать последние сделанные фотографии? Кроме самого изображения, Facebook знает и место, где вы его сделали. Представьте, что скоро на основе изображения он сможет предлагать и черновик текста. Технологии, ведущие к этому, уже созданы и работают.
Подробнее в сюжете: Социальные сети