fbpx
Соцсети

Ваши посты в Фейсбуке читают работники индийской компании, чтобы тренировать ИИ

У них есть доступ ко всему: именам, фотографиям, текстам и комментариям постов.

Новые данные получили журналисты информагентства Reuters. Согласно им, работники индийской компании Wipro читают посты разных пользователей Фейсбука и Инстаграма, чтобы помочь этим соцсетям натренировать системы искусственного интеллекта.

Технокомпания обратилась в Wipro за помощью ещё в 2014 году. Для выполнения задачи наняли 260 работников, задача которых — читать посты и отмечать их разными метками.

Как сообщает Reuters, посты оценивают по пяти параметрам:

  • контент поста (сэлфи, еда, путешествия),
  • повод для написания (событие из жизни, какая-то другая активность),
  • элементы самовыражения (мнения, чувства),
  • намерение автора (планирование события, желание пошутить или вдохновить кого-то),
  • описываемое место (дом, школа, работа, улица).

Работники Wipro получают контент в виде скриншотов, которые включают в себя сами посты и комментарии к ним. Иногда в них встречаются имена пользователей и другая приватная информация.

ИИ действительно крайне плохо понимает человеческий язык. И практически не способен различать оттенки эмоций. А когда дело доходит до разных языков, связи с картинками, видео и ссылками, то нейросети приходится особенно тяжело.

Так схематически выглядит маркировка текста: люди отмечают разные части текста специальными тегами, которые совпадают по смыслу слова или фразы

Чтобы обучить алгоритмы, разные компании пытаются добыть гигантские массивы данных. В Фейсбуке решили, что можно воспользоваться контентом, который генерируют сами пользователи. И отдали его на «маркировку». Это действительно популярный приём в мире. Аутсорсеры за небольшую плату размечают нужные элементы на объектах, чтобы в итоге на огромном количестве полученной информации ИИ смог научиться делать это сам с тем же уровнем качества.

Причём Фейсбук не единственный, кто использует для маркировки контент своих пользователей. В прошлом месяце журналисты Bloomberg раскопали, что работники Amazon слушают разговоры, записанные с помощью их умной колонки Echo. Затем их расшифровывают и точно так же маркируют их, чтобы обучать своего виртуального помощника Alexa. Достаточно легко себе представить, как тем же самым занимается Google, Microsoft или Apple.

И в этом не было бы никакой новости, если бы сами пользователи знали о «слежке». По сути особой угрозы такой способ тренировки алгоритмов не несёт (хотя могут быть исключения). Но где же тогда грань приватности в интернете? Почему никто из этих огромных компаний не даёт своим клиентам право отказаться от использования их постов и разговоров в таких целях? И никто не говорит, как долго хранится эта информация и куда девается потом.

Обучение самоуправляемых автомобилей проходит по такой же схеме. Человек отмечает на фотографиях важные элементы дороги, а ИИ учится их различать

Кроме того, никто не спешит нас заверить, что каждый сотрудник с доступом к такому контенту прошёл тщательную проверку и подписал все возможные бумаги о неразглашении. Один анонимный источник из компании Cognizant Technology Solutions Corp сообщил Reuters, что «он и не меньше 500 его коллег ищут в видео Фейсбука чувствительную тематику или ненормативную лексику». А в целом на соцсеть работает около 200 подобных компаний по всему миру, количество сотрудников в которых исчисляется тысячами. И все они занимаются просмотром контента с разными целями, включая маркировку для алгоритмов.

Фейсбук не стал отрицать полученные Reuters данные, добавив, что всё это делается на законных основаниях. И есть специальная команда, которая следит за приватностью процесса маркировки контента. Компания заявила, что недавно ввела новую систему аудита, чтобы «убедиться в следовании правилам безопасности».

Скорее всего, так и есть. Фейсбук действительно действует в рамках законодательства. Потому что оно в принципе только недавно начало обращать внимание на бесконтрольное использование личных данных. А уж про тренировку ИИ среди чиновников никто пока не слышал. Но насколько это честно по отношению к пользователям?

52580509