Неискусственный интеллект:
кто виноват в некорректной
работе машинного обучения

Делимся поучительной историей одного чат-бота, обученного на миллионах любовных переписок. После успешного старта бот внезапно начал оскорблять пользователей и сливать их персональные данные. Эта история наглядно показывает, что все беды искусственного интеллекта — от нас самих.

От любви

В 2016 году южнокорейская компания ScatterLab решила помочь парам и любовникам разобраться в их чувствах и запустила сервис Science of Love (Наука любви) как «научное и управляемое данными» приложение, которое определяет степень привязанности в отношениях.

Суть его в следующем: пользователи загружают в сервис свои любовные переписки из мессенджеров и соцсетей, платят почти $ 5 и получают подробный отчет с информацией о том, испытывал ли партнер по переписке какие-либо чувства. Приложение анализирует скорость ответов собеседника на реплики, объем и содержание текста, наличие смайликов и так далее.

К концу 2020 года приложение Science of Love установили почти 10 млн пользователей из Южной Кореи и Японии, а в 2021 году разработчики ScatterLab нацелились на рынок США.

Успех сервиса и планы компании начали рушиться, когда разработчики решили использовать данные пользователей в создании разговорного чат-бота Lee-Luda. В декабре 2020 года ScatterLab представили этот бот с искусственным интеллектом, обученным на 10 млрд журналов разговоров из приложения Science of Love. Бот был реализован как доброжелательная и умная 20-летняя девушка, которая хочет стать настоящим другом и приятным собеседником для всех.

Способность современных чат-ботов общаться как человек в значительной степени зависит от используемых моделей машинного и глубинного обучения (которые вместе можно назвать ИИ). Если людям нравится конкретный чат-бот, значит он был обучен на большем количестве данных — человеческих разговоров.

До ненависти

Через две недели после запуска Lee-Luda пользователи стали фиксировать оскорбительные реплики от ИИ в адрес разных социальных групп: представители ЛГБТ, люди с ограниченными возможностями и др. Бот начал писать людям откровенные и неприличные сообщения сексуального характера. В компании ScatterLab поспешили прокомментировать множественные инциденты тем, что разработчики не до конца почистили собранные от пользователей приложения Science of Love данные, поэтому в ответах попадаются неприличные слова.

Однако позже оказалось, что «не полностью удаленным» оказался огромный массив данных. «Милая и дружелюбная» Lee-Luda в переписках с пользователями помимо некорректных и откровенно неприличных высказываний начала использовать реальные имена, прозвища и домашние адреса людей.

Сотрудникам ScatterLab снова пришлось оправдываться. В своем пресс-релизе они заявили, что «не смогли удалить некоторую личную информацию», но все же заверили, что набор данных, используемый для обучения Lee-Luda, «не включал имена, номера телефонов, адреса и электронные письма, которые можно было бы использовать для проверки личности». Однако независимые южнокорейские ИТ-специалисты опровергли заявление компании.

По их данным, Lee-Luda никак не могла научиться включать личную информацию в свои ответы, если бы она действительно не существовала в наборе тренировочных данных. Эксперты даже нашли часть этих данных в открытом доступе, «разобрали» небольшую часть массива и обнаружили в ней имена более 20 реальных человек, места их работы и проживания, статус отношений и даже некоторую медицинскую информацию.

Позднее ScatterLab опубликовала еще одно заявление. Теперь сообщение имело явно извиняющийся характер. Разработчики написали, что «Lee-Luda — это детский ИИ, который только начал разговаривать с людьми», ему «есть чему поучиться» и «он пробует и ошибается, как простой человек». В компании пообещали разобраться в ситуации и тщательно почистить тренировочную базу данных.

На момент написания этого материала нет никаких новостей о том, что ScatterLab удалили всю персональную информацию из базы данных бота. По некоторым слухам, компания заморозила планы выхода на рынок США в связи с падением числа активных пользователей бота и приложения. Неудивительно.

О чем эта история?

Можно отдельно остановиться на сознательности пользователей сервиса Science of Love. Каждый человек должен самостоятельно следить за своими данными и контролировать, к какой информации он дает доступ третьим лицам. Подробно о людях, как о товаре мы писали ранее.

В начале материала мы назвали эту историю поучительной. И это так. В нашем случае из скандала с чат-ботом Lee-Luda вы можете сделать вывод о том, что стартапам и небольшим разработчикам вроде ScatterLab, пусть и входящими в топ-3 в Южной Корее, доверять нельзя. Однако в реальности же проявление халатности свойственно и очень крупным технологическим компаниям.

В описанной истории экспорт любовных переписок из мессенджеров и соцсетей осуществлялся через сервис KakaoTalk, принадлежащий одной из крупнейших технологических компаний в Южной Корее. Компания Kakao молчала на протяжении всего инцидента со ScatterLab.