Проблемы машинного обучения у всех на устах, однако не стоит забывать, что компьютеры хороши ровно настолько, насколько необъективными данными мы их кормим.
Машинное обучение, также известное как Machine learning или сокращенно ML — это настоящая техномания современности. Это место, где сливаются миллиарды долларов венчурного капитала. Все крупные бренды давно осваивают вопрос, а каждый студент-компьютерщик, уверен, что после вуза он будет самым востребованным специалистом.
Газеты и журналы тоже превозносят чудеса технологии, называя ML не иначе как волшебным соусом, который позволяет Amazon знать о том, что вы захотите купить в следующий вторник, а Netflix — угадывать, какие фильмы скрасят ваш вечерний досуг (дело, конечно, в истории ваших просмотров).
Тем не менее для людей, далеких от технологической индустрии, ML остается вопросом непроницаемым, а заодно и пугающим. Новички съеживаются еще больше, когда в дело вступает терминалогия: нейронные сети, «случайный лес», Байесовская сеть, обратная передача ошибки, квадратичные классификаторы… Остановитесь!
Вот и получается, что есть группа людей, которые являются своего рода первосвященниками, и все остальные. А с учетом того, что технология стала для первых знанием почти сакральным, они стремятся любой ценой свести на нет полемику, которая ставит под сомнение пользу ML в рамках всей общности.
“
Ключевой вопрос: «В чем, собственно, заключается машинное обучение?».
Лучше всего визуализировать ML как гигантскую машину по производству колбасных изделий, которая приводится в действие компьютером. В эту машину подают огромную порцию данных (так называемый «учебный комплект»), и после небольшого алгоритмического жужжания мы получаем колбасу — но колбасу не обычную, как все привыкли, а колбасу абстрактную, в форме, например, рисунка, которому алгоритм «научился» из обучающего комплекта.
Затем в машину подается новый поток данных, и на основании своих предыдущих «знаний» она продолжает изучать «колбасное производство», примешивая сюда рекомендации и даже суждения своих создателей. Но поскольку эти решения генерируются компьютером, они становятся предметом изумления граждан, далеких от алгоритмической магии.
Сейчас пришло время отучать себя от рабского съеживания. Самым действенным способом приобщиться к этой абракадабре будет создание понятной метафоры. Она уже существует благодаря художнику и компьютерщику из Сан-Франциско Мачею Сегловски, который ведет один из самых успешных блогов на просторах Интернета.
“
Машинное обучение, — сказал он, — подобно фритюрнице. Если вы никогда не готовили во фритюре, вы подумаете: «Поразительно! Во фритюре можно приготовить все на свете!»
Отчасти это правда. В нашем случае фритюрница представляет собой набор инструментов и статистических методов. Их характер постоянно меняется — это обычная вещь для неконтролируемого обучения. На данный момент это явление именуют большими данными, глубоким изучением или искусственным интеллектом. В следующем году название снова изменится, но основные тезисы останутся прежними. Вы обучаете компьютер на основании массива данных, и он учится распознавать структуру.
Однако тот факт, что этот подход работает в широком диапазоне, должен воззвать к подозрительности. В ситуации с фритюром будет неплохо спросить: «А что именно заливают во фритюр?».
Имиджевый ролик компании Boston Dynamics про робота Spot
Растительным маслом в случае машинного обучения являются данные, используемые для обучения. Если данные загрязнены — по ошибке или предвзятости — тоже самое будет происходить с паттернами, которые появятся на основе введенных данных.
Конечно, адепты ML знают об этом, и самые сознательные из них идут на серьезные жертвы ради обнаружения необъективности. Тем не менее в большинстве ситуаций учебные комплекты представляют собой коллекции повседневных бесед, взятых, к примеру, из социальных сетей. Казалось бы, ничего неожиданного — всего лишь повседневная речь.
Но примечательно вот что: согласно исследованиям Принстонского университета и других образовательных центров, даже повседневная речь обладает скрытыми свойствами, которые очень сложно заметить.
«Сам язык содержит восстанавливаемые и весьма точные слепки наших исторических убеждений», — пишут авторы исследования, обращаясь к расовым, половым и прочим нетривиальным вопросам. Конечно, эти скрытые пристрастия мгновенно отражаются на машинном обучении.
Надо думать, австрийский философ Людвиг Витгенштейн полюбил бы эти исследования, ведь они лишь подтверждают его уверенность в том, что значение слова не стоит искать в каком-то абстрактном определении. Достаточно проследить его использование в повседневной речи. Сторонникам ML стоит обратить внимание на его «Трактат».
Отрицать преимущества машинного обучения глупо. Человечество накопило слишком много данных, и с появлением новых систем глубокого изучения затраты на их обработку снижаются. К тому же система, обученная на релевантных наборах данных, в нескольких итерациях предлагает хорошие варианты исполнения конкретной задачи, будь то распознавание лиц, речи или изображений.
Уже сегодня ML позволяет предприятиям не только обнаруживать закономерности в своих процессах, но и автоматизировать анализ данных, который традиционно осуществляли люди. Все это ведет к существенному удешевлению услуг и продуктов, а, значит, новаторы машинного обучения достойны самых высоких похвал. Тут как нельзя кстати подойдет заглавие «Дивного мира» Олдоса Хаксли:
“
О чудо! Какое множество прекрасных лиц! Как род людской красив! И как хорош тот новый мир, где есть такие люди!