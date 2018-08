Писать о практическом применении облачных технологий и машинного обучения так, чтобы у читателя не возникло желания с улыбкой вспомнить шутку про «эджайл, блокчейн и машин-лернинг», непросто. Но мы постараемся. 🙂 Чтобы показать, как все это работает не в теории, а в реальных крупных проектах, мы пообщались с по-настоящему серьезными парнями — технарями и менеджерами федеральной торговой площадки РТС-тендер.

Основная задача этой площадки — обеспечить проведение эффективных закупочных процедур в электронной форме в соответствии с требованиями регулятора, обеспечить гласность и прозрачность. Поставщики и заказчики сами ищут друг друга, а площадка предлагает инструменты для того, чтобы поставщики находили релевантные закупки, могли принять в них участие, а заказчики могли качественно повысить уровень конкуренции в закупках. Простыми словами, площадка помогает поставщикам и заказчикам найти друг друга. Задача не такая тривиальная, какой кажется на первый взгляд. Хотя для хранения данных о поставщиках и закупках не требуется огромных ресурсов, сам расчет рекомендаций довольно ресурсоемкая задача, нуждающаяся в значительных вычислительных мощностях. Для получения актуальных рекомендаций приходится применять технологии машинного обучения, но обо всем по порядку.

Площадка РТС-тендер с помощью облачных сервисов Microsoft Azure решает одну важную задачу: предоставляет рекомендации для каждой из возможных пар «поставщик — закупка».

В общем процесс выглядит примерно так: анонимизированные данные об активности поставщиков выгружаются в облачную БД Azure SQL DB. Регулярно запускается сервис Azure Functions, он, в свою очередь, с помощью сервиса Azure Batch запускает пулы виртуальных машин, задача которых — организовать распределенные вычисления рекомендаций для поставщиков.

Сервис Batch удобен возможностью гибко масштабировать количество используемых вычислительных мощностей в зависимости от потребности в таких ресурсах. Рассчитанные рекомендации также хранятся в базе Azure SQL DB.

Почему была выбрана платформа Azure, а не, скажем, тот же Amazon? Решающим фактором при выборе облачной платформы стало то, что компания РТС-тендер — золотой партнер компании Microsoft. Благодаря этому имелась возможность оперативно получить помощь от специалистов Microsoft на начальном этапе внедрения новых технологий, что очень важно для любого серьезного проекта. Да и в функциональности продуктов Microsoft никто не сомневался. Их доля на рынке облачных технологий, сравнимая с долей Amazon, говорит сама за себя.

Кроме того, компания уже накопила значительный опыт в работе с продуктами Microsoft, который используется и при внедрении облачных сервисов этого вендора.

На этапе использования облачных сервисов главной целью компании было построить продуктивную систему инференса (расчета рекомендаций) на больших объемах данных, а также доставку результатов непосредственно к пользователям. Обучение пока происходит на собственных вычислительных ресурсах компании РТС-тендер. Полученные модели сериализуются и затем используются в облаке для расчета рекомендаций.

Рекомендации рассчитываются на основе готовых алгоритмов из открытых библиотек, таких как, например, библиотека машинного обучения sklearn. При этом компания экспериментирует и пробует разные методы — линейные модели, деревья решений, нейронные сети, ансамблевые методы, выбирая в итоге те, которые показывают наилучший результат на обрабатываемых данных.

Для целей рекомендательной системы были выбраны ансамблевые методы на основе решающих деревьев, поскольку они лучше работают на задачах ранжирования в нашем случае, а также обеспечивают необходимый баланс точности и скорости инференса.

У компании есть большой массив исторических данных о проведенных на площадке торгах. На основе этих данных «натаскивают» модель машинного обучения, рассчитывающую количественную оценку потенциального интереса поставщиков к тем или иным закупкам, для которых открыт прием заявок на участие. Таким образом, можно индивидуально для каждого поставщика выдавать подборку закупок, которые могут его заинтересовать.

Массив исторических данных — это завершившиеся закупки и заявки поставщиков на участие в этих закупках. И закупки, и заявки хранятся в виде таблиц в базе данных.

Решение принимается на основе оценки сочетаемости поставщика, имеющего какую-то историю заявок, с каждой из вновь появляющихся на площадке закупок.

До вывода новых моделей в продуктив специалисты компании тщательно тестируют их офлайн при помощи различных метрик качества, а потом также проводят онлайн-тесты, то есть А/Б-тестирование.

Специалисты РТС-тендер постоянно мониторят рекомендации в продуктивной системе. Хотя какая-то их часть может оказаться нерелевантной, она не столь значительна, да и небольшое количество «плохих» рекомендаций бывает, как говорится, by design. Ведь нужно стремиться не только повысить точность рекомендаций и показывать максимально релевантные закупки, но также и увеличить такую метрику, как полнота, стараясь предоставить поставщику максимальный выбор закупок.

Иначе говоря, нулевое количество нерелевантных рекомендаций можно показать, только если совсем не показывать рекомендацию. 🙂 С другой стороны, модели не только отбирают закупки для каждого поставщика, но и правильно их ранжируют. То есть редкие малорелевантные для поставщика закупки окажутся у него в самом низу списка рекомендованных закупок.

Прежде чем выводить новую модель окончательно в продуктив, компания тестирует ее на небольшом (в пределах 10%) количестве поставщиков. Проводится ряд статистических тестов (utest, chi-squared test, bootstrap), чтобы убедиться, что модель работает, как ожидалось.

Систему тестирования компания РТС-тендер продолжает дорабатывать для себя самой, сторонних средств автоматизации не используется.

С точки зрения базы данных много ресурсов для реализации подобного проекта не требуется, рекомендательная система использует довольно простые базы объемом в несколько десятков гигабайт. Но все равно это дополнительные ресурсы хранилища, памяти и вычислительной мощности, которые развернуть в облаке получилось более оперативно, чем выделить в своем дата-центре.

А вот расчет рекомендаций — это уже тяжелая задача, на которую могут выделяться десятки (а в будущем, возможно, и сотни) виртуальных машин одновременно в зависимости от сложности пайплайнов и моделей машинного обучения.

Новые актуальные данные выгружаются постоянно, и они всегда готовы к использованию. Есть два основных процесса, которые используют эти данные:

Для инференса используется сервис Azure Batch, который предоставляет удобные инструменты распараллеливания расчетов, как бы пряча под капот процессы управления очередью, балансировки нагрузки, обработки проблем с недоступностью нод (виртуальных машин пула). При регулярном расчете рекомендаций процесс может выглядеть следующим образом:

Вот так работает площадка РТС-тендер. Надеемся, приведенная информация будет полезна при реализации других проектов машинного обучения. Также обрати внимание на врезки, в которых содержится дополнительная полезная инфа.

Линейные модели описывают поведение непрерывной переменной как функции одной или нескольких переменных. Используются для понимания и предсказания поведения сложных систем или анализа экспериментальных, финансовых и биологических данных.

Нейронные сети — это модели (а также их программная/аппаратная реализация), построенные по принципу организации и функционирования биологических сетей нервных клеток живого организма. Библиотека Scikit-learn поддерживает нейронные сети, начиная с версии 0.18. Заинтересовавшиеся могут ознакомиться со статьей Хосе Портиллы A Beginner’s Guide to Neural Networks.

Chi-squared test — статистическая проверка, которая выявляет значимость расхождения распределения выборки и нормального распределения. Данный вид тестирования доступен в библиотеке SciPy.

Utest — библиотека для модульного тестирования в Python. Поддерживается только Python 3. Дополнительная информация и примеры доступны по ссылке.

Bootstrapped — это библиотека Python, позволяющая создавать доверительные интервалы из набора данных. Это полезно в том числе для A/B-тестирования. Код библиотеки и примеры использования доступны по ссылке. Еще одна очень рекомендуемая к прочтению статья.

Небольшой пример: