You are currently viewing Создание «самой большой базы данных в истории» в AWS

Создание «самой большой базы данных в истории» в AWS

  • Post author:
  • Post category:Финансы

Регулятор Уолл-стрит FINRA поднял руку, чтобы создать то, что финансовые комментаторы называют “самой большой базой данных в истории” в публичном облаке AWS.

FINRA является одним из трех участников шорт-листа, конкурирующих за создание “консолидированного аудиторского следа» каждой отдельной сделки акциями и опционных ордеров, совершаемых на финансовых рынках США каждый день.

Обширная система наблюдения за рынком предназначена для увеличения объема данных, доступных исследователям, чтобы они никогда больше не попадали в ловушку такого события, как “Внезапный крах” 2010 года, когда индекс Dow Jones Industrial Average отскочил почти на 1000 пунктов и за считанные минуты стер миллиарды со стоимости рынка.

Комиссия по ценным бумагам и биржам США (SEC) дала этой базе данных зеленый свет, и комитет фондовых бирж проголосует за то, кому будет выплачено около 2,4 миллиарда долларов США за ее создание в начале 2017 года.

Что отличает заявку FINRA от ее конкурентов, таких как финтех — фирма Fidelity National Information Services (FIS), которая сотрудничает с Google cloud Services для собственного продвижения, так это то, что она уже началась.

Регулятор построил версию системы для своих собственных целей наблюдения, готовую к масштабированию, как только она получит кран SEC.

Насколько велик большой?

Сама по себе FINRA уже собирает и обрабатывает до 75 миллиардов записей о каждой сделке с акциями на американском рынке каждый день.

Выступая на саммите AWS Re:Invent на прошлой неделе, CIO FINRA Стив Рэндич сказал, что эта цифра приравнивается к «тому, что Visa и Mastercard обрабатывают в течение шести месяцев».

“Соедините все эти данные вместе в течение недель и месяцев, и тогда мы будем говорить о триллионах записей — более 20 петабайт», — сказал он.

Некоммерческий регулятор отвечает за соблюдение правил SEC более чем на 90% рынка акций США и около 60% рынка опционов США по объему.

В деле искоренения мошенничества и манипулирования рынком миллисекунды имеют решающее значение. FINRA должна быть способна эффективно “воспроизводить” всю сеть сделок в порядке временной последовательности-даже при том, что 3876 фирм по ценным бумагам и 641,494 брокера под ее наблюдением могут работать на незначительно отличающихся часах.

Он должен хранить данные как минимум два года, потому что никогда не знаешь, когда начнется уголовное преследование за мошенничество.

А ежедневный пик в 75 миллиардов записей приходится как раз на сегодняшний день: директор по технологиям регулирования FINRA Бретт Шрайвер сказал, что объемы торговли растут примерно на 20 процентов каждый год благодаря таким тенденциям, как высокочастотная торговля.

“Как несколько поисков в Google в день”

Рэндич сравнил наследие FINRA, локальное решение для борьбы с его регулятивным поглощением данных, с “необходимостью что-то исследовать и иметь возможность делать только несколько поисковых запросов Google в день”.

Его негибкие ресурсы и пакетные процессы означали, что если бы группам наблюдения потребовалось повторно проанализировать окно сделок, они должны были бы присоединиться к очереди за запасными мощностями в системах, ожидание, которое могло бы растянуться на месяцы.

Если бы они действительно нуждались в дополнительных мощностях, им пришлось бы втягивать новое оборудование в свои центры обработки данных, переносить приложения в выходные дни, “и надеяться, что в понедельник или вторник мы не окажемся на первой полосе Wall Street Journal”, — сказал Шрайвер.

Расходы на техническое обслуживание исчислялись восьмизначными цифрами, и организации оставалось только гадать заранее, сколько хранилищ ей может понадобиться в будущем.

Поэтому, когда ФИНРА присоединилась к гонке по созданию консолидированного аудиторского следа, она стала нетерпеливой и решила начать в любом случае.

“Мы могли бы использовать эту архитектуру для нашей текущей платформы наблюдения и базы данных», — сказал Рэндич.

— Итак, мы сказали: пойдем, построим его сейчас.”

Стать гуру публичного облака

В середине этого года FINRA представила совершенно новую регулирующую платформу, основанную на инструментах Apache Spark, HBase и Hive, использующих Amazon EMR с AWS S3 в качестве основного хранилища.

Рэндич сказал, что ему пришлось пройти через перчатку скептиков, когда регулятор решил перейти на публичное облако и открытый исходный код.

“Один из самых высокопоставленных руководителей одной из крупнейших технологических компаний в мире сказал мне, что это не относится к облаку. Это не сработает”, — сказал он.

“У нас были потоки поставщиков проприетарных баз данных, которые приходили один за другим, говоря нам, что это не будет масштабироваться, это не было зрелым, это не будет работать.

— Мы доказали, что все они ошибаются.”

Эти усилия заслужили похвалу ФИНРЫ со стороны генерального директора AWS Энди Ясси, который назвал фирму “одним из самых лучших практиков построения на основе AWS” в современном мире.

В настоящее время FINRA имеет 2 триллиона строк данных в HBase, и эта цифра, как ожидает команда, значительно вырастет.

Воздействие было немедленным для его исследователей, которые теперь получают результаты запросов к базе данных в среднем в 400 раз быстрее.

— Следственный потенциал наших групп наблюдения значительно расширился, — сказал Рэндич.

С финансовой точки зрения использование FINRA спотового ценообразования AWS — его дешевых, но непредсказуемых аукционов EC2 — принесло “на порядок больше экономии”, по словам Шрайвера, который говорит, что не зависящие от времени запросы могут быть поставлены в очередь до тех пор, пока не станут доступны дешевые вычисления.

“Мы можем обменять то, что мы хотим заплатить, и как быстро нам это нужно сделать. Для ФИНРЫ это было настоящим изменением игры, чтобы помочь нам идти в ногу со спросом”,-сказал он.

Пэрис Коуэн посетила AWS Re:Invent в качестве гостя Amazon Web Services