NAB использует европейский “высоководный эталон” конфиденциальности данных в качестве ограждения для своих собственных расширяющихся аналитических амбиций, усложняя свою все еще развивающуюся архитектуру данных.
Главный специалист по данным Гленда Крисп заявила на недавнем саммите AWS в Сиднее, что NAB разрабатывает свою архитектуру данных, чтобы соответствовать предсказуемым более высоким стандартам конфиденциальности на внутреннем рынке.
Банк уже подпадает под действие общих правил защиты данных (GDPR), поскольку он обрабатывает данные, относящиеся к резидентам Европейской экономической зоны (ЕЭЗ).
Крисп отметил, что инициирование подобных GDPR прав для потребителей-таких как «право быть забытым» и право требовать, чтобы человек был вставлен в автоматизированный процесс, — было сложной проблемой для архитектурного решения.
Однако она указала на желание решить их сейчас — с тем, чтобы они потенциально были приняты в качестве части будущих внутренних правил конфиденциальности.
“Что касается конфиденциальности, я думаю, что важно иметь глобальный взгляд на это и думать о том, что грядет, каковы тенденции, которые происходят?” — спросил Крисп.
“Самый высокий уровень воды находится в Европе с GDPR. Согласно GDPR, человек имеет право быть забытым. Поэтому нам нужно построить нашу платформу таким образом, чтобы, позволяя забыть об этом праве, мы на самом деле не разрушали и не искажали наши нижестоящие модели данных. Это не простая вещь, чтобы решить.
“Мы также знаем, что регуляторы обеспокоены ИИ и машинным обучением. Опять же, возвращаясь к Европе и GDPR, индивид имеет право потребовать, чтобы человек был частью этого решения.
“Это означает, что я [как банк] не могу создать замкнутый сквозной процесс, который полностью автоматизирован, поэтому я не могу перейти от модели машинного обучения к механизму принятия решений к результату. Мне нужно построить способ, чтобы клиент запросил человеческое вмешательство и чтобы этот человек был частью процесса беспрепятственно.
“Поэтому нам нужно думать об этом, когда мы строим наши модели развертывания.”
Крисп использовала свое выступление на саммите AWS, чтобы изложить поддержку разработки архитектур данных и аналитических моделей, отвечающих высоким стандартам конфиденциальности и безопасности, а также искоренить потенциальные источники и причины предвзятости.
Она отметила текущие усилия Австралийской комиссии по правам человека, направленные на создание Политического Совета по ИИ, как свидетельство более широкой озабоченности сообщества, “которая существует во многих отраслях промышленности вокруг того, как используются данные и ИИ”.
“Каждый должен владеть этой проблемой — мы все должны вмешаться в это”, — сказала она.
“Мы должны продолжать настаивать на объяснимости и прозрачности наших моделей. Мы должны убедиться, что у нас есть правильное управление, чтобы контролировать, как создаются эти модели и как они продолжают работать.”
Крисп сказал, что у NAB есть хорошо зарекомендовавшие себя модели кредитного риска, рыночного риска и риска ликвидности, но что гарантии и управление должны быть усилены, если и когда часть этих моделей будет усилена с помощью искусственного интеллекта или машинного обучения.
В прошлом году банк заявил, что его функция риска является целевым вариантом использования машинного обучения. Другие банки «Большой четверки», такие как ANZ, также экспериментировали с включением ИИ в определенные функции риска.
“Мы, конечно, очень тесно сотрудничаем с нашей командой по управлению модельными рисками и их процессом валидации модели», — сказал Крисп.
“У нас были эти процессы в течение довольно долгого времени вокруг кредитного риска, рыночного риска, риска ликвидности, и поэтому мы поднимаем их, чтобы включить модели машинного обучения.”
Архитектура данных развивается
NAB также использовала саммит, чтобы показать прошедший год работы по созданию архитектуры данных NAB.
В апреле прошлого года NAB объявила о своем “первом набеге данных в облаке” в виде эластичного озера данных, построенного на сервисах AWS.
Теперь он имеет ряд ключевых компонентов, составляющих его архитектуру данных.
Озеро данных — которое сейчас называют NAB data hub или NDH — все еще существует, хотя это не исключительно дело AWS.
“Informatica-это уровень управления данными [в NDH] — это наша книга записей для метаданных, происхождения и качества данных”, — сказал Крисп.
“Мы используем Kafka для потоковой передачи, мы используем Apache Beam для перемещения данных между зонами — между необработанными, кураторскими и согласованными — и мы, конечно же, используем ведра S3 [для хранения данных].”
Крисп подчеркнул, что NAB думает об организации своих данных и обеспечении прозрачности их происхождения — откуда они взялись и как оказались в том состоянии, в котором находятся.
“Я почти ежедневно говорю своей команде, что разница между озером [данных] и болотом [данных] — это метаданные. Если вы не пометили свои данные как техническими, так и бизнес-метаданными, вы построили болото, и вы на самом деле не знаете, какие данные у вас там есть, и вы, конечно же, не можете извлечь из этого возможности повторного использования”, — сказала она.
— Родословная тоже важна. Он говорит нам не только о том, где мы получили данные, но и о том, что мы сделали с ними: какие вычисления мы выполнили, какие преобразования произошли, суммировали ли мы данные, фильтровали ли данные?
“Все это действительно важно для аналитической команды, чтобы они знали, что получили правильные данные для правильной цели.
“Итак, в NAB, когда мы строим нашу платформу, мы фактически помещаем данные в нашу необработанную зону и помечаем их бизнес-и техническими метаданными, а затем, когда мы перемещаем их из необработанных в кураторские и [из] кураторских в конформные, мы публикуем эти компоненты lineage, чтобы у нас был автоматизированный след происхождения данных по мере их перемещения через облако.”
Из NDH некоторые виды использования данных включают ранее анонсированное облако NAB discovery cloud, а также более новый элемент под названием NAB reporting services.
Discovery cloud-это “продвинутая аналитическая платформа” NAB и рабочее пространство, используемое ее специалистами по обработке данных.
В то время как специалисты по данным в настоящее время являются “огромными пользователями ноутбуков Jupyter” — де-факто стандартного инструмента с открытым исходным кодом в области науки о данных, Крисп отметил, что в эту смесь вводятся и другие инструменты.
Примечательно, что с точки зрения AWS это включает в себя SageMaker, управляемый сервис AWS, предназначенный для того, чтобы помочь компаниям быстрее обучать алгоритмы машинного обучения и внедрять их в производство.
“Мы пилотируем и тестируем SageMaker и проводим его через наш процесс проверки безопасности», — сказал Крисп.
Службы Reporting services, по-видимому, являются относительно новым элементом архитектуры данных.
Крисп не стал вдаваться в подробности, кроме того, что он является домом для “двух наших новейших инструментов, Thoughtspot и Power BI — также в облаке.”
ThoughtSpot создает аналитический движок на основе искусственного интеллекта, который обещает сократить время, необходимое для поиска информации в данных. Power BI-это быстрорастущая служба Microsoft, которая находит пристанище во все большем количестве предприятий.
Крисп подчеркнул эволюцию среды обработки данных и, в частности, тот факт, что это не чистый стек AWS.
“Я бы хотела, чтобы вы отняли у этой архитектуры то, что да, мы используем AWS, а также используем открытый исходный код и покупное программное обеспечение”, — сказала она.
“Мы делаем это, потому что считаем, что это дает нам лучшее сочетание возможностей, которые дают нашим сотрудникам инструменты, необходимые для обслуживания наших клиентов.”
Крисп отметил, что архитектурная схема была чрезмерно упрощена (“она выглядела слишком занятой”) и может быть изменена.
“Это на сегодняшний день, и моя команда очень хорошо опробует новые технологии и методы, и поэтому примерно через шесть месяцев это будет выглядеть по-другому”, — сказала она.