#xml #amazon-s3 #xml-parsing #amazon-athena #amazon-kinesis
Вопрос:
мне нужно проанализировать некоторый xml — файл непосредственно в корзине S3
что мне нужно извлечь, так это: lt;Имя идентификатора сборки=»Службы Anthea» версия=»10.5.20276.322″
и всегда размещается во второй строке xml:
lt;?xml version="1.0" encoding="utf-8"?gt; lt;asmv1:assembly xsi:schemaLocation="urn:schemas-microsoft-com:asm.v1 assembly.adaptive.xsd" manifestVersion="1.0" xmlns:asmv3="urn:schemas-microsoft-com:asm.v3" xmlns:dsig="http://www.w3.org/2000/09/xmldsig#" xmlns:co.v1="urn:schemas-microsoft-com:clickonce.v1" xmlns="urn:schemas-microsoft-com:asm.v2" xmlns:asmv1="urn:schemas-microsoft-com:asm.v1" xmlns:asmv2="urn:schemas-microsoft-com:asm.v2" xmlns:xrml="urn:mpeg:mpeg21:2003:01-REL-R-NS" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"gt; lt;assemblyIdentity name="Anthea Services" version="10.5.20276.322" publicKeyToken="56904a0c05b434f1" language="it-IT" processorArchitecture="msil" xmlns="urn:schemas-microsoft-com:asm.v1" /gt;
для извлечения этих значений файлы могут быть обработаны в виде XML или в виде текста, просто анализируя текст и выполните поиск строки (значения мне нужно, чтобы захватить в начале файлов, всегда во второй строке, поэтому я могу получить часть файла, если это возможно) в любом случае, независимо от метода для извлечения этих значений я хотел бы сделать эту работу, используя сразу несколько сервисов AWS без загрузки файлов в другом месте(непосредственно на S3 ведро)
Я знаю, что есть сервис «Афина», который позволяет запрашивать файлы в корзине S3 на языке sql, подобном языку, но этот файл должен быть csv, json или parquet, мой-xml,
другим решением может быть «кинезис» (выполнение приема из S3), даже если мой файл не создается в режиме реального времени, но он уже находится в корзине
Существуют ли другие решения? Может ли кто-нибудь предложить мне жизнеспособное решение и некоторые подробные шаги для его достижения?
Комментарии:
1. Как насчет использования Лямбды?
2. @shimo, конечно, является жизнеспособным вариантом! я выяснял, есть ли другие сервисы, которые можно использовать и изучать