Organizowanie crawlerów AWS Glue za pomocą usługi AWS Step Functions

Organizacje codziennie generują terabajty danych w różnych formatach częściowo ustrukturyzowanych. Usługi AWS Glue i Amazon Athena mogą zapewnić prostszy i bardziej opłacalny sposób analizowania tych danych bez konieczności zarządzania infrastrukturą. Crawlery AWS Glue identyfikują schemat Twoich danych i zarządzają metadanymi wymaganymi do analizy danych w miejscu, bez konieczności przekształcania tych danych i ładowania do magazynu danych.

Ważny jest czas uruchomienia i zakończenia crawlerów. Musisz upewnić się, że crawler działa po zaktualizowaniu danych, a przed wysłaniem zapytania do Athena lub analizą za pomocą zadania AWS Glue. Jeśli nie, Twoja analiza może zawierać błędy lub zwrócić niekompletne wyniki.

W tym poście dowiesz się, jak korzystać z AWS Step Functions, usługi tzw. „visual workflow” typu low-code, która integruje się z ponad 220 usługami AWS. Usługa organizuje crawlery, aby kontrolować ich uruchomienie, potwierdzać ukończenie i łączyć je w kompleksowe, bezserwerowe workflowy przetwarzania danych.

Korzystanie z funkcji Step Functions do organizowania wielu crawlerów AWS Glue zapewnia szereg korzyści w porównaniu z implementacją rozwiązania bezpośrednio za pomocą kodu. Po pierwsze, worfklow zapewnia natychmiastowe wizualne zrozumienie aplikacji oraz wszelkich błędów, które mogą wystąpić podczas wykonywania. Zdolność funkcji Step Functions do uruchamiania zagnieżdżonych workflow’ów w stanie Map pomaga rozdzielić i ponownie wykorzystać komponenty aplikacji za pomocą natywnej iteracji tablicy. Na koniec stan oczekiwania Step Functions umożliwia workflow’owi okresowe sondowanie stanu zadania bez ponoszenia dodatkowych kosztów za czas oczekiwania na bezczynność.

Wdrażanie przykładu

W tym przykładzie tworzymy trzy zestawy danych w Amazon S3, a następnie używamy funkcji Step Functions do orkiestracji AWS Glue crawlers w celu analizowania zestawów danych i udostępniania ich do wykonywania zapytań za pomocą usługi Athena.

Aby rozpocząć poniższy przykład wdrożenia za pomocą AWS AWS CloudFormation, wykonaj następujące kroki:

Pobierz plik template.yaml z tej strony.
Zaloguj się do AWS Management Console i przejdź do AWS CloudFormation.
Przejdź do Stacks -> Create stack i wybierz opcję With new resources (standard).
Wybierz gotowy Template i kliknij Upload a template, a następnie Choose File i wybierz plik template.yaml pobrany w kroku 1 i wybierz Next.
Wprowadź nazwę stosu (stack name), na przykład glue-stepfunctions-demo, i wybierz Next.
Wybierz Next, zaznacz pola potwierdzenia w sekcji Capabilities and transforms section, a następnie wybierz Create stack.
Po wdrożeniu status aktualizuje się do CREATE_COMPLETE.

Tworzenie zbiorów danych

Przejdź do Step Functions w konsoli AWS Management Console i wybierz z listy automat stanów tworzenia zestawu danych. Ten automat stanów używa Express Workflows i stanu Parallel do jednoczesnego tworzenia trzech zestawów danych w S3. Pierwsze dwa zbiory danych zawierają informacje odpowiednio według artybutów user i location oraz zawierają pliki w okresie 5 lat od 2016 do 2020 roku. Trzeci zbiór danych to prostsze, pełne zestawienie danych według atrybutu location.