AWS Glue – bezserwerowa integracja danych

4 czerwca 2021

AWS Glue to bezserwerowa usługa, służąca do przygotowania i integracji wszelkiego rodzaju danych, które wyjściowo, mogą służyć do prowadzenia analityki, uczenia maszynowego i tworzenia aplikacji. AWS Glue zawiera wszystkie niezbędne funkcje, dzięki którym udostępnia zintegrowane dane już po kilku minutach skonfigurowania usługi.

AWS Glue dzieli się na dwa podstawowe komponenty: Data Catalog i ETL (Extract, Transform and Load). Data Catalog, daje wgląd w tabelaryczną strukturę danych, pozwala dodawać deskrypcje oraz nowe metadane, a także edytować już zapisane.  Ponadto integruje się z innymi usługami AWS, takimi jak Amazon Athena, Amazon RedShift, Amazon RDS czy Amazon EMR i współpracuje ze wszystkimi serwisami kompatybilnymi z Apache Hive Metastore.

Drugi komponent, ETL (Extract, Transform and Load), służy do zapisywania jobów przygotowanych w Scali lub Pythonie, bez konieczności samodzielnego pisania skryptów. AWS Glue wskazuje użytkownikowi kod, który może dostosować do własnych potrzeb. ETL umożliwia też konwersję formatów, edycję danych, tworzenie nowych tabel i zmianę schematów starych.

AWS Glue udostępnia wizualny interfejs AWS Glue Studio, który ułatwia wyszukiwanie, przekształcanie i ładowanie danych, a z myślą o analityce, stworzono AWS Glue DataBrew do wizualnego wzbogacania i normalizowania danych bez konieczności pisania kodu.