AWS Glue DataBrew
コードを書かずに”データ前処理”を作成・実行可能!機械学習を使用した新しいビジュアルデータ準備ツール「AWS Glue DataBrew」がリリースされました!
https://dev.classmethod.jp/articles/aws-glue-databrew-is-released/
AWSからGlue DataBrewなるサービスがリリースされたようです。
GlueはいわゆるETLにあたるサービスで、よくありがちな流れとしては
RDSやS3⇒Glue⇒RedShiftのような形で間に噛ませることで
データを変換してDWH向けにデータを流し込んだりするような用途で利用すると思います。
AWS Glue DataBrewではデータのクレンジングを行ってくれるというサービスで
データの半角全角、大文字小文字のようなケースはもちろん、
記号についても取り除いたり、Prefixのような形で逆に付与したりというように
様々なケースで変換できるものがデフォルトで用意されているようです。
https://docs.aws.amazon.com/databrew/latest/dg/recipe-actions-reference.html
新規で何かを作る場合はデータはまっさらですが、何かと連携してデータを受けて処理する
という機会が多いかと思いますので、こうしたツールとかできれいにすると
イレギュラーデータへの対応は楽になるかもしれません。