はじめに
こんにちは。クラウドセントリック株式会社の水田です。
2025年6月25日(水)、26(木)に開催された「AWS Summit Japan 2025」に参加してきました。本記事では、AWS Summit Japan 2025に参加して深堀しようと思ったAWS Glue データカタログのアップデートについてご紹介します。
要点
- AWS Glue データカタログの使用状況メトリクスの機能により、データインフラストラクチャのモニタリング機能が強化
- AWS Glue データカタログの使用状況メトリクス機能により、データカタログの運用状況が可視化
- AWS Summit Japan 2025参加でアップした熱量を、興味のあるサービスを学習する熱量に変換!!
対象読者
- AWS Glue データカタログの使用状況メトリクスの機能を試してみたい人
- AWS Glue データカタログの使用状況メトリクスの概要が知りたい人
必要な前提知識
- AWS Summit Japan 2025の概要
- Amazon CloudWatch、AWS Glueの概要
AWS12冠限定のSWAGについて
いきなり本編からずれますが、AWS Summit Japan 2025に参加してこれだけは自慢させてください。
AWS12冠取得者には、1日500名限定で12種類の認定ステッカーセット、ゴールデンジャケット(AWS Golden Jacket)、ケーブルタイがもらえます。ゴールデンジャケットは、AWSの認定資格を全て取得した人のみに与えられる名誉あるジャケットで、朝早くから並んだ甲斐があり私も無事ゲットできました。
AWS Summit Japan 2025で印象に残ったセッション
私はパートナーセッション中心に聴講していましたが、「生成 AI 時代の業務変革実現と AI/ML チームの進化 ~ 三菱UFJ銀行市場部門の内製開発ジャーニー」で登壇された福田晃平氏が言及したGlueを使うメリットが印象に残りました。
- Glue Table Optimizationを各テーブルに設定し、コンパクション(データの整理や物理的なスペースの最適化)、スナップショットの設定を自動化
- Glue Data Quality(マネージドの品質サービス)で様々なテーブルに似たようなデータ品質の仕組みを導入可能
私は、趣味でGlue Data Qualityを使って保管されているデータの品質を測定したりしています。今回セッションを聞いてデータベースの運用をする上でメタデータの増加に対してストレージの整理や古いスナップショットを適宜削除する自動化の仕組みが重要という点で更に興味をもち、Glue Data Qualityについてより深く学習したい思いに駆られました。
ということで、直近でアップデートされたAWS Glueデータカタログの使用状況メトリクスについて試してみました。
AWS Glue データカタログの使用状況メトリクスとは
AWS Glue データカタログの使用状況メトリクスとは、2025年6月26日のAWSのアップデートでAWS Glue データカタログの利用状況に関する詳細な情報(メトリクス)が、AWSの監視サービスであるAmazon CloudWatchで確認できるようになりました。以前もAWS Glue全体のメトリクスはCloudWatchで確認できましたが、今回の更新でよりデータカタログに特化したより詳細なAPIの使用状況やパフォーマンスに関するメトリクスが利用できるようになりました。
試してみた
【設定】
①Cloudwatchのすべてのメトリクスから検索バーに「Glue」を入力し、「Usage > AWS リソース」をクリックする。
②例として「GetTables」のCallCountメトリクス(※)とカウントされている。(赤枠)
※アカウントで実行された指定されたオペレーションの数。
③「アラームの作成」をクリックする。
④以下パラメータを入力および選択する。
※CallCountは呼び出し回数で合計値を見るため、統計は「合計」を選択します。閾値は、ケースバイケースに応じて都度設定。
⑤アラーム状態トリガーは「アラーム状態」、次のSNSトピックに通知を送信は予め作成した「既存のSNSトピック」を選択する。
⑥アラーム名を入力後、確認画面で「アラームの作成」をクリックして設定完了。
【動作検証】
⑦Cloudshellを起動し、AWS CLIでAWS Glueデータベースに存在するテーブル名を取得するGetTables APIを実行。
aws glue get-tables –database-name <データベース名> –query ‘TableList[].Name’
⑧上記でコマンド実行後、CloudWatchアラームの画面でアラート状態となり、SNSトピックが実行されアラートメールが発報。
まとめ
以前、データ分析基盤の運用保守を担当していた際は、AWS Glue データカタログの監視はGlueジョブの成功/失敗やCloudWatch Logsのエラーなどを間接的に監視していました。今回のアップデートにより以下のような場面(ex.GetTablesのCallCountを監視)で貢献してくれそうです。
- データカタログの利用状況を把握(テーブル情報が参照されている頻度を把握)
- サービス制限(クォータ)の管理(スロットリング(API呼び出し制限)防止のため、CloudWatchのアラームを事前に設定)
- コストの最適化(予期しない高頻度な呼び出しによるコスト増加を検知)
※AWS Glue Data Catalog の API 呼び出し料金は最初の100万オブジェクトは毎月無料で、以降は100万オブジェクトごとに1ドルが課金されるため
森下彰大氏の「戦略的暇」という書籍の以下フレーズが思い起こされました。
その瞬間ごとに注目していた物事の記憶が積み重なって、あなたの人生が築かれます。人は自分が注意を向けたものだけを記憶できるからです。注意を払っていないということは、思い出せる記憶がなくなることを意味するのです。
私自身の戒めでもありますが、AWS Summit Japan 2025で学んだ知識を業務で活用できるよう研鑽を重ねていきます。
皆さんも是非、AWS Summit Japan 2025で自分が興味を持ったサービスを学習するきっかけにしてみてください。