ヤマムギ

growing hard days.

*

AWS Glueチュートリアル

      2021/09/15

AWS Glueのマネジメントコンソールの左ペインの一番下にチュートリアルがあります。
やりましょう。
バージニア北部でやりました。

クローラの追加

チュートリアルの[クローラの追加]を選択すると、[クローラの追加]画面に遷移してメッセージがナビゲートしてくれます。
[次へ]を押下したら、[クローラの追加]ボタンが押下されて画面遷移しました。

クローラの名前に”Flights Data Crawler”と入力して[次へ]を押下しました。

次はクローラのソースタイプの指定で、Data storesかExisting catalog tablesから選べます。
チュートリアルではData storesを選択しました。

Repeat crawls of S3 data storesでは、Crawl all foldersかCrawl new folders onlyから選択できます。
Crawl all foldersを選択しました。

データストアの追加では、S3、JDBC、DynamoDB、DocumentDB、MongoDBから選択できます。
S3を選択しました。

インクルードパスに、チュートリアル用のパス
s3://crawler-public-us-east-1/flight/2016/csv
を入力しました(画面とは違います)。
[次へ]を押下しました。

次の「別のデータストアの追加」画面では、1つのクローラーで複数のデータストアをクロールすることができるようです。
チュートリアルでは[いいえ]を選択しました。

次の「IAMロールの選択」では、新規のIAMロール作成を選択して、DefaultRoleと入力しました。
これでAWSGlueServiceRole-DefaultRoleというIAMロールが作成されます。

スケジュール設定で、周期的なスケジュールが設定できます。
オンデマンドにしました。

「クローラーの出力設定」では、flights-dbデータベースを追加しました。

プレフィックスにflightsと入力しました。

これで完了です。

Flights Data Crawlerを選択して、[クローラの実行]を押下しました。

テーブルの確認

flightscsvテーブルが作成されています。

S3のCSVを読み取ってクローラが自動でスキーマを作成したのですね。

他に詳細情報の確認などを行いました。

ジョブの追加

次に[ジョブの追加]を選択しました。
元のS3バケットのCSVをParquetに変換してくれるそうです。

ジョブの名前、IAMロール、生成されるスクリプトの保存先などを指定しました。

Parquet形式を指定して、出力先にS3バケットを指定しました。

マッピングが表示されました。

スクリプトエディタになりましたので、[ジョブの実行]を押下しました。

指定したS3バケットにParquetファイルが生成されていました。

オブジェクトアクションのS3 Selectで確認したら、Parquetで認識されてました。
CSV出力で確認してみます。

ちゃんとデータを確認できました。


最後までお読みいただきましてありがとうございました!

【PR】 「AWS認定資格試験テキスト&問題集 AWS認定ソリューションアーキテクト - プロフェッショナル 改訂第2版」という本を書きました。

【PR】 「AWS認定資格試験テキスト AWS認定クラウドプラクティショナー 改訂第2版」という本を書きました。

【PR】 「ポケットスタディ AWS認定 デベロッパーアソシエイト」という本を書きました。

【PR】 「要点整理から攻略するAWS認定ソリューションアーキテクト-アソシエイト」という本を書きました。

【PR】 「AWSではじめるLinux入門ガイド」という本を書きました。

 - AWS ,

ad

ad

  関連記事

AWS認定SAPの執筆開始にあたって環境を構築しました

AWS認定ソリューションアーキテクトプロフェッショナル対策本の執筆開始にあたりま …

AtomエディタでEC2のファイルを直接編集する

Webページを編集していてEC2のファイルをvimエディタでさわったりしています …

AWS Well-Architected フレームワークによるクラウド ベスト プラクティスのセッションを聞いたので自アカウントの環境を確認してみる

AWS Summit Tokyo 2017で「AWS Well-Architec …

JAWS DAYS 2018 「Cost-Driven AWS クラウドアーキテクチャデザインとコスト最適化方法 – Cost-Driven AWS Cloud Architecture Design : The Lean Startup on AWS」を聞きました

以下は、思ったことや気になったことをメモしていますので、必ずしも登壇者の発表内容 …

RDSスナップショットのS3エクスポート結果確認

RDSのスナップショットをS3へエクスポートが日本語マネジメントコンソールでもで …

前からできましたっけ??CloudWatch Logsの保持設定を複数まとめて設定

AWSの個人アカウントで要らなさそうなリソースの断捨離をしてます。 CloudW …

AWS Transit Gateway Network ManagerにTransit Gatewayを登録してルートアナライザーで確認

グローバルネットワークの作成 VPC左ペインのメニュー Transit Gate …

「X-Tech JAWS 【第2回】~9割のX-Techと1割の優しさで切り拓く未来~」に行ってきました

「X-Tech JAWS 【第2回】~9割のX-Techと1割の優しさで切り拓く …

Amazon Glacierでボールトロックポリシーの作成開始をしてみました

Glacierを単体で使用することもそうそうないので、確認しました。 まずボール …

AWS CLIを使用せずにCodeCommitへhttpsで接続する

AWS CLIやアクセスキーID、シークレットアクセスキーなどを開発環境にセット …