ヤマムギ

growing hard days.

*

「Getting started with AWS Glue DataBrew」をやってみました

   

AWS Glue DataBrewを体験してみたくて、開発者ガイドのチュートリアルGetting started with AWS Glue DataBrewをやってみた記録です。

プロジェクトの作成

DataBrewコンソールで、[プロジェクト]-[プロジェクトの作成]をクリックしました。

プロジェクト名を入力して、[レシピの詳細]-[アタッチされたレシピ]では、「新しいレシピを作成」を選択しています。

データセットはサンプルファイルを選択して、「有名なチェスゲームの動き」を選択しました。

IAMロールは新規作成にして、サフィックスにChessとしました。
自動的にAWSGlueDataBrewServiceRole-というプレフィックスがつくようです。

[プロジェクトの作成]ボタンをクリックしました。

プロジェクトが作成されてデータが準備中になりました。

データを要約する

作成したプロジェクトのchess-projectが表示されています。

[フィルター]-[条件別]-[次以上]を選択しました。
右側にフィルターのフィールドが表示されましたので、次の値を入力しました。
* ソース列 – white_rating
* 値 – 1800
プレビューをクリックして、確認後[適用]ボタンをクリックしました。

white_ratingが1800以上のデータだけにフィルターされました。

フィルター操作を繰り返して今度はblack_ratingが1800以上の条件を追加しました。

white_rating、black_ratingの両方が1800以上のデータだけが表示されました。

データの上にある[グループ]をクリックして、このように設定しました。

プレビューが表示されました。
白チームか黒チーム、勝敗状況によって、グループ化されてカウントされています。
「新しいテーブル〜」を選択したまま[終了]ボタンをクリックしました。

レシピの右にある[発行]をクリックしました。

レシピの公開で説明を入力して[発行]をクリックしました。

さらに変換を追加する

フィルターを追加して、ソース列をvictory_status、フィルター条件を次ではないとして、drawを選択しました。
引き分けをデータから除外しました。

ツールバーのボタンから[クリーン]-[値またはパターンの置き換え]をクリックしました。

ソース列をvictory_status、置き換える値をmate、置き換える値にcheckmateを入力して、[適用]ボタンをクリックしました。

同様にresignをother player resigned、outoftimeをtimeran outに変更しました。

レシピのステップが7になりました。
[発行]をクリックして保存しておきました。

DataBrewリソースの確認

データセットを見ると、S3に保存されているExcelファイルが表示されています。

レシピには発行されたレシピが表示されています。

レシピ名をクリックして、詳細を確認できます。
データ系列タブには、データセット、プロジェクト、レシピの紐付きがわかります。

データプロファイルを作成する

[ジョブ]-[ジョブの作成]をクリックしました。

ジョブ名を入力して、プロファイルジョブを作成するを選択して、データセットを選択しました。

ジョブ出力設定でS3バケットとプレフィックス、許可でIAMロールを選択して、[ジョブを作成し実行する]をクリックしました。

ジョブ実行履歴ではジョブ実行ステータスがWaitingになっています。

しばらくすると実行中に変わり、その後成功に変わります。

データセットの一覧からデータプロファイルを表示をクリックしました。

データの特徴など分析結果が表示されています。

各列の値の分布。

各列の概要も表示されました。

データセットを変換する

[ジョブ]-[ジョブの作成]をクリックしました。

ジョブ名を入力して、レシピジョブを作成を選択して、データセットとレシピを選択しました。

ジョブ出力設定でS3バケットとプレフィックス、許可でIAMロールを選択して、[ジョブを作成し実行する]をクリックしました。

各ステップが適用されたCSVファイルが出力されていました。


最後までお読みいただきましてありがとうございました!

「AWS認定資格試験テキスト&問題集 AWS認定ソリューションアーキテクト - プロフェッショナル 改訂第2版」という本を書きました。

「AWS認定資格試験テキスト AWS認定クラウドプラクティショナー 改訂第3版」という本を書きました。

「AWS認定資格試験テキスト AWS認定AIプラクティショナー」という本を書きました。

「ポケットスタディ AWS認定 デベロッパーアソシエイト [DVA-C02対応] 」という本を書きました。

「要点整理から攻略するAWS認定ソリューションアーキテクト-アソシエイト」という本を書きました。

「AWSではじめるLinux入門ガイド」という本を書きました。

 - AWS ,

  関連記事

Amazon Linux2のCloud9でPython CDKのモジュールインストール

AMIがCloud9AmazonLinux2-2021-02-02T16-48の …

DynamoDB Accelerator(DAX)のサンプルアプリケーション(Python)を実行

DynamoDBデベロッパーガイドのDynamoDB Accelerator(D …

AWS KMSマルチリージョンキーを確認しました

2021年6月にKMS マルチリージョンキーがリリースされました。 マルチリージ …

AWS CLIからIAM Identity CenterへサインインしてCodeCommitのリポジトリを使用する

Macで操作しました。 AWS CLIバージョンアップ [crayon-69b9 …

AWS Lambda(Python)からTwitterに投稿する

「GoogleフォームからAPI Gatewayで作成したREST APIにPO …

S3オブジェクトへのリクエストをCloudTrail, Athenaで識別する(パーティショニング)

Amazon S3オブエジェクトへのリクエストをCloudTrail, Athe …

「JAWS-UG in AWS Cloud Roadshow 2017 大阪」で運営をしました

AWS Cloud Roadshow 2017 大阪のナイトイベントで、「JAW …

CloudFrontからのバーチャルホストなサイトのテストってどうしてます?

このブログの構成です。 AWSで構築しています。 4つのサイトを1つのEC2で配 …

「re:CAP ~サーバーワークス re:Invent 2018 報告会~」でre:Invent2018について思われたことを聞かせていただいた

サーバーワークスさんのre:Invent re:CAPにおじゃましました。 re …

執筆環境(PyCharm, CodeCommit, CodePipeline, S3, Lambda, 署名付きURL)

2018年から、年に1回ぐらい商業本の執筆をさせていただいております。 2020 …