「Getting started with AWS Glue DataBrew」をやってみました
AWS Glue DataBrewを体験してみたくて、開発者ガイドのチュートリアルGetting started with AWS Glue DataBrewをやってみた記録です。
目次
プロジェクトの作成
DataBrewコンソールで、[プロジェクト]-[プロジェクトの作成]をクリックしました。
プロジェクト名を入力して、[レシピの詳細]-[アタッチされたレシピ]では、「新しいレシピを作成」を選択しています。
データセットはサンプルファイルを選択して、「有名なチェスゲームの動き」を選択しました。
IAMロールは新規作成にして、サフィックスにChessとしました。
自動的にAWSGlueDataBrewServiceRole-というプレフィックスがつくようです。
[プロジェクトの作成]ボタンをクリックしました。
プロジェクトが作成されてデータが準備中になりました。
データを要約する
作成したプロジェクトのchess-projectが表示されています。
[フィルター]-[条件別]-[次以上]を選択しました。
右側にフィルターのフィールドが表示されましたので、次の値を入力しました。
* ソース列 – white_rating
* 値 – 1800
プレビューをクリックして、確認後[適用]ボタンをクリックしました。
white_ratingが1800以上のデータだけにフィルターされました。
フィルター操作を繰り返して今度はblack_ratingが1800以上の条件を追加しました。
white_rating、black_ratingの両方が1800以上のデータだけが表示されました。
データの上にある[グループ]をクリックして、このように設定しました。
プレビューが表示されました。
白チームか黒チーム、勝敗状況によって、グループ化されてカウントされています。
「新しいテーブル〜」を選択したまま[終了]ボタンをクリックしました。
レシピの右にある[発行]をクリックしました。
レシピの公開で説明を入力して[発行]をクリックしました。
さらに変換を追加する
フィルターを追加して、ソース列をvictory_status、フィルター条件を次ではないとして、drawを選択しました。
引き分けをデータから除外しました。
ツールバーのボタンから[クリーン]-[値またはパターンの置き換え]をクリックしました。
ソース列をvictory_status、置き換える値をmate、置き換える値にcheckmateを入力して、[適用]ボタンをクリックしました。
同様にresignをother player resigned、outoftimeをtimeran outに変更しました。
レシピのステップが7になりました。
[発行]をクリックして保存しておきました。
DataBrewリソースの確認
データセットを見ると、S3に保存されているExcelファイルが表示されています。
レシピには発行されたレシピが表示されています。
レシピ名をクリックして、詳細を確認できます。
データ系列タブには、データセット、プロジェクト、レシピの紐付きがわかります。
データプロファイルを作成する
[ジョブ]-[ジョブの作成]をクリックしました。
ジョブ名を入力して、プロファイルジョブを作成するを選択して、データセットを選択しました。
ジョブ出力設定でS3バケットとプレフィックス、許可でIAMロールを選択して、[ジョブを作成し実行する]をクリックしました。
ジョブ実行履歴ではジョブ実行ステータスがWaitingになっています。
しばらくすると実行中に変わり、その後成功に変わります。
データセットの一覧からデータプロファイルを表示をクリックしました。
データの特徴など分析結果が表示されています。
各列の値の分布。
各列の概要も表示されました。
データセットを変換する
[ジョブ]-[ジョブの作成]をクリックしました。
ジョブ名を入力して、レシピジョブを作成を選択して、データセットとレシピを選択しました。
ジョブ出力設定でS3バケットとプレフィックス、許可でIAMロールを選択して、[ジョブを作成し実行する]をクリックしました。
各ステップが適用されたCSVファイルが出力されていました。
最後までお読みいただきましてありがとうございました!
「AWS認定資格試験テキスト&問題集 AWS認定ソリューションアーキテクト - プロフェッショナル 改訂第2版」という本を書きました。

「AWS認定資格試験テキスト AWS認定クラウドプラクティショナー 改訂第3版」という本を書きました。

「ポケットスタディ AWS認定 デベロッパーアソシエイト [DVA-C02対応] 」という本を書きました。

「要点整理から攻略するAWS認定ソリューションアーキテクト-アソシエイト」という本を書きました。

「AWSではじめるLinux入門ガイド」という本を書きました。


開発ベンダー5年、ユーザ企業システム部門通算9年、ITインストラクター5年目でプロトタイプビルダーもやりだしたSoftware Engineerです。
質問はコメントかSNSなどからお気軽にどうぞ。
出来る限りなるべく答えます。
このブログの内容/発言の一切は個人の見解であり、所属する組織とは関係ありません。
このブログは経験したことなどの共有を目的としており、手順や結果などを保証するものではありません。
ご参考にされる際は、読者様自身のご判断にてご対応をお願いいたします。
また、勉強会やイベントのレポートは自分が気になったことをメモしたり、聞いて思ったことを書いていますので、登壇者の意見や発表内容ではありません。
ad
ad
関連記事
-
-
Amazon Elasticsearch ServiceにMySQLのデータを投入してkibanaで可視化してみる
MySQLのデータの可視化にAmazon Elasticsearch Servi …
-
-
EC2とRDSのMySQLを他のAWSアカウントへ移設する
他のAWSアカウントへシステムごと移設した場合の手順です。 構成はEC2とRDS …
-
-
AWS Organizations SCPがリソースベースのポリシーには影響しないことを確認
AWS Organizations SCPで許可ポリシーの設定をし継承の関係を確 …
-
-
EC2インスタンスを必要最小限のパラメータでCLIとSDKから起動する
EC2インスタンスをCLIとSDKから起動するデモで、パラメータを必要最小限にし …
-
-
Windows EC2インスタンスでEBSとインスタンスストアを使用する
Amazon EBS基本のデモ(「AWS認定試験テキスト AWS認定 クラウドプ …
-
-
AWS Client VPNのクライアント接続ハンドラを試してみました
AWS Client VPNを設定しましたで証明書とかせっかく作ったので、いろい …
-
-
オンプレミスに見立てたオハイオリージョンにVyOSインスタンスを起動して東京リージョンからVPN接続
AWSクイックスタートのActive Directory Domain Serv …
-
-
AD Connectorを作成してシームレスにドメイン参加する
VPN接続先のADで管理されているドメインにEC2 Windowsインスタンスか …
-
-
Amazon S3アクセスポイント経由からアクション可能なポリシー
S3アクセスポイントを使うことで、複雑で長いバケットポリシーを避け、アクセスポイ …
-
-
AWS Toolkit for EclipseからLambda関数を直接作成できずにMavenでパッケージ化して作成
AWS Toolkit for EclipseからLambda関数を直接作成 チ …