「最小限のコードで機械学習のためのトレーニングデータを準備する」チュートリアル記録

2025/05/03 2025/05/04

Amazon SageMaker Data Wranglerのチュートリアルをやりました。

使用するデータと環境

信用リスクモデルをトレーニングするためのデータを使用します。
人口統計、雇用の詳細、財務データなど、個人の情報を含む1,000のレコードから構成されていて、高、低とラベル付けされた信用リスクフィールドが含まれています。

リージョンはバージニア北部で、SageMakerドメインはクイックセットアップで作成しました。

SageMaker Studioを起動して、[Data]-[Data Wrangler]をクリックしました。

[Run in Canvas]をクリックして、Runningになったら[Open in Canvas]をクリックしました。

チュートリアルの手順がSageMaker Studio Classicのように思うので、メニューを探しながら進めました。

Data WranglerがCanvasに統合されて、一部の機能として使用できるのがわかるメニュー構成になっています。

[Import and prepare]-[Tabular]を選択しました。

データソースにS3を選択して、S3 endpointに次のURIを入力して[Go]をクリックしました。
s3://sagemaker-sample-files/datasets/tabular/uci_statlog_german_credit_data/german_credit_data.csv

german_credit_data.csvが表示されたので選択して、[Next]をクリックしました。
データのプレビューが表示されたので、[Import]をクリックしました。

データのプロファイリング

右のData typesのGet data insightsをクリックしました。

Analysis type: Histogram
X axis: age
Color by: risk

を選択して、[Preview]をクリックしました。
年代ごとに低リスクと高リスクの割合や、データ全体の年齢分布がわかりました。

[Create]をクリックしました。

画面上部にある + から次の分析を新規作成します。

Analysis type: Quick Model
Target Column: risk

を選択して、[Preview]をクリックしました。

リスクが高いか低いかの分類問題なので、F1スコアで評価されて0.477でした。
特徴量はcreditamountが最も重要な属性で、次にageが重要なことがわかりました。

[Create]をクリックしました。

データフローに戻ると、作成したHistogramとQuick Modelが追加されています。

変換を追加する

データフローで、Add transformをクリックしました。

[Add transofrm]-[Search and edit]をクリックしました。

Transform: Spit string by delimiter
Input Columns: status_sex
Delimiter: :
Output column: vec

上記を設定して、[Preview]をクリックしました。

コロンで区切られた値を配列にしたvec列ができました。
[Add]をクリックしました。

[Add transofrm]-[Manage vectors]をクリックしました。

Transform: Flatten
Input columns: vec
Output prefix: sex_split

上記を設定して、[Preview]をクリックしました。
sex_split_0とsex_split_1列ができました。
[Add]をクリックしました。

[Add transofrm]-[Manage columns]をクリックしました。

Transform: Rename column
Input column: sex_split_0
New name: sex
Input column: sex_split_1
New name: marital_status

上記を設定して、[Preview]をクリックしました。
列名を変更しました。
[Add]をクリックしました。

カテゴリカルエンコーディングの追加

カテゴリカルエンコーディングは、文字列データタイプのカテゴリを数値ラベルに変換します。

[Add transofrm]-[Encode Categorical]をクリックしました。

transform: Ordinal encode
Input columns: risk
Output column: target

上記を設定して、[Preview]をクリックしました。
row riskが0、high riskが1になりました。
[Add]をクリックしました。

[Add transofrm]-[Custom transform]をクリックしました。

savings列には、unknown、little、high、very highなどの値があります。

Python(Pandas)を選択して次のスクリプトを貼り付けて[Preview]をクリックしました。

# Table is available as variable ‘df’
savings_map = {"unknown":0, "little":1, "moderate":2, "high":3, "very high":4}
df["savings"] = df["savings"].map(savings_map).fillna(df["savings"])

# Table is available as variable ‘df’