ヤマムギ

growing hard days.

*

ParquetフォーマットのデータにS3 Select SQLを実行する

      2020/06/05

RDSスナップショットのS3エクスポート結果確認で出力したデータが、S3にParquet形式で保存されているので、S3 Selectでデータを見てみました。

とりあえずマネジメントコンソールで試しました。

対象オブジェクトを選択して、[S3 Select]タブを見ると、自動判定でしょうか、すでにParquetが選択されています。

プレビューを見てみると、データが見えました。
元データは本ブログのWordPressのデータベースなので、記事のレコードが見えました。

SQLエディタでSQLを実行できます。
例えば、この”ID”: 1 の記事だけ抽出したいとかだと、次のようなSQLになります。

2014年の記事本数を調べてみようと思いまして、こんなSQLを実行したら抽出できました。
Athenaのように複数オブジェクトにまたがったデータ抽出はできないようですが、1オブジェクトを検索するなら使えますね。
抽出結果だけをダウンロードするなど転送量を減らすメリットもありますね。


最後までお読みいただきましてありがとうございました!

「AWS認定資格試験テキスト&問題集 AWS認定ソリューションアーキテクト - プロフェッショナル 改訂第2版」という本を書きました。

「AWS認定資格試験テキスト AWS認定クラウドプラクティショナー 改訂第3版」という本を書きました。

「ポケットスタディ AWS認定 デベロッパーアソシエイト [DVA-C02対応] 」という本を書きました。

「要点整理から攻略するAWS認定ソリューションアーキテクト-アソシエイト」という本を書きました。

「AWSではじめるLinux入門ガイド」という本を書きました。

 - AWS ,

ad

ad

  関連記事

AWS SSOのパスワードリマインダーでADのパスワードを変更

AWS Managed Microsoft ADを構築してユーザー追加までで構築 …

AWS RDS でMySQLインスタンスを構築する

Amazon Web ServiceにはAmazon Relational Da …

CloudWatch LogsをIPv6アドレスを使用して送信する

このブログの構成からパブリックIPv4を減らすように設計変更しています。 もとも …

AWS Systems Managerパラメータストアで「Parameter name must be a fully qualified name.」

パラメータストアでパラメータ階層を作成しようとして、パラメータ名に例えば「wor …

AWS Cost Explorerの設定で「EC2リソースの推奨事項を受け取る」を有効にしました

「EC2リソースの推奨事項を受け取る」という機能がAWS Cost Explor …

EC2 Auto Scalingグループでインスタンスの更新を実行

このブログのAMI、起動テンプレートを更新して、EC2 Auto Scaling …

AWS LambdaのSQSへの自前ポーリングをやめてSQSイベントソーストリガーに変更した

以前は、LambdaがSQSからメッセージを受信するには、キューをポーリングして …

AWS WAFの個別ルールを設定する

Web ACLを選択して、[Add my own rules and rule …

AWSアカウント内のCloudWatchアラームを削除する

やりたいこと 特定アカウント特定リージョン内のCloudWatdchアラームを全 …

AWS CloudHSMを起動してみました

なかなか触る機会のないサービス、CloudHSM。 起動してみました。 手順はユ …