ヤマムギ

growing hard days.

*

ParquetフォーマットのデータにS3 Select SQLを実行する

      2020/06/05


RDSスナップショットのS3エクスポート結果確認で出力したデータが、S3にParquet形式で保存されているので、S3 Selectでデータを見てみました。

とりあえずマネジメントコンソールで試しました。

対象オブジェクトを選択して、[S3 Select]タブを見ると、自動判定でしょうか、すでにParquetが選択されています。

プレビューを見てみると、データが見えました。
元データは本ブログのWordPressのデータベースなので、記事のレコードが見えました。

SQLエディタでSQLを実行できます。
例えば、この”ID”: 1 の記事だけ抽出したいとかだと、次のようなSQLになります。

2014年の記事本数を調べてみようと思いまして、こんなSQLを実行したら抽出できました。
Athenaのように複数オブジェクトにまたがったデータ抽出はできないようですが、1オブジェクトを検索するなら使えますね。
抽出結果だけをダウンロードするなど転送量を減らすメリットもありますね。


最後までお読みいただきましてありがとうございました!

【PR】 「AWS認定試験対策 AWS クラウドプラクティショナー」という本を書きました。

【PR】 「AWSではじめるLinux入門ガイド」という本を書きました。

【PR】 「ポケットスタディ AWS認定 デベロッパーアソシエイト」という本を書きました。

 - AWS ,

ad

ad

  関連記事

JAWS FESTA 2017 Reverse X re:Birth

JAWS FESTA 2017 中四国 今年はブログタイトル「JAWS FEST …

Feedlyのフィードを自動でSlackへ投稿する(AWS Lambda , Amazon DynamoDB)

やりたいこと Feedlyで共有したいフィードに特定のタグを付けます。 特定のタ …

AWS Storage Gateway File Gateway on EC2インスタンスにmacOSからNFS接続

S3バケットの作成 S3バケットはあらかじめ作成しておきました。 マネジメントコ …

WordPressのwp-login.php , xmlrpc.phpへのアクセスをAWS WAFで接続元IPアドレスを制限する

AWS CloudWatch LogsエージェントでAmazon EC2上のNg …

API GatewayのアクセスログをCloudWatchに記録する

Amazon API GatewayのアクセスログをCloudWatchに記録で …

S3オブジェクトへのリクエストをCloudTrail, Athenaで識別する(パーティショニング)

Amazon S3オブエジェクトへのリクエストをCloudTrail, Athe …

webフォームからの問い合わせをRedmineに自動登録して対応状況を管理する(API Gateway + Lambda)

先日、検証目的で作成したRedmineの冗長化の一機能として、webフォームから …

Amazon Aurora Serverless 課金確認

Amazon Aurora Serverlessを使い始めてみましたの記事で書い …

Amazon Elasticsearch ServiceにMySQLのデータを投入してkibanaで可視化してみる

MySQLのデータの可視化にAmazon Elasticsearch Servi …

Kinesis Data AnalyticsをKinesis Data Streamsに接続してSQL検索する

Amazon Kinesis Data StreamsにTwitter検索データ …