ヤマムギ

growing hard days.

*

ParquetフォーマットのデータにS3 Select SQLを実行する

      2020/06/05


RDSスナップショットのS3エクスポート結果確認で出力したデータが、S3にParquet形式で保存されているので、S3 Selectでデータを見てみました。

とりあえずマネジメントコンソールで試しました。

対象オブジェクトを選択して、[S3 Select]タブを見ると、自動判定でしょうか、すでにParquetが選択されています。

プレビューを見てみると、データが見えました。
元データは本ブログのWordPressのデータベースなので、記事のレコードが見えました。

SQLエディタでSQLを実行できます。
例えば、この”ID”: 1 の記事だけ抽出したいとかだと、次のようなSQLになります。

2014年の記事本数を調べてみようと思いまして、こんなSQLを実行したら抽出できました。
Athenaのように複数オブジェクトにまたがったデータ抽出はできないようですが、1オブジェクトを検索するなら使えますね。
抽出結果だけをダウンロードするなど転送量を減らすメリットもありますね。


最後までお読みいただきましてありがとうございました!

【PR】 「AWS認定試験対策 AWS クラウドプラクティショナー」という本を書きました。

【PR】 「AWSではじめるLinux入門ガイド」という本を書きました。

 - AWS ,

ad

ad

  関連記事

Selenium, Headless ChromeとAWS Lambdaで夜な夜なスクレイピング

このようなアーキテクチャで、Alexaスキルの開発を進めていまして、元となる情報 …

T3.nanoで仮想メモリ割当をユーザーデータで実行する

T3.nanoはメモリがだいたい500MBです。 実行する処理によってはメモリエ …

AWS Data Pipelineを使ってDynamoDBのアイテムを全件S3バケットに書き出した

ちょっと試してみたくてやってみました。 手順はこちらのチュートリアルを参考にすす …

Amazon Elasticsearch ServiceにMySQLのデータを投入してkibanaで可視化してみる

MySQLのデータの可視化にAmazon Elasticsearch Servi …

特定AWSアカウント特定リージョンのCloudFormationスタックを削除するLambda(Python)

やりたいこと 特定アカウント内特定リージョン内のCloudFormationスタ …

API Gatewayから直接 DynamoDBに書き込む

やりたいこと WebページでOやXを押したときに、どっちを押したかをDynamo …

AWS認定ソリューションアーキテクトアソシエイトのサンプル問題

AWS認定ソリューションアーキテクトアソシエイトのサンプル問題の解説を会社のブロ …

AWSアカウント内のすべてのS3バケットを削除するLambda(Python)

やりたいこと 特定アカウント内のS3バケットを全部削除したいです。 バケット内の …

Amazon Aurora Serverlessを使い始めてみました(1日経過しての課金結果も)

祝!!! Amazon Aurora ServerlessがGAになりました! …

Pepperで撮影した写真をAmazon Rekognitionで分析してその結果をPepperがしゃべる ~(1)AWS編~

Pepperの機能を使えるところは使って、何かしたいなあと思ってまして。 目(カ …