ヤマムギ

growing hard days.

*

Rapidminerハンズオン勉強会に行ってきました

      2016/09/18


機械学習 OSSのRapidminerの勉強会に行ってきました。

rapidmainer-768x474

OSS

BI

  • pentaho
  • jedox

DB

  • INFOBRIGHT

Bigdata

  • cloudera

data mining

  • rapidminer
  • nysol
    UNIXコマンドベースのデータマイニングツール
  • Revolution R(Microsoft R Server)
    BIGDATAの分析が出来る商用版のR

データマイニング(データ分析)

今まで知られていなかった役立つ可能性のある情報を抽出する
→データを分析してビジネスに使える知識を発見すること

※テキストデータはデータマイングの中でもテキストマイニングい分類される

テキストマイニング

nysolの文(Fumi)が形態素解析
文章から表形式の行列データを作る
品詞の出現回数で分類「見込み」、「見込めない」といった教師データモデルを作成してそれにあてはめれば予測は可能
デフォルトは一般的な単語データが適用されるので辞書データの作成は必要
nysolの文(Fumi)はJUMANを採用

ネットワーク分析

言葉と言葉のつながりを分析する

ETL(前処理)

Extract

外部の情報源からデータ抽出

Transformation

変換、加工

Load

ロード

分析

回帰分析

データから実数値を予測

クラス分類

データが属するカテゴリの予測

クラスタリング

データのグループ化
※過去の行動パターンが似ているユーザーなど

頻出パターン抽出

データから頻出する組み合わせを抽出

rapidminer

  • OSS
  • RapidMiner Studio Communuutiy Editionは無償
  • プログラミング無しに簡単に分析
  • 豊富な可視化ツール
  • 充実した分析機能
  • 拡張パッケージのインストールが可能
  • pythonのコードも書ける

ハンズオンメモ

  • missing_attributesで欠損データが確認できる
  • Annotationでname(列名)かcomment(コメントアウト)かが設定出来る
  • 136個の正常機械と故障機械の25のセンサー値
  • 予測とは過去のデータで作ったモデルに今のデータをあてはめる
  • ReferenceData 正解が分かっているデータ
  • New Data 正解を持たないデータ
  • k近傍法でk=1は使ってはならない
  • unlは unlabel data ラベルを持たないデータ
  • confidence 信頼係数 足すと1
  • RapidMinerブログ

列の役割

  • id 分析に使用しない、各行を識別するためだけの列
  • label 分類する項目、対象、目的変数
  • attribute 説明変数

質問メモといただいた回答

  • Studio以外のrapidminerについて教えてください。
    ServerはStudioの機能を共有出来る。
    Cloudはサーバーでクラウドが利用出来る。
    RadoopはHadoopと同じBigDataの分散処理が可能。
    無料のCommunityエディションがあるのはStudioのみで他は有償のEnterpriseエディション。
    Studioにも有償のEnterpriseエディションがあり実行のバッチ処理が可能。
    Studioの有償版は1ライセンス20万~30万ぐらい

  • 数値結果の予測チュートリアルは?
    まだだが線形回帰で近日公開する予定。

  • Databaseデータソースの種類は?
    JDBCで接続できるデータベースは問題なし

まとめ

課題がはっきりしないままスタートしても失敗する、というか意味がない。
ガートナー調査では日本企業でビッグデータ活用が出来ているのは6%。
48%はデータから価値を得る方法がわからない、課題設定が出来ていない。
ディープラーニングは画像、音声、テキストに強い。
数値ならば機械学習でも良い。

@yamamanx

開発ベンダー5年、ユーザ企業システム部門通算9年、ITトレーナー1年目のSoftware Engineerです。
質問はコメントかSNSなどからお気軽にどうぞ。
出来る限りなるべく答えます。

このブログの内容/発言の一切は個人の見解であり、所属する組織とは関係ありません。

また、勉強会やイベントのレポートは自分が気になったことをメモしたり、聞いて思ったことを書いていますので、登壇者の意見や発表内容ではありません。

 - study ,

ad

ad

  関連記事

Java SE 7 Silver模擬テストの結果気になる問題をメモ 2015/2/13

違う種類の模擬テスト1回目。 90問中77問正解。 正解率85%。 まだまだ不安 …

Java SE 7 Silver対策勉強をしながらメモ 2015/1/30

本日は配列です。 いつものごとくマークダウンで記載したのでそのままJetpack …

「【Twilio x kintone 合同ハンズオン in 大阪】Twilio Studioとkintoneで電話受付システムをつくろう」に行ってきました

「【Twilio x kintone 合同ハンズオン in 大阪】Twilio …

JAWS DAYS 2018の1日前に名古屋にいました「JAWS-UG名古屋 AWS勉強会 JAWS DAYS 2018前夜祭」

仕事の都合でJAWS DAYS 2018の前日は名古屋にいました。 宿泊地はお店 …

東大阪メーカーズ・ミートアップ Vol.2に行ってきました

今回初参加で行ってきました。 東大阪メーカーズ・ミートアップとは 「主に東大阪の …

Manabees Drone Experience at.OSAKA VOL.5(ドローン飛行イベント)に行ってきました

ドローン飛行イベントなるものがDoorkeeperに出てたので行ってきました。 …

Developers Summit 2018 「「技術内閣制度」2年間やってきて得られた事とこれから ~開発チーム横断での技術課題解決、技術力強化、エンジニア文化醸成」を聞きました

以下は、思ったことや気になったことをメモしていますので、必ずしも登壇者の発表内容 …

Developers Summit 2018 「自然言語処理・機械学習を活用したファクトチェック業務の支援」を聞きました

以下は、思ったことや気になったことをメモしていますので、必ずしも登壇者の発表内容 …

Alexa Day 2018で「Alexa Skill Contest」を聞きました

Alexa Day 2018のラストセッションは、「Alexa Skill Co …

LINEとAWSとTwilioとkintoneでBOTを作ってみるハンズオン~ラッキーコンテンツ手順~

LINEとAWSとTwilioとkintoneでBOTを作ってみるハンズオンで一 …