Rapidminerハンズオン勉強会に行ってきました
2016/09/18
機械学習 OSSのRapidminerの勉強会に行ってきました。
目次
OSS
BI
- pentaho
- jedox
DB
- INFOBRIGHT
Bigdata
- cloudera
data mining
- rapidminer
- nysol
UNIXコマンドベースのデータマイニングツール - Revolution R(Microsoft R Server)
BIGDATAの分析が出来る商用版のR
データマイニング(データ分析)
今まで知られていなかった役立つ可能性のある情報を抽出する
→データを分析してビジネスに使える知識を発見すること
※テキストデータはデータマイングの中でもテキストマイニングい分類される
テキストマイニング
nysolの文(Fumi)が形態素解析
文章から表形式の行列データを作る
品詞の出現回数で分類「見込み」、「見込めない」といった教師データモデルを作成してそれにあてはめれば予測は可能
デフォルトは一般的な単語データが適用されるので辞書データの作成は必要
nysolの文(Fumi)はJUMANを採用
ネットワーク分析
言葉と言葉のつながりを分析する
ETL(前処理)
Extract
外部の情報源からデータ抽出
Transformation
変換、加工
Load
ロード
分析
回帰分析
データから実数値を予測
クラス分類
データが属するカテゴリの予測
クラスタリング
データのグループ化
※過去の行動パターンが似ているユーザーなど
頻出パターン抽出
データから頻出する組み合わせを抽出
rapidminer
- OSS
- RapidMiner Studio Communuutiy Editionは無償
- プログラミング無しに簡単に分析
- 豊富な可視化ツール
- 充実した分析機能
- 拡張パッケージのインストールが可能
- pythonのコードも書ける
ハンズオンメモ
- missing_attributesで欠損データが確認できる
- Annotationでname(列名)かcomment(コメントアウト)かが設定出来る
- 136個の正常機械と故障機械の25のセンサー値
- 予測とは過去のデータで作ったモデルに今のデータをあてはめる
- ReferenceData 正解が分かっているデータ
- New Data 正解を持たないデータ
- k近傍法でk=1は使ってはならない
- unlは unlabel data ラベルを持たないデータ
- confidence 信頼係数 足すと1
- RapidMinerブログ
列の役割
- id 分析に使用しない、各行を識別するためだけの列
- label 分類する項目、対象、目的変数
- attribute 説明変数
質問メモといただいた回答
- Studio以外のrapidminerについて教えてください。
ServerはStudioの機能を共有出来る。
Cloudはサーバーでクラウドが利用出来る。
RadoopはHadoopと同じBigDataの分散処理が可能。
無料のCommunityエディションがあるのはStudioのみで他は有償のEnterpriseエディション。
Studioにも有償のEnterpriseエディションがあり実行のバッチ処理が可能。
Studioの有償版は1ライセンス20万~30万ぐらい -
数値結果の予測チュートリアルは?
まだだが線形回帰で近日公開する予定。 -
Databaseデータソースの種類は?
JDBCで接続できるデータベースは問題なし
まとめ
課題がはっきりしないままスタートしても失敗する、というか意味がない。
ガートナー調査では日本企業でビッグデータ活用が出来ているのは6%。
48%はデータから価値を得る方法がわからない、課題設定が出来ていない。
ディープラーニングは画像、音声、テキストに強い。
数値ならば機械学習でも良い。
最後までお読みいただきましてありがとうございました!
【PR】 「AWS認定試験対策 AWS クラウドプラクティショナー」という本を書きました。
【PR】 「AWSではじめるLinux入門ガイド」という本を書きました。
【PR】 「ポケットスタディ AWS認定 デベロッパーアソシエイト」という本を書きました。
【PR】 「AWS認定資格試験テキスト&問題集 AWS認定ソリューションアーキテクト - プロフェッショナル」という本を書きました。

開発ベンダー5年、ユーザ企業システム部門通算9年、ITインストラクター5年目でプロトタイプビルダーもやりだしたSoftware Engineerです。
質問はコメントかSNSなどからお気軽にどうぞ。
出来る限りなるべく答えます。
このブログの内容/発言の一切は個人の見解であり、所属する組織とは関係ありません。
このブログは経験したことなどの共有を目的としており、手順や結果などを保証するものではありません。
ご参考にされる際は、読者様自身のご判断にてご対応をお願いいたします。
また、勉強会やイベントのレポートは自分が気になったことをメモしたり、聞いて思ったことを書いていますので、登壇者の意見や発表内容ではありません。
ad
ad
関連記事
-
-
JAWS PANKRATION 2021「AWS Control Towerを使用して企業コストのサンドボックスを作成と継続的アウトプットのメリット」発表しました
同時通訳配信 JAWS PANKRATION 2021 -Up till dow …
-
-
Java SE 7 Silver対策勉強をしながらメモ 2015/2/11
練習問題4日目。 とりあえずひと通り終了。 317問中288問正解、90.85% …
-
-
LINEとAWSとTwilioとkintoneでBOTを作ってみるハンズオン (5) LINEからの投稿へ返信と登録処理
作る部分 LINEからのメッセージを受けて各APIより返信し、StepFunct …
-
-
Alexa Day2018で「Alexa連携デバイスクラウドを構成するAWS ソリューション」を聞きました
以下は、思ったことや気になったことをメモしていますので、必ずしも登壇者の発表内容 …
-
-
Java SE 7 Silver対策勉強をしながらメモ 2015/2/2
本日はクラス定義とオブジェクト。 一気に範囲が広がった感。 いつものごとくマーク …
-
-
Developers Summit 2018 「Spinnakerで実現するデプロイの自動化」を聞きました
以下は、思ったことや気になったことをメモしていますので、必ずしも登壇者の発表内容 …
-
-
Alexa Day 2018で「kokexaの話」を聞いてきました
スピーカーはサバワ坂本さん これは、私、山下の勝手な印象とか思い込みですが、坂本 …
-
-
ヤマムギ vol.6(勉強会) 「LINEとAWS(Lambda,Step Functions,API Gateway)とTwilioとkintoneでBOTを作ってみるハンズオン」を開催しました
2017/8/18に ヤマムギ vol.6 「LINEとAWS(Lambda,S …
-
-
「 MonotaRO Tech Talk #1」に行ってきました
モノタロウさんの「MonotaRO Tech Talk」に行ってきました。 ビー …
-
-
「Meguro.dev #1 」でモブプログラミングを体験してみました
「AWSの各サービスを道具としてアプリケーション開発を行うデベロッパーのための新 …