Rapidminerハンズオン勉強会に行ってきました
2016/09/18
機械学習 OSSのRapidminerの勉強会に行ってきました。
目次
OSS
BI
- pentaho
- jedox
DB
- INFOBRIGHT
Bigdata
- cloudera
data mining
- rapidminer
- nysol
UNIXコマンドベースのデータマイニングツール - Revolution R(Microsoft R Server)
BIGDATAの分析が出来る商用版のR
データマイニング(データ分析)
今まで知られていなかった役立つ可能性のある情報を抽出する
→データを分析してビジネスに使える知識を発見すること
※テキストデータはデータマイングの中でもテキストマイニングい分類される
テキストマイニング
nysolの文(Fumi)が形態素解析
文章から表形式の行列データを作る
品詞の出現回数で分類「見込み」、「見込めない」といった教師データモデルを作成してそれにあてはめれば予測は可能
デフォルトは一般的な単語データが適用されるので辞書データの作成は必要
nysolの文(Fumi)はJUMANを採用
ネットワーク分析
言葉と言葉のつながりを分析する
ETL(前処理)
Extract
外部の情報源からデータ抽出
Transformation
変換、加工
Load
ロード
分析
回帰分析
データから実数値を予測
クラス分類
データが属するカテゴリの予測
クラスタリング
データのグループ化
※過去の行動パターンが似ているユーザーなど
頻出パターン抽出
データから頻出する組み合わせを抽出
rapidminer
- OSS
- RapidMiner Studio Communuutiy Editionは無償
- プログラミング無しに簡単に分析
- 豊富な可視化ツール
- 充実した分析機能
- 拡張パッケージのインストールが可能
- pythonのコードも書ける
ハンズオンメモ
- missing_attributesで欠損データが確認できる
- Annotationでname(列名)かcomment(コメントアウト)かが設定出来る
- 136個の正常機械と故障機械の25のセンサー値
- 予測とは過去のデータで作ったモデルに今のデータをあてはめる
- ReferenceData 正解が分かっているデータ
- New Data 正解を持たないデータ
- k近傍法でk=1は使ってはならない
- unlは unlabel data ラベルを持たないデータ
- confidence 信頼係数 足すと1
- RapidMinerブログ
列の役割
- id 分析に使用しない、各行を識別するためだけの列
- label 分類する項目、対象、目的変数
- attribute 説明変数
質問メモといただいた回答
- Studio以外のrapidminerについて教えてください。
ServerはStudioの機能を共有出来る。
Cloudはサーバーでクラウドが利用出来る。
RadoopはHadoopと同じBigDataの分散処理が可能。
無料のCommunityエディションがあるのはStudioのみで他は有償のEnterpriseエディション。
Studioにも有償のEnterpriseエディションがあり実行のバッチ処理が可能。
Studioの有償版は1ライセンス20万~30万ぐらい -
数値結果の予測チュートリアルは?
まだだが線形回帰で近日公開する予定。 -
Databaseデータソースの種類は?
JDBCで接続できるデータベースは問題なし
まとめ
課題がはっきりしないままスタートしても失敗する、というか意味がない。
ガートナー調査では日本企業でビッグデータ活用が出来ているのは6%。
48%はデータから価値を得る方法がわからない、課題設定が出来ていない。
ディープラーニングは画像、音声、テキストに強い。
数値ならば機械学習でも良い。
最後までお読みいただきましてありがとうございました!
「AWS認定資格試験テキスト&問題集 AWS認定ソリューションアーキテクト - プロフェッショナル 改訂第2版」という本を書きました。
「AWS認定資格試験テキスト AWS認定クラウドプラクティショナー 改訂第3版」という本を書きました。
「ポケットスタディ AWS認定 デベロッパーアソシエイト [DVA-C02対応] 」という本を書きました。
「要点整理から攻略するAWS認定ソリューションアーキテクト-アソシエイト」という本を書きました。
「AWSではじめるLinux入門ガイド」という本を書きました。
開発ベンダー5年、ユーザ企業システム部門通算9年、ITインストラクター5年目でプロトタイプビルダーもやりだしたSoftware Engineerです。
質問はコメントかSNSなどからお気軽にどうぞ。
出来る限りなるべく答えます。
このブログの内容/発言の一切は個人の見解であり、所属する組織とは関係ありません。
このブログは経験したことなどの共有を目的としており、手順や結果などを保証するものではありません。
ご参考にされる際は、読者様自身のご判断にてご対応をお願いいたします。
また、勉強会やイベントのレポートは自分が気になったことをメモしたり、聞いて思ったことを書いていますので、登壇者の意見や発表内容ではありません。
ad
ad
関連記事
-
-
「HandsWash2020」に参加しました
お久しぶりにハンズラボさんの勉強会に参加させていただきました! 去年、今年と馴染 …
-
-
JINS MEME DEVELOPER HANDS-ON #5に行ってきました
世界初、自分を見るアイウェアの「JINS MEME」のSDK勉強会に行ってきまし …
-
-
Developers Summit 2018 「Spinnakerで実現するデプロイの自動化」を聞きました
以下は、思ったことや気になったことをメモしていますので、必ずしも登壇者の発表内容 …
-
-
Twilio エバチャンネル ONLINE vol.6でゲストトークしました
Twilio エバチャンネル ONLINEにゲストトークで呼んでいただきました〜 …
-
-
Innovation EGG 第6回 『IoT 今と未来』に参加してきました
雨を心配していましたが、曇り空ながら雨はやんで、180名強の方が参加されたInn …
-
-
Java SE 7 Silver対策勉強をしながらメモ 2015/2/6
本日は例外の続き。 これで参考書の章立てはとりあえず終了!! 明日からは模試と練 …
-
-
LINEとAWSとTwilioとkintoneでBOTを作ってみるハンズオン (2)LambdaからSlackへ通知する2
作る部分 この部分のLambdaを作成します。 手順1でSlackのIncomi …
-
-
Developers Summit 2024「GitHub Copilotは開発者の生産性をどれだけ上げるのか? ZOZOでの全社導入とその効果」を見ました
株式会社ZOZO 技術本部 技術戦略部 CTOブロック テックリード 堀江 亮介 …
-
-
「Serverless Days Tokyo 2023 サーバーレスアーキテクチャを使って、小さく作って大きくする取り組み」を見ました
2023/9/23にServerless Days Tokyo 2023に参加し …
-
-
「四国クラウドお遍路 2021 -コロナ後の地方創生-」に参加しました
徳島サテライト会場 今年の四国クラウドお遍路 2021 -コロナ後の地方創生-は …

