Rapidminerハンズオン勉強会に行ってきました
2016/09/18
機械学習 OSSのRapidminerの勉強会に行ってきました。
OSS
BI
- pentaho
- jedox
DB
- INFOBRIGHT
Bigdata
- cloudera
data mining
- rapidminer
- nysol
UNIXコマンドベースのデータマイニングツール - Revolution R(Microsoft R Server)
BIGDATAの分析が出来る商用版のR
データマイニング(データ分析)
今まで知られていなかった役立つ可能性のある情報を抽出する
→データを分析してビジネスに使える知識を発見すること
※テキストデータはデータマイングの中でもテキストマイニングい分類される
テキストマイニング
nysolの文(Fumi)が形態素解析
文章から表形式の行列データを作る
品詞の出現回数で分類「見込み」、「見込めない」といった教師データモデルを作成してそれにあてはめれば予測は可能
デフォルトは一般的な単語データが適用されるので辞書データの作成は必要
nysolの文(Fumi)はJUMANを採用
ネットワーク分析
言葉と言葉のつながりを分析する
ETL(前処理)
Extract
外部の情報源からデータ抽出
Transformation
変換、加工
Load
ロード
分析
回帰分析
データから実数値を予測
クラス分類
データが属するカテゴリの予測
クラスタリング
データのグループ化
※過去の行動パターンが似ているユーザーなど
頻出パターン抽出
データから頻出する組み合わせを抽出
rapidminer
- OSS
- RapidMiner Studio Communuutiy Editionは無償
- プログラミング無しに簡単に分析
- 豊富な可視化ツール
- 充実した分析機能
- 拡張パッケージのインストールが可能
- pythonのコードも書ける
ハンズオンメモ
- missing_attributesで欠損データが確認できる
- Annotationでname(列名)かcomment(コメントアウト)かが設定出来る
- 136個の正常機械と故障機械の25のセンサー値
- 予測とは過去のデータで作ったモデルに今のデータをあてはめる
- ReferenceData 正解が分かっているデータ
- New Data 正解を持たないデータ
- k近傍法でk=1は使ってはならない
- unlは unlabel data ラベルを持たないデータ
- confidence 信頼係数 足すと1
- RapidMinerブログ
列の役割
- id 分析に使用しない、各行を識別するためだけの列
- label 分類する項目、対象、目的変数
- attribute 説明変数
質問メモといただいた回答
- Studio以外のrapidminerについて教えてください。
ServerはStudioの機能を共有出来る。
Cloudはサーバーでクラウドが利用出来る。
RadoopはHadoopと同じBigDataの分散処理が可能。
無料のCommunityエディションがあるのはStudioのみで他は有償のEnterpriseエディション。
Studioにも有償のEnterpriseエディションがあり実行のバッチ処理が可能。
Studioの有償版は1ライセンス20万~30万ぐらい -
数値結果の予測チュートリアルは?
まだだが線形回帰で近日公開する予定。 -
Databaseデータソースの種類は?
JDBCで接続できるデータベースは問題なし
まとめ
課題がはっきりしないままスタートしても失敗する、というか意味がない。
ガートナー調査では日本企業でビッグデータ活用が出来ているのは6%。
48%はデータから価値を得る方法がわからない、課題設定が出来ていない。
ディープラーニングは画像、音声、テキストに強い。
数値ならば機械学習でも良い。
最後までお読みいただきましてありがとうございました!
【PR】 「AWS認定試験対策 AWS クラウドプラクティショナー」という本を書きました。
【PR】 「AWSではじめるLinux入門ガイド」という本を書きました。

開発ベンダー5年、ユーザ企業システム部門通算9年、ITインストラクター3年目でプロトタイプビルダーもやりだしたSoftware Engineerです。
質問はコメントかSNSなどからお気軽にどうぞ。
出来る限りなるべく答えます。
このブログの内容/発言の一切は個人の見解であり、所属する組織とは関係ありません。
このブログは経験したことなどの共有を目的としており、手順や結果などを保証するものではありません。
ご参考にされる際は、読者様自身のご判断にてご対応をお願いいたします。
また、勉強会やイベントのレポートは自分が気になったことをメモしたり、聞いて思ったことを書いていますので、登壇者の意見や発表内容ではありません。
ad
ad
関連記事
-
-
スマートスピーカーで提供する料理体験(Alexa Day 2019でのブログ)
以下は、気になったことのメモとか感想を書いています。 登壇者、発表者、主催企業な …
-
-
JAWS-UG 関西IoT専門支部「マクニカkibo + AWS IoTハンズオン」に行ってきました、というか運営メンバーとして参加してきました
2015/12/19(土)はJAWS-UG 関西IoT専門支部の記念すべき1回目 …
-
-
AWS Summit 2016 Tokyoに参加してきました (前日 ~ Day1)
AWS Summit 2016 Tokyoにて、セッション聴講、ブース展示拝見、 …
-
-
LINEとAWSとTwilioとkintoneでBOTを作ってみるハンズオン (2)LambdaからSlackへ通知する2
作る部分 この部分のLambdaを作成します。 手順1でSlackのIncomi …
-
-
「Talend ハンズオンセミナー」に行ってきました
Talendとは データの整備・統合 ビッグデータ対応 ストリーミングデータ ア …
-
-
「JAWS-UG名古屋 re:Inventに行ったつもりのLT大会&忘年会」でLTしてきました
大阪から東京へ自転車で向かう初日に名古屋でJAWS-UGでLT大会に参加しようと …
-
-
Developers Summit 2018 「事例2本立て!Redmineユーザ達が語る現場定着化への取組みと導入アンチパターン」を聞きました
以下は、思ったことや気になったことをメモしていますので、必ずしも登壇者の発表内容 …
-
-
JAWS DAYS 2018で初めてのランチタイムセッションをやってみました
日本のAWSユーザーグループはJAWS-UGと言います。 JAWS-UGでは年に …
-
-
Salesforce WorldTour Tokyo 2018で、つながる世界の熱気を感じた
去年はたしか芝公園の方だったかと思いますが、今年はビッグサイトです。 数千人レベ …
-
-
Developers Summit 2016 KANSAIに行ってきました
Developers Summit 2016 KANSAIに行ってきました。 熱 …