Rapidminerハンズオン勉強会に行ってきました
2016/09/18
機械学習 OSSのRapidminerの勉強会に行ってきました。
目次
OSS
BI
- pentaho
- jedox
DB
- INFOBRIGHT
Bigdata
- cloudera
data mining
- rapidminer
- nysol
UNIXコマンドベースのデータマイニングツール - Revolution R(Microsoft R Server)
BIGDATAの分析が出来る商用版のR
データマイニング(データ分析)
今まで知られていなかった役立つ可能性のある情報を抽出する
→データを分析してビジネスに使える知識を発見すること
※テキストデータはデータマイングの中でもテキストマイニングい分類される
テキストマイニング
nysolの文(Fumi)が形態素解析
文章から表形式の行列データを作る
品詞の出現回数で分類「見込み」、「見込めない」といった教師データモデルを作成してそれにあてはめれば予測は可能
デフォルトは一般的な単語データが適用されるので辞書データの作成は必要
nysolの文(Fumi)はJUMANを採用
ネットワーク分析
言葉と言葉のつながりを分析する
ETL(前処理)
Extract
外部の情報源からデータ抽出
Transformation
変換、加工
Load
ロード
分析
回帰分析
データから実数値を予測
クラス分類
データが属するカテゴリの予測
クラスタリング
データのグループ化
※過去の行動パターンが似ているユーザーなど
頻出パターン抽出
データから頻出する組み合わせを抽出
rapidminer
- OSS
- RapidMiner Studio Communuutiy Editionは無償
- プログラミング無しに簡単に分析
- 豊富な可視化ツール
- 充実した分析機能
- 拡張パッケージのインストールが可能
- pythonのコードも書ける
ハンズオンメモ
- missing_attributesで欠損データが確認できる
- Annotationでname(列名)かcomment(コメントアウト)かが設定出来る
- 136個の正常機械と故障機械の25のセンサー値
- 予測とは過去のデータで作ったモデルに今のデータをあてはめる
- ReferenceData 正解が分かっているデータ
- New Data 正解を持たないデータ
- k近傍法でk=1は使ってはならない
- unlは unlabel data ラベルを持たないデータ
- confidence 信頼係数 足すと1
- RapidMinerブログ
列の役割
- id 分析に使用しない、各行を識別するためだけの列
- label 分類する項目、対象、目的変数
- attribute 説明変数
質問メモといただいた回答
- Studio以外のrapidminerについて教えてください。
ServerはStudioの機能を共有出来る。
Cloudはサーバーでクラウドが利用出来る。
RadoopはHadoopと同じBigDataの分散処理が可能。
無料のCommunityエディションがあるのはStudioのみで他は有償のEnterpriseエディション。
Studioにも有償のEnterpriseエディションがあり実行のバッチ処理が可能。
Studioの有償版は1ライセンス20万~30万ぐらい -
数値結果の予測チュートリアルは?
まだだが線形回帰で近日公開する予定。 -
Databaseデータソースの種類は?
JDBCで接続できるデータベースは問題なし
まとめ
課題がはっきりしないままスタートしても失敗する、というか意味がない。
ガートナー調査では日本企業でビッグデータ活用が出来ているのは6%。
48%はデータから価値を得る方法がわからない、課題設定が出来ていない。
ディープラーニングは画像、音声、テキストに強い。
数値ならば機械学習でも良い。
最後までお読みいただきましてありがとうございました!
「AWS認定資格試験テキスト&問題集 AWS認定ソリューションアーキテクト - プロフェッショナル 改訂第2版」という本を書きました。
「AWS認定資格試験テキスト AWS認定クラウドプラクティショナー 改訂第3版」という本を書きました。
「ポケットスタディ AWS認定 デベロッパーアソシエイト [DVA-C02対応] 」という本を書きました。
「要点整理から攻略するAWS認定ソリューションアーキテクト-アソシエイト」という本を書きました。
「AWSではじめるLinux入門ガイド」という本を書きました。
開発ベンダー5年、ユーザ企業システム部門通算9年、ITインストラクター5年目でプロトタイプビルダーもやりだしたSoftware Engineerです。
質問はコメントかSNSなどからお気軽にどうぞ。
出来る限りなるべく答えます。
このブログの内容/発言の一切は個人の見解であり、所属する組織とは関係ありません。
このブログは経験したことなどの共有を目的としており、手順や結果などを保証するものではありません。
ご参考にされる際は、読者様自身のご判断にてご対応をお願いいたします。
また、勉強会やイベントのレポートは自分が気になったことをメモしたり、聞いて思ったことを書いていますので、登壇者の意見や発表内容ではありません。
ad
ad
関連記事
-
ヤマムギvol.5 「BI ファーストステップ ~re:dash , PowerBI , Google Data Studio , Wave~」を開催しました
僭越ながら主催運営していますヤマムギの第5回目勉強会「BI ファーストステップ …
-
Manabees Drone Experience at.OSAKA VOL.5(ドローン飛行イベント)に行ってきました
ドローン飛行イベントなるものがDoorkeeperに出てたので行ってきました。 …
-
第四回 八子クラウド座談会in関西 「メーカーとITが急接近!?IoTってどないやねん!?」に参加しました
第四回 八子クラウド座談会in関西 「メーカーとITが急接近!?IoTってどない …
-
「DeNA re:Invent 2018 報告会」でエンジニアが伝えたいre:Inventの話が聞けた
DeNAさんのre:Invent報告会に参加しました。 開催されているDeNAさ …
-
「Media-JAWS 【第10回】渋谷に集合!」に参加しました
Media-JAWS 【第10回】渋谷に集合!に参加しました。 Media-JA …
-
Java SE 7 Silver対策勉強をしながらメモ 2015/2/4
本日は継承をどっぷりと。 一気に詰め込んで正解だったかも。 いつものごとくマーク …
-
Developers Summit 2018「 IoTサービスを始める際に必要なこととは」を聞きました
以下は、思ったことや気になったことをメモしていますので、必ずしも登壇者の発表内容 …
-
「Einsteinボット構築体験ハンズオン」でボットをノーコードで構築した
Salesforce World Tour Tokyoで基調講演の後、最近のニー …
-
LINEとAWSとTwilioとkintoneでBOTを作ってみるハンズオン (5) LINEからの投稿へ返信と登録処理
作る部分 LINEからのメッセージを受けて各APIより返信し、StepFunct …
-
ActRoomの仕様を書いてみた
これはLow-Code/No-Code Advent Calendar 2018 …