読者です 読者をやめる 読者になる 読者になる

たまにはちょっとソフトウェア

時空がゆがんでいる

KNIME Analytics Platform 3.3 について

 個人的にお気に入りのソフトウェア「KNIME」の最新バージョン 3.3 がリリースされたようなので、新機能をチェックしてみることにしました。

tech.knime.org

 

Curved connections in workflow editor

ノードをつなぐ線が曲線になりました。KNIME 3.2 以前のバージョンで作成したワークフローは直線で表示されますが、ツールバーの設定で曲線に変更できます。

 

Excel Integration Reworked

Excel 関連ノードのアップデートにより、何十万行も何千もの列からなる巨大な Excel ファイルが処理できるようになりました。

 

Upgrade to Eclipse 4.6

最新の Eclipse Neon 4.6 ベースになりました。

 

New Variable Manipulation Nodes

String Manipulation ノードと Math Formula ノードが変数ノードとして利用できるようになりました。

 

Improvements to the Text Mining Extensions

Apache Tika Integration

Tika ノードがリリースされました。様々なファイル形式(.pdf、.doc、.ppt、.txt、zip、gt など)の読み込みや解析が可能です。

Stanford NER (Named Entity Recognizer) Learner and Stanford NE Tagger nodes

固有表現(Named Entity)を扱うためのノードがリリースされました。ドキュメントと固有表現のセット用いてモデルを作成し、Stanford NE Tagger ノードでタグ付けします。作成したモデルは Scorer ノードで評価することもできます。

 

Improvements to DeepLearning4J Integration

ディープラーニング関連ノードをリファクタリングし、クラス分類・クラスタリング・回帰など用途ごとにノードをリリースしました。また、すべての Leaner ノードのユーザーインターフェースがより理解しやすく改良されています。

 

New Cloud Connectors

Amazon S3 や Azure Blob Store に接続するためのノードがリリースされました。

 

個人の感想

ドキュメント読み込み・解析周りの大幅アップデートが印象的なリリースとなりました。たまってきた電子データを扱うニーズが増えているのかもしれません。また、ディープラーニング関連ノードの開発も依然活発なようで、このまま勢いを維持していってほしいものです。

 

 

KNIME 3.2 の新機能を試す (1) - Workflow Coach

KNIME

Workflow Coach はワークフロー作成時に次に配置する候補となるノードを表示してくれます。どのような機能なのか実際に試してみます。

 

ノードを全く配置していないとどうなる?

ワークフローにノードを全く配置していない状態でのノードの候補を見てみます。Communityの欄に表示されている数字は、KNIMEコミュニティの利用統計からはじき出された値のようです。

f:id:tymsk3891:20160711212750p:plain

データ入力系のノードが表示されています。データ処理はファイルの読み込みからということで、File Reader で iris.csv データを読み込みます。

f:id:tymsk3891:20160711214636p:plain

 

File Reader ノードの次はどうなる?

File Readerノードを選択した状態でノードの候補を見てみます。

f:id:tymsk3891:20160711214800p:plain

データの分割、結合、フィルタリングなどデータ操作系のノードが表示されています。k-Meansでクラスタリングする人も多いようです。次に Partitioning ノードを使ってデータを2分割してみます。

f:id:tymsk3891:20160711220005p:plain

 

Partitioning ノードの次はどうなる?

Partitioningノードを選択した状態でノードの候補を見てみます。

f:id:tymsk3891:20160711220420p:plain

Decision Tree や Naive Bayes といったデータマイニング系のノードが表示されています。データを分割しただけなのですが… 次に Decision Tree Learnerノードを使ってモデルを作成してみます。

f:id:tymsk3891:20160711221427p:plain

 

Decision Tree Learnerノードの次はどうなる?

Decision Tree Learnerノードを選択した状態でノードの候補を見てみます。

f:id:tymsk3891:20160711221944p:plain

Decision Tree Predictor が圧倒的です。モデルを作ったなら使えということでしょう。先ほど Partitioning ノードで分割したデータに対して Decision Tree Predictor で予測してみます。

f:id:tymsk3891:20160711222722p:plain

 

Decision Tree Predictorノードの次はどうなる?

Decision Tree Predictorノードを選択した状態でノードの候補を見てみます。

f:id:tymsk3891:20160711222745p:plain

Scorer や ROC Curve など予測モデル評価系のノードが表示されています。作ったモデルを評価せよということで、Scorer ノードを使ってモデルを評価してみます。

f:id:tymsk3891:20160711223351p:plain

 

Scorerノードの次はどうなる?

Scorer ノードを選択した状態でノードの候補を見てみます。

f:id:tymsk3891:20160711223524p:plain

ROC Curve ノードが第1候補となっていますが、今回のワークフローではScorerノードのデータを ROC Curveノードで処理できませんでした。(これ以上続かなくてよかった…)

 

まとめ

KNIME 3.2 の新機能 Workflow Coach の第1候補のノードを繋げていくと、Decision Treeのモデル作成と評価のワークフローに導かれるようです。

使っているうちに自分の知らないノードを発見できたり、意外なノードが候補に出てきたりして結構面白いですし、ノードを探す作業効率も上がりそうです。

 

 

 

 

 

KNIME Analytics Platform 3.2 について

KNIME

個人的にお気に入りのソフトウェア「KNIME」の最新バージョン 3.2 がリリースされたようなので、新機能をチェックしてみることにしました。

tech.knime.org

 

UI and Workbench

KNIME File Extension

KNIME専用の拡張子が登場しました。ワークフローは*.knwf、ワークフローグループは*.knarとなります。これらの拡張子をもつファイルをダブルクリックすると、KNIME Analytics Platform が起動します。また、KNIME Explorerにドラッグ&ドロップするとワークフローがインポートできます。

Missing Node installation

開いたワークフローに自分が保有していないノードが含まれていた場合、すぐにダウンロードサイトからノードを取得できるようになりました。

続きを読む