たまにはちょっとソフトウェア

ワークフロー&スウィィート

KNIME Analytics Platform 3.5 について

 

 

個人的にお気に入りのソフトウェア「KNIME」の最新バージョン 3.5 がリリースされました。早速新機能をチェックしてみましょう。

 

www.knime.com

 

 

KNIME Big Data Extensions

KNIME3.5 最大のニュースです。商用モジュールとして提供されてきた「KNIME Big Data Extensions」が KNIME Analytics Platform の一部になり、無償で利用できるようになりました。Apache HadoopApache Spark  を KNIME から操作してみましょう。

 

JavaScript Views

新たに3つの Views が追加されました。

  • Tag Cloud
  • Data Explorer
  • Table Editor

 

Tag Cloud (都道府県人口)

f:id:tymsk3891:20171210225644p:plain

Data Explorer  (アヤメのデータを表示)

f:id:tymsk3891:20171210224656p:plain

 

KNIME Deep Learning - Keras Integration

Deep Learning ライブラリ「Keras」が KNIME で利用できるようになりました。これにより「KNIME Labs」に「Deep Learning」カテゴリが新たに追加されています。KNIME の Deep Learning は通常の KNIMEノードと同様にバックエンド環境に依存しないため、すぐに使い始められます。Keras を通じて TensorFlow や CNTK にアクセスしましょう。

 

Google Sheets Nodes

Google スプレッドシートにデータの読み書きできるようになりました。

 

Run R Model in Microsoft SQL Server

「Run R Model in Microsoft SQL Server」ノードを使うと「SQL Server Machine Learning Services」を KNIME から利用できます。SQL Server 上のデータを KNIME 側にダウンロードすることなく処理できるなどのメリットがあります。

 

Improved H2O Integration

新たなノードが追加されました。

  • k-Means
  • PCA
  • Generalized Low Rank Models
  • Column Filter
  • MOJO  (Model Object, Optimized) 

 

Extensions that have “graduated” from KNIME Labs

「KNIME Labs」カテゴリで提供されてきた以下のノードが標準ノードの仲間入りとなりました。

 

The Math Formula (Multi Column) node

 複数列を同時に処理できる「Math Formula」ノードが登場しました。従来の「Math Formula」ノードは1列ずつしか処理できなかったため、複数列を計算する場合、ノードを連続する必要がありました。

 

アヤメのデータの各列の平均を求める設定例(CURRENT_COLUMNがポイント)

f:id:tymsk3891:20171210232449p:plain

 

The OPTICS nodes

OPTICS とは DBSCAN を基本としたクラスタリングアルゴリズムです。KNIMEで「OPTICS Cluster Compute」ノードと「OPTICS Cluster Assigner」ノードを組み合わせることで利用できます。

 

The Window Loop Start node

「The Window Loop Start」ノードを使えば、1度のループで読み込む期間、次のループで読み込み始める日時を指定したループ処理が可能になります。

 

その他

  • KNIME にバンドルされている Windows R のバージョンが 3.0.3 から 3.4.2 にアップデートされました。
  • Java のバージョンが 1.8.0_60 から 1.8.0_152 にアップデートされました。
  • Linux 用 KNIME の32bit バイナリの提供が終了となりました。
  • ノード全部入り版(+ all free extensions)のインストーラの提供が終了となりました。

 

商用版の機能については割愛します。

 

 まとめ

 

Hadoop、Spark、SQL Server 等との連携機能強化が印象的なリリースとなりました。また、機械学習ライブラリ H2O 関連ノードの拡張、Keras ノードで TensorFlow との親和性も高くなっている点にも注目です。

各機能の詳細については、(時間があれば)別記事で取り上げたいと思います。