【和訳】あまり知られていないが、知っておきたい
15のビッグデータ技術#BigData #spark
この記事は1年以上前に投稿されました。情報が古い可能性がありますので、ご注意ください。
本稿は、2017年3月17日 「Big Data Technology Developments You Should Know About」の和訳です。
Arcadia Enterprise 4.0
Arcadia Data は汎用性の高い、ビッグデータ分析ツールとして開発されている。特に、Apache Hadoopや、クラウドベースのデータレイク系のデータソースを、データを抽出することなく、ビジネスユーザに対して直接アクセスできるようなデザインをもつ。
特に、Arcadia Enterprise 4.0は2014年にGoogle社が開発したGoogle Designをユーザインタフェースとして採用している。アラート機能やスケジューリング機能が充実していて、リアルタイムデータをサポートしている。また、セキュアなExtranet機能をもち、大量のユーザに対してデータ公開ができるデータアプリが可能になる。
開発者にとっては、Arcadia Visual Designerというツールの機能によるポイント&クリック型のアプリ開発ツールが提供され、ワークフローやアプリのカスタマイズが容易にできる。
AtScale 5.0
AtScaleはTableauやQlikviewのようなビジネス向けのデータ分析、可視化機能をHadoopのようなデータボリュームに対して提供する。
AtScale 5.0の新機能として次が提供される:
- MDXクエリー言語をサポートする多次元の演算エンジンを持ち、複雑なビジネスプロセスの処理が可能
- マシンラーニングを採用したクエリー性能を最適化するエンジンを持つ
- オンプレミスとクラウド上のRDBデータソースに対してデータ抽出エンジンを持つ
- エンラプライズ企業向けのセキュリティ、データガバナンスとメタデータ管理機能をサポート
AtScaleはデータソースと可視化ツールとの間をリンクする演算エンジンに対して特許を取得している。
Attunity Compose 3.0
Compose 3.0はAttunity社のアジャイルウェアハウス自動化ソフトウェアの最新リリースで、企業ニーズとして高い、データ分析やETL処理を高速化する機能を提供している。
特に顕著な機能は:
- ETL機能の大幅な機能強化で、約10倍の性能向上を実現
- DevOps支援機能によるデータウェアハウスのデザイン、開発、運用処理の自動化による効率向上も実施
- エンタープライズ向けのソースコードのバージョン管理機能
- マルチユーザ開発プロジェクトをサポートしたチームコラボレーション機能による複数のモデル開発/マッピング/データマートのサポート
Cazena Data Science Sandbox As A Service
Cazenaは、データサイエンス、データウェアハウス向けのクラウド型データ分析プラットホームで、Microsoft AzureをAWS上で動く。
新規開発されたData Science Sandboxという機能を通して、下層の技術のビルド/運用に時間をかけずに、上位の分析処理に集中できるようになる。
このサンドボックスは、R言語、Python、SQL等複数の分析言語に加え、データストレージ/処理、セキュリティ機能をサポートする。これらのツールを通して、データサイエンティストはwebインタフェース、アプリ/スクリプトを通して、RStudio Server ProやHue Notebook等の内部ツールを利用する事ができる。
Couchbase Data Platform
Couchbase Server 4.6、Couchbase Sync Gateway 1.4、Couchbase Kafka Connector 3.0、Couchbase Spark Connector 2.0を含む新規データプラットホームのリリースが行われた。
このリリースにより、web/モバイル/IoT系のアプリを大量データで運用するデータプラットホーム機能が強化される。
Couchbase Server 4.6の新機能:
- グローバルでの実装が容易に
- セキュリティ機能強化
- .Netアプリ開発機能
- マップ、リスト、セットなどのデータ構造のサポート
Dataguise DgSecure 6.0.5
Dataguise社の新しい、DgSecureと呼ばれるデータガバナンスソフトウェアは、Apache Hiveベースのデータウェアハウスシステム上のデータ監視やマスキングの機能を提供する。Hiveは、Hadoop HDFSファイルシステム上の大規模なデータセットを管理運用するコンポーネント。
この新しいリリースは、さらにMapR、Teradata、Oracleデータベース上のデータ監視機能もサポートする。またさらに、拡張されたREST API機能がマルチクラウドやオンプレミスシステムとの間の互換性を可能にする。
LucidWorks Fusion 3
LucidWorks Fusionは、企業内データをインデックス化し、強力な検索機能を提供するための開発プラットホームで、データ規模は数百億のドキュメントまでサポートする。
最新のリリース、Fusion 3は、さらに強化され、次の機能が提供される:
- Index WorkbenchはETL処理機能が大幅にエンハンスされている。例えば、インデックスする前にデータコレクションの設定を変えながらプレビューができる機能も提供される。
- データのFaceting、Field Mapping等のデータ変換機能のツール強化
- Query Workbenchは新規のUIでプロトタイプの開発が容易に
- SQLをフルサポート
Paxata Spring '17
Paxata Adaptive Information Platformは複数のデータソースからデータを構造的に統合し、ビジネス分析を支援するツール
Paxata Spring '17 editionの新機能:
- Micorsoft Azureサポートに加え、HDInsight、Microsoft Apache Hadoop、Azure Storage Blob、Azure Data Lake Store等のサービスのサポート
- InterCloud Connect:Azureと他のクラウドやオンプレミスシステムとの間のデータ互換
Pentaho 7.0
Pentaho 7.0の新機能:
- マシンラーニング機能:オーケストレーション機能のエンハンスによりマシンラーニングワークフローを強化し、分析向けにデータを統合する機能
- 予測分析モデルの設計やデプロイの時間を大幅に短縮
Qubole Data Service
Qubole Data Service (QDS)は、エンタープライズ向けのクラウドデータ分析プラットホームで、Spark, Hadoop, Hive等のOSSもサポート
今回の新規リリースで、AWS、Azureに加え、Oracle Cloud上で利用できるようになった。特に、Oracle Cloudのベアメタルアーキテクチャによる高性能やOracleのNVMe SDDストレージの活用などが特徴である。
Reltio Cloud 2017.1
Reltio Cloudデータ管理や分析向けのPaaSとして提供される。
2017年1月のリリースは、次の機能を提供:
- 新規のデータ統合、コラボレーション機能のサポート
- SnapLogic Enterprise Integration Cloudの統合を通して、Reltio Cloudとの間のデータ移行や同期などをサポート
- グローバライゼーション機能として、国コードや組織タイプ等の属性情報を駆使したLookup機能の設定が容易に
- パーソナライズされたチームコラボレーションポータルにより、ワーククフローやタスク管理が容易に
Splice Machine Cloud RDBMS
Splice MachineはSQLベースのHadoopやSparkと連携するオープンソースツールの開発者で、新規のリリースでAWS上のDatabase-as-a-Serviceを提供開始する。
この新規のRDBMSサービスは、別途のETLツールを必要とせず、オペレーショナルと分析系のデータワークロードをサポートする。
現在、限定したユーザにベータ提供されており、4月から一般提供開始される。
SAP HANA Vora/Cloud Platform Big Data Services
SAPはHANA Vora インメモリコンピューティングエンジンをリリースし、次の機能を提供:
- Hadoopとの連携を強化
- 時系列データを分散環境で管理/分析できるように
- グラフデータ処理のサポート
- 分散インメモリJSONデータストア
- Kerberosのサポート
さらに、SAP Cloud Platform Big Data Servicesをヨーロッパ市場も拡張、SAP Voraのサービス提供を2017年の半ばまでに米国、欧州の両方で展開開始するとのこと。ちなみに、SAP Cloud Platform Big Data Servicesは元はAltiscaleという会社をSAPが買収して統合したもの。
Tableau 10.2
Tableau 10.2は3月に出荷開始、次の機能を提供:
- マッピング機能:Spacial File Connectorを通して、Tableau上で直接位置情報を取り込む事が可能に(サポートするのはESRI Shapefiles, KML, GeoJSON, MapInfoなどのファイルタイプ)
- データ準備機能:データベースのテーブルのJoin機能等、データベース構造やスキーマを直接管理
- ゲストアクセス機能:詳細設定の機能提供でデータガバナンスの機能強化
- SAP BWの接続がSingle Sign Onで可能に
- Apache DrillやMicrosoft SharePoint等との間のデータコネクタの追加など、合計60以上のデータコネクタの提供
Talend Data Fabric Winter '17
Talend Data Fabric Winter ‘17の新機能:
- 新規のデータ準備機能、クレンジング機能を通して、Hadoop、クラウドデータベース、レガシー型のデータベース等、広い範囲のデータアクセスを容易に
- セルフ型のデータ管理機能でデータガバナンスポリシーや要求を守りながらデータのライフサイクル管理が容易に
- マシンラーニング機能:データレイクに保存されているデータの意味を自動認識し、データ品質を向上させる
- Spark 2.0サポート