Apache Crunch
Apache Crunch Java ライブラリは、MapReduce パイプラインを作成、テスト、稼動させるためのフレームワークです。その目的は、多くのユーザー定義関数を構成するパイプラインの容易な作成やテスト、そして効率的な稼動の実現です。
Hadoop MapReduce および Apache Spark 上で稼動する Apache Church™ ライブラリは、単純に構築ができない MapReduce でのデータの結合や集約といったタスクのためのシンプルな Java API です。このAPI は、特に時系列データやプロトコルバッファあるいは Avro レコード、HBase の行と列など、リレーショナルモデルにそのままでは適合しないデータを処理する場合に有効となります。Scala ユーザーであれば、MapReduce パイプライン作成のためのREPL (read-eval-print loop) など、Java API で構築された、Scrunch API を利用することができます。