2015/7/8に、Asakusa on Sparkの開発者プレビュー版が公開された。
Asakusa Frameworkで作ったバッチアプリケーションは、従来はHadoop(およびスモールジョブ実行エンジン)で動いていた。
Asakusa on Sparkは、AsakusaバッチをApache Sparkで動かすもの。
Spark版バッチはHadoop版バッチより3~5倍程度速いらしい。
ちなみにAsakusa on Sparkの存在は2015/5/27のde:codeや2015/6/10のdb tech showcaseでひっそり発表されていたらしく、Spark版バッチがHadoop版バッチよりどれくらい速くなるかの情報も出ていたようだけど、資料は公開されていないっぽい。
Asakusa on Sparkがすごいのは、従来のAsakusaDSLで書かれたものをリコンパイルするだけでSparkで動かせるようになること!
それだけで3~5倍も速くなるというんだから、興奮する(笑)
(Sparkのチューニングは必要みたいだけど。そもそも通常のSparkアプリでも、パーティション数をいくつに設定するか等については試行錯誤するしか無いっぽい)
AsakusaFWが公開された当初(2011年)から、AsakusaFWは「分散バッチアプリケーションを開発する為のフレームワーク」であり、「実行基盤としてHadoopを使っている」と謳っていた。そして、「Hadoop以外の有望な実行基盤が出れば、それに対応するかもしれない」ということも当初から言っていたと思う。
(つまり、AsakusaFWにとっては、Hadoopは従。Hive・PigやAZAREA-ClusterはHadoopを楽に扱う目的のものなので、Hadoopが主)
とはいえ、その当時は「別の基盤に対応なんて、夢物語じゃないのかなー」と思っていた。
それが、今回Sparkで動くようになったことで、実際に実現した!
しかもリコンパイルだけで動くようになるという。アプリケーションの開発者にとってはまさに夢のような話。
そして、今後も新しい実行基盤が出てくれば、それに対応するかもしれない。夢が膨らむなぁ(笑)
ところで、Asakusa on Sparkとは関係ないんだけど、AsakusaFWのドキュメントのURLが変わったらしい。
従来「http://asakusafw.s3.amazonaws.com/documents」だった部分が「http://docs.asakusafw.com」になった模様。
当面は古い方も使えるようだけど、自分のウェブページからのリンクは、新しい方に切り替えた。