X

Author Profile

Kenichi Sonoda

Recent Posts by Kenichi Sonoda

Oracle Cloud Infrastructure Data Science のエッセンスをクイックレビュー

はじめに 皆さんは、DataScience.comと呼ばれたベンダーをご存知でしょうか。今を去ること約二年ほど前にオラクルが買収した、分析プラットフォームを提供するベンダーです。オラクルは同社買収後、約二年をかけて、このサービスをOracle Cloud Infrastructureに統合し、Oracle Lab.で開発されているAutoML APIを追加実装した新しい機械学習プラットフォームサービスとしてリリースしました。その名も ”Oracle Cloud Infrastructure Data Science”です。 本記事では、同サービスのエッセンスをクイックにご紹介します。   どんなサービスで何が嬉しいのか? オールインワンの開発環境 本サービスは、Scikit-Learn、TensorFlow、Keras、XGBoostなど現在デファクトになっている機械学習ライブラリが実装済みのオールインワンの機械学習開発環境を提供するクラウドサービスです。3ステップでプロビジョニングを完了し、すぐにコーディングが始められます。 チームによる分析プロジェクトの推...

TensorFlowにおけるGPUの威力

はじめに かつてグラフィックス・コンピューティングという限られた用途に利用されていたGPUはディープラーニングというテクノロジーのトレンドよってここ十数年で一気に市場を拡大しました。 GPU(グラフィックス・プロセッシング・ユニット)は、その名の通りグラフィックス処理を実行するためのプロセッサです。自然界では、人間は、視点と光源と物体の位置関係によって、その物体の色、形、動きを認識します。この3次元空間で起こる仕組みを、そのままコンピュータの中に取り込んだ技術がいわゆるコンピュータ・グラフィックス(CG)です。2次元の画面に疑似的に3次元空間をつくりだすこのCGという技術は、コンピューターが単純なベクトル演算を延々とこなし続けることによって成り立っています。必然、多種類の複雑な演算器を備えたCPUではこのワークロードには不都合なため、ベクトル演算器だけを切り出しそれ専用のプロセッサを作ろう、というのがGPUの生い立ちです。GPUは非常に大量のベクトル演算を高速に処理することができる反面、その他の処理、たとえばOSを起動する、ということさえできないプロ...

Apache Sparkからオブジェクトストレージのデータを使う

はじめに 以前の記事「Apache KafkaのメッセージをOracle Cloud オブジェクト・ストレージへ永続化する」ではエッジで生成されたデータをApache Kafkaで受け、オブジェクトストレージに永続化するという題材を取り上げました。アプリログ、ソーシャルログ、ウェブログ、IoTなど様々なシステムで使われている、今やお決まりのデザインです。 オブジェクト・ストレージに貯められたデータは当然、何らかのデータ処理エンジンにより使われるわけですが、本記事では、定番の Apache Sparkを取り上げます。Apache Sparkは、その生産性の高さと、MapReduceのデメリットを解消できるアーキテクチャにより、リリース後、短期間でスターの仲間入りを果たしたデータ処理エンジンです。人工知能、ディープラーニング、機械学習といった技術トレンドの波もあり、瞬く間にデータサイエンティストに広く受け入れられるようになりました。 Apache Sparkについては巷に有識者の優良な情報が溢れていますので、そちらをご参考にしていただき、本記事としては、エッ...

Apache KafkaのメッセージをOracle Cloud オブジェクト・ストレージへ永続化する

はじめに 今日のデータ分析基盤では大規模なデータを安価に保持できるデータストアが必要です。ビッグデータ時代黎明期においてはHDFSがその一翼を担い、データストアの定石アーキテクチャとして定着しました。 しかし、Amazon S3に代表される、いわゆるクラウド・ストレージの台頭により、HDFSは唯一の選択肢ではなくなりつつあることもまた事実です。 かつて、データマネージメント市場において、HDFSを中心にあらゆるエコシステムが急速に形成されたように、今やクラウド・ストレージとのインターフェースを持たないデータ処理エンジンは皆無と言える状況です。 一昔前まで、この技術分野ではリレーショナル・データベースを中心にシステムを構成するアーキテクチャが一般的でした。オンライントランザクション処理のオペレーショナルデータベースからオンライン分析処理のデータウェアハウスへ、バッチによるETL処理を経由しデータを渡しつつ、他システムとはメッセージキューやEAIで連携、という具合です。 残念ながらこの旧式の仕組みでは、あらゆるタイプの大容量データをリアルタイムに処理でき...