Your browser is out of date

Update your browser to view this website correctly. Update my browser now

×

あなたの知識を次のレベルへ

この4日間の実践形式のトレーニングコースは、Apache Spark 2.xによる高性能な並列アプリケーションを開発するために必要な、主要な概念と専門知識を提供します。コースへの参加者は、Spark SQL を使用して構造データをクエリする方法と、Spark Streamingを使用して、様々なソースからのデータをストリーミング処理します。また、開発者はコアSparkを使用して、ETL処理と反復アルゴリズムを実行するアプリケーションの作成も行います。このコースでは、分散ファイルシステムに格納された大規模データセットの操作方法と、Hadoop クラスター上でSparkアプリケーションを実行する方法について説明します。このコースを受講したあと、参加者は、実世界の課題に直面し、さまざまなユースケース、アーキテクチャ、および業界に適用されるより迅速な意思決定、優れた意思決定、および対話的な分析を実行するためのアプリケーションを構築する準備ができます。

本コースのアップデートにより、Spark 2を含むもっとも重要なテクノロジーを使用して、迅速に生産性を上げるために、コースの内容を更新を行っています。

ハンズオンの体験

実践的な演習は、クラウド上で実行されている実クラスターで行われます。授業ちうに各受講生が使用する、プライベートなクラスターが構築されています。

インストラクターによる議論や、インタラクティブな実践演習を通じて、参加者はHadoopエコシステムとどのように統合されているのかについても学習します。

  • Hadoopクラスタにデータを分散、格納、および処理する方法
  • Apache Sparkアプリケーションを作成、設定、およびHadoopクラスタに展開する方法
  • インタラクティブなデータ分析にSparkシェルを使用する方法
  • Spark SQLを使用して構造化データを処理およびクエリする方法
  • Spark Streamingを使用してライブデータストリームを処理する方法

コースの前提条件

このコースは、プログラミング経験を持つ開発者およびエンジニアを対象としていますが、HadoopやSparkの知識は必要ありません。

  • Apache Sparkのサンプルや実践的な演習はScalaおよびPythonで提供されているので、いずれかの言語の知識を持っていることが望ましいです
  • Linuxコマンドラインの基本知識があると仮定しています
  • SQLの基本知識は役立ちます

認定を取得する

コースの終了後、参加者は学習を続けて CCA Spark and Hadoop Developer 試験に登録することをお勧めします。 認定資格は大きな差別化要因です。あなたのスキルと専門知識の具体的な証拠を雇用者と顧客に提供し、現場のリーダーとして確立するのに役立ちます。

Apache Hadoop と Hadoop エコシステムの紹介

  • Apache Hadoop の概要
  • データの取り込みと格納
  • データ処理
  • データ分析と探索
  • その他のエコシステムツール
  • ハンズオン演習の紹介

Apache Hadoop ファイルストレージ

  • Apache Hadoop クラスターのコンポーネント
  • HDFS のアーキテクチャー
  • HDFS の使用

Apache Hadoop クラスターでの分散処理

  • YARN のアーキテクチャー
  • YARNとの関わり方

Apache Spark の基本

  • Apache Spark とは何か?
  • Spark シェルを開始する
  • Spark シェルを使用する
  • Dataset と DataFrame 入門
  • DataFrame の操作

DataFrame とスキーマの操作

  • データソースから DataFrame を作成する
  • DataFrame をデータソースに保存する
  • DataFrame のスキーマ
  • 積極的、および遅延実行

DataFrame のクエリを使用したデータ分析

  • 列の数式を使用した DataFrame のクエリ
  • グループ化と集計クエリ
  • DataFrame の結合

RDD の概要

  • RDD の概要
  • RDD のデータソース
  • RDD の作成と保存
  • RDD の操作

RDD によるデータ変換

  • 変換関数の記述と受け渡し
  • 変換の実行
  • RDD と DataFrame の変換

ペアの RDD によるデータの集約

  • キー、値ペアの RDD
  • Map-Reduce
  • その他のペアの RDD 操作

 

Apache Spark SQL によるテーブルとビューのクエリ

  • SQL を使用した Spark でのテーブルのクエリ
  • ファイルとビューのクエリ
  • Catalog API
  • Spark SQL, Apache Impala, Apache Hive-on-Spark の比較

 

Scala での Dataset の操作

  • Dataset と DataFrame
  • Dataset の作成
  • Dataset のロードと保存
  • Dataset の操作

 

Apache Spark アプリケーションの作成、設定、および実行

  • Spark アプリケーションの作成
  • アプリケーションのビルドと実行
  • アプリケーションのデプロイモード
  • Spark Application Web UI
  • アプリケーションのプロパティの設定

分散処理

  • レビュー: クラスター上での Apache Spark
  • RDD のパーティション
  • 例: クエリのパーティショニング
  • ステージとタスク
  • ジョブの実行計画
  • 例: Catalyst の実行計画
  • 例: RDD の実行計画

分散されたデータの永続化

  • DataFrame と Dataset の永続化
  • 永続化のストレージレベル
  • 永続化された RDD の表示

Apache Spark のデータ処理における一般的なパターン

  • 一般的な Spark のユースケース
  • Apache Spark での繰り返しアルゴリズム
  • 機械学習
  • 例: k-means

Apache Spark Streaming: DStream の概要

  • Apache Spark Streaming の概要
  • 例: Streaming でのリクエスト数
  • DStream
  • ストリーミングアプリケーションの開発

Apache Spark Streaming: 複数のバッチの処理

  • 複数バッチの操作
  • タイムスライシング
  • ステート操作
  • スライディングウィンドウ操作
  • プレビュー: Structured Streaming

 

Apache Spark Streaming: データソース

  • ストリーミングデータソースの概要
  • Apache Flume と Apache Kafka データソース
  • 例: Kafka ダイレクトデータソースの使用

さらに詳しく

データエンジニア認定

このコースは、CCP:データエンジニア認定の準備としてお勧めです。資格試験へのチャレンジにおいては、事前にできるだけ多くのトレーニングと経験を積むことをお勧めしていますが、このコースではCCP:データエンジニア試験で出題されるテーマを多数取り上げます。CCP:データエンジニア認定の取得によって、厳格なハンズオン試験で証明されたスキルを、現在の実務あるいは将来のキャリアにおいて強くアピールすることができます。

キャリアアップ

Hadoop開発者は、全世界で需要が高く、高額な報酬が約束されている技術職です。こうした経歴を要件とする求人情報をチェックしてみてください。その多くで、CCPの資格が求められています。

Private Training

トレーニングの参加者が希望する場所で、それぞれのペースとニーズに合わせて受講が可能なプライベートトレーニングも提供しています。

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.