Your browser is out of date

Update your browser to view this website correctly. Update my browser now

×

必要なスキル

データ取得

外部システムとクラスタ間でデータを転送するスキル。以下のような操作を実行するスキルが含まれます。

  • 外部RDBMSとクラスタ間でのデータのインポートとエクスポート。特定のサブセットをインポートし、取得時にインポートしたデータの区切り文字およびファイル形式を変更し、データアクセスパターンまたは権限を変更する能力も含みます。
  • HDFSへのリアルタイムおよびニアリアルタイム(NRT)ストリーミングデータの取得。複数のデータソースに分散し、取得時にデータ形式を変換する能力も含みます。
  • Hadoop File System(FS)コマンドを使用したHDFSへのデータ読込みとHDFSからのデータ読出し。

変換、ステージング、格納

HDFSに格納されている所定の形式のデータ値のセットを新しいデータ値や新しいデータ形式に変換し、HDFSまたはHive/HCatalogに書き込みます。以下のようなスキルが含まれます。

  • データファイル形式の変換
  • 圧縮データの書き込み
  • データ値セットの変換(外部ライブラリを使用したLat/LongからPostal Addressへなど)
  • データセット内の値のデータ形式の変更
  • NULL値などの不正レコードのデータセットからの削除
  • データの重複排除とマージ
  • 複数の異なるデータセットのデータの非正規化
  • AvroまたはParquetスキーマの進化
  • 1つ以上のパーティションキーによる既存のデータセットの分割
  • 最適なクエリ性能を実現するためのデータ調整

データ解析

HDFSに格納されている所定の形式の1つ以上のデータセットをフィルタリング、ソート、結合、集約、変換し、特定の結果を出します。これらの全てのタスクには、Parquet、Avro、JSON、区切られたテキスト、および自然言語テキストからの読出しを含む場合があります。クエリには、複雑なデータ型(配列、マップ、構造型など)、外部ライブラリの実装、分割データ、圧縮データを含み、Hive/HCatalogのメタデータを使用する必要があります。

  • 複数行のデータを集約するクエリの作成
  • 総統計を計算する(平均や合計など)クエリの作成
  • データをフィルタリングするクエリの作成
  • ランクを付けたデータやソートしたデータを生成するクエリの作成
  • 複数のデータセットを結合するクエリの作成
  • HDFSの既存データからのHiveまたはHCatalogテーブルの読出しや作成

ワークフロー

データの価値を高めてシステムでさらに活用する各種ジョブやアクションを作成および実行する能力。以下のようなスキルが含まれます。

  • Hadoopジョブ、Hiveジョブ、Pigジョブ、カスタムアクションなどのアクションによるリニアワークフローの作成および実行
  • Hadoopジョブ、Hiveジョブ、Pigジョブ、カスタムアクションなどのアクションによる分岐ワークフローの作成および実行
  • データ依存関係を持つワークフローを含め、事前に定義したタイミングで定期的に実行するワークフローの調整

試験の内容

独自の大規模データセットのあるお客様の問題が8~12問出題されます。CDHクラスタを使用して120分で解答してください。各問題について、全ての要件を満たす精度の高い技術ソリューションを実装してください。クラスタでツールまたはツールの組み合わせを使用できます(下の表を参照)。ジョブに適したツールを選んでください。与えられた時間内で問題を分析して最適なアプローチにたどり着くために十分な知識が必要です。制限時間内で試験監督の監督の下、やるべきことを把握し、稼動しているクラスタで実行する必要があります。

対象者

CCPデータエンジニア試験の受験者には、一定以上のデータエンジニアリングソリューション開発経験と、上記のスキルに関する高度な専門技能が求められます。これ以外の条件はありません。

お勧めの試験準備

CCPデータエンジニア試験は、他者に差をつけ、高度なスキルを必要とする企業にとって価値の高い優れたデータプロフェッショナルを特定するために設立されました。この認定の取得を目指すプロフェッショナルには、現場でのハンズオン経験に加え、まず ClouderaのSparkおよびHadoop開発者 トレーニングコースを受講することをお勧めします。

他に質問がある場合は、認定FAQをご確認ください。

受験方法とクラスタの情報

CCPデータエンジニア試験(DE575)は、いつでもどこでも受験できるリモート形式の試験です。

CCPデータエンジニア試験(DE575)は、Clouderaのテクノロジーを使用するハンズオン実技試験です。各受験者には、それぞれCDHクラスタ(現在5.10.1)が提供されます。クラスタには、Spark、Impala、Crunch、Hive、Pig、Sqoop、Kafka、Flume、Kite、Hue、Oozie、DataFuなどが事前にロードされています (完全なリストを見る).さらに、Python 2.7および3.4、Perl 5.16、Elephant Bird、Cascading 2.6、Brickhouse、Hive Swarm、Scala 2.11、Scalding、IDEA、Sublime、Eclipse、およびNetBeansも入っています。

試験中にオンラインで提供される資料

Cloudera 製品ドキュメント
Apache Hadoop
Apache Hive
Apache Impala (Incubating)
Apache Sqoop
Spark
Apache Crunch
Apache Pig
Kite SDK
Apache Avro
Apache Parquet
Cloudera HUE
Apache Oozie
Apache Flume
DataFu
JDK 7 API Docs
Python 2.7 ドキュメント
Python 3.4 ドキュメント
Scala ドキュメント

試験中利用できるのは、上記の資料、リンク、およびリソースだけです。Google/検索機能を含むその他の全てのウェブサイトは、無効化されています。メモなどの試験の補助教材も使用できません。

 

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extention blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.