Databricks-Certified-Professional-Data-Engineerの新しいテストキャンプシート-最新のトレーニングダンプス

新しい質問 34
ハッシュ機能の利点は何ですか？

より少ないメモリを必要とする

トレーニングデータの通過が少ない

ベクトルを簡単にリバースエンジニアリングして、ベクトル位置にマッピングされた元のフィーチャーを特定します。

新しい質問35
あるデータ・エンジニアは、テーブルを削除してテーブルを再作成することで、テーブルのデータを上書きしている。別のデータ
エンジニアは、これは非効率的であり、代わりにテーブルを単純に上書きすべきであると指摘している。
テーブルを削除して再作成する代わりにテーブルを上書きする次の理由のうち、誤っているものはどれですか？

テーブルの上書きはアトミックな操作であり、テーブルが未完成の状態になることはない。

テーブルの上書きは、タイムトラベルのために古いバージョンのテーブルを維持する。

テーブルの上書きは、ファイルを削除する必要がないため効率的である。

テーブルを上書きすると、ロギングと監査用にテーブルの履歴が消去されます。

テーブルを上書きすることで、進行中のクエリを同時に完了させることができる。

新しい質問36
あるデータエンジニアが、ジョブを使って自動処理するノートブックを設定しました。データエンジニアのマネージャーは
スケジュールが複雑なため、バージョン管理を行う。
データエンジニアが、バージョン管理可能なコンフィギュレーションを得るために使用できるアプローチは、次のうちどれか。
仕事のスケジュールは？

求職者は求人のページから求人のJSON記述をダウンロードすることができます。

万能クラスタに一度だけジョブを投入することができます。

ジョブをDatabricks Repoの一部であるノートブックにリンクすることができます。

ジョブクラスタに一度だけジョブを投入することができます。

求人情報のXMLディスクリプションは求人情報のページからダウンロードすることができます。

新しい質問 37
customerLocationsテーブルは以下のスキーマで存在する：
1. id 文字列、
2. 日付文字列、
3. city STRING、
4. 国名文字列
シニア・データ・エンジニアが、このテーブルから次のコマンドを使って新しいテーブルを作成しようとしている：
1.CREATE TABLE customersPerCountry AS
2.国を選択します、
3.COUNT(*) AS 顧客
4.FROM customerLocations
5.GROUP BY country；
ジュニア・データ・エンジニアが、新しいテーブルに対してスキーマが宣言されていない理由を尋ねています。次のうちどれですか？
の回答は、スキーマの宣言がなぜ必要ないのかを説明しているか？

CREATE TABLE AS SELECT文は、スキーマをサポートしないテーブルを生成します。

CREATE TABLE AS SELECT文は、すべてのカラムにSTRING型を割り当てる。

CREATE TABLE AS SELECT文は、ソース・テーブルとクエリーからスキーマの詳細を採用する。

CREATE TABLE AS SELECT文は、データをスキャンすることによってスキーマを推測する。

CREATE TABLE AS SELECT文は、スキーマが省略可能なテーブルを生成します。

新しい質問 38
データエンジニアは、/customer/customer360という場所にcustomer360というデータベースを作成する必要がある。その
データエンジニアは、同僚の誰かがすでにデータベースを作成しているかどうかわからない。
このタスクを完了するために、データエンジニアが実行すべきコマンドはどれか。

CREATE DATABASE customer360 DELTA LOCATION '/customer/customer360'；

CREATE DATABASE customer360 LOCATION '/customer/customer360'；

CREATE DATABASE IF NOT EXISTS customer360 DELTA LOCATION '/customer/customer360'；

CREATE DATABASE IF NOT EXISTS customer360；

CREATE DATABASE IF NOT EXISTS customer360 LOCATION '/customer/customer360'；

新しい質問 39
あなたは、ある雑誌の月間購読者総数を予測するモデルを作成するよう求められている。
1年分の購読・支払いデータ、ユーザー統計データ、10年分の購読・支払いデータが提供されます。
雑誌のコンテンツ（記事と写真）の価値。どのアルゴリズムが最適か？
加入者の予測モデル？

線形回帰

ロジスティック回帰

決定木

TF-IDF

新しい質問 40
ジュニア・データ・エンジニアは、Spark SQLテーブルmy_tableを作成する必要がある。
メタデータを作成します。メタデータとデータは、Databricks Filesystem (DBFS)にも保存する。
次のうち、シニア・データ・エンジニアがジュニア・データ・エンジニアと共有すべきコマンドはどれですか？
このタスクを完了させる？

1.CREATE MANAGED TABLE my_table (id STRING, value STRING) USING
2. org.apache.spark.sql.parquet OPTIONS (PATH "storage-path")；

1.CREATE TABLE my_table (id STRING, value STRING) USING DBFS；

1.CREATE TABLE my_table (id STRING, value STRING) USING
2. org.apache.spark.sql.parquet OPTIONS (PATH "storage-path")

1.CREATE TABLE my_table (id STRING, value STRING)；

1.CREATE MANAGED TABLE my_table (id STRING, value STRING)；

新しい質問41
あるデータエンジニアリングチームは、ELTジョブのパフォーマンスを監視するためにDatabricks SQLクエリを使用しています。
ELTジョブは、特定の数の入力レコードが処理可能な状態になるとトリガーされます。Databricks SQLの
クエリーは、ジョブの直近の実行時間からの分数を返します。
ELTのジョブが完了しなかった場合、データエンジニアリングチームに通知することができるアプローチは、次のうちどれでしょうか。
1時間で走ったのか？

ELTジョブが失敗したときに通知するクエリのアラートを設定することができます。

ダッシュボードにアラートを設定し、返された値が以下の値より大きい場合に通知することができます。
60歳以上

付属のダッシュボードにアラートを設定し、60時間以内にダッシュボードが再表示されなかった場合に通知することができる。
議事録

クエリに対してアラートを設定し、返された値が60を超えた場合に通知することができます。

このようなアラートはDatabricksではできません。

新しい質問 42
ジュニア・データ・エンジニアが、以下のスキーマを持つテーブルraw_tableにJSONファイルをインジェストした：
1. cart_id STRING、
2. items ARRAY。
ジュニア・データ・エンジニアは、raw_tableのitemsカラムをアンネストして、次のような新しいテーブルを作成したいと考えている。
以下のスキーマ：
1.cart_id STRING、
2.item_id STRING
このタスクを完了するために、ジュニア・データ・エンジニアが実行すべきコマンドはどれか。

1.SELECT cart_id, flatten(items) AS item_id
2.FROM raw_table；

1.SELECT cart_id, reduce(items) AS item_id
2.FROM raw_table；

1.SELECT cart_id, slice(items) AS item_id
2.FROM raw_table；

1.SELECT cart_id, filter(items) AS item_id
2.FROM raw_table；

1.SELECT cart_id, explode(items) AS item_id
2.FROM raw_table；

新しい質問 43
あるデータエンジニアは、ELTパイプラインに3つのノートブックを持っている。ノートブックは特定の順序で実行する必要がある
パイプラインが正常に完了するためにデータエンジニアは、Delta Live Tablesを使用して、これを管理したいと考えています。
プロセスだ。
データエンジニアは、Deltaを使用してこのパイプラインを実装する際に、次のどのステップを踏む必要がありますか？
ライブテーブル？

ジョブズ・ページからデルタ・ライブ・テーブルズのパイプラインを作成する必要があります。

Pythonとdltライブラリを使うようにノートブックをリファクタリングする必要がある。

コンピュート・ページからデルタ・ライブ・テーブル・パイプラインを作成する必要があります。

データ・ページからデルタ・ライブ・テーブル・パイプラインを作成する必要がある。

SQLとCREATE LIVE TABLEキーワードを使うように、ノートブックをリファクタリングする必要がある。

新しい質問44
多次元データセットをどのベクトルに投影すると分散が最大になるか？

第一主成分

第一固有ベクトル

回答するのに十分な情報が与えられていない

第二固有ベクトル

だいにしゅせいぶん

新しい質問45
あるデータアナリストが、DatabricksのSQLクエリの実行速度が遅いことに気づきました。彼らはこの問題を
が順次実行されるすべてのクエリに影響を及ぼしている。彼らはデータエンジニアリングチームに助けを求めた。データ
エンジニアリング・チームは、各クエリーが同じSQLエンドポイントを使用していることに気づいたが、そのSQLエンドポイントは
他のユーザーによって使用される。
データエンジニアリングチームがデータのレイテンシーを改善するために使用できるアプローチは、次のうちどれですか？
アナリストの質問は？

SQLエンドポイントのスケーリング範囲の最大値を増やすことができる。

SQLエンドポイントのクラスタ・サイズを大きくすることができる。

SQLエンドポイントの自動停止機能をオンにすることができます。

SQLエンドポイントのサーバーレス機能をオンにし、スポットインスタンスポリシーを次のように変更することができます。
"信頼性の最適化"

SQLエンドポイントのサーバーレス機能をオンにすることができる。

新しい質問 46
データアーキテクトは、ビデオベースの機械学習ワークロードと、以下のワークロードの両方に対応するデータモデルを設計している。
高度に監査されたバッチETL/ELTワークロード。
データレイクハウスを使用することで、データアーキテクトがどのようなニーズを満たすことができるかを説明したものは、次のうちどれでしょうか。
両方のワークロード？

データレイクハウスはデータモデリングをほとんど必要としない

データレイクハウスは、シンプルなガバナンスのためにコンピュートとストレージを組み合わせる

データレイクハウスは完全にクラウド上に存在する

データレイクハウスは非構造化データを保存し、ACIDに準拠している。

データレイクハウスはコンピュートクラスタのオートスケーリングを提供する

新しい質問 47
あるデータエンジニアがデータパイプラインを設計している。ソース・システムは共有ディレクトリにファイルを生成する。
は他のプロセスで使用される。その結果、ファイルはそのままにしておくとディレクトリに溜まっていく。その
データエンジニアは、パイプラインの前回の実行以降に新しく作成されたファイルを特定し、次のように設定する必要があります。
パイプラインは、実行のたびに新しいファイルだけを取り込む。
データエンジニアがこの問題を解決するために使用できるツールはどれか。

ユニティ・カタログ

オートローダー

データエクスプローラー

デルタ湖

Databricks SQL

新しい質問 48
あるデータ・エンジニアリング・チームは、既存のデータ・パイプラインをAuto Loaderを利用して次のように変換している。
JSONファイルの取り込みにおける増分処理。あるデータエンジニアが次のようなコードに出くわした。
ブロックを参照してください：
1. (streaming_df = spark.readStream.format("cloudFiles")
2. .option("cloudFiles.format", "json")
3. .option("cloudFiles.schemaLocation", schemaLocation)
4. .load(sourcePath))
schemaLocationとsourcePathが正しく設定されていると仮定すると、次のうちどの変更が行われるでしょうか？
データエンジニアは、このコードブロックをオートローダーを使ってデータを取り込むように変換する必要がありますか？

変更は必要ない。format("cloudFiles")を含めることで、オートローダーの使用が可能になります。

変更の必要はありません。Databricksはストリーミング読み込みにAuto Loaderを自動的に使用します。

データエンジニアは、format("cloudFiles")行をformat("autoLoader")に変更する必要がある。

データエンジニアは .load(sourcePath) 行の前に .autoLoader 行を追加する必要があります。

変更の必要はない。データエンジニアは、管理者に Auto Loader をオンにするよう依頼する必要があります。

新しい質問 49
データ・エンジニアリング・チームは、同じ条件を満たす行を抽出するために、デルタ・テーブルをクエリする必要がある。
しかし、チームはクエリの実行速度が遅いことに気づいた。チームはすでに
のデータファイルがある。調査の結果、この条件を満たす行がまばらに配置されていることが判明した。
各データファイルを通して。
シナリオに基づいて、次の最適化テクニックのどれがクエリを高速化できるか？

ファイルサイズの調整

ビン詰め

データスキップ

パーケットファイルとして書き込む

Zオーダー

新しい質問50
次のうち、データエンジニアがジョブクラスターの代わりにジョブクラスターを使用したいシナリオはどれですか？
万能クラスタ？

計算コストを最小限に抑えながら、アドホックな分析レポートを作成する必要がある。

データエンジニアが本番エラーを手動で調査する必要がある。

自動ワークフローを30分ごとに実行する必要がある

データチームは機械学習モデルの開発で協力する必要がある。

DatabricksのSQLクエリを上方報告のためにスケジューリングする必要があります。

新しい質問 51
あるデータエンジニアが、構造化ストリーミングジョブを構成して、テーブルから読み取り、データを操作し、その後
新しいテーブルにストリーミング書き込みを行う。データ・エンジニアが使用するコード・ブロックは以下の通りである：
1. (spark.table("売上")
2. .withColumn("avg_price", col("sales") / col("units"))
3. .writeStream
4. .option("checkpointLocation", checkpointPath)
5. .outputMode("完了")
6. ._____
.table("new_sales")
8.)
データエンジニアが、利用可能なデータをすべて処理するために、クエリに単一のマイクロバッチを実行させたいだけであれば、
データ・エンジニアが空白を埋めるために使用すべきコード行は次のうちどれでしょうか？

.processingTime(1)

.processingTime("once")

.trigger(processingTime="once")

.trigger(once=True)

.trigger(continuous="once")

新しい質問 52
Aは「学生が女性である」という事象を表し、Bは「学生がフランス人である」という事象を表す。100人の生徒がいるクラスで
60人がフランス人であり、フランス人学生のうち10人が女性であるとする。もし私が
つまり、P(A|B)を求める。

1/3

2/3

1/6

2/6

タグ Databricks-Certified-Professional-Data-Engineer new test camp sheet

Databricks-Certified-Professional-Data-Engineerダンプへの究極のガイド-今すぐあなたの将来のキャリアを高める[Q34-Q52]。