데이터 브릭스 - 인증 된 전문가 - 데이터 엔지니어 새로운 시험 캠프 시트

새 질문 34
해싱 기능의 장점은 무엇인가요?

적은 메모리 필요

학습 데이터 통과 횟수 감소

벡터를 손쉽게 리버스 엔지니어링하여 벡터 위치에 매핑된 원본 피처를 확인합니다.

새 질문 35
데이터 엔지니어가 테이블을 삭제하고 테이블을 다시 생성하여 테이블의 데이터를 덮어쓰고 있습니다. 다른 데이터
엔지니어는 이 방법이 비효율적이며 대신 테이블을 덮어써야 한다고 제안합니다.
다음 중 테이블을 삭제하고 다시 만드는 대신 테이블을 덮어쓰는 이유는 올바르지 않습니까?

테이블 덮어쓰기는 원자적인 작업이며 테이블을 미완성 상태로 두지 않습니다.

테이블을 덮어쓰면 시간 여행에 대한 이전 버전의 테이블이 유지됩니다.

테이블 덮어쓰기는 파일을 삭제할 필요가 없으므로 효율적입니다.

테이블을 덮어쓰면 로깅 및 감사 목적으로 테이블 기록을 정리할 수 있습니다.

테이블을 덮어쓰면 진행 중에도 동시 쿼리를 완료할 수 있습니다.

새 질문 36
데이터 엔지니어가 작업을 사용하여 자동으로 처리하도록 노트북을 설정했습니다. 데이터 엔지니어의 관리자는 다음을 원합니다.
를 사용하여 복잡성 때문에 일정을 버전 관리할 수 없습니다.
다음 중 데이터 엔지니어가 다음 중 버전 제어가 가능한 컨-구성을 얻기 위해 사용할 수 있는 접근 방식은 무엇입니까?
작업 일정은 어떻게 되나요?

작업 페이지에서 작업에 대한 JSON 설명을 다운로드할 수 있습니다.

다목적 클러스터에서 한 번만 작업을 제출할 수 있습니다.

작업을 데이터브릭스 리포지토리의 일부인 노트북에 연결할 수 있습니다.

작업 클러스터에서 한 번만 작업을 제출할 수 있습니다.

작업 페이지에서 작업의 XML 설명을 다운로드할 수 있습니다.

새 질문 37
고객 위치 테이블은 다음과 같은 스키마로 존재합니다:
1. 아이디 문자열,
2. 날짜 문자열,
3. 도시 문자열,
4. 국가 문자열
선임 데이터 엔지니어가 다음 명령을 사용하여 이 테이블에서 새 테이블을 만들려고 합니다:
1. CREATE TABLE customersPerCountry AS
2. 국가를 선택합니다,
3. 고객 수(*)
4. 고객 위치에서
5. 국가별 그룹화;
한 주니어 데이터 엔지니어가 새 테이블에 대한 스키마가 선언되지 않는 이유를 묻습니다. 다음 중 어느 것이 맞습니까?
응답을 통해 스키마 선언이 필요하지 않은 이유를 설명해 주시겠습니까?

CREATE TABLE AS SELECT 문은 스키마를 지원하지 않는 테이블을 생성합니다.

CREATE TABLE AS SELECT 문은 모든 열에 문자열 유형을 할당합니다.

CREATE TABLE AS SELECT 문은 소스 테이블 및 쿼리에서 스키마 세부 정보를 채택합니다.

CREATE TABLE AS SELECT 문은 데이터를 스캔하여 스키마를 추론합니다.

스키마가 선택 사항인 테이블은 CREATE TABLE AS SELECT 문으로 생성됩니다.

새 질문 38
데이터 엔지니어는 /customer/customer360 위치에서 customer360이라는 데이터베이스를 만들어야 합니다. 그리고
데이터 엔지니어가 동료 중 한 명이 이미 데이터베이스를 만들었는지 확신할 수 없습니다.
이 작업을 완료하기 위해 데이터 엔지니어가 실행해야 하는 명령은 다음 중 어느 것입니까?

고객360 데이터베이스 만들기 델타 위치 '/customer/customer360';

고객360 데이터베이스 만들기 위치 '/customer/customer360';

고객360 델타 위치 '/customer/customer360'이 없는 경우 데이터베이스를 생성합니다;

고객360이 없는 경우 데이터베이스를 만듭니다;

고객360 위치가 없는 경우 데이터베이스 만들기 '/customer/customer360';

새 질문 39
특정 잡지의 총 월간 구독자 수를 예측하는 모델을 만들라는 요청을 받았습니다.
1년치 구독 및 결제 데이터, 사용자 인구 통계 데이터, 10년치
가치의 잡지 콘텐츠(기사 및 사진)를 제공합니다. 구축에 가장 적합한 알고리즘은 무엇인가요?
구독자를 위한 예측 모델이 필요하신가요?

선형 회귀

로지스틱 회귀

의사 결정 트리

TF-IDF

새 질문 40
주니어 데이터 엔지니어는 Spark가 데이터를 관리하는 Spark SQL 테이블 my_table을 만들어야 합니다.
메타데이터. 메타데이터와 데이터는 데이터브릭스 파일시스템(DBFS)에도 저장해야 합니다.
다음 중 선임 데이터 엔지니어가 주니어 데이터 엔지니어와 공유해야 하는 명령은 무엇입니까?
이 작업을 완료하시겠습니까?

1. 다음을 사용하여 관리 테이블 my_table (id 문자열, 값 문자열) 생성
2. org.apache.spark.sql.parquet 옵션(PATH "저장소 경로");

1. DBFS를 사용하여 my_table 테이블(id 문자열, 값 문자열)을 생성합니다;

1. CREATE TABLE my_table (id STRING, value STRING) USING
2. org.apache.spark.sql.parquet 옵션(PATH "storage-path")

1. CREATE TABLE my_table (id STRING, value STRING);

1. 관리 테이블 my_table(id 문자열, 값 문자열)을 생성합니다;

새 질문 41
한 데이터 엔지니어링 팀은 데이터브릭스 SQL 쿼리를 사용하여 ELT 작업의 성능을 모니터링하고 있습니다.
ELT 작업은 처리할 준비가 된 특정 수의 입력 레코드에 의해 트리거됩니다. 데이터브릭스 SQL
쿼리는 작업의 가장 최근 실행 시간 이후 분 수를 반환합니다.
다음 중 ELT 작업이 완료되지 않은 경우 데이터 엔지니어링 팀에 알림을 제공할 수 있는 접근 방식은 무엇입니까?
한 시간 후에 실행되나요?

쿼리에 대한 알림을 설정하여 ELT 작업이 실패할 때 알림을 받을 수 있습니다.

반환된 값이 더 클 경우 함께 제공되는 대시보드에 알림을 설정하여 알려줄 수 있습니다.
60

함께 제공되는 대시보드에 알림을 설정하여 60일 동안 새로고침이 이루어지지 않을 때 알림을 받을 수 있습니다.
분

쿼리에 대한 알림을 설정하여 반환된 값이 60보다 큰 경우 알림을 받을 수 있습니다.

이러한 유형의 알림은 데이터브릭스에서는 불가능합니다.

새 질문 42
주니어 데이터 엔지니어가 다음 스키마가 있는 raw_table 테이블로 JSON 파일을 수집했습니다:
1. cart_id 문자열,
2. 항목 ARRAY
주니어 데이터 엔지니어는 raw_table에서 항목 열의 중첩을 해제하여 다음과 같은 새 테이블을 만들고자 합니다.
스키마를 따릅니다:
1.cart_id 문자열,
2.item_id 문자열
이 작업을 완료하기 위해 주니어 데이터 엔지니어가 실행해야 하는 명령은 다음 중 어느 것입니까?

1. SELECT cart_id, flatten(items) AS item_id
2. FROM raw_table;

1. SELECT cart_id, reduce(items) AS item_id
2. FROM raw_table;

1. SELECT cart_id, slice(items) AS item_id
2. FROM raw_table;

1. SELECT cart_id, filter(items) AS item_id
2. FROM raw_table;

1. SELECT cart_id, explode(items) AS item_id
2. FROM raw_table;

새 질문 43
데이터 엔지니어는 ELT 파이프라인에 3개의 노트북을 가지고 있습니다. 노트북은 특정 순서로 실행되어야 합니다.
을 사용하여 파이프라인을 성공적으로 완료하려고 합니다. 데이터 엔지니어는 이를 관리하기 위해 델타 라이브 테이블을 사용하려고 합니다.
프로세스.
다음 중 데이터 엔지니어가 델타를 사용하여 이 파이프라인을 구현하기 위해 수행해야 하는 단계는 무엇입니까?
라이브 테이블?

작업 페이지에서 델타 라이브 테이블 파이프라인을 만들어야 합니다.

Python과 dlt 라이브러리를 사용하려면 노트북을 리팩터링해야 합니다.

계산 페이지에서 델타 라이브 테이블 파이프라인을 생성해야 합니다.

데이터 페이지에서 델타 라이브 테이블 파이프라인을 만들어야 합니다.

SQL을 사용하고 라이브 테이블 만들기 키워드를 사용하도록 노트북을 리팩터링해야 합니다.

새 질문 44
다차원 데이터 집합을 어떤 벡터에 가장 큰 분산이 있는 벡터로 투영할까요?

첫 번째 주성분

첫 번째 고유 벡터

답변하기에 충분한 정보가 제공되지 않음

두 번째 고유 벡터

두 번째 주성분

새 질문 45
한 데이터 분석가가 데이터브릭스 SQL 쿼리가 너무 느리게 실행되는 것을 발견했습니다. 그들은 이 문제가
가 순차적으로 실행되는 모든 쿼리에 영향을 미치고 있습니다. 데이터 엔지니어링 팀에 도움을 요청합니다. 데이터
엔지니어링 팀은 각 쿼리가 동일한 SQL 엔드포인트를 사용하지만 SQL 엔드포인트가 다음과 같지 않다는 것을 발견했습니다.
다른 사용자가 사용하는 경우
다음 중 데이터 엔지니어링 팀이 데이터 지연 시간을 개선하기 위해 사용할 수 있는 접근 방식은 무엇입니까?
애널리스트의 질문에 대한 답변은?

SQL 엔드포인트의 스케일링 범위의 최대 한계를 늘릴 수 있습니다.

SQL 엔드포인트의 클러스터 크기를 늘릴 수 있습니다.

SQL 엔드포인트에 대한 자동 중지 기능을 설정할 수 있습니다.

SQL 엔드포인트에 대해 서버리스 기능을 사용하도록 설정하고 스팟 인스탠스 정책을 다음과 같이 변경할 수 있습니다.
"안정성 최적화"

SQL 엔드포인트에 대해 서버리스 기능을 설정할 수 있습니다.

새 질문 46
데이터 아키텍트는 비디오 기반 머신 러닝 워크로드에 모두 적합한 데이터 모델을 설계하고 있습니다.
고도로 감사된 배치 ETL/ELT 워크로드.
다음 중 데이터 레이크하우스를 사용하여 데이터 설계자가 다음과 같은 요구 사항을 충족하는 데 도움이 될 수 있는 방법을 설명하는 것은?
두 워크로드 모두?

데이터 레이크하우스는 데이터 모델링이 거의 필요하지 않습니다.

데이터 레이크하우스는 컴퓨팅과 스토리지를 결합하여 거버넌스를 간소화합니다.

데이터 레이크하우스는 클라우드에 완전히 존재합니다.

데이터 레이크하우스는 비정형 데이터를 저장하고 ACID를 준수합니다.

데이터 레이크하우스는 컴퓨팅 클러스터를 위한 자동 확장 기능을 제공합니다.

새 질문 47
데이터 엔지니어가 데이터 파이프라인을 설계하고 있습니다. 소스 시스템은 공유 디렉터리에 파일을 생성합니다.
다른 프로세스에서 사용합니다. 따라서 파일은 그대로 유지되어야 하며 디렉터리에 누적됩니다. 디렉토리에
데이터 엔지니어는 파이프라인에서 이전 실행 이후 어떤 파일이 새로 생성되었는지 식별하고
파이프라인을 실행할 때마다 새 파일만 수집하도록 설정합니다.
데이터 엔지니어가 이 문제를 해결하기 위해 사용할 수 있는 도구는 다음 중 어느 것입니까?

Unity 카탈로그

자동 로더

데이터 탐색기

델타 레이크

데이터브릭스 SQL

새로운 질문 48
한 데이터 엔지니어링 팀이 기존 데이터 파이프라인을 다음과 같은 용도로 자동 로더를 활용하도록 전환하는 작업을 진행 중입니다.
JSON 파일 수집에서 증분 처리. 한 데이터 엔지니어가 다음 코드를 발견했습니다.
블록을 추가합니다:
(streaming_df = spark.readStream.format("cloudFiles"))
.option("cloudFiles.format", "json")
.option("cloudFiles.schemaLocation", schemaLocation)
.load(sourcePath))
schemaLocation 및 sourcePath가 올바르게 설정되었다고 가정할 때 다음 중 어떤 변경 사항이 적용됩니까?
데이터 엔지니어가 자동 로더를 사용하여 데이터를 수집하기 위해 이 코드 블록을 변환하려면 어떤 작업을 수행해야 하나요?

변경할 필요가 없습니다. format("cloudFiles")을 포함하면 자동 로더를 사용할 수 있습니다.

변경할 필요가 없습니다. 데이터브릭은 스트리밍 읽기에 자동 로더를 자동으로 사용합니다.

데이터 엔지니어는 format("cloudFiles") 줄을 format("autoLoader")로 변경해야 합니다.

데이터 엔지니어는 .load(sourcePath) 줄 앞에 .autoLoader 줄을 추가해야 합니다.

변경할 필요가 없습니다. 데이터 엔지니어는 관리자에게 자동 로더를 사용하도록 요청해야 합니다.

새 질문 49
데이터 엔지니어링 팀은 델타 테이블을 쿼리하여 모두 동일한 조건을 충족하는 행을 추출해야 합니다.
그러나 팀은 쿼리가 느리게 실행되는 것을 발견했습니다. 팀은 이미 쿼리의 크기를 조정하여
데이터 파일입니다. 조사 결과, 팀은 조건에 맞는 행이 드물게 위치한다는 결론을 내렸습니다.
를 각 데이터 파일 전체에 적용합니다.
이 시나리오에 따르면 다음 중 쿼리 속도를 높일 수 있는 최적화 기법은 무엇인가요?

파일 크기 조정하기

빈 포장

데이터 건너뛰기

쪽모이 세공 파일로 쓰기

Z-주문

새 질문 50
다음 중 데이터 엔지니어가 다음 중 하나 대신 작업 클러스터를 사용하려는 시나리오를 설명하는 것은?
다목적 클러스터가 필요하신가요?

컴퓨팅 비용을 최소화하면서 애드혹 분석 보고서를 개발해야 합니다.

데이터 엔지니어가 프로덕션 오류를 수동으로 조사해야 하는 경우

30분마다 자동화된 워크플로우를 실행해야 합니다.

데이터 팀은 머신 러닝 모델 개발을 위해 협업해야 합니다.

상향 보고를 위해 Databricks SQL 쿼리를 예약해야 합니다.

새 질문 51
데이터 엔지니어가 테이블에서 읽고 데이터를 조작한 다음
를 사용하여 새 테이블에 스트리밍 쓰기를 수행합니다. 데이터 엔지니어가 사용하는 코드 블록은 다음과 같습니다:
(spark.table("sales")
.withColumn("avg_price", col("sales") / col("units"))
3. .writeStream
.option("체크포인트 위치", 체크포인트 경로)
.outputMode("완료")
6. ._____
.table("new_sales")
8.)
데이터 엔지니어가 쿼리에서 사용 가능한 모든 데이터를 처리하기 위해 단일 마이크로 배치만 실행하기를 원하는 경우,
데이터 엔지니어가 빈칸을 채우기 위해 다음 중 어떤 코드 줄을 사용해야 합니까?

.processingTime(1)

.processingTime("once")

.trigger(처리 시간="한 번")

.trigger(once=True)

.trigger(연속="한 번")

새 질문 52
A는 '학생은 여성'이라는 이벤트를 나타내고 B는 '학생은 프랑스인'이라는 이벤트를 나타냅니다. 학생 100명으로 구성된 학급에서
60명이 프랑스인이라고 가정하고 프랑스 학생 중 10명이 여성이라고 가정합니다. 다음과 같은 경우의 확률을 구합니다.
프랑스 학생을 선택하면 여학생, 즉 P(A|B)를 구합니다.

1/3

2/3

1/6

2/6

태그 Databricks-Certified-Professional-Data-Engineer new test camp sheet

Databricks-공인 전문가-데이터 엔지니어 덤프에 대한 궁극적 인 가이드 - 지금 미래의 경력을 향상 시키십시오 [Q34-Q52].