Databricks-공인 전문가-데이터 엔지니어 덤프에 대한 궁극적 인 가이드 - 지금 미래의 경력을 향상 시키십시오 [Q34-Q52].

 [2023 년 02 월 05 일] Databricks 덤프 - (Databricks-Certified-Professional-Data-Engineer) 시험 불안에 대처하는 방법 알아보기

구매 전 무료 데모 체험 데이터브릭-인증-전문가-데이터 엔지니어 덤프

새 질문 34
해싱 기능의 장점은 무엇인가요?

 
 
 

새 질문 35
데이터 엔지니어가 테이블을 삭제하고 테이블을 다시 생성하여 테이블의 데이터를 덮어쓰고 있습니다. 다른 데이터
엔지니어는 이 방법이 비효율적이며 대신 테이블을 덮어써야 한다고 제안합니다.
다음 중 테이블을 삭제하고 다시 만드는 대신 테이블을 덮어쓰는 이유는 올바르지 않습니까?

 
 
 
 
 

새 질문 36
데이터 엔지니어가 작업을 사용하여 자동으로 처리하도록 노트북을 설정했습니다. 데이터 엔지니어의 관리자는 다음을 원합니다.
를 사용하여 복잡성 때문에 일정을 버전 관리할 수 없습니다.
다음 중 데이터 엔지니어가 다음 중 버전 제어가 가능한 컨-구성을 얻기 위해 사용할 수 있는 접근 방식은 무엇입니까?
작업 일정은 어떻게 되나요?

 
 
 
 
 

새 질문 37
고객 위치 테이블은 다음과 같은 스키마로 존재합니다:
1. 아이디 문자열,
2. 날짜 문자열,
3. 도시 문자열,
4. 국가 문자열
선임 데이터 엔지니어가 다음 명령을 사용하여 이 테이블에서 새 테이블을 만들려고 합니다:
1. CREATE TABLE customersPerCountry AS
2. 국가를 선택합니다,
3. 고객 수(*)
4. 고객 위치에서
5. 국가별 그룹화;
한 주니어 데이터 엔지니어가 새 테이블에 대한 스키마가 선언되지 않는 이유를 묻습니다. 다음 중 어느 것이 맞습니까?
응답을 통해 스키마 선언이 필요하지 않은 이유를 설명해 주시겠습니까?

 
 
 
 
 

새 질문 38
데이터 엔지니어는 /customer/customer360 위치에서 customer360이라는 데이터베이스를 만들어야 합니다. 그리고
데이터 엔지니어가 동료 중 한 명이 이미 데이터베이스를 만들었는지 확신할 수 없습니다.
이 작업을 완료하기 위해 데이터 엔지니어가 실행해야 하는 명령은 다음 중 어느 것입니까?

 
 
 
 
 

새 질문 39
특정 잡지의 총 월간 구독자 수를 예측하는 모델을 만들라는 요청을 받았습니다.
1년치 구독 및 결제 데이터, 사용자 인구 통계 데이터, 10년치
가치의 잡지 콘텐츠(기사 및 사진)를 제공합니다. 구축에 가장 적합한 알고리즘은 무엇인가요?
구독자를 위한 예측 모델이 필요하신가요?

 
 
 
 

새 질문 40
주니어 데이터 엔지니어는 Spark가 데이터를 관리하는 Spark SQL 테이블 my_table을 만들어야 합니다.
메타데이터. 메타데이터와 데이터는 데이터브릭스 파일시스템(DBFS)에도 저장해야 합니다.
다음 중 선임 데이터 엔지니어가 주니어 데이터 엔지니어와 공유해야 하는 명령은 무엇입니까?
이 작업을 완료하시겠습니까?

 
 
 
 
 

새 질문 41
한 데이터 엔지니어링 팀은 데이터브릭스 SQL 쿼리를 사용하여 ELT 작업의 성능을 모니터링하고 있습니다.
ELT 작업은 처리할 준비가 된 특정 수의 입력 레코드에 의해 트리거됩니다. 데이터브릭스 SQL
쿼리는 작업의 가장 최근 실행 시간 이후 분 수를 반환합니다.
다음 중 ELT 작업이 완료되지 않은 경우 데이터 엔지니어링 팀에 알림을 제공할 수 있는 접근 방식은 무엇입니까?
한 시간 후에 실행되나요?

 
 
 
 
 

새 질문 42
주니어 데이터 엔지니어가 다음 스키마가 있는 raw_table 테이블로 JSON 파일을 수집했습니다:
1. cart_id 문자열,
2. 항목 ARRAY
주니어 데이터 엔지니어는 raw_table에서 항목 열의 중첩을 해제하여 다음과 같은 새 테이블을 만들고자 합니다.
스키마를 따릅니다:
1.cart_id 문자열,
2.item_id 문자열
이 작업을 완료하기 위해 주니어 데이터 엔지니어가 실행해야 하는 명령은 다음 중 어느 것입니까?

 
 
 
 
 

새 질문 43
데이터 엔지니어는 ELT 파이프라인에 3개의 노트북을 가지고 있습니다. 노트북은 특정 순서로 실행되어야 합니다.
을 사용하여 파이프라인을 성공적으로 완료하려고 합니다. 데이터 엔지니어는 이를 관리하기 위해 델타 라이브 테이블을 사용하려고 합니다.
프로세스.
다음 중 데이터 엔지니어가 델타를 사용하여 이 파이프라인을 구현하기 위해 수행해야 하는 단계는 무엇입니까?
라이브 테이블?

 
 
 
 
 

새 질문 44
다차원 데이터 집합을 어떤 벡터에 가장 큰 분산이 있는 벡터로 투영할까요?

 
 
 
 
 

새 질문 45
한 데이터 분석가가 데이터브릭스 SQL 쿼리가 너무 느리게 실행되는 것을 발견했습니다. 그들은 이 문제가
가 순차적으로 실행되는 모든 쿼리에 영향을 미치고 있습니다. 데이터 엔지니어링 팀에 도움을 요청합니다. 데이터
엔지니어링 팀은 각 쿼리가 동일한 SQL 엔드포인트를 사용하지만 SQL 엔드포인트가 다음과 같지 않다는 것을 발견했습니다.
다른 사용자가 사용하는 경우
다음 중 데이터 엔지니어링 팀이 데이터 지연 시간을 개선하기 위해 사용할 수 있는 접근 방식은 무엇입니까?
애널리스트의 질문에 대한 답변은?

 
 
 
 
 

새 질문 46
데이터 아키텍트는 비디오 기반 머신 러닝 워크로드에 모두 적합한 데이터 모델을 설계하고 있습니다.
고도로 감사된 배치 ETL/ELT 워크로드.
다음 중 데이터 레이크하우스를 사용하여 데이터 설계자가 다음과 같은 요구 사항을 충족하는 데 도움이 될 수 있는 방법을 설명하는 것은?
두 워크로드 모두?

 
 
 
 
 

새 질문 47
데이터 엔지니어가 데이터 파이프라인을 설계하고 있습니다. 소스 시스템은 공유 디렉터리에 파일을 생성합니다.
다른 프로세스에서 사용합니다. 따라서 파일은 그대로 유지되어야 하며 디렉터리에 누적됩니다. 디렉토리에
데이터 엔지니어는 파이프라인에서 이전 실행 이후 어떤 파일이 새로 생성되었는지 식별하고
파이프라인을 실행할 때마다 새 파일만 수집하도록 설정합니다.
데이터 엔지니어가 이 문제를 해결하기 위해 사용할 수 있는 도구는 다음 중 어느 것입니까?

 
 
 
 
 

새로운 질문 48
한 데이터 엔지니어링 팀이 기존 데이터 파이프라인을 다음과 같은 용도로 자동 로더를 활용하도록 전환하는 작업을 진행 중입니다.
JSON 파일 수집에서 증분 처리. 한 데이터 엔지니어가 다음 코드를 발견했습니다.
블록을 추가합니다:
(streaming_df = spark.readStream.format("cloudFiles"))
.option("cloudFiles.format", "json")
.option("cloudFiles.schemaLocation", schemaLocation)
.load(sourcePath))
schemaLocation 및 sourcePath가 올바르게 설정되었다고 가정할 때 다음 중 어떤 변경 사항이 적용됩니까?
데이터 엔지니어가 자동 로더를 사용하여 데이터를 수집하기 위해 이 코드 블록을 변환하려면 어떤 작업을 수행해야 하나요?

 
 
 
 
 

새 질문 49
데이터 엔지니어링 팀은 델타 테이블을 쿼리하여 모두 동일한 조건을 충족하는 행을 추출해야 합니다.
그러나 팀은 쿼리가 느리게 실행되는 것을 발견했습니다. 팀은 이미 쿼리의 크기를 조정하여
데이터 파일입니다. 조사 결과, 팀은 조건에 맞는 행이 드물게 위치한다는 결론을 내렸습니다.
를 각 데이터 파일 전체에 적용합니다.
이 시나리오에 따르면 다음 중 쿼리 속도를 높일 수 있는 최적화 기법은 무엇인가요?

 
 
 
 
 

새 질문 50
다음 중 데이터 엔지니어가 다음 중 하나 대신 작업 클러스터를 사용하려는 시나리오를 설명하는 것은?
다목적 클러스터가 필요하신가요?

 
 
 
 
 

새 질문 51
데이터 엔지니어가 테이블에서 읽고 데이터를 조작한 다음
를 사용하여 새 테이블에 스트리밍 쓰기를 수행합니다. 데이터 엔지니어가 사용하는 코드 블록은 다음과 같습니다:
(spark.table("sales")
.withColumn("avg_price", col("sales") / col("units"))
3. .writeStream
.option("체크포인트 위치", 체크포인트 경로)
.outputMode("완료")
6. ._____
.table("new_sales")
8.)
데이터 엔지니어가 쿼리에서 사용 가능한 모든 데이터를 처리하기 위해 단일 마이크로 배치만 실행하기를 원하는 경우,
데이터 엔지니어가 빈칸을 채우기 위해 다음 중 어떤 코드 줄을 사용해야 합니까?

 
 
 
 
 

새 질문 52
A는 '학생은 여성'이라는 이벤트를 나타내고 B는 '학생은 프랑스인'이라는 이벤트를 나타냅니다. 학생 100명으로 구성된 학급에서
60명이 프랑스인이라고 가정하고 프랑스 학생 중 10명이 여성이라고 가정합니다. 다음과 같은 경우의 확률을 구합니다.
프랑스 학생을 선택하면 여학생, 즉 P(A|B)를 구합니다.

 
 
 
 

테스트 엔진 및 PDF가 포함 된 최신 Databricks Databricks-Certified-Professional-Data-Engineer 덤프: https://www.trainingdump.com/Databricks/Databricks-Certified-Professional-Data-Engineer-practice-exam-dumps.html