类别 Professional-Data-Engineer

[2022年11月15日] 通过专业数据工程师复习指南,可靠的专业数据工程师测试引擎 [Q21-Q37]

[2022 年 11 月 15 日] 通过专业数据工程师复习指南,可靠的专业数据工程师测试引擎

专业数据工程师测试引擎实践测试题、考试试卷

备考培训课程推荐

培训课程旨在帮助考生了解 Google 考试大纲并做好充分准备。它还提供动手实验室和专家支持,让您深入了解考试中涉及的各个领域。以上就是谷歌为专业数据工程师认证考试提供的一些最佳培训课程。

 

Q21. 您的基础架构包括一组 YouTube 频道。您的任务是创建一个将 YouTube 频道数据发送到 Google Cloud 进行分析的流程。您希望设计一个解决方案,让您的全球营销团队能够对最新的 YouTube 频道日志数据执行 ANSI SQL 和其他类型的分析。
a.如何设置将日志数据传输到 Google 云?

 
 
 
 

Q22. 您有多个 Spark 作业,它们按计划在 Cloud Dataproc 集群上运行。其中一些作业按顺序运行,另一些作业同时运行。您需要将此过程自动化。您应该怎么做?

 
 
 
 

Q23. MJTelco 案例研究
公司概况
MJTelco 是一家初创公司,计划在全球快速增长、服务不足的市场建立网络。
该公司拥有创新光通信硬件的专利。基于这些专利,他们可以用廉价的硬件创建许多可靠的高速主干链路。
公司背景
MJTelco 由经验丰富的电信高管创立,采用的技术最初是为克服太空通信挑战而开发的。作为运营的基础,他们需要创建一个分布式数据基础设施,以推动实时分析并结合机器学习来不断优化拓扑结构。由于硬件成本低廉,他们计划超量部署网络,以便考虑到动态区域政治对位置可用性和成本的影响。
他们的管理和运营团队遍布全球各地,在数据消费者和系统提供者之间形成了多对多的关系。经过慎重考虑,他们认为公共云是支持其需求的完美环境。
解决方案理念
MJTelco 正在其实验室成功实施一个概念验证 (PoC) 项目。他们有两个主要需求:
* 扩展和加固其 PoC,以支持在安装数量超过 50,000 个时产生的更多数据流。
* 完善机器学习循环,验证并改进用于控制拓扑定义的动态模型。
MJTelco 还将使用开发/测试、暂存和生产三个独立的运行环境,以满足运行实验、部署新功能和服务生产客户的需要。
业务要求
* 在不可预测的分布式电信用户社区中,以最小的成本扩展生产环境,在需要时随时随地配置资源。
* 确保其专有数据的安全,以保护其领先的机器学习和分析。
* 为分布在各地的研究人员提供可靠、及时的数据分析途径
* 维护隔离环境,支持机器学习模型的快速迭代,同时不影响客户。
技术要求
确保安全高效地传输和存储遥测数据
快速扩展实例,支持 10,000 至 100,000 个数据提供商,每个提供商可提供多个数据流。
支持监控基础设施的快速迭代,重点关注遥测流和生产学习周期中的数据管道问题。
首席执行官声明
我们的商业模式依赖于我们的专利、分析和动态机器学习。我们的硬件价格低廉,可靠性高,因此具有成本优势。我们需要快速稳定我们的大型分布式数据管道,以实现我们的可靠性和容量承诺。
首席技术官声明
我们的公共云服务必须按照广告宣传的那样运行。我们需要能够扩展并确保数据安全的资源。我们还需要数据科学家能够仔细研究并快速调整模型的环境。由于我们依赖自动化来处理数据,因此我们还需要开发和测试环境能够在我们迭代的过程中正常工作。
首席财务官声明
该项目规模太大,我们无力维护数据和分析所需的硬件和软件。此外,我们也无力为监控如此多的数据源配备运营团队,因此我们将依赖自动化和基础设施。谷歌云的机器学习将使我们的定量研究人员能够解决我们的高价值问题,而不是数据管道问题。
考虑到 MJTelco 有意每天摄取的记录流,他们担心 Google BigQuery 的成本会增加。MJTelco 要求您提供一个设计解决方案。他们需要一个名为 tracking_table 的大型数据表。此外,他们希望在对每天的事件进行细粒度分析的同时,尽量降低每日查询的成本。他们还希望使用流式摄取。您应该怎么做?

 
 
 
 

Q24. 贵公司目前正在为其活动建立数据管道。对于所有 Google Cloud Pub/Sub
流式数据的重要业务要求之一是能够定期识别输入和输出的数据。
及其活动期间的时间。工程师们决定在下列情况下使用窗口和转换功能
谷歌云数据流可用于此目的。然而,在测试该功能时,他们发现云
所有流插入的数据流任务失败。造成这一问题的最可能原因是什么?

 
 
 
 

Q25. 您正在构建一个茶色石灰预测引擎,该引擎可将可能包含 Pll(个人身份信息)数据的文件流式传输到云存储,并最终传输到 BigQuery 您希望确保敏感数据被屏蔽,但仍能保持参照完整性,因为姓名和电子邮件经常被用作连接键 您应该如何使用云数据丢失防护 API(DLP API)来确保未经授权的个人无法访问 Pll 数据?

 
 
 
 

Q26. 如果您正在运行一个依赖于 Cloud Bigtable 的性能测试,那么除以下选项外,所有选项都是推荐步骤。哪个不是推荐步骤?

 
 
 
 

Q27. 您的基础架构包括一组 YouTube 频道。您的任务是创建一个将 YouTube 频道数据发送到 Google Cloud 进行分析的流程。您想设计一个解决方案,让您的全球营销团队能够对最新的 YouTube 频道日志数据执行 ANSI SQL 和其他类型的分析。您应该如何设置将日志数据传输到 Google Cloud?

 
 
 
 

Q28. 贵公司正在选择一个系统来集中数据摄取和交付。您正在考虑使用消息传递和数据集成系统来满足要求。主要要求如下
* 能够搜索到主题中的特定偏移量,可能追溯到所有采集数据的起始点
* 支持数百个主题的发布/订阅语义
* 保留按键订购
您应该选择哪种系统?

 
 
 
 

Q29. 在本地计算机上运行具有 BigQuery 源的管道时,会持续出现权限拒绝错误。原因何在?

 
 
 
 

Q30. 您有一个使用时间戳和 ID 列上的 WHERE 子句过滤 BigQuery 表的查询。通过使用 bq query - dry_run,您了解到该查询触发了对表的全面扫描,尽管对时间戳和 ID 的过滤只选择了整个数据的一小部分。
a.您想减少 BigQuery 扫描的数据量,同时尽量减少对现有 SQL 查询的更改。您应该怎么做?

 
 
 
 

Q31. 您需要创建一个数据管道来复制时间序列事务数据,以便您的数据科学团队能够在 BigQuery 中对其进行查询和分析。每小时都会有数千个事务更新为新状态。初始数据集的大小为 1.5 PB,每天将增加 3 TB。数据的结构化程度很高,您的数据科学团队将根据这些数据建立机器学习模型。您希望最大限度地提高数据科学团队的性能和可用性。您应该采取哪两种策略?(选择两项)。

 
 
 
 
 

Q32. 您正在使用 PySpark 进行大规模数据转换,但您的管道运行时间超过 12 小时 为了加快开发速度和管道运行时间,您希望使用无服务器工具和 SQL 语法 您已经将原始数据转移到云存储中 您应该如何在 Google Cloud 上构建管道,同时满足速度和处理要求?

 
 
 
 

Q33. 您在云存储中存储了历史数据。您需要对历史数据进行分析。您希望使用一种无需编程或 SQL 知识的解决方案来检测无效数据条目并执行数据转换。
你该怎么办?

 
 
 
 

Q34. 您正在为 Google 云上的数据管道设计超大文本文件存储。您希望支持 ANSI SQL 查询。您还希望使用 Google 推荐的做法,支持从输入位置进行压缩和并行加载。您应该怎么做?

 
 
 
 

Q35. 您使用 Node.js 编写了云函数,从云 Pub/Sub 拉取消息并将数据发送到 BigQuery。您发现,Pub/Sub 主题上的消息处理率比预期的要高出几个数量级,但 Stackdriver 日志查看器中没有记录任何错误。导致该问题的两个最可能的原因是什么?请选择两个答案。

 
 
 
 
 

Q36. 计算引擎虚拟机 (n2-standard -32)上的 TensorFlow 机器学习模型需要两天才能完成构建。您希望以经济高效的方式缩短训练时间。您应该怎么做?

 
 
 
 

Q37. 您正在 Cloud Dataflow 中运行一个管道,该管道从 Cloud Pub/Sub 主题接收消息并将结果写入欧盟的 BigQuery 数据集。目前,您的管道位于 europe-west4,最多有 3 个 Worker,实例类型为 n1-standard-1。您注意到,在高峰期,您的管道很难及时处理记录,因为此时所有 3 个 Worker 的 CPU 利用率都达到了最大值。您可以采取哪两种措施来提高管道的性能?(请选择两项)。

 
 
 
 
 

100% 免费专业数据工程师日常实践考试,含 270 个问题: https://www.trainingdump.com/Google/Professional-Data-Engineer-practice-exam-dumps.html