Kategorie Professional-Data-Engineer

[Nov 15, 2022] Pass Professional-Data-Engineer Review Guide, Zuverlässige Professional-Data-Engineer Test Engine [Q21-Q37]

[Nov 15, 2022] Pass Professional-Data-Engineer Review Guide, Zuverlässige Professional-Data-Engineer Test Engine

Professional-Data-Engineer Test Engine Praxistest Fragen, Exam Dumps

Für die Prüfungsvorbereitung empfohlene Lehrgänge

Die Schulungskurse sollen den Kandidaten helfen, den Lehrplan der Google-Prüfung kennenzulernen und sich gut vorzubereiten. Sie verfügen über praktische Übungen und Expertenunterstützung, die es Ihnen ermöglichen, tiefgreifendes Wissen über jeden in der Prüfung behandelten Bereich zu erlangen. Dies sind also einige der besten Schulungskurse, die von Google für die Professional Data Engineer-Zertifizierungsprüfung angeboten werden.

 

Q21. Ihre Infrastruktur umfasst eine Reihe von YouTube-Kanälen. Sie wurden damit beauftragt, einen Prozess zum Senden der YouTube-Kanaldaten an Google Cloud zur Analyse zu entwickeln. Sie möchten eine Lösung entwickeln, die es Ihren weltweiten Marketingteams ermöglicht, ANSI-SQL und andere Arten von Analysen der aktuellen Protokolldaten der YouTube-Kanäle durchzuführen.
a. Wie sollten Sie die Übertragung der Protokolldaten in Google Cloud einrichten?

 
 
 
 

Q22. Sie haben mehrere Spark-Aufgaben, die auf einem Cloud Dataproc-Cluster nach einem Zeitplan ausgeführt werden. Einige der Aufträge werden nacheinander ausgeführt und einige der Aufträge laufen gleichzeitig. Sie müssen diesen Prozess automatisieren. Was sollten Sie tun?

 
 
 
 

Q23. MJTelco Fallstudie
Überblick über das Unternehmen
MJTelco ist ein Start-up-Unternehmen, das den Aufbau von Netzen in schnell wachsenden, unterversorgten Märkten auf der ganzen Welt plant.
Das Unternehmen besitzt Patente für innovative optische Kommunikationshardware. Auf der Grundlage dieser Patente können sie viele zuverlässige Hochgeschwindigkeits-Backbone-Verbindungen mit kostengünstiger Hardware schaffen.
Hintergrund des Unternehmens
MJTelco wurde von erfahrenen Führungskräften der Telekommunikationsbranche gegründet und nutzt Technologien, die ursprünglich zur Bewältigung von Kommunikationsproblemen im Weltraum entwickelt wurden. Grundlegend für den Betrieb des Unternehmens ist die Schaffung einer verteilten Dateninfrastruktur, die Echtzeitanalysen ermöglicht und maschinelles Lernen zur kontinuierlichen Optimierung der Topologien einschließt. Da ihre Hardware kostengünstig ist, planen sie eine Überdimensionierung des Netzes, um die Auswirkungen der dynamischen regionalen Politik auf die Verfügbarkeit von Standorten und die Kosten zu berücksichtigen.
Ihre Verwaltungs- und Betriebsteams sind rund um den Globus verteilt, wodurch viele Beziehungen zwischen Datenkonsumenten und -lieferanten in ihrem System entstehen. Nach reiflicher Überlegung entschied das Unternehmen, dass eine öffentliche Cloud die perfekte Umgebung für seine Bedürfnisse ist.
Lösungskonzept
MJTelco führt in seinen Labors ein erfolgreiches Proof-of-Concept-Projekt (PoC) durch. Sie haben zwei Hauptbedürfnisse:
* Skalierung und Härtung ihres PoC, um deutlich mehr Datenströme zu unterstützen, wenn sie auf mehr als 50.000 Installationen ansteigen.
* Sie verfeinern ihre maschinellen Lernzyklen, um die dynamischen Modelle zu überprüfen und zu verbessern, die sie zur Steuerung der Topologiedefinition verwenden.
MJTelco wird außerdem drei separate Betriebsumgebungen verwenden - Entwicklung/Test, Staging und Produktion -, um den Anforderungen bei der Durchführung von Experimenten, der Bereitstellung neuer Funktionen und der Betreuung von Produktionskunden gerecht zu werden.
Geschäftliche Anforderungen
* Skalieren Sie Ihre Produktionsumgebung mit minimalen Kosten, indem Sie Ressourcen bei Bedarf und in einer unvorhersehbaren, verteilten Telekommunikationsbenutzergemeinschaft einsetzen.
* Gewährleistung der Sicherheit ihrer geschützten Daten zum Schutz ihrer hochmodernen maschinellen Lern- und Analyseverfahren.
* Verlässlicher und rechtzeitiger Zugang zu Daten für die Analyse von verteilten Forschungsmitarbeitern
* Sie unterhalten isolierte Umgebungen, die eine schnelle Iteration ihrer maschinellen Lernmodelle unterstützen, ohne ihre Kunden zu beeinträchtigen.
Technische Anforderungen
Gewährleistung einer sicheren und effizienten Übertragung und Speicherung von Telemetriedaten
Schnelle Skalierung der Instanzen zur Unterstützung von 10.000 bis 100.000 Datenanbietern mit jeweils mehreren Datenströmen.
Ermöglicht die Analyse und Präsentation anhand von Datentabellen, die bis zu zwei Jahre lang Daten speichern und ca. 100 Mio. Datensätze pro Tag erfassen. Unterstützt die rasche Iteration der Überwachungsinfrastruktur mit dem Schwerpunkt auf der Erkennung von Problemen in der Datenpipeline sowohl in Telemetrieflüssen als auch in Produktionslernzyklen.
CEO-Erklärung
Unser Geschäftsmodell beruht auf unseren Patenten, der Analytik und dem dynamischen maschinellen Lernen. Unsere kostengünstige Hardware ist so organisiert, dass sie sehr zuverlässig ist, was uns Kostenvorteile verschafft. Wir müssen unsere großen verteilten Datenpipelines schnell stabilisieren, um unsere Zuverlässigkeits- und Kapazitätsverpflichtungen zu erfüllen.
CTO-Erklärung
Unsere öffentlichen Cloud-Dienste müssen wie angekündigt funktionieren. Wir brauchen Ressourcen, die skalierbar sind und unsere Daten sicher halten. Außerdem benötigen wir Umgebungen, in denen unsere Datenwissenschaftler unsere Modelle sorgfältig untersuchen und schnell anpassen können. Da wir uns bei der Verarbeitung unserer Daten auf die Automatisierung verlassen, müssen auch unsere Entwicklungs- und Testumgebungen funktionieren, während wir iterieren.
CFO-Erklärung
Das Projekt ist zu groß, als dass wir die für die Daten und die Analyse erforderliche Hardware und Software aufrechterhalten könnten. Außerdem können wir es uns nicht leisten, ein Betriebsteam zu beschäftigen, das so viele Dateneinspeisungen überwacht, daher werden wir uns auf Automatisierung und Infrastruktur verlassen. Das maschinelle Lernen von Google Cloud wird es unseren quantitativen Forschern ermöglichen, an unseren hochwertigen Problemen zu arbeiten und nicht an Problemen mit unseren Datenpipelines.
In Anbetracht der Datenströme, die MJTelco pro Tag aufnehmen möchte, ist das Unternehmen besorgt über die steigenden Kosten von Google BigQuery. MJTelco bittet Sie, eine Designlösung zu entwerfen. Das Unternehmen benötigt eine einzige große Datentabelle namens tracking_table. Außerdem sollen die Kosten für die täglichen Abfragen minimiert und gleichzeitig eine feinkörnige Analyse der täglichen Ereignisse durchgeführt werden. Sie möchten außerdem Streaming Ingestion verwenden. Was sollten Sie tun?

 
 
 
 

Q24. Ihr Unternehmen ist gerade dabei, Datenpipelines für seine Kampagne einzurichten. Für alle Google Cloud Pub/Sub
Streaming-Daten ist es eine der wichtigsten geschäftlichen Anforderungen, die Eingaben regelmäßig zu identifizieren
und ihre Zeitpunkte während der Kampagne. Die Ingenieure haben beschlossen, die Fensterung und Transformation in
Google Cloud Dataflow für diesen Zweck. Beim Testen dieser Funktion stellen sie jedoch fest, dass die Cloud
Der Dataflow-Auftrag schlägt für alle Streaming-Inserts fehl. Was ist die wahrscheinlichste Ursache für dieses Problem?

 
 
 
 

Q25. Sie bauen eine Teal-Lime-Prediction-Engine auf, die Dateien, die Pll-Daten (Personal Identifiable Information) enthalten können, in den Cloud-Speicher und schließlich in BigQuery streamt. Sie möchten sicherstellen, dass die sensiblen Daten maskiert werden, aber dennoch die referentielle Integrität beibehalten wird, da Namen und E-Mails häufig als Verknüpfungsschlüssel verwendet werden. Wie sollten Sie die Cloud Data Loss Prevention API (DLP API) verwenden, um sicherzustellen, dass die Pll-Daten nicht für Unbefugte zugänglich sind?

 
 
 
 

Q26. Wenn Sie einen Leistungstest durchführen, der von Cloud Bigtable abhängt, sind alle Möglichkeiten bis auf eine unten empfohlene Schritte. Welcher Schritt ist NICHT empfehlenswert?

 
 
 
 

Q27. Ihre Infrastruktur umfasst eine Reihe von YouTube-Kanälen. Sie wurden damit beauftragt, einen Prozess zum Senden der YouTube-Kanaldaten an Google Cloud zur Analyse zu entwickeln. Sie möchten eine Lösung entwickeln, die es Ihren weltweiten Marketingteams ermöglicht, ANSI SQL und andere Arten von Analysen für die aktuellen Protokolldaten der YouTube-Kanäle durchzuführen. Wie sollten Sie die Übertragung der Protokolldaten an Google Cloud einrichten?

 
 
 
 

Q28. Ihr Unternehmen wählt ein System zur Zentralisierung der Datenaufnahme und -bereitstellung aus. Sie ziehen Messaging- und Datenintegrationssysteme in Betracht, um die Anforderungen zu erfüllen. Die wichtigsten Anforderungen sind:
* Die Möglichkeit, bis zu einem bestimmten Offset in einem Thema zu suchen, möglicherweise bis zum Beginn aller jemals erfassten Daten zurück
* Unterstützung für die Veröffentlichungs-/Abonnement-Semantik für Hunderte von Themen
* Beibehaltung der Bestellung pro Schlüssel
Welches System sollten Sie wählen?

 
 
 
 

Q29. Wenn Sie eine Pipeline mit einer BigQuery-Quelle auf Ihrem lokalen Computer ausführen, erhalten Sie weiterhin Fehler mit verweigerter Berechtigung. Was könnte der Grund dafür sein?

 
 
 
 

Q30. Sie haben eine Abfrage, die eine BigQuery-Tabelle mithilfe einer WHERE-Klausel auf die Spalten "Timestamp" und "ID" filtert. Durch die Verwendung von bq query - -dry_run erfahren Sie, dass die Abfrage einen vollständigen Scan der Tabelle auslöst, obwohl der Filter für Zeitstempel und ID nur einen winzigen Teil der gesamten Datenmenge auswählt.
a. Sie möchten die Menge der von BigQuery gescannten Daten mit minimalen Änderungen an bestehenden SQL-Abfragen reduzieren. Was sollten Sie tun?

 
 
 
 

Q31. Sie müssen eine Datenpipeline erstellen, die Zeitserien-Transaktionsdaten kopiert, damit sie von Ihrem Data-Science-Team in BigQuery zur Analyse abgefragt werden können. Jede Stunde werden Tausende von Transaktionen mit einem neuen Status aktualisiert. Die Größe des anfänglichen Datensatzes beträgt 1,5 PB und wächst pro Tag um 3 TB. Die Daten sind stark strukturiert, und Ihr Data-Science-Team wird auf der Grundlage dieser Daten Modelle für maschinelles Lernen erstellen. Sie möchten die Leistung und Benutzerfreundlichkeit für Ihr Data-Science-Team maximieren. Welche beiden Strategien sollten Sie anwenden? (Wählen Sie zwei.)

 
 
 
 
 

Q32. Sie möchten Ihre Batch-Pipeline für strukturierte Daten in der Google Cloud neu aufbauen Sie verwenden PySpark, um Datenumwandlungen im großen Maßstab durchzuführen, aber Ihre Pipelines benötigen mehr als zwölf Stunden für die Ausführung Um die Entwicklung und die Laufzeit der Pipeline zu beschleunigen, möchten Sie ein serverloses Tool und eine SQL-Syntax verwenden Sie haben Ihre Rohdaten bereits in den Cloud-Speicher verschoben Wie sollten Sie die Pipeline in der Google Cloud aufbauen und dabei die Anforderungen an Geschwindigkeit und Verarbeitung erfüllen?

 
 
 
 

Q33. Sie speichern historische Daten in einem Cloud-Speicher. Sie müssen Analysen mit den historischen Daten durchführen. Sie möchten eine Lösung verwenden, um ungültige Dateneinträge zu erkennen und Datenumwandlungen durchzuführen, die keine Programmierung oder SQL-Kenntnisse erfordern.
Was sollten Sie tun?

 
 
 
 

Q34. Sie entwickeln einen Speicher für sehr große Textdateien für eine Datenpipeline in der Google Cloud. Sie möchten ANSI-SQL-Abfragen unterstützen. Außerdem möchten Sie die Komprimierung und das parallele Laden von den Eingabespeicherorten unter Verwendung der von Google empfohlenen Verfahren unterstützen. Was sollten Sie tun?

 
 
 
 

Q35. Sie haben in Node.js geschriebene Cloud-Funktionen, die Nachrichten von Cloud Pub/Sub abrufen und die Daten an BigQuery senden. Sie stellen fest, dass die Nachrichtenverarbeitungsrate im Pub/Sub-Thema um Größenordnungen höher ist als erwartet, aber im Stackdriver Log Viewer ist kein Fehler protokolliert. Was sind die beiden wahrscheinlichsten Ursachen für dieses Problem? Wählen Sie 2 Antworten.

 
 
 
 
 

Q36. Ein TensorFlow-Modell für maschinelles Lernen auf virtuellen Maschinen der Compute Engine (n2-Standard -32) benötigt zwei Tage, um das Framing abzuschließen. Das Modell hat benutzerdefinierte TensorFlow-Operationen, die teilweise auf einer CPU laufen müssen Sie wollen die Trainingszeit auf kosteneffektive Weise reduzieren. Was sollten Sie tun?

 
 
 
 

Q37. Sie führen eine Pipeline in Cloud Dataflow aus, die Nachrichten von einem Cloud Pub/Sub-Thema empfängt und die Ergebnisse in ein BigQuery-Dataset in der EU schreibt. Derzeit befindet sich Ihre Pipeline in europe-west4 und hat maximal 3 Worker, Instanztyp n1-standard-1. Sie stellen fest, dass Ihre Pipeline in Spitzenzeiten Schwierigkeiten hat, Datensätze rechtzeitig zu verarbeiten, wenn alle 3 Worker die maximale CPU-Auslastung erreicht haben. Welche beiden Maßnahmen können Sie ergreifen, um die Leistung Ihrer Pipeline zu erhöhen? (Wählen Sie zwei.)

 
 
 
 
 

100% Free Professional-Data-Engineer Daily Practice Exam mit 270 Fragen: https://www.trainingdump.com/Google/Professional-Data-Engineer-practice-exam-dumps.html