DP-203日本語 無料問題集「Microsoft Data Engineering on Microsoft Azure (DP-203日本語版)」

オンプレミスのデータ ソースと Azure Synapse Analytics を統合する必要があります。ソリューションは、データ統合の要件を満たす必要があります。
どのタイプの統合ランタイムを使用する必要がありますか?

注: この質問は、同じシナリオを提示する一連の質問の一部です。このシリーズの各質問には、指定された目標を達成できる可能性のある独自の解決策が含まれています。一部の質問セットには複数の正しい解決策が含まれる場合がありますが、他の質問セットには正しい解決策がない場合があります。
このセクションの質問に回答すると、その質問に戻ることはできなくなります。そのため、これらの質問はレビュー画面に表示されません。ステージング ゾーンを含む Azure Data Lake Storage アカウントを持っています。
ステージング ゾーンから増分データを取り込み、R スクリプトを実行してデータを変換し、変換されたデータを Azure Synapse Analytics のデータ ウェアハウスに挿入するための日常プロセスを設計する必要があります。
解決策: Azure Data Factory スケジュール トリガーを使用して、マッピング データ ローを実行するパイプラインを実行します。次に、データをデータ ウェアハウスに挿入します。
これは目標を達成していますか?

監視と管理アプリを使用して Azure データ ファクトリを監視する予定です。
ソース データベース内のテーブルを参照するアクティビティのステータスと期間を特定する必要があります。
順番に実行する必要がある 3 つのアクションはどれですか?答えるには、アクションをアクションのリストからアンサーに移動し、正しい順序に並べます。
正解:

Explanation:

Step 1: From the Data Factory authoring UI, generate a user property for Source on all activities.
Step 2: From the Data Factory monitoring app, add the Source user property to Activity Runs table.
You can promote any pipeline activity property as a user property so that it becomes an entity that you can monitor. For example, you can promote the Source and Destination properties of the copy activity in your pipeline as user properties. You can also select Auto Generate to generate the Source and Destination user properties for a copy activity.
Step 3: From the Data Factory authoring UI, publish the pipelines
Publish output data to data stores such as Azure SQL Data Warehouse for business intelligence (BI) applications to consume.
References:
https://docs.microsoft.com/en-us/azure/data-factory/monitor-visually
仮想ネットワーク サービス エンドポイントが構成されている Azure Data Lake Storage アカウントがあります。
Azure Data Factory を使用して、Data Lake Storage アカウントからデータを抽出する予定です。その後、データは、PolyBase を使用して Azure Synapse Analytics のデータ ウェアハウスに読み込まれます。
Data Lake Storage にアクセスするには、どの認証方法を使用する必要がありますか?

解説: (JPNTest メンバーにのみ表示されます)
トランザクションデータの分析ストレージソリューションを設計する必要があります。ソリューションは、販売トランザクションデータセットの要件を満たす必要があります。
ソリューションに何を含める必要がありますか?回答するには、回答領域で適切なオプションを選択します。
注:正しい選択はそれぞれ1ポイントの価値があります。
正解:

Explanation:

Box 1: Round-robin
Round-robin tables are useful for improving loading speed.
Scenario: Partition data that contains sales transaction records. Partitions must be designed to provide efficient loads by month.
Box 2: Hash
Hash-distributed tables improve query performance on large fact tables.
Reference:
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql-data-warehouse/sql-data-warehouse-tables-distribute
Df1 という名前の Azure Data Factory バージョン 2 (V2) リソースがあります。 Df1 にはリンクされたサービスが含まれています。
vault1 という名前の Azure Key Vault があり、これには key1 という名前の暗号化キーが含まれています。
key1 を使用して Df1 を暗号化する必要があります。
まず何をすべきでしょうか?

解説: (JPNTest メンバーにのみ表示されます)
次の図に示されている Azure Data Factory パイプラインがあります。

次の図は、最初のパイプライン実行の実行ログを示しています。

2 回目のパイプライン実行の実行ログを次の図に示します。

次の各ステートメントについて、該当する場合は [はい] を選択します。それ以外の場合は、[いいえ] を選択します。 注: 正しい選択はそれぞれ 1 ポイントの価値があります。
正解:

Explanation:
Azure Synapse Analyticsで、スタースキーマにWebサイトのトラフィック分析を格納するエンタープライズデータウェアハウスを設計しています。
あなたはウェブサイト訪問のためのファクトテーブルを持つことを計画しています。テーブルは約5GBになります。
テーブルに使用する配布タイプとインデックスタイプを推奨する必要があります。このソリューションは、最速のクエリパフォーマンスを提供する必要があります。
何をお勧めしますか?回答するには、回答領域で適切なオプションを選択します。
注:正しい選択はそれぞれ1ポイントの価値があります。
正解:

Explanation:
Box 1: Hash
Consider using a hash-distributed table when:
The table size on disk is more than 2 GB.
The table has frequent insert, update, and delete operations.
Box 2: Clustered columnstore
Clustered columnstore tables offer both the highest level of data compression and the best overall query performance.
Reference:
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql-data-warehouse/sql-data-warehouse-tables- distribute
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql-data-warehouse/sql-data-warehouse-tables-index
リアルタイム データ処理ソリューションの高可用性を向上させるにはどうすればよいですか?

解説: (JPNTest メンバーにのみ表示されます)
次のファクト テーブルを含むオンプレミスのデータ ウェアハウスがあります。どちらのテーブルにも、DateKey、ProductKey、RegionKey の列があります。 120 個の固有のプロダクト キーと 65 個の固有のリージョン キーがあります。

データ ウェアハウスを使用するクエリは、完了するまでに時間がかかります。
Azure Synapse Analytics を使用するようにソリューションを移行する予定です。 Azure ベースのソリューションがクエリ パフォーマンスを最適化し、処理の歪みを最小限に抑えることを確認する必要があります。
何をお勧めしますか?回答するには、回答エリアで適切なオプションを選択してください。
注: 正しい選択ごとに 1 ポイントの価値があります。
正解:

Explanation:

Box 1: Hash-distributed
Box 2: ProductKey
ProductKey is used extensively in joins.
Hash-distributed tables improve query performance on large fact tables.
Box 3: Round-robin
Box 4: RegionKey
Round-robin tables are useful for improving loading speed.
Consider using the round-robin distribution for your table in the following scenarios:
When getting started as a simple starting point since it is the default If there is no obvious joining key If there is not good candidate column for hash distributing the table If the table does not share a common join key with other tables If the join is less significant than other joins in the query When the table is a temporary staging table Note: A distributed table appears as a single table, but the rows are actually stored across 60 distributions. The rows are distributed with a hash or round-robin algorithm.
Reference:
https://docs.microsoft.com/en-us/azure/sql-data-warehouse/sql-data-warehouse-tables-distribute
storage1という名前のAzureBlobStorageアカウントとPool1という名前のAzureSynapseAnalytics専用SQLプールを含むAzureサブスクリプションがあります。
storage1にデータを保存する必要があります。データはPool1によって読み取られます。ソリューションは、次の要件を満たしている必要があります。
Pool1を有効にして、クエリで不要な列と行をスキップします。
列統計を自動的に作成します。
ファイルのサイズを最小化します。
どのタイプのファイルを使用する必要がありますか?

解説: (JPNTest メンバーにのみ表示されます)
Scala を使用する Azure Synapse Analytics ジョブがあります。
ジョブのステータスを表示する必要があります。
あなたは何をするべきか?

解説: (JPNTest メンバーにのみ表示されます)
Azureサブスクリプションがあります。
Azure Data Lake Storage Gen2Premiumアカウントをデプロイする必要があります。ソリューションは、次の要件を満たしている必要があります。
* 365日より古いブロブは削除する必要があります。
*管理者の労力を最小限に抑える必要があります。
*コストを最小限に抑える必要があります
何を使うべきですか?答えるには、答えの中から適切なオプションを選択してください。注正しい選択はそれぞれ1ポイントの価値があります。
正解:

Explanation:

https://learn.microsoft.com/en-us/azure/storage/blobs/premium-tier-for-data-lake-storage
Microsoft Azure SQL データ ウェアハウスの実装の監視を構成します。実装では、PolyBase を使用して、外部テーブルを使用して Azure Data Lake Gen 2 に格納されているコンマ区切り値 (CSV) ファイルからデータを読み込みます。
スキーマが無効なファイルはエラーの原因となります。
無効なスキーマ エラーを監視する必要があります。
どのエラーを監視する必要がありますか?

解説: (JPNTest メンバーにのみ表示されます)
ユーザーが Web ページの機能を操作するために費やす時間を特定するための Azure Stream Analytics ジョブを構築しています。
ジョブは、Web ページでのユーザー アクションに基づいてイベントを受け取ります。データの各行はイベントを表します。各イベントには、「開始」または「終了」のいずれかのタイプがあります。
開始イベントと終了イベントの間の期間を計算する必要があります。
どのようにクエリを完成させますか?答えるには、答えで適切なオプションを選択します。
注: 正しい選択ごとに 1 ポイントの価値があります。
正解:

Explanation:

Box 1: DATEDIFF
DATEDIFF function returns the count (as a signed integer value) of the specified datepart boundaries crossed between the specified startdate and enddate.
Syntax: DATEDIFF ( datepart , startdate, enddate )
Box 2: LAST
The LAST function can be used to retrieve the last event within a specific condition. In this example, the condition is an event of type Start, partitioning the search by PARTITION BY user and feature. This way, every user and feature is treated independently when searching for the Start event. LIMIT DURATION limits the search back in time to 1 hour between the End and Start events.
Example:
SELECT
[user],
feature,
DATEDIFF(
second,
LAST(Time) OVER (PARTITION BY [user], feature LIMIT DURATION(hour,
1) WHEN Event = 'start'),
Time) as duration
FROM input TIMESTAMP BY Time
WHERE
Event = 'end'
Reference:
https://docs.microsoft.com/en-us/azure/stream-analytics/stream-analytics-stream-analytics-query-patterns
JSON 形式のデータを取り込む Apache Spark ジョブを Azure Databricks で作成しています。
ネストされた JSON 文字列を、複数の行を含む DataFrame に変換する必要があります。
どの Spark SQL 関数を使用する必要がありますか?

解説: (JPNTest メンバーにのみ表示されます)
Azure Data Lake Storage Gen2 コンテナーがあります。
データはコンテナーに取り込まれ、データ統合アプリケーションによって変換されます。その後、データは変更されません。ユーザーはコンテナー内のファイルを読み取ることができますが、ファイルを変更することはできません。
次の要件を満たすデータ アーカイブ ソリューションを設計する必要があります。
新しいデータは頻繁にアクセスされ、できるだけ早く利用できるようにする必要があります。
5 年以上前のデータにアクセスする頻度は低くなりますが、要求されたときに 1 秒以内に利用できるようにする必要があります。
7 年以上前のデータにはアクセスしません。 7 年後、データは可能な限り低いコストで永続化する必要があります。
必要な可用性を維持しながら、コストを最小限に抑える必要があります。
データをどのように管理する必要がありますか?答えるには、答えで適切なオプションを選択します。
注: 正しい選択ごとに 1 ポイントの価値があります。
正解:

Explanation:

Box 1: Move to cool storage
Box 2: Move to archive storage
Archive - Optimized for storing data that is rarely accessed and stored for at least 180 days with flexible latency requirements, on the order of hours.
The following table shows a comparison of premium performance block blob storage, and the hot, cool, and archive access tiers.

Reference:
https://docs.microsoft.com/en-us/azure/storage/blobs/storage-blob-storage-tiers Explanation:
Box 1: Replicated
Replicated tables are ideal for small star-schema dimension tables, because the fact table is often distributed on a column that is not compatible with the connected dimension tables. If this case applies to your schema, consider changing small dimension tables currently implemented as round-robin to replicated.
Box 2: Replicated
Box 3: Replicated
Box 4: Hash-distributed
For Fact tables use hash-distribution with clustered columnstore index. Performance improves when two hash tables are joined on the same distribution column.
Reference:
https://azure.microsoft.com/en-us/updates/reduce-data-movement-and-make-your-queries-more-efficient-with- the-general-availability-of-replicated-tables/
https://azure.microsoft.com/en-us/blog/replicated-tables-now-generally-available-in-azure-sql-data-warehouse/

弊社を連絡する

我々は12時間以内ですべてのお問い合わせを答えます。

オンラインサポート時間:( UTC+9 ) 9:00-24:00
月曜日から土曜日まで

サポート:現在連絡