DAS-C01日本語試験正確な問題集、学習ノートと理論 [2024年02月]
100%高得点合格保証DAS-C01日本語無制限209解答
質問 # 19
Amazon Redshift データベースには機密性の高いユーザー データが含まれています
を。コンプライアンス要件を満たすには、ロギングが必要です。ログには、データベース認証の試行、接続、および切断が含まれている必要があります。ログには、データベースに対して実行された各クエリも含まれ、各クエリを実行したデータベース ユーザーが記録されている必要があります。
必要なログを作成する手順はどれですか?
- A. AWS IAM のみを使用して Amazon Redshift データベースへのアクセスを許可します。AWS CloudTrail を使用してアクセスをログに記録します。
- B. AWS Artifact から監査レポートを有効にしてダウンロードします。
- C. Amazon Redshift 拡張 VPC ルーティングを有効にします。VPC フロー ログを有効にして、トラフィックを監視します。
- D. AWS マネジメント コンソールまたは AWS CLI を使用して、Amazon Redshift の監査ログを有効にします。
正解:D
質問 # 20
ある企業は、データ レイク ストレージとしての Amazon S3 とデータ ウェアハウジング用の Amazon Redshift を含む分析ソリューションを構築しています。この会社は、Amazon Redshift Spectrum を使用して、Amazon S3 に保存されているデータをクエリしたいと考えています。
会社が Amazon Redshift Spectrum を使用して S3 データファイルをクエリする場合、パフォーマンスを向上させるためにどのような手順を実行する必要がありますか? (3 つ選択) 個々のファイル サイズが 1 ~ 5 GB の gzip 圧縮を使用する
- A. 最も一般的なクエリ述語に基づいてデータを分割します
- B. カラムナ ストレージ ファイル形式を使用する
- C. すべてのファイルをほぼ同じサイズに保ちます。
- D. 分割できないファイル形式を使用する
- E. データを KB サイズのファイルに分割します。
正解:A、C、E
質問 # 21
ある会社が駐車場からデータを収集しています。アナリストは、各ガレージ内の車両の台数に関するレポートをほぼリアルタイムで実行できる機能を要求しました。
同社は、データを Amazon Redshift クラスターにロードする取り込みパイプラインを構築したいと考えています。このソリューションでは、特定のガレージ内の車両の数が特定のしきい値を超えた場合に、運用担当者に警告する必要があります。アラート クエリでは、ガレージのしきい値が静的な参照として使用されます。しきい値は Amazon S3 に保存されます。
これらの要件を満たす最も運用効率の高いソリューションは何ですか?
- A. Amazon Kinesis Data Firehose 配信ストリームを使用してデータを収集し、Amazon Redshift にデータを配信します。Amazon Redshift のデータをクエリする AWS Lambda 関数を自動的に開始します。特定のガレージ内の車両の数を Amazon S3 の対応するしきい値と比較するように Lambda 関数を設定します。車両の数がしきい値を超えた場合に Amazon Simple Notice Service (Amazon SNS) 通知も発行するように Lambda 関数を設定します。
- B. Amazon Kinesis Data Firehose 配信ストリームを使用してデータを収集し、Amazon Redshift にデータを配信します。同じ配信ストリームを入力ソースとして使用する Amazon Kinesis Data Analytics アプリケーションを作成します。Kinesis Data Analytics を使用して、特定のガレージ内の車両の数を、アプリケーション内ストリームとしてテーブルに保存されている対応するしきい値と比較します。車両の数がしきい値を超えた場合に Amazon Simple Queue Service (Amazon SQS) 通知を発行するように、アプリケーションの出力として AWS Lambda 関数を設定します。
- C. Amazon Kinesis データ ストリームを使用してデータを収集します。Amazon Kinesis Data Firehose 配信ストリームを使用して、データを Amazon Redshift に配信します。別の Kinesis データ ストリームを作成して、Amazon S3 からのしきい値を一時的に保存します。配送ストリームと 2 番目のデータストリームを Amazon Kinesis Data Analytics に送信して、特定のガレージ内の車両の数を対応するしきい値と比較します。C. 車両の数がしきい値を超えた場合に Amazon Simple Notice Service (Amazon SNS) 通知を発行するように AWS Lambda 関数を設定します。
- D. Amazon Kinesis Data Firehose 配信ストリームを使用してデータを収集し、Amazon Redshift にデータを配信します。同じ配信ストリームを入力ソースとして使用する Amazon Kinesis Data Analytics アプリケーションを作成します。Kinesis Data Analytics で参照データソースを作成して、Amazon S3 からのしきい値を一時的に保存し、特定のガレージ内の車両の数を対応するしきい値と比較します。車両の数がしきい値を超えた場合に Amazon Simple Notice Service (Amazon SNS) 通知を発行するように AWS Lambda 関数を設定します。
正解:D
解説:
This solution meets the requirements because:
It uses Amazon Kinesis Data Firehose to collect and deliver data to Amazon Redshift in near real time, without requiring any coding or server management1.
It uses Amazon Kinesis Data Analytics to process and analyze streaming data using SQL queries or Apache Flink applications2. It can also create a reference data source that allows joining streaming data with static data stored in Amazon S33. This way, it can compare the number of vehicles in each garage with the corresponding threshold value from the reference data source.
It uses AWS Lambda to create a serverless function that can be triggered by Kinesis Data Analytics as an output destination4. The Lambda function can then publish an Amazon SNS notification to alert operations personnel when the number of vehicles exceeds the threshold5.
質問 # 22
データ アナリストは、JDBC 接続を使用して SQL でデータセットを対話的にクエリするソリューションを設計しています。ユーザーは、Amazon S3 に Apache ORC 形式で保存されたデータを、Amazon Elasticsearch Service (Amazon ES) および Amazon Aurora MySQL に保存されたデータと結合します。
最も最新の結果が得られるソリューションはどれですか?
- A. Amazon EMR で実行されている Apache Presto を使用して、すべてのデータセットをクエリします。
- B. Amazon DMS を使用して、Amazon ES および Aurora MySQL から Amazon Redshift にデータをストリーミングします。Amazon Redshift でデータをクエリします。
- C. AWS Glue 開発者エンドポイントで実行されている Apache Spark SQL を使用して、すべてのデータセットをクエリします。
- D. AWS Glue ジョブを使用して、Amazon ES および Aurora MySQL から Amazon S3 への ETL データを取得します。Amazon Athena でデータをクエリします。
正解:C
質問 # 23
ヘルスケア企業は、AWS のデータと分析ツールを使用して、患者に関する電子医療記録 (EHR) データを収集、取り込み、保存しています。生の EHR データは、時間、日、年で分割された JSON 形式で Amazon S3 に保存され、1 時間ごとに更新されます。同社は、分析のために Amazon Athena または Amazon Redshift Spectrum を使用してデータにアクセスできるように、AWS Glue データカタログでデータカタログとメタデータを維持したいと考えています。
Data Catalog でテーブルを定義する場合、会社には次の要件があります。
カタログ表の名前を選択し、カタログ表の命名アルゴリズムに依存しないでください。それぞれの S3 バケット プレフィックスにロードされた新しいパーティションでテーブルを更新してください。
最小限の労力でこれらの要件を満たすソリューションはどれですか?
- A. 1 つ以上のデータストアに接続し、データ構造を決定し、Data Catalog にテーブルを書き込む AWS Glue クローラーを実行します。
- B. Amazon S3 のテーブル スキーマ定義を使用して Amazon EMR に Apache Hive カタログを作成し、スケジュールされたジョブでテーブル パーティションを更新します。Hive カタログを Data Catalog に移行します。
- C. AWS Glue API の CreateTable オペレーションを使用して、Data Catalog にテーブルを作成します。AWS Glue クローラーを作成し、テーブルをソースとして指定します。
- D. AWS Glue コンソールを使用して Data Catalog にテーブルを手動で作成し、AWS Lambda 関数をスケジュールしてテーブル パーティションを 1 時間ごとに更新します。
正解:C
解説:
Updating Manually Created Data Catalog Tables Using Crawlers: To do this, when you define a crawler, instead of specifying one or more data stores as the source of a crawl, you specify one or more existing Data Catalog tables. The crawler then crawls the data stores specified by the catalog tables. In this case, no new tables are created; instead, your manually created tables are updated.
質問 # 24
ある企業は、データおよび分析プラットフォームのコストを最適化したいと考えています。同社は多くのものを摂取している
さまざまなデータ ソースからの Amazon S3 の .csv および JSON ファイル。受信データは、毎日 50 GB になると予想されます。同社は Amazon Athena を使用して、Amazon S3 の生データを直接クエリしています。ほとんどのクエリは過去 12 か月のデータを集計し、5 年以上前のデータがクエリされることはまれです。典型的なクエリは、約 500 MB のデータをスキャンし、1 分未満で結果を返すと予想されます。生データは、コンプライアンス要件のために無期限に保持する必要があります。
会社の要件を満たすソリューションはどれですか?
- A. AWS Glue ETL ジョブを使用して、データを圧縮、分割、および列指向のデータ形式に変換します。Athena を使用して、処理されたデータセットをクエリします。オブジェクトが最後にアクセスされてから 5 年後に、処理されたデータを Amazon S3 Standard-Infrequent Access (S3 Standard-IA) ストレージ クラスに移動するライフサイクル ポリシーを設定します。オブジェクトが最後にアクセスされた日から 7 日後に生データを Amazon S3 Glacier に移動して長期アーカイブするように、2 番目のライフサイクル ポリシーを設定します。
- B. AWS Glue ETL ジョブを使用して、データを圧縮、分割、および列指向データ形式に変換します。Athena を使用して、処理されたデータセットをクエリします。オブジェクトの作成から 5 年後に、処理されたデータを Amazon S3 Standard-Infrequent Access (S3 Standard-IA) ストレージ クラスに移動するライフサイクル ポリシーを設定します。生データを Amazon S3 Glacier に移動して、オブジェクトの作成から 7 日後に長期アーカイブするための 2 番目のライフサイクル ポリシーを設定します。
- C. AWS Glue ETL ジョブを使用して、データを分割し、行ベースのデータ形式に変換します。Athena を使用して、処理されたデータセットをクエリします。オブジェクトが最後にアクセスされてから 5 年後にデータを Amazon S3 Standard-Infrequent Access (S3 Standard-IA) ストレージ クラスに移動するライフサイクル ポリシーを設定します。オブジェクトが最後にアクセスされた日から 7 日後に生データを Amazon S3 Glacier に移動して長期アーカイブするように、2 番目のライフサイクル ポリシーを設定します。
- D. AWS Glue ETL ジョブを使用して、データを分割し、行ベースのデータ形式に変換します。Athena を使用して、処理されたデータセットをクエリします。オブジェクト作成から 5 年後にデータを Amazon S3 Standard-Infrequent Access (S3 Standard-IA) ストレージ クラスに移動するライフサイクル ポリシーを設定します。生データを Amazon S3 Glacier に移動して、オブジェクトの作成から 7 日後に長期アーカイブするための 2 番目のライフサイクル ポリシーを設定します。
正解:B
質問 # 25
大企業には、いくつかの独立したビジネス ユニットがあります。各ビジネス ユニットは独自のデータに対して責任を負いますが、コラボレーションのために他のユニットとデータを共有する必要があります。
各ユニットは、AWS Lake Formation で作成された Amazon S3 データレイクにデータを保存します。ダッシュボード レポートを作成するために、マーケティング チームは、Amazon Redshift クラスターに保存されているデータを、データ レイクに保存されている営業チームの顧客テーブルと結合したいと考えています。営業チームには多数のテーブルとスキーマがありますが、マーケティング チームは顧客テーブルのみにアクセスできる必要があります。ソリューションは安全でスケーラブルである必要があります。
これらの要件を満たす一連のアクションはどれですか?
- A. 営業チームは、Lake Formation タグベースのアクセス制御 (LF-TBAC) メソッドを使用して、読み取り専用モードで AWS Glue データ カタログの顧客テーブルをマーケティング チームと共有します。営業チームは、AWS Glue データカタログのリソースポリシーを更新して、マーケティングチームに関連するアクセス許可を追加します。マーケティング チームは、共有顧客テーブルへのリソース リンクを作成します。マーケティングチームは、Amazon Redshift Spectrum を使用してデータを顧客テーブルと結合します。
- B. マーケティング チームは、ソースとしての営業チームの S3 バケットと宛先としてのマーケティング チームの S3 バケットの間で S3 クロスアカウント レプリケーションを作成します。マーケティング チームは、AWS アカウント内の複製されたデータに対して AWS Glue クローラーを実行し、AWS Glue データ カタログの顧客テーブルを作成します。
- C. 営業チームは、名前付きリソース メソッドを使用して、読み取り専用モードで AWS Glue データ カタログ顧客テーブルをマーケティング チームと共有します。マーケティング チームは、AWS Resource Access Manager (AWS RAM) を使用してデータ共有を受け入れ、共有顧客テーブルへのリソース リンクを作成します。マーケティングチームは、Amazon Redshift Spectrum を使用してデータを顧客テーブルと結合します。
- D. マーケティングチームは、Amazon Redshift Spectrum を使用してデータを顧客テーブルと結合します。マーケティング チームは、販売チームのアカウントに AWS Lambda 関数を作成し、ソースとしての販売チームの S3 バケットと宛先としてのマーケティング チームの S3 バケットの間でデータを複製します。マーケティング チームは、AWS アカウント内の複製されたデータに対して AWS Glue クローラーを実行し、AWS Glue データ カタログの顧客テーブルを作成します。マーケティングチームは、Amazon Redshift Spectrum を使用してデータを顧客テーブルと結合します。
正解:A
質問 # 26
マーケティング会社は、ワークロードに Amazon EMR クラスターを使用しています。この会社は、マスター ノードにログインして、サード パーティのライブラリをクラスターに手動でインストールします。データ アナリストは、手動プロセスに代わる自動化されたソリューションを作成する必要があります。
これらの要件を満たすことができるオプションはどれですか? (2つ選んでください。)
- A. Amazon DynamoDB テーブルを使用して、必要なアプリケーションのリストを保存します。DynamoDB Streams で AWS Lambda 関数をトリガーして、ソフトウェアをインストールします。
- B. 必要なインストール スクリプトを Amazon S3 に配置し、カスタム ブートストラップ アクションを使用して実行します。
- C. 必要なインストール スクリプトを Amazon S3 に配置し、Amazon EMR の Apache Spark を介して実行します。
- D. Amazon Linux で Amazon EC2 インスタンスを起動し、必要なサードパーティ ライブラリをインスタンスにインストールします。AMI を作成し、その AMI を使用して EMR クラスターを作成します。
- E. 必要なサードパーティ ライブラリを既存の EMR マスター ノードにインストールします。そのマスターノードから AMI を作成し、そのカスタム AMI を使用して EMR クラスターを再作成します。
正解:B、D
解説:
https://aws.amazon.com/about-aws/whats-new/2017/07/amazon-emr-now-supports-launching-clusters-with-custom-amazon-linux-amis/
https://docs.aws.amazon.com/de_de/emr/latest/ManagementGuide/emr-plan-bootstrap.html
質問 # 27
ある企業は、レコメンデーション エンジンに機能を追加することで、スマート ホーム システムのユーザー満足度を向上させたいと考えています。各センサーは、Java の Kinesis Producer Library (KPL) を使用して、ネストされた JSON データを Amazon Kinesis Data Streams に非同期的にプッシュします。故障した一連のセンサーからの統計によると、センサーが誤動作している場合、記録されたデータが常にクラウドに送信されるとは限りません。
同社は、最新のセンサーからのデータをほぼリアルタイムで分析できるソリューションを必要としています。会社がこれらの要件を満たすことを可能にするソリューションはどれですか?
- A. AWS SDK for Java で Kinesis Data Streams API からの PutRecord/PutRecords 呼び出しを使用するようにセンサーコードを更新します。AWS Glue を使用して、Kinesis Client Library (KCL) を使用してストリームからデータをフェッチして処理します。Amazon Elasticsearch Service クラスターをインスタンス化し、AWS Lambda を使用してデータを直接プッシュします。
- B. KPL の RecordMaxBufferedTime プロパティを "-1" に設定して、センサー側のバッファリングを無効にします。Kinesis Data Analytics を使用して、会社が開発した異常検出 SQL スクリプトに基づいてデータを充実させます。強化されたデータを一連の Kinesis データ ストリームにプッシュし、データ変換機能を有効にして JSON ファイルをフラット化します。高密度ストレージ Amazon Redshift クラスターをインスタンス化し、それを Kinesis Data Firehose 配信ストリームの宛先として使用します。
- C. AWS SDK for Java で Kinesis Data Streams API からの PutRecord/PutRecords 呼び出しを使用するようにセンサーコードを更新します。Kinesis Data Analytics を使用して、会社が開発した異常検出 SQL スクリプトに基づいてデータを充実させます。KDA アプリケーションの出力を Kinesis Data Firehose 配信ストリームに送信し、データ変換機能を有効にして JSON ファイルをフラット化し、Kinesis Data Firehose の送信先を Amazon Elasticsearch Service クラスターに設定します。
- D. KPL の RecordMaxBufferedTime プロパティを "0" に設定して、センサー側のバッファリングを無効にします。ストリームごとに専用の Kinesis Data Firehose 配信ストリームに接続し、データ変換機能を有効にして、Amazon S3 バケットに送信する前に JSON ファイルをフラット化します。S3 データを Amazon Redshift クラスターにロードします。
正解:C
解説:
https://docs.aws.amazon.com/streams/latest/dev/developing-producers-with-kpl.html The KPL can incur an additional processing delay of up to RecordMaxBufferedTime within the library (user-configurable). Larger values of RecordMaxBufferedTime results in higher packing efficiencies and better performance. Applications that cannot tolerate this additional delay may need to use the AWS SDK directly.
質問 # 28
ある会社は、Amazon Redshift をデータ ウェアハウスとして使用しています。新しいテーブルには、機密データを含む列があります。テーブル内のデータは、最終的に、1 日に何度も実行されるいくつかの既存のクエリによって参照されます。
データ アナリストは、1,000 億行のデータを新しいテーブルに読み込む必要があります。これを行う前に、データ アナリストは、監査グループのメンバーのみが機密データを含む列を読み取ることができることを確認する必要があります。
データ アナリストは、メンテナンスのオーバーヘッドを最小限に抑えながら、これらの要件を満たすにはどうすればよいでしょうか?
- A. すべてのデータを新しいテーブルにロードし、監査グループにテーブルから読み取る権限を付与します。機密と見なされるものを除くすべての列を含む新しいテーブルのビューを作成し、適切なユーザーにテーブルへの読み取り専用権限を付与します。
- B. すべてのデータを新しいテーブルにロードし、監査グループにテーブルから読み取る権限を付与します。機密データを含む列を除くすべてのデータを 2 番目のテーブルに読み込みます。適切なユーザーに 2 番目のテーブルへの読み取り専用アクセス許可を付与します。
- C. すべてのデータを新しいテーブルにロードし、すべてのユーザーに非機密列への読み取り専用アクセス許可を付与します。機密データ列への明示的な ALLOW アクセスを使用して、IAM ポリシーを監査グループにアタッチします。
- D. すべてのデータを新しいテーブルにロードし、監査グループにテーブルから読み取る権限を付与します。GRANT SQL コマンドを使用して、列のサブセットへの読み取り専用アクセスを適切なユーザーに許可します。
正解:D
解説:
https://aws.amazon.com/blogs/big-data/achieve-finer-grained-data-security-with-column-level-access-control-in-amazon-redshift/
質問 # 29
不動産会社には、Amazon EMR で Apache HBase を使用するミッションクリティカルなアプリケーションがあります。Amazon EMR は、単一のマスター ノードで構成されています。同社は、Hadoop Distributed File System (HDFS) に 5 TB を超えるデータを保存しています。同社は、HBase データの可用性を高めるための費用対効果の高いソリューションを求めています。
企業の要件を満たすアーキテクチャ パターンはどれですか?
- A. HDFS の代わりに EMR ファイル システム (EMRFS) にデータを保存し、EMRFS の一貫したビューを有効にします。複数のマスターノードを持つプライマリ EMR HBase クラスターを作成します。別のアベイラビリティーゾーンにセカンダリ EMR HBase リードレプリカクラスターを作成します。両方のクラスターが同じ Amazon S3 バケット内の同じ HBase ルート ディレクトリを指すようにします。
- B. HDFS の代わりに EMR ファイル システム (EMRFS) にデータを保存します。EMRFS 一貫ビューを有効にします。複数のマスターノードを持つ EMR HBase クラスターを作成します。HBase ルート ディレクトリを Amazon S3 バケットにポイントします。
- C. HDFS の代わりに EMR ファイル システム (EMRFS) にデータを保存し、EMRFS の一貫したビューを有効にします。2 つの異なるアベイラビリティーゾーンで 2 つの個別の EMR クラスターを実行します。両方のクラスターが同じ Amazon S3 バケット内の同じ HBase ルート ディレクトリを指すようにします。
- D. コア ノードとタスク ノードにはスポット インスタンスを使用し、EMR マスター ノードにはリザーブド インスタンスを使用します。複数のマスターノードで EMR クラスターを構成します。Amazon EventBridge を使用して自動スナップショットをスケジュールします。
正解:A
質問 # 30
ある会社は、Amazon Redshift にサイズが約 500 TB のデータ ウェアハウスを持っています。新しいデータは数時間ごとにインポートされ、読み取り専用クエリが昼夜を問わず実行されます。営業日の毎朝数時間書き込みがなく、特に負荷が高い。これらの時間帯には、一部のクエリがキューに入れられ、実行に時間がかかります。同社は、クエリの実行を最適化し、ダウンタイムを回避する必要があります。
最も費用対効果の高いソリューションは何ですか?
- A. ワークロード管理 (WLM) キューで同時実行スケーリングを有効にします。
- B. ピーク時に AWS マネジメント コンソールを使用してノードを追加します。配布スタイルを ALL に設定します。
- C. エラスティック サイズ変更を使用して、ピーク時にノードをすばやく追加します。不要なノードは削除してください。
- D. スナップショット、復元、およびサイズ変更操作を使用します。新しいターゲット クラスターに切り替えます。
正解:A
解説:
https://docs.aws.amazon.com/redshift/latest/dg/cm-c-implementing-workload-management.html
質問 # 31
メディア企業は、Amazon S3 データレイクにあるデータに対して機械学習と分析を実行したいと考えています。社内の消費者がレポートを作成できるようにするための 2 つのデータ変換要件があります。
スケジュールされた時間に Amazon S3 に着陸する、さまざまなファイル形式の 300 GB のデータの毎日の変換。
S3 データレイクに存在するテラバイト単位のアーカイブ データの 1 回限りの変換。
データ変換に関する企業の要件をコスト効率よく満たすソリューションの組み合わせはどれですか? (3つ選んでください。)
- A. 毎日の受信データについては、Amazon Athena を使用してスキーマをスキャンして特定します。
- B. 毎日の受信データの場合、AWS Glue ワークフローと AWS Glue ジョブを使用して変換を実行します。
- C. 毎日の受信データについては、Amazon Redshift を使用して変換を実行します。
- D. アーカイブされたデータの場合、Amazon SageMaker を使用してデータ変換を実行します。
- E. アーカイブされたデータの場合、Amazon EMR を使用してデータ変換を実行します。
- F. 毎日の受信データについては、AWS Glue クローラーを使用してスキーマをスキャンして識別します。
正解:B、E、F
質問 # 32
ある会社では、100 万件のスキャンされたドキュメントが Amazon S3 に画像ファイルとして保存されています。ドキュメントには、申請者の名、申請者の姓、申請日、申請タイプ、申請テキストなどの情報が記載されたタイプライターによる申請書が含まれています。同社は、スキャンしたドキュメントからメタデータ値を抽出するための機械学習アルゴリズムを開発しました。この会社は、社内のデータ アナリストが、申請者の名前、申請日、または申請テキストを使用して申請を分析および検索できるようにしたいと考えています。元の画像もダウンロードできる必要があります。コスト管理は、クエリのパフォーマンスに次ぐものです。
要件を満たしながら、画像とメタデータを整理して洞察を促進するソリューションはどれですか?
- A. 画像ごとに、オブジェクト タグを使用してメタデータを追加します。Amazon S3 Select を使用して、申請者の名前と申請日に基づいてファイルを取得します。
- B. Amazon Elasticsearch Service でメタデータと画像ファイルの Amazon S3 の場所をインデックス化します。データ アナリストが Kibana を使用してクエリを Elasticsearch クラスターに送信できるようにします。
- C. イメージ ファイルのメタデータと Amazon S3 の場所を Amazon Redshift テーブルに保存します。データ アナリストがテーブルでアドホック クエリを実行できるようにします。
- D. メタデータとイメージ ファイルの Amazon S3 の場所を Amazon S3 の Apache Parquet ファイルに保存し、AWS Glue データ カタログでテーブルを定義します。データ アナリストが Amazon Athena を使用してカスタム クエリを送信できるようにします。
正解:B
解説:
https://aws.amazon.com/blogs/machine-learning/automatically-extract-text-and-structured-data-from-documents-with-amazon-textract/
質問 # 33
データ アナリストの 3 つのチームが、EMR ファイル システム (EMRFS) を備えた Amazon EMR クラスターで Apache Hive を使用して、各チームの Amazon S3 バケットに保存されているデータをクエリします。EMR クラスターでは Kerberos が有効になっており、企業の Active Directory からユーザーを認証するように構成されています。データは機密性が高いため、アクセスは各チームのメンバーに限定する必要があります。
セキュリティ要件を満たすのはどの手順ですか?
- A. EMR クラスターの Amazon EC2 インスタンスの場合、Amazon S3 へのアクセスを許可しないサービス ロールを作成します。追加の 3 つの IAM ロールを作成し、それぞれが各チームの特定のバケットへのアクセスを許可します。EC2 信頼ポリシーのクラスターの EMR ロールに追加の IAM ロールを追加します。各チームの Active Directory ユーザー グループへの追加の IAM ロールのセキュリティ構成マッピングを作成します。
- B. EMR クラスターの Amazon EC2 インスタンスの場合、Amazon S3 へのフル アクセスを許可するサービス ロールを作成します。追加の 3 つの IAM ロールを作成し、それぞれが各チームの特定のバケットへのアクセスを許可します。EMR クラスター EC2 インスタンスのサービス ロールを、追加の IAM ロールの信頼ポリシーに追加します。各チームの Active Directory ユーザー グループへの追加の IAM ロールのセキュリティ構成マッピングを作成します。
- C. EMR クラスターの Amazon EC2 インスタンスの場合、Amazon S3 へのフル アクセスを許可するサービス ロールを作成します。追加の 3 つの IAM ロールを作成し、それぞれが各チームの特定のバケットへのアクセスを許可します。EMR クラスター EC2 インスタンスのサービス ロールをベース IAM ロールの信頼ポリシーに追加します。各チームの Active Directory ユーザー グループへの追加の IAM ロールのセキュリティ構成マッピングを作成します。
- D. EMR クラスター Amazon EC2 インスタンスの場合、Amazon S3 へのアクセスを許可しないサービス ロールを作成します。追加の 3 つの IAM ロールを作成し、それぞれが各チームの特定のバケットへのアクセスを許可します。EMR クラスター EC2 インスタンスのサービス ロールを、追加の IAM ロールの信頼ポリシーに追加します。各チームの Active Directory ユーザー グループへの追加の IAM ロールのセキュリティ構成マッピングを作成します。
正解:B
質問 # 34
ある会社は、アプリケーション ログをほぼリアルタイムで強化し、強化されたデータセットを使用してさらに分析したいと考えています。このアプリケーションは、複数のアベイラビリティ ゾーンにまたがる Amazon EC2 インスタンスで実行され、Amazon CloudWatch Logs を使用してそのログを保存しています。強化ソースは Amazon DynamoDB テーブルに保存されます。
イベントの収集と強化の要件を満たすソリューションはどれですか?
- A. AWS CLI を使用して、生ログを 1 時間ごとに Amazon S3 にエクスポートします。AWS Glue クローラーを使用してログをカタログ化します。DynamoDB テーブルの AWS Glue 接続をセットアップし、AWS Glue ETL ジョブをセットアップしてデータを充実させます。強化されたデータを Amazon S3 に保存します。
- B. ログをローカルに書き込むようにアプリケーションを構成し、Amazon Kinesis エージェントを使用してデータを Amazon Kinesis Data Streams に送信します。Kinesis データストリームをソースとして Kinesis Data Analytics SQL アプリケーションを設定します。SQL アプリケーションの入力ストリームを DynamoDB レコードと結合し、Amazon Kinesis Data Firehose を使用して強化された出力ストリームを Amazon S3 に保存します。
- C. CloudWatch Logs サブスクリプションを使用して、データを Amazon Kinesis Data Firehose に送信します。AWS Lambda を使用して、Kinesis Data Firehose 配信ストリームのデータを変換し、DynamoDB テーブルのデータで強化します。Kinesis Data Firehose の配信先として Amazon S3 を設定します。
- D. AWS CLI を使用して、生ログを 1 時間ごとに Amazon S3 にエクスポートします。Amazon EMR で Apache Spark SQL を使用して、Amazon S3 からログを読み取り、DynamoDB からのデータでレコードを強化します。強化されたデータを Amazon S3 に保存します。
正解:C
解説:
https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/SubscriptionFilters.html#FirehoseExample
質問 # 35
データ分析スペシャリストは .csv 形式の 50 GB データ ファイルを持っており、データ変換タスクを実行したいと考えています。データ分析スペシャリストは、Amazon Athena CREATE TABLE AS SELECT (CTAS) ステートメントを使用して変換を実行します。結果の出力は、Amazon Redshift Spectrum からのデータをクエリするために使用されます。
最も効率的なパフォーマンスを提供するには、データ分析スペシャリストがどの CTAS ステートメントを使用する必要がありますか?

- A. オプション D
- B. オプション B
- C. オプション C
- D. オプション A
正解:B
質問 # 36
あるオンライン食品配達会社は、保管コストを最適化したいと考えています。同社は過去 10 年間、Standard ストレージ クラスを使用して Amazon S3 上に構築されたデータレイクに運用データを収集してきました。同社は 7 年以上古いデータを保管していません。データ分析チームは、レポート作成に過去 6 か月のデータを頻繁に使用し、過去 2 年間のデータに対して月に 1 回程度クエリを実行します。2 年以上前のデータはほとんどアクセスされず、監査目的でのみ使用されます。
企業のストレージ コストを最適化するソリューションの組み合わせはどれですか? (2つ選択してください。)
- A. 2 年以上古いデータを S3 Glacier Deep Archive ストレージ クラスに移行するための別の S3 ライフサイクル設定ルールを作成します。6 か月より古いデータを S3 1 ゾーン - 低頻度アクセス (S3 1 ゾーン - IA) ストレージ クラスに移行するための S3 ライフサイクル構成ルールを作成します。
- B. 6 か月より古いデータを S3 標準 - 低頻度アクセス (S3 標準 - IA) ストレージ クラスに移行するための S3 ライフサイクル構成ルールを作成します。
- C. 2 年以上古いデータを S3 Glacier Flexible Retrieval ストレージ クラスに移行するための別の S3 ライフサイクル設定ルールを作成します。
- D. 7 年以上古いデータを S3 Glacier Deep Archive ストレージ クラスに移行するための S3 ライフサイクル設定ルールを作成します。
- E. S3 標準ストレージ クラスの代わりに、S3 Intelligent-Tiering ストレージ クラスを使用してデータを保存します。
- F. S3 ライフサイクル有効期限ルールを作成して、7 年より古いデータを削除します。
正解:A、B
解説:
These solutions are based on the following facts from the results:
The S3 Standard-IA storage class is designed for data that is accessed less frequently, but requires rapid access when needed. It offers a lower storage cost than S3 Standard, but charges a retrieval fee1. This storage class is suitable for data that is used for reporting and queries every few months, such as data that is older than 6 months but less than 2 years in this case.
The S3 Glacier Deep Archive storage class is the lowest-cost storage class and supports long-term retention and digital preservation for data that may be accessed once or twice in a year. It has a default retrieval time of 12 hours2. This storage class is suitable for data that is rarely accessed and only used for audit purposes, such as data that is older than 2 years in this case.
Creating S3 Lifecycle configuration rules to transition data to different storage classes based on their age can help optimize the storage costs by reducing the amount of data stored in higher-cost storage classes. For more information, see Managing your storage lifecycle.
質問 # 37
公益事業会社は、Amazon QuickSight で毎日のエネルギー使用量のデータを視覚化したいと考えています。会社のデータ分析スペシャリストは、データを収集して Amazon S3 に取り込むためのデータパイプラインを構築しています。データは毎日、個々の csv ファイルに保存されています。 S3 バケット これは命名構造の例です
20210707_datacsv 20210708_datacsv
Amazon Athena を介して QuickSight でデータのクエリを実行できるようにするために、スペシャリストは AWS Glue クローラーを使用してパス「s3 //powertransformer/20210707_data csv」のテーブルを作成しましたが、データをクエリするとゼロ行が返されます この問題を解決するにはどうすればよいですか?
- A. ファイルを再度取り込みます。
- B. ファイルを Apache Parquet 形式で保存します。
- C. AWS Glue クローラーが Amazon S3 にアクセスするように IAM ポリシーを変更します。
- D. テーブル パスを「s3://powertransformer/」に更新します。
正解:D
質問 # 38
ある会社は、Amazon S3 で開始されたデータをバッチ処理する Apache Hive スクリプトを開発しました。スクリプトは毎日 1 回実行し、出力を Amazon S3 に保存する必要があります。同社はスクリプトをテストし、小さなローカル 3 ノード クラスターで 30 分以内に完了しました。
スクリプトをスケジュールして実行するための最も費用対効果の高いソリューションはどれですか?
- A. AWS マネジメント コンソールを使用して、Python Hue で Amazon EMR クラスターを起動します。ハイブ、およびApache Oozie。終了保護フラグを true に設定し、クラスターのコア ノードにスポット インスタンスを使用します。Hive スクリプトを毎日呼び出すように、クラスター内の Oozie ワークフローを構成します。
- B. Hive スクリプトを使用して AWS Glue ジョブを作成し、バッチ操作を実行します。時間ベースのスケジュールを使用して、ジョブを 1 日 1 回実行するように構成します。
- C. AWS Lambda レイヤーを使用して、Hive ランタイムを AWS Lambda にロードし、Hive スクリプトをコピーします。AWS Step Functions を使用してワークフローを作成し、Lambda 関数を毎日実行するようにスケジュールします。
- D. AWS Lambda 関数を作成して、Hive 実行ステップで Amazon EMR クラスターをスピンアップします。KeepJobFlowAliveWhenNoSteps を false に設定し、終了保護フラグを無効にします。Amazon CloudWatch Events を使用して、Lambda 関数を毎日実行するようにスケジュールします。
正解:B
質問 # 39
ある小売会社は、米国の 6 つの都市に 15 の店舗を持っています。月に 1 回、販売チームは、都市や店舗全体の収益傾向を簡単に特定できる機能を提供する Amazon QuickSight の視覚化を要求します。視覚化は、さらに分析して調べる必要がある外れ値を特定するのにも役立ちます。
営業チームの要件を満たす QuickSight のビジュアル タイプはどれですか?
- A. 地理空間チャート
- B. ヒートマップ
- C. ツリー マップ
- D. 折れ線グラフ
正解:A
質問 # 40
オンライン小売業者は、製品販売レポート ソリューションを導入する必要があります。ソース データは、レポート用に外部のオンライン トランザクション処理 (OLTP) システムからエクスポートされます。ロールアップ データは、前日のアクティビティについて毎日計算されます。レポート システムには次の要件があります。
毎日のロールアップ データを 1 年間すぐに利用できるようにします。
1 年後、時折、すぐにアクセスできるように、毎日のロールアップ データをアーカイブします。
レポート システムに保存されたソース データ エクスポートは、5 年間保持する必要があります。クエリへのアクセスは、最初の 90 日以内に行われる可能性がある再評価の場合にのみ必要です。
ストレージ コストを最小限に抑えながら、これらの要件を満たすアクションの組み合わせはどれですか? (2つ選んでください。)
- A. ソース データを最初に Amazon S3 Standard-Infrequent Access (S3 Standard-IA) ストレージ クラスに保存します。作成から 90 日後にストレージ クラスを Amazon S3 Glacier Deep Archive に変更し、作成から 5 年後にデータを削除するライフサイクル構成を適用します。
- B. 日次ロールアップ データを最初に Amazon S3 標準ストレージ クラスに保存します。データ作成から 1 年後に、ストレージ クラスを Amazon S3 Glacier Deep Archive に変更するライフサイクル構成を適用します。
- C. ソース データを最初に Amazon S3 Glacier ストレージ クラスに保存します。作成から 90 日後にストレージ クラスを Amazon S3 Glacier から Amazon S3 Glacier Deep Archive に変更し、作成から 5 年後にデータを削除するライフサイクル構成を適用します。
- D. 日次ロールアップ データを最初に Amazon S3 標準ストレージ クラスに保存します。データ作成から1年後に、ストレージクラスをAmazon S3 Standard-Infrequent Access (S3 Standard-IA) に変更するライフサイクル構成を適用します。
- E. 日次ロールアップ データを最初に Amazon S3 Standard-Infrequent Access (S3 Standard-IA) ストレージ クラスに保存します。データ作成から 1 年後に、ストレージ クラスを Amazon S3 Glacier に変更するライフサイクル構成を適用します。
正解:A、D
質問 # 41
何千もの AWS アカウントを持つリセラーが、Amazon S3 バケットで AWS のコストと使用状況レポートを受け取ります。レポートは、次の形式で S3 バケットに配信されます。
<examp/e-reporT-prefix>/<examp/e-report-rtame>/yyyymmdd-yyyymmdd/<examp/e-report-name> parquet AWS Glue クローラーは S3 バケットをクロールし、AWS Glue データカタログにテーブル ビジネス アナリストは Amazon Athena を使用してテーブルをクエリし、AWS アカウントの月次サマリー レポートを作成します。クエリのパフォーマンス これらの要件を満たすために、運用チームはどのアクションを実行する必要がありますか?
- A. 月とアカウント ID でデータを分割します。
- B. データを日付とアカウントで分割しますIDで分割します。
- C. アカウント ID、年、月ごとにデータを分割します。
- D. ファイル形式を csv.zip に変更します。
正解:B
質問 # 42
データ アナリストは、Amazon Athena と JDBC ドライバーを使用して、多数のデータ操作言語 (DML) クエリを実行します。最近、クエリが 30 分間実行された後に失敗しました。クエリは次のメッセージを返しました Java.sql.SGLException: Query timeout データ アナリストはクエリ結果をすぐには必要としません しかし、データ アナリストはこの問題の長期的な解決策を必要としています これらの要件を満たすソリューションはどれですか?
- A. テーブルを圧縮された .csv ファイルとして保存します。
- B. Athena の設定で、DML クエリのタイムアウト制限を調整します。
- C. クエリを小さなクエリに分割して、データの小さなサブセットを検索します。
- D. Service Quotas コンソールで、DML クエリ タイムアウトの増加をリクエストします。
正解:C
質問 # 43
企業のデータ サイエンス チームは、Windows サーバー上の共有データセット リポジトリを設計しています。データ リポジトリには、データ サイエンス チームが機械学習モデルで一般的に使用する大量のトレーニング データが保存されます。データ サイエンティストは、毎日ランダムな数の新しいデータセットを作成します。
同社は、永続的でスケーラブルなファイル ストレージと高レベルのスループットと IOPS を提供するソリューションを必要としています。また、ソリューションは可用性が高く、アクセス制御のために Active Directory と統合する必要があります。
最小限の開発労力でこれらの要件を満たすソリューションはどれですか?
- A. データセットをテーブルとしてマルチノード Amazon Redshift クラスターに保存します。認証用の Active Directory ドメインを設定します。
- B. データセットをファイルとして Amazon EMR クラスターに保存します。認証用の Active Directory ドメインを設定します。
- C. データセットを Amazon DynamoDB のグローバル テーブルとして保存します。認証を Active Directory ドメインと統合するアプリケーションを構築します。
- D. データセットをファイルとして Amazon FSx for Windows ファイル サーバーに保存します。認証用の Active Directory ドメインを設定します。
正解:D
質問 # 44
......
DAS-C01日本語問題集PDF、DAS-C01日本語最速合格したいなら:https://www.jpntest.com/shiken/DAS-C01-JPN-mondaishu