
最新 [2022年11月] 効果的な学習法でJPNTestの問題集でDAS-C01日本語テストを合格せよ
実績のある受験者のシミュレーションされたDAS-C01日本語試験PDF問題を試そう
質問 68
教育機関の学習管理システム (LMS) は、Amazon S3 上に構築された 100 TB のデータ レイクでホストされています。プロバイダーの LMS は、何百もの学校をサポートしています。プロバイダーは、Amazon Redshift を使用して高度な分析レポート プラットフォームを構築し、最適なパフォーマンスで複雑なクエリを処理したいと考えています。システム ユーザーは、最新の 4 か月のデータを 95% の確率でクエリしますが、クエリの 5% は過去 12 か月のデータを活用します。
最も費用対効果の高い方法でこれらの要件を満たすソリューションはどれですか?
- A. Amazon Redshift クラスターに DS2 ノードを活用します。Amazon S3 から Amazon Redshift にすべてのデータを移行します。データ レイクを廃止します。
- B. 最新の 4 か月分のデータを Amazon Redshift クラスターに保存します。Amazon Redshift Spectrum を使用して、データ レイク内のデータをクエリします。S3 ライフサイクル管理ルールを使用して、過去 12 か月のデータを Amazon S3 Glacier ストレージに保存します。
- C. 最新の 4 か月分のデータを Amazon Redshift クラスターに保存します。Amazon Redshift フェデレーテッド クエリを使用してクラスター データをデータ レイクと結合し、コストを削減します。S3 標準ストレージ クラスがデータ レイク内のオブジェクトで使用されていることを確認します。
- D. 最新の 4 か月分のデータを Amazon Redshift クラスターに保存します。Amazon Redshift Spectrum を使用して、データ レイク内のデータをクエリします。S3 標準ストレージ クラスがデータ レイク内のオブジェクトで使用されていることを確認します。
正解: D
質問 69
何千もの AWS アカウントを持つリセラーが、Amazon S3 バケットで AWS のコストと使用状況レポートを受け取ります。レポートは、次の形式で S3 バケットに配信されます。
<examp/e-reporT-prefix>/<examp/e-report-rtame>/yyyymmdd-yyyymmdd/<examp/e-report-name> parquet AWS Glue クローラーは S3 バケットをクロールし、AWS Glue データカタログにテーブル ビジネス アナリストは Amazon Athena を使用してテーブルをクエリし、AWS アカウントの月次サマリー レポートを作成します。クエリのパフォーマンス これらの要件を満たすために、運用チームはどのアクションを実行する必要がありますか?
- A. ファイル形式を csv.zip に変更します。
- B. 月とアカウント ID でデータを分割します。
- C. アカウント ID、年、月ごとにデータを分割します。
- D. データを日付とアカウントで分割しますIDで分割します。
正解: D
質問 70
ある企業は、全国の高速道路の有料サービスを運営しており、使用パターンを理解するために使用されるデータを収集しています。アナリストは、ほぼリアルタイムでトラフィック レポートを実行する機能を要求しました。同社は、すべてのデータを Amazon Redshift クラスターにロードし、特定の料金所の有料トラフィックが指定されたしきい値を満たさない場合に運用担当者に警告する取り込みパイプラインの構築に関心を持っています。ステーション データと対応するしきい値は、Amazon S3 に保存されます。
これらの要件を満たす最も効率的な方法はどれですか?
- A. Amazon Kinesis Data Firehose を使用してデータを収集し、Amazon Redshift と Amazon Kinesis Data Analytics に同時に配信します。Kinesis Data Analytics で参照データソースを作成して、Amazon S3 からのしきい値を一時的に保存し、特定の料金所の車両数を対応するしきい値と比較します。しきい値に達しない場合は、AWS Lambda を使用して Amazon Simple Notification Service (Amazon SNS) 通知を発行します。
- B. Amazon Kinesis Data Firehose を使用してデータを収集し、Amazon Redshift に配信します。次に、Amazon Redshift のデータをクエリし、特定の料金所の車両数を Amazon S3 から読み取った対応するしきい値と比較し、Amazon Simple Notification Service (Amazon SNS) 通知を発行する AWS Lambda 関数を自動的にトリガーします。しきい値に達していません。
- C. Amazon Kinesis Data Firehose を使用してデータを収集し、Amazon Redshift と Amazon Kinesis Data Analytics に同時に配信します。Kinesis Data Analytics を使用して、Amazon S3 に保存されている情報に基づいて、アプリケーション内ストリームとしてテーブルに保存されているステーションのしきい値と車両の数を比較します。しきい値に達しない場合に運用担当者に警告する Amazon Simple Queue Service (Amazon SQS) 通知を発行するアプリケーションの出力として AWS Lambda 関数を設定します。
- D. Amazon Kinesis Data Streams を使用して、料金所からすべてのデータを収集します。Kinesis Data Streams でストリームを作成して、Amazon S3 からのしきい値を一時的に保存します。両方のストリームを Amazon Kinesis Data Analytics に送信して、特定の料金所の車両数を対応するしきい値と比較します。しきい値に達しない場合は、AWS Lambda を使用して Amazon Simple Notification Service (Amazon SNS) 通知を発行します。Amazon Kinesis Data Firehose を Kinesis Data Streams に接続して、データを Amazon Redshift に配信します。
正解: C
質問 71
オンライン ゲーム会社は、Kinesis データ ストリームをソースとして Amazon Kinesis Data Analytics SQL アプリケーションを使用しています。ソースは、null 以外の 3 つのフィールド (player_id、score、および us_5_digit_zip_code) をアプリケーションに送信します。
データ アナリストは、少数の us_5_digit_zip_code 値を地域コードにマップする .csv マッピング ファイルを持っています。データ アナリストは、Kinesis Data Analytics アプリケーションの追加出力として、地域コードが存在する場合はそれを含める必要があります。
データ アナリストは、コストを最小限に抑えながら、この要件を満たすにはどうすればよいでしょうか?
- A. マッピング ファイルの内容を Amazon DynamoDB テーブルに保存します。レコードが Kinesis Data Analytics アプリケーションに到着したら、AWS Lambda 関数を使用してレコードを前処理します。この関数は、マッピングを取得し、各レコードを補足して地域コード (存在する場合) を含めます。アプリケーションの SQL クエリを変更して、SELECT ステートメントに新しいフィールドを含めます。
- B. マッピング ファイルを Amazon S3 バケットに保存し、
Kinesis Data Analytics アプリケーションの .csv ファイル。アプリケーションの SQL クエリを変更して、ファイルの S3 Amazon リソースネーム (ARN) への結合を含め、地域コード フィールドを SELECT 列に追加します。 - C. マッピング ファイルの内容を Amazon DynamoDB テーブルに保存します。Kinesis Data Analytics アプリケーションを変更して、その出力を AWS Lambda 関数に送信します。AWS Lambda 関数は、マッピングをフェッチし、各レコードを補足して、地域コード (存在する場合) を含めます。Lambda 関数から元のアプリケーションの宛先にレコードを転送します。
- D. マッピング ファイルを Amazon S3 バケットに保存し、Kinesis Data Analytics アプリケーションの参照データ ソースとして設定します。アプリケーションの SQL クエリを変更して、参照テーブルへの結合を含め、地域コード フィールドを SELECT 列に追加します。
正解: D
質問 72
ある企業は、Amazon kinesis Data Streams を使用して、毎日アプリケーション ユーザーから顧客の行動情報を取り込み、処理しています。データ分析スペシャリストは、データ ストリームが調整されていることに気付きました。スペシャリストは、Kinesis データ ストリームの拡張モニタリングを有効にし、データ ストリームがデータ制限を超えていないことを確認しました。スペシャリストは、ホット シャードがあることを発見しました。この問題を解決するソリューションはどれですか?
- A. シャードの数を増やす ログ レコードのサイズを分割します。
- B. ランダム パーティション キーを使用してレコードを取り込みます。
- C. プロデューサーが毎秒送信するレコード数を、ストリームの容量に合わせて制限します。
- D. ストリームの容量に合わせてプロデューサーから送信されるレコードのサイズを減らします。
正解: B
質問 73
ある金融会社は、Amazon S3 をデータレイクとして使用し、マルチノードの Amazon Redshift クラスターを使用してデータ ウェアハウスをセットアップしました。データ レイク内のデータ ファイルは、各データ ファイルのデータ ソースに基づいてフォルダーに編成されます。すべてのデータ ファイルは、データ ファイルの場所ごとに個別の COPY コマンドを使用して、Amazon Redshift クラスター内の 1 つのテーブルにロードされます。このアプローチでは、すべてのデータ ファイルを Amazon Redshift にロードすると、完了するまでに長い時間がかかります。ユーザーは、S3 データ レイク内のデータ ファイルの分離を維持しながら、コストがほとんどまたはまったく増加しない、より高速なソリューションを求めています。
これらの要件を満たすソリューションはどれですか?
- A. データ ファイルの場所を含むマニフェスト ファイルを作成し、COPY コマンドを発行してデータを Amazon Redshift にロードします。
- B. すべてのデータ ファイルを並行して Amazon Aurora にロードし、AWS Glue ジョブを実行してデータを Amazon Redshift にロードします。
- C. AWS Glue ジョブを使用してすべてのデータ ファイルを 1 つのフォルダーにコピーし、COPY コマンドを発行してデータを Amazon Redshift にロードします。
- D. Amazon EMR を使用してすべてのデータ ファイルを 1 つのフォルダーにコピーし、COPY コマンドを発行してデータを Amazon Redshift にロードします。
正解: A
解説:
https://docs.aws.amazon.com/redshift/latest/dg/loading-data-files-using-manifest.html "You can use a manifest to ensure that the COPY command loads all of the required files, and only the required files, for a data load"
質問 74
広告会社には、Amazon S3 上に構築されたデータレイクがあります。同社は AWS Glue Data Catalog を使用してメタデータを維持しています。データ レイクは数年前から使用されており、追加のデータ ソースとメタデータがデータ レイクに保存されるにつれて、全体のサイズが指数関数的に増加しています。データ レイク管理者は、Amazon S3 と Data Catalog 間のアクセス許可管理を簡素化して同期を維持するメカニズムを実装したいと考えています。最小の開発労力でアクセス許可管理を簡素化するソリューションはどれですか?
- A. Amazon Cognito ユーザープールを使用します。
- B. AWS Lake Formation のアクセス許可を使用する
- C. バケット ポリシーを使用して AWS Glue と S3 のアクセス許可を管理する
- D. AWS Glue に AWS Identity and Access Management (1AM) のアクセス許可を設定します
正解: B
質問 75
ある会社は、オンプレミスの Apache Hadoop クラスターから Amazon EMR クラスターに移行しています。クラスターは、営業時間中にのみ実行されます。日中のクラスター障害を回避するという会社の要件により、EMR クラスターは高可用性である必要があります。各営業日の終わりにクラスターが終了しても、データは保持されている必要があります。
EMR クラスターがこれらの要件を満たすことを可能にする構成はどれですか? (3つ選んでください。)
- A. 複数のアベイラビリティーゾーン内の複数のマスターノード
- B. Apache Hive のメタストアとしてのマスター ノード上の MySQL データベース
- C. 単一のアベイラビリティーゾーン内の複数のマスターノード
- D. Apache Hive のメタストアとしての AWS Glue データ カタログ
- E. ストレージ用の Hadoop 分散ファイル システム (HDFS)
- F. ストレージ用の EMR ファイル システム (EMRFS)
正解: C,D,F
解説:
https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-ha.html "Note : The cluster can reside only in one Availability Zone or subnet."
質問 76
公益事業会社は、Amazon QuickSight で毎日のエネルギー使用量のデータを視覚化したいと考えています。会社のデータ分析スペシャリストは、データを収集して Amazon S3 に取り込むためのデータパイプラインを構築しています。データは毎日、個々の csv ファイルに保存されています。 S3 バケット これは命名構造の例です
20210707_datacsv 20210708_datacsv
Amazon Athena を介して QuickSight でデータのクエリを実行できるようにするために、スペシャリストは AWS Glue クローラーを使用してパス「s3 //powertransformer/20210707_data csv」のテーブルを作成しましたが、データをクエリするとゼロ行が返されます この問題を解決するにはどうすればよいですか?
- A. テーブル パスを「s3://powertransformer/」に更新します。
- B. ファイルを再度取り込みます。
- C. AWS Glue クローラーが Amazon S3 にアクセスするように IAM ポリシーを変更します。
- D. ファイルを Apache Parquet 形式で保存します。
正解: A
質問 77
ある会社は、会社の 3 TB のデータ ウェアハウスでホストされている既存のオンプレミス データのサブセットで Amazon SageMaker を使用して、機械学習 (ML) プロジェクトの概念実証を行うことを計画しています。プロジェクトの一部として、AWS Direct Connect が確立され、テストされています。ML 用のデータを準備するために、データ アナリストはデータのキュレーションを実行しています。データ アナリストは、マッピング、null フィールドの削除、選択の解決、フィールドの分割など、複数の手順を実行したいと考えています。同社は、このプロジェクトのデータをキュレートする最速のソリューションを必要としています。
これらの要件を満たすソリューションはどれですか?
- A. データ ストアの完全なバックアップを作成し、AWS Snowball を使用してバックアップ ファイルを発送します。Snowball データを Amazon S3 にアップロードし、AWS Batch を使用してデータ キュレーション ジョブをスケジュールして、ML 用のデータを準備します。
- B. AWS DMS を使用して Amazon S3 にデータを取り込みます。AWS Glue を使用してデータのキュレーションを実行し、ML 処理のためにデータを Amazon S3 に保存します。
- C. オンプレミスでカスタム ETL ジョブを作成して、データをキュレーションします。AWS DMS を使用して、ML 処理のためにデータを Amazon S3 に取り込みます。
- D. AWS DataSync を使用して Amazon S3 にデータを取り込み、Apache Spark スクリプトを使用して Amazon EMR クラスター内のデータをキュレートします。キュレートされたデータを ML 処理のために Amazon S3 に保存します。
正解: B
質問 78
ある企業は、さまざまな部門からのイベント データをほぼリアルタイムで収集して処理したいと考えています。データを Amazon S3 に保存する前に、住所とタイムスタンプの列の形式を標準化してデータをクリーンアップする必要があります。データのサイズは、特定の時点ごとの全体的な負荷に基づいて異なります。1 つのデータ レコードのサイズは 100 KB ~ 10 MB です。
データ分析スペシャリストは、データ取り込みのソリューションをどのように設計する必要がありますか?
- A. Amazon Managed Streaming for Apache Kafka を使用します。生データのトピックを構成します。Kafka プロデューサーを使用してトピックにデータを書き込みます。Apache Kafka コンシューマー API を使用してトピックからデータを読み取り、データをクレンジングして、Amazon S3 に書き込むアプリケーションを Amazon EC2 で作成します。
- B. Amazon Kinesis Data Firehose を使用します。データクレンジング用の前処理 AWS Lambda 関数を使用して Firehose 配信ストリームを設定します。Kinesis Agent を使用して配信ストリームにデータを書き込みます。Amazon S3 にデータを配信するように Kinesis Data Firehose を設定します。
- C. Amazon Simple Queue Service (Amazon SQS) を使用します。SQS キューからイベントを読み取り、Amazon S3 にイベントをアップロードするように AWS Lambda 関数を設定します。
- D. Amazon Kinesis Data Streams を使用します。生データのストリームを構成します。Kinesis Agent を使用してデータをストリームに書き込みます。生ストリームからデータを読み取り、データをクレンジングして、出力を Amazon S3 に保存する Amazon Kinesis Data Analytics アプリケーションを作成します。
正解: B
質問 79
あるマーケティング会社は、キャンペーンの反応データを Amazon S3 に保存しています。各キャンペーンのデータは、一貫した一連のソースから生成されています。データは .csv ファイルとして Amazon S3 に保存されます。ビジネス アナリストは、Amazon Athena を使用して各キャンペーンのデータを分析します。同社は、Athena を使用した継続的なデータ分析のコストを最小限に抑える必要があります。
これらの要件を満たすために、データ分析スペシャリストはどのアクションを組み合わせて実行する必要がありますか? (2つ選んでください。)
- A. ソースごとにデータを分割します。
- B. キャンペーンごとにデータを分割します。
- C. .csv ファイルを圧縮します。
- D. .csv ファイルを Apache Avro に変換します。
- E. .csv ファイルを Apache Parquet に変換します。
正解: B,E
解説:
https://aws.amazon.com/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/
質問 80
ある企業は、自動機械学習 (ML) ランダム カット フォレスト (RCF) アルゴリズムを使用して、季節性と傾向の検出、外側の除外、欠損値の代入など、複雑な現実世界のシナリオを視覚化したいと考えています。
このプロジェクトに取り組んでいるチームは技術者ではなく、必要な管理オーバーヘッドが最小限で済むすぐに使えるソリューションを探しています。
これらの要件を満たすソリューションはどれですか?
- A. Amazon QuickSight を使用してデータを視覚化し、ML を活用した予測を使用して主要なビジネス指標を予測します。
- B. 計算フィールドを使用して新しい予測を作成し、Amazon QuickSight を使用してデータを視覚化します。
- C. AWS Glue ML 変換を使用して予測を作成し、Amazon QuickSight を使用してデータを視覚化します。
- D. AWS Marketplace のビルド済み ML AMI を使用して予測を作成し、Amazon QuickSight を使用してデータを視覚化します。
正解: C
質問 81
ある大規模なライドシェアリング会社では、世界中に何千人ものドライバーがおり、毎日何百万人ものユニークな顧客にサービスを提供しています。同社は、既存のデータマートを Amazon Redshift に移行することを決定しました。既存のスキーマには、次のテーブルが含まれています。
完了した乗車に関する情報のトリップ ファクト テーブル。ドライバー プロファイルのドライバー ディメンション テーブル。
顧客プロファイル情報を保持する顧客ファクト テーブル。
同社は、旅行の詳細を日付と目的地別に分析し、地域別の収益性を調べます。ドライバーのデータはめったに変更されません。顧客データは頻繁に変更されます。
最適なクエリ パフォーマンスを提供するテーブル設計はどれですか?
- A. ドライバー テーブルに DISTSTYLE EVEN を使用し、日付で並べ替えます。両方のファクト テーブルに DISTSTYLE ALL を使用します。
- B. trips テーブルに DISTSTYLE KEY (目的地) を使用し、日付で並べ替えます。ドライバー テーブルと顧客テーブルには DISTSTYLE ALL を使用します。
- C. trips テーブルに DISTSTYLE KEY (目的地) を使用し、日付で並べ替えます。ドライバー テーブルには DISTSTYLE ALL を使用します。customers テーブルには DISTSTYLE EVEN を使用します。
- D. trips テーブルに DISTSTYLE EVEN を使用し、日付で並べ替えます。ドライバー テーブルには DISTSTYLE ALL を使用します。customers テーブルには DISTSTYLE EVEN を使用します。
正解: C
解説:
https://www.matillion.com/resources/blog/aws-redshift-performance-choosing-the-right-distribution-styles/#:~:text=The%20distribution%20style%20is%20how,you%20want%20to%20distribute%20it%E2%80%A6 https://docs.aws.amazon.com/redshift/latest/dg/c_best-practices-best-dist-key.html
質問 82
スマート ホーム オートメーション企業は、接続されたさまざまなデバイスやセンサーからメッセージを効率的に取り込み、処理する必要があります。これらのメッセージの大部分は、多数の小さなファイルで構成されています。これらのメッセージは、Amazon Kinesis Data Streams を使用して取り込まれ、Kinesis データ ストリーム コンシューマー アプリケーションを使用して Amazon S3 に送信されます。次に、Amazon S3 メッセージ データは、スケジュールされた PySpark ジョブを実行する Amazon EMR 上に構築された処理パイプラインを通過します。
データ プラットフォーム チームはデータ処理を管理し、下流のデータ処理の効率とコストを懸念しています。彼らは引き続き PySpark を使用したいと考えています。
データ処理ジョブの効率を改善し、適切に設計されているソリューションはどれですか?
- A. Amazon Redshift クラスターを起動します。収集したデータを Amazon S3 から Amazon Redshift にコピーし、データ処理ジョブを Amazon EMR から Amazon Redshift に移動します。
- B. AWS Glue Python ジョブをセットアップして、Amazon S3 の小さなデータ ファイルを大きなファイルにマージし、それらを Apache Parquet 形式に変換します。ダウンストリーム PySpark ジョブを Amazon EMR から AWS Glue に移行します。
- C. Python ランタイム環境で AWS Lambda 関数をセットアップします。Lambda を使用して、接続されたデバイスとセンサーからの個々の Kinesis データ ストリーム メッセージを処理します。
- D. センサーとデバイスのデータを Kinesis Data Firehose 配信ストリームに直接送信して、Apache Parquet レコード形式変換を有効にしてデータを Amazon S3 に送信します。PySpark を実行している Amazon EMR を使用して、Amazon S3 でデータを処理します。
正解: B
解説:
https://aws.amazon.com/it/about-aws/whats-new/2020/04/aws-glue-now-supports-serverless-streaming-etl/
質問 83
大企業は、Amazon EC2 の外部関係者から 1 日を通してファイルを受け取ります。1 日の終わりに、ファイルは 1 つのファイルに結合され、gzip ファイルに圧縮され、Amazon S3 にアップロードされます。すべてのファイルの合計サイズは、毎日 100 GB 近くになります。ファイルが Amazon S3 にアップロードされると、AWS Batch プログラムが COPY コマンドを実行してファイルを Amazon Redshift クラスターにロードします。
COPY プロセスを高速化するプログラムの変更はどれですか?
- A. 個々のファイルを Amazon S3 にアップロードし、ファイルが利用可能になったらすぐに COPY コマンドを実行します。
- B. ファイルを分割してシャーディングを適用し、同じ値を持つ distkey 列が同じファイルに移動するようにします。分割されたファイルを Gzip して Amazon S3 にアップロードします。ファイルに対して COPY コマンドを実行します。
- C. ファイルの数を分割して、Amazon Redshift クラスター内のコンピューティング ノード数の倍数に等しくなるようにします。ファイルを Gzip して Amazon S3 にアップロードします。ファイルに対して COPY コマンドを実行します。
- D. ファイルの数を分割して、Amazon Redshift クラスター内のスライス数の倍数に等しくなるようにします。ファイルを Gzip して Amazon S3 にアップロードします。ファイルに対して COPY コマンドを実行します。
正解: D
質問 84
銀行会社は、リアルタイム分析のために Amazon Kinesis Data Streams を使用して大量のトランザクション データを収集したいと考えています。同社は PutRecord を使用して Amazon Kinesis にデータを送信しており、1 日の特定の時間帯にネットワークが停止していることを確認しています。この会社は、処理パイプライン全体で 1 回限りのセマンティクスを取得したいと考えています。
これらの特性を得るために企業は何をすべきか?
- A. イベントが Kinesis Data Streams に複数回取り込まれないようにデータプロデューサーを設計します。
- B. 各レコードに一意の ID を埋め込んで、処理中に重複を削除できるようにアプリケーションを設計します。
- C. Amazon EMR に含まれる Apache Flink と Apache Spark Streaming の正確に 1 つの処理セマンティクスに依存します。
- D. Amazon Kinesis Data Analytics の処理セマンティクスに依存して、イベントの重複処理を回避します。
正解: B
質問 85
データエンジニアは、AWS Glue ETL ジョブを使用して頻繁にデータを処理しています。処理されたデータは、Amazon S3 にコピーされます。ETL ジョブは 15 分ごとに実行されます。AWS Glue データカタログのパーティションは、各ジョブの完了後に自動的に更新する必要があります。これらの要件を最も費用対効果の高い方法で満たすソリューションはどれですか?
- A. AWS Glue Data Catalog を使用してデータ カタログを管理する AWS Glue Studio を使用して ETL ジョブを管理します。ジョブ実行中の AWS Glue データカタログへの更新をサポートする AWS Glue Studio 機能を使用します。
- B. AWS Glue データカタログを使用してデータカタログを管理する ETL プロセスの AWS Glue ワークフローを定義する ETL ジョブの実行が完了したときにクローラーを開始できるトリガーをワークフロー内に定義する
- C. AWS Glue データ カタログを使用してデータ カタログを管理します AWS Glue ETL コードを更新して、enableUpdateCatalog および partitionKeys 引数を含めます。
- D. Apache Hive メタストアを使用してデータ カタログを管理する AWS Glue ETL コードを更新して、enableUpdateCatalog および partitionKeys 引数を含めます。
正解: B
質問 86
ゲーム会社は、cllckstream データを複数の Amazon Kinesis データ ストリームに収集しています。同社は Amazon Kinesis Data Firehose 配信ストリームを使用して、データを Amazon S3 に JSON 形式で保存します。同社は、データ パイプラインを再作成することなく、Athena のコストを削減したいと考えています。会社は、管理作業が少なくて済むソリューションを好む コストを削減するために、データ サイエンティストがすぐに実行できる一連のアクションはどれですか?
- A. AWS Lambda 関数を Kinesis Data Firehose と統合して、ソース レコードを Apache Parquet に変換し、Amazon S3 に書き込みます 並行して、AWS Glue ETL ジョブを実行して、既存の JSON ファイルを結合し、大きな Parquet ファイルに変換します カスタム S3 を作成しますオブジェクト YYYYMMDD プレフィックス ALTER TABLE ADD PARTITION を使用して、既存の Athena テーブルにパーティションを反映させます。
- B. JSON ファイルを結合して Apache Parquet ファイルに変換する Apache Spark ジョブを作成する Amazon EMR エフェメラル クラスターを毎日起動して、Spark ジョブを実行し、別の S3 の場所に新しい Parquet ファイルを作成する ALTER TABLE SET LOCATION を使用して、新しい既存の Athena テーブルの S3 の場所。
- C. Kinesis Data Firehose の配信ターゲットとして Kinesis データ ストリームを作成する ストリーム上で Amazon Kinesis Data Analytics で Apache Flink を実行する ストリーミング データを読み取り、ik を集約し、カスタム S3 オブジェクトを使用して Apache Parquet 形式で Amazon S3 に保存するYYYYMMDD プレフィックス ALTER TABLE ADD PARTITION を使用して、既存の Athena テーブルにパーティションを反映させます
- D. Kinesis Data Firehose の出力形式を Apache Parquet に変更します カスタム S3 オブジェクト YYYYMMDD プレフィックス式を提供し、大きなバッファー サイズを指定します 既存のデータについては、AWS Glue ETL ジョブを実行して小さな JSON ファイルを結合し、大きな Parquet ファイルに変換しますYYYYMMDD プレフィックスを追加します。ALTER TABLE ADD PARTITION を使用して、既存の Athena テーブルにパーティションを反映させます。
正解: A
質問 87
大規模な大学は、在籍学生の多様性を高めるという戦略的目標を採用しています。データ分析チームは、利害関係者が過去の傾向を確認できるように、データを視覚化したダッシュボードを作成しています。すべてのアクセスは、Microsoft Active Directory を使用して認証する必要があります。転送中および保存中のすべてのデータは暗号化する必要があります。
これらの要件を満たすソリューションはどれですか?
- A. AD Connector を使用して Active Directory を使用して認証する Amazon QuuckSight Standard エディション。AWS KMS にインポートされた顧客提供のキーを使用するように Amazon QuickSight を設定します。
- B. SAML 2.0 を使用して ID フェデレーションを実行するように設定された Amazon QuickSight Standard エディション。およびデフォルトの暗号化設定。
- C. SAML 2.0 とデフォルトの暗号化設定を使用して ID フェデレーションを実行するように設定された Amazon QuickSight Enterprise エディション。
- D. AD Connector を使用して Active Directory を使用して認証する Amazon QuickSight Enterprise エディション。AWS KMS にインポートされた顧客提供のキーを使用するように Amazon QuickSight を設定します。
正解: D
質問 88
ある会社には、ストリーミング データを取り込むアプリケーションがあります。
を。同社は、ランダム カット フォレスト (RCF) を使用してストリームの異常を評価し、現在のステータス コードの数を要約するために、5 分間の時間枠でこのストリームを分析する必要があります。ソースおよび要約されたデータは、将来の使用のために永続化する必要があります。
データの永続化コストを低く抑えながら、望ましい結果を実現するアプローチはどれですか?
- A. Amazon Kinesis Data Firehose を使用して、5 分または 1 MB の配信頻度でデータ ストリームを Amazon S3 に取り込みます。Kinesis Data Analytics アプリケーションで、RCF 関数を使用して 1 分間のウィンドウでストリームを評価し、ステータス コードの数を要約します。AWS Lambda 統合への Kinesis Data Analytics 出力を通じて、結果を Amazon S3 に永続化します。
- B. Amazon Kinesis Data Streams でデータ ストリームを取り込みます。AWS Lambda コンシューマーにストリームを評価させ、番号のステータス コードを収集し、以前にトレーニングされた RCF モデルに対してデータを評価します。ソースと結果を時系列として Amazon DynamoDB に保持します。
- C. Amazon Kinesis Data Streams を使用してデータ ストリームを取り込みます。Kinesis Data Analytics アプリケーションで、RCF 関数を使用して 5 分間のウィンドウでストリームを評価し、ステータス コードの数を要約します。Kinesis Data Firehouse への出力配信を通じて、ソースと結果を Amazon S3 に永続化します。
- D. Amazon S3 で 1 分または 1 MB の配信頻度で Amazon Kinesis Data Firehose を使用してデータ ストリームを取り込みます。Amazon S3 がイベントをトリガーして、バッチ データを評価し、数値ステータス コードを収集し、以前にトレーニングされた RCF モデルに対してデータを評価する AWS Lambda コンシューマーを呼び出すことを確認します。ソースと結果を時系列として Amazon DynamoDB に保持します。
正解: C
質問 89
......
シミュレーションされた材料でDAS-C01日本語テストエンジンで学習:https://www.jpntest.com/shiken/AWS-Certified-Data-Analytics-Specialty-JPN-mondaishu