Truy cập AWS Management Console.
Trong giao diện AWS Glue, chọn Crawlers.
.
Chọn Create Crawler.
.
Trong giao diện Add crawler, nhập Crawler name là summitcrawler
và chọn Next.
.
Đối với Add data source, chọn S3.
.
Chọn S3 path thông qua Browse. Bạn tùy chọn đường dẫn nhé. Đồng thời chọn Crawl new sub-folders only và Add an S3 data source.
.
Sau thêm data source, bạn chọn Next.
.
Đối với IAM role, bạn có thể tự tạo role mới bằng cách chọn Create new IAM role hoặc chọn role đã chuẩn bị. Sau đó, chọn Next.
.
Đối với Target database, bạn thực hiện Add database.
.
Tạo database bằng cách nhập tên database là summitdb
và chọn Create database.
.
Sau khi tạo database, bạn chọn database và chọn Next.
.
Kiểm tra lại cấu hình và chọn Create crawler.
.
Tạo Crawler thành công. Sau đó, bạn chọn Run crawler.
.
Mất khoảng 1 phút để khởi tạo chạy Crawler.
.
Khởi tạo Run crawler thành công.
.
Sau khi khởi tạo một thời gian, Crawler chuyển sang trạng thái Stopping.
.
Khi bạn thấy trạng thái crawler ở Ready.
.
Chọn Table ở giao diện AWS Glue, chúng ta sẽ thấy có 2 bảng dữ liệu.
.
Bạn chọn bảng dữ liệu raw.
.
Khám phá chi tiết bảng dữ liệu.
.