Tạo Glue Crawler

Tạo Glue Crawler

  1. Truy cập AWS Management Console.

    • Tìm AWS Glue.
    • Chọn AWS Glue.

    Create Glue Crawler

  2. Trong giao diện AWS Glue, chọn Crawlers.

    Create Glue Crawler.

  3. Chọn Create Crawler.

    Create Glue Crawler.

  4. Trong giao diện Add crawler, nhập Crawler namesummitcrawler và chọn Next.

    Create Glue Crawler.

  5. Đối với Add data source, chọn S3.

    Create Glue Crawler.

  6. Chọn S3 path thông qua Browse. Bạn tùy chọn đường dẫn nhé. Đồng thời chọn Crawl new sub-folders onlyAdd an S3 data source.

    Create Glue Crawler.

  7. Sau thêm data source, bạn chọn Next.

    Create Glue Crawler.

  8. Đối với IAM role, bạn có thể tự tạo role mới bằng cách chọn Create new IAM role hoặc chọn role đã chuẩn bị. Sau đó, chọn Next.

    Create Glue Crawler.

  9. Đối với Target database, bạn thực hiện Add database.

    Create Glue Crawler.

  10. Tạo database bằng cách nhập tên database là summitdb và chọn Create database.

    Create Glue Crawler.

  11. Sau khi tạo database, bạn chọn database và chọn Next.

    Create Glue Crawler.

  12. Kiểm tra lại cấu hình và chọn Create crawler.

    Create Glue Crawler.

  13. Tạo Crawler thành công. Sau đó, bạn chọn Run crawler.

    Create Glue Crawler.

  14. Mất khoảng 1 phút để khởi tạo chạy Crawler.

    Create Glue Crawler.

  15. Khởi tạo Run crawler thành công.

    Create Glue Crawler.

  16. Sau khi khởi tạo một thời gian, Crawler chuyển sang trạng thái Stopping.

    Create Glue Crawler.

  17. Khi bạn thấy trạng thái crawler ở Ready.

    Create Glue Crawler.

  18. Chọn Table ở giao diện AWS Glue, chúng ta sẽ thấy có 2 bảng dữ liệu.

    Create Glue Crawler.

  19. Bạn chọn bảng dữ liệu raw.

    Create Glue Crawler.

  20. Khám phá chi tiết bảng dữ liệu.

    Create Glue Crawler.