AWS ETL Project

Overview

This project extracts, transforms, and loads (ETL) data into an AWS-based datalake. It includes linting, tests, containerization, and infrastructure-as-code with Terraform.

Features

Extract data from multiple sources (APIs, Databases, CSV files)
Transform data (cleaning, normalization, type conversion)
Load data into Parquet format and store it in AWS S3
AWS Glue integration for ETL orchestration
Terraform for AWS infrastructure provisioning
CI/CD pipeline with GitHub Actions
Dockerized environment for consistency

Setup

Prerequisites

Python 3.9+
AWS CLI configured with necessary permissions
Terraform installed for infrastructure deployment
Docker (optional, for containerized execution)

Installation

pip install -r requirements.txt

Deploy AWS Infrastructure

cd infrastructure
terraform init
terraform apply

Running ETL

make run

Running Tests

make test

Linting & Code Formatting

make lint

Running in Docker

make docker-build
make docker-run

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
.github		.github
src		src
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
Dockerfile		Dockerfile
Makefile		Makefile
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AWS ETL Project

Overview

Features

Setup

Prerequisites

Installation

Deploy AWS Infrastructure

Running ETL

Running Tests

Linting & Code Formatting

Running in Docker

About

Releases

Packages

Languages

lucasfonsecads/data-extraction

Folders and files

Latest commit

History

Repository files navigation

AWS ETL Project

Overview

Features

Setup

Prerequisites

Installation

Deploy AWS Infrastructure

Running ETL

Running Tests

Linting & Code Formatting

Running in Docker

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages