Lingua Analytics — projekt kursu Data Engineering

Pipeline analityki produktowej dla fikcyjnej apki do nauki jezykow. Surowe zdarzenia → czyste modele → metryki (DAU, retention, lejek, MRR, churn).

data/raw/        surowe CSV (users, events, subscriptions)
scripts/         load_raw.py  (CSV → DuckDB, warstwa raw)
dbt/             projekt dbt: staging → intermediate → marts
warehouse/       hurtownia DuckDB (generowana lokalnie, w .gitignore)

M0 — Setup (zrob to teraz)

Wymagane: Python 3.11 + uv (masz z fast.ai).

# 1. srodowisko
cd lingua-analytics
uv venv --python 3.11
source .venv/bin/activate
uv pip install -r requirements.txt

# 2. zaladuj surowe dane do DuckDB
python scripts/load_raw.py
#  -> raw.users 4 000 | raw.events 260 509 | raw.subscriptions 406

# 3. sprawdz dbt
cd dbt
dbt debug          # ma byc "All checks passed!"
cd ..

Pierwsze zapytanie (Twoj pierwszy „win")

Wejdz do hurtowni i policz zdarzenia wg typu:

duckdb warehouse/lingua.duckdb

SELECT event_type, count(*) AS n
FROM raw.events
GROUP BY event_type
ORDER BY n DESC;
-- .quit  zeby wyjsc

Zadanie na rozgrzewke (przynies wynik na nastepna sesje)

Ilu jest unikalnych uzytkownikow w raw.events? (COUNT(DISTINCT ...))
Ile rejestracji dziennie? (DATE_TRUNC('day', ...) + GROUP BY)
Zauwaz „bałagan": SELECT DISTINCT country FROM raw.users; — co jest nie tak?

To wszystko ogarniemy w M1 (SQL). Daj znac jak masz dbt debug na zielono.

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
data/raw		data/raw
dbt		dbt
docs		docs
legacy		legacy
scripts		scripts
tasks		tasks
warehouse		warehouse
.DS_Store		.DS_Store
.gitignore		.gitignore
CLAUDE.md		CLAUDE.md
README.md		README.md
requirements.txt		requirements.txt
sql.md		sql.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Lingua Analytics — projekt kursu Data Engineering

M0 — Setup (zrob to teraz)

Pierwsze zapytanie (Twoj pierwszy „win")

Zadanie na rozgrzewke (przynies wynik na nastepna sesje)

About

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Lingua Analytics — projekt kursu Data Engineering

M0 — Setup (zrob to teraz)

Pierwsze zapytanie (Twoj pierwszy „win")

Zadanie na rozgrzewke (przynies wynik na nastepna sesje)

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Contributors

Uh oh!

Languages