talkpython
diff --git a/‎days/04-06-collections/__init__.py b/‎days/04-06-collections/__init__.py
diff --git a/‎days/04-06-collections/collections.ipynb
Lines changed: 186 additions & 99 deletions b/‎days/04-06-collections/collections.ipynb
Lines changed: 186 additions & 99 deletions
diff --git a/‎days/04-06-collections/day06.py
Lines changed: 14 additions & 0 deletions b/‎days/04-06-collections/day06.py
Lines changed: 14 additions & 0 deletions
diff --git a/‎days/04-06-collections/directors.py
Lines changed: 75 additions & 0 deletions b/‎days/04-06-collections/directors.py
Lines changed: 75 additions & 0 deletions
diff --git a/‎days/04-06-collections/movies.csv
Lines changed: 5043 additions & 0 deletions b/‎days/04-06-collections/movies.csv
Lines changed: 5043 additions & 0 deletions
diff --git a/‎days/04-06-collections/taryfa-przychody.csv
Lines changed: 16 additions & 0 deletions b/‎days/04-06-collections/taryfa-przychody.csv
Lines changed: 16 additions & 0 deletions
diff --git a/‎days/04-06-collections/test_directors.py
Lines changed: 67 additions & 0 deletions b/‎days/04-06-collections/test_directors.py
Lines changed: 67 additions & 0 deletions
diff --git a/‎days/04-06-collections/uklad-komunikacyjny.csv
Lines changed: 36 additions & 0 deletions b/‎days/04-06-collections/uklad-komunikacyjny.csv
Lines changed: 36 additions & 0 deletions
@@ -0,0 +1,14 @@
+from collections import defaultdict
+import csv
+
+# miasta = defaultdict(lambda: defaultdict(lambda: defaultdict(float)))
+miasta = defaultdict(lambda: defaultdict(int))
+
+with open('uklad-komunikacyjny.csv', encoding='utf8') as file:
+    reader = csv.DictReader(file, fieldnames=None, delimiter=';')
+    for row in reader:
+        miasta[row['miasto']][row['year']] = 0
+
+for miasto in miasta:
+    for rok in miasta[miasto]:
+        print(f"{miasto} {rok}")
@@ -0,0 +1,75 @@
+import csv
+from collections import defaultdict, namedtuple
+import os
+from csv import DictReader
+from urllib.request import urlretrieve
+
+BASE_URL = 'https://bites-data.s3.us-east-2.amazonaws.com/'
+TMP = os.getenv("TMP", "/tmp")
+
+fname = 'movie_metadata.csv'
+remote = os.path.join(BASE_URL, fname)
+local = os.path.join(TMP, fname)
+urlretrieve(remote, local)
+
+MOVIE_DATA = local
+MIN_MOVIES = 4
+MIN_YEAR = 1960
+
+Movie = namedtuple('Movie', 'title year score')
+
+
+def get_movies_by_director() -> dict[list]:
+    """Extracts all movies from csv and stores them in a dict,
+    where keys are directors, and values are a list of movies,
+    use the defined Movie namedtuple"""
+
+    directors: dict[list] = defaultdict(list)
+
+    with open(MOVIE_DATA) as f:
+        reader: DictReader[str] = csv.DictReader(f)
+
+        for row in reader:
+            director: str = row['director_name']
+            title: str = row['movie_title'].replace('\xa0', '')
+            try:
+                year: int = int(row['title_year'])
+            except ValueError:
+                continue
+            score: float = float(row['imdb_score'])
+
+            if year >= MIN_YEAR:
+                directors[director].append(Movie(title, year, score))
+
+        return directors
+
+
+def calc_mean_score(movies: list[namedtuple]) -> float:
+    """Helper method to calculate mean of list of Movie namedtuples,
+       round the mean to 1 decimal place"""
+    summary: float = 0.0
+    cnt: int = 0
+    for movie in movies:
+        summary += movie[2]
+        cnt += 1
+    return round(summary / cnt, 1)
+
+
+def get_average_scores(directors) -> list[tuple]:
+    """Iterate through the directors dict (returned by get_movies_by_director),
+       return a list of tuples (director, average_score) ordered by highest
+       score in descending order. Only take directors into account
+       with >= MIN_MOVIES"""
+    scores: list = []
+    for director, movies in directors.items():
+        if len(movies) < MIN_MOVIES:
+            continue
+        scores.append((director, calc_mean_score(movies)))
+
+    return sorted(scores, key=lambda x: x[1], reverse=True)
+
+
+if __name__ == "__main__":
+    directors = get_movies_by_director()
+    for director, score in get_average_scores(directors):
+        print(f"{director}: {score}")
@@ -0,0 +1,16 @@
+year;rodzaj_biletow;przychody
+2017;jednorazowe ZKM;24805149
+2017;okresowe ZKM;33210442
+2017;metropolitalne wraz z rekompensatą MZKZG;6391592
+2018;jednorazowe ZKM;23447257
+2018;okresowe ZKM;30508314
+2018;metropolitalne wraz z rekompensatą MZKZG;7351578
+2019;jednorazowe ZKM;28635842.59
+2019;okresowe ZKM;20615848.66
+2019;metropolitalne wraz z rekompensatą MZKZG;8857405.94
+2020;jednorazowe ZKM;12823957.35
+2020;okresowe ZKM;17709274.44
+2020;metropolitalne wraz z rekompensatą MZKZG;8128979.13
+2021;jednorazowe ZKM;11519582
+2021;okresowe ZKM;21393508
+2021;metropolitalne wraz z rekompensatą MZKZG;12463994
@@ -0,0 +1,67 @@
+from collections import defaultdict
+
+import pytest
+
+from directors import (get_movies_by_director, get_average_scores,
+                       calc_mean_score, Movie)
+
+
+@pytest.fixture(scope="module")
+def movies():
+    return get_movies_by_director()
+
+
+@pytest.fixture(scope="module")
+def scores(movies):
+    return get_average_scores(movies)
+
+
+def test_get_movies_by_director(movies):
+    assert 'Sergio Leone' in movies
+    assert len(movies['Sergio Leone']) == 4
+    assert len(movies['Peter Jackson']) == 12
+
+
+def test_director_movies_data_structure(movies):
+    assert type(movies) in (dict, defaultdict)
+    assert type(movies['Peter Jackson']) == list
+    assert type(movies['Peter Jackson'][0]) == Movie
+
+
+def test_calc_mean_score(movies):
+    movies_sergio = movies['Sergio Leone']
+    movies_nolan = movies['Christopher Nolan']
+    assert calc_mean_score(movies_sergio) == 8.5
+    assert calc_mean_score(movies_nolan) == 8.4
+
+
+def test_get_average_scores_top_directors(scores):
+    expected = [('Sergio Leone', 8.5),
+                ('Christopher Nolan', 8.4),
+                ('Quentin Tarantino', 8.2),
+                ('Hayao Miyazaki', 8.2),
+                ('Frank Darabont', 8.0),
+                ('Stanley Kubrick', 8.0),
+                ('James Cameron', 7.9),
+                ('Joss Whedon', 7.9)]
+    assert scores[0:8] == expected
+
+
+@pytest.mark.parametrize("director", [
+    'Quentin Tarantino', 'Hayao Miyazaki',
+    'Frank Darabont', 'Stanley Kubrick',
+    'James Cameron', 'Joss Whedon',
+    'Alejandro G. Iñárritu',
+])
+def test_director_in_top_scores(director, scores):
+    # order / score might slightly change depending the way the mean
+    # is calculated so only test director names in top scores
+    top_scores = scores[2:13]
+    directors = {score[0] for score in top_scores}
+    assert director in directors
+
+
+def test_ignore_older_movies(movies):
+    """Lowell Sherman's Black and White is from 1933 and should
+       be skipped"""
+    assert len(movies["Lowell Sherman"]) == 0
@@ -0,0 +1,36 @@
+year;miasto;dlugosc_tras_autobusowych_w_granicach_miasta;dlugosc_tras_trolejbusowych_w_granicach_miasta;dlugosc_linii_autobusowych_w_granicach_miasta;dlugosc_linii_trolejbusowych_w_granicach_miasta;wozokm_autobusowe_w_granicach_miasta;wozokm_trolejbusowe_w_granicach_miasta
+2017;Gdynia;199;44.7;734;168;11760;5148
+2017;Rumia;47;0;77.6;0;1007;0
+2017;Sopot;37.65;3.7;49.5;7.7;684;116
+2017;Żukowo;20.7;0;20.7;0;231;0
+2017;Kosakowo;34.1;0;85;0;565;0
+2017;Wejherowo;7.6;0;7.6;0;91;0
+2017;Szemud;29.5;0;32.7;0;156;0
+2018;Gdynia;201.8;42.7;735;168;11656;5148
+2018;Rumia;47;0;77.6;0;1028;0
+2018;Sopot;40.2;3.7;49.5;9;687;121
+2018;Żukowo;20.7;0;20.7;0;230;0
+2018;Kosakowo;34.1;0;85;0;599;0
+2018;Wejherowo;7.6;0;7.6;0;91;0
+2018;Szemud;29.5;0;37.7;0;157;0
+2019;Gdynia;201.8;44.2;728;189;11782;5233
+2019;Rumia;47;0;77.6;0;1028;0
+2019;Sopot;40.2;6.1;49.5;9;689;149
+2019;Żukowo;20.7;0;20.7;0;240;0
+2019;Kosakowo;34.1;0;85;0;607;0
+2019;Wejherowo;7.6;0;7.6;0;91;0
+2019;Szemud;29.5;0;32.7;0;157;0
+2020;Gdynia;204;54.6;688;202;11571;5285
+2020;Rumia;47;0;77.4;0;964;0
+2020;Sopot;34;6,1;48.4;9;635;192
+2020;Żukowo;17;0;21.7;0;247;0
+2020;Kosakowo;41.1;0;85;0;607;0
+2020;Wejherowo;7.6;0;7.6;0;75;0
+2020;Szemud;31;0;32.7;0;147;0
+2021;Gdynia;204;51.6;660;202;11438;5598
+2021;Rumia;47;0;77.4;0;945;0
+2021;Sopot;34;6.1;48.4;9;584;246
+2021;Żukowo;17;0;21.7;0;250;0
+2021;Kosakowo;41.1;0;85;0;642;0
+2021;Wejherowo;7.6;0;7.6;0;76;0
+2021;Szemud;31;0;32.7;0;149;0