Изначально я нашел данные в формате CSV — для изучения закинул их на карту, в итоге получилась
пробная визуализация о которой написали в СМИ (
Комсомольская Правда,
Газета Бумага,
Собака.ру,
Карповка,
The Village), так как тема очень важная и никто раньше не показывал ее так графически наглядно. При визуализации выяснилось, что треть точек оказались за пределами Петербурга, то есть в данных есть ошибки. Вручную эти данные править было неэффективно и бессмысленно, и я понял, что эту проблему оптимально решать программным методом (с помощью языка программирования). Взвесив плюсы и минусы, я определил, что Python лучше всего подходит для этой и любых аналогичных задач — и с помощью онлайн курсов дошел до необходимого уровня знания Python.
В дальнейшем это помогло мне не только анализировать данные, но и самостоятельно выгружать все новые данные по ДТП, поскольку в ручном режиме с сайта ГИБДД можно единовременно выгружать данные только за период 14 дней. Так я скачал массив данных за три года — 2015, 2016, 2017, который в итоге и использовал при анализе.
Также Python позволил анализировать данные по улицам, времени года, времени дня и осуществлять любые действия по устранению ошибок в данных значительно быстрее — при создании приложения, на Python будет работать back end сервиса.
Ниже показаны 4 изображения, иллюстрирующие ход работы.
Четвертое изображение - новая итерация анализа, данные за 2018 год. В 2018 году ГИБДД значительно улучшили заполнение геокоординат, а я сделал три поста с анализом этих данных, доавив также и данные по велосипедистам. В моем блоге на medium можно посмотреть
первую,
вторую и
третью часть исследования.