Вопросы по Pandas
Для выполнения данного теста нужно скачать датасет 201809-citibike-tripdata.csv велобайка за сентябрь 2018. В датасете встречаются следующие столбцы:
● tripduration - время поездки в секундах
● starttime - время старта поездки
● stoptime - время окончания поездки
● start station name - название стартовой станции
● end station name - название конечной станции
● start station id/ end station id - идентификатор станций
● station latitiude/longitude - широта/долгота станций
● bikeid - идентификатор байка
● usertype (Customer = 24-hour pass или 3-day pass; Subscriber = годовая подписка) - тип пользователя
● gender (0 - неизвестно; 1 - мужской; 2 - женский) - пол пользователя
● birth year - год рождения пользователя
Датасет нужно загрузить в jupyter notebook или Google Colab используя read_csv и сделать следующее:
- Найти общее количество строк и столбцов в датасете указать первым число строк, вторым - число столбцов
- Найти среднюю длину поездок в минутах (столбец tripduration) c точностью до 2 знака
- Сколько поездок начались и закончились в той же самой станции?
- Какой самый используемый байк(bikeid) в городе по количеству поездок?
- Найдите идентификатор велосипеда (bikeid), у которого в среднем продолжительность поездок выше, чем у всех остальных
- Сколько строк, в которых отсутствуют данные о start station id?
- Какова средняя продолжительность поездки в минутах в зависимости от типа подписки c точностью до 2 знака?
- Найдите среднюю длину поездок в километрах с точностью до 2 знака, предварительно выкинув замкнутые траектории(те у которых совпадают start station id = end station id). Hint: можно воспользоваться библиотекой geopy и взять расстояние vincenty(минимальное расстояние между точками)
- Выберите станцию (start station id) с максимальным количеством отправлений с 18 до 20 вечера включительно
- Выберите идентификаторы станций(end station id), в которые приезжают с 6 до 10 утра включительно