Вопросы по Pandas

Открыто с: Среда, 22 февраля 2023, 00:00
Срок сдачи: Среда, 1 марта 2023, 00:00

Для выполнения данного теста нужно скачать датасет 201809-citibike-tripdata.csv велобайка за сентябрь 2018. В датасете встречаются следующие столбцы:

●     tripduration - время поездки в секундах

●     starttime - время старта поездки

●     stoptime - время окончания поездки

●     start station name - название стартовой станции

●     end station name - название конечной станции

●     start station id/ end station id - идентификатор станций

●     station latitiude/longitude - широта/долгота станций

●     bikeid - идентификатор байка

●     usertype (Customer = 24-hour pass или 3-day pass; Subscriber = годовая подписка) - тип пользователя

●     gender (0 - неизвестно; 1 - мужской; 2 - женский) - пол пользователя

●     birth year - год рождения пользователя

Датасет нужно загрузить в jupyter notebook или Google Colab используя read_csv и сделать следующее:

  1. Найти общее количество строк и столбцов в датасете указать первым число строк, вторым - число столбцов
  2. Найти среднюю длину поездок в минутах (столбец tripduration) c точностью до 2 знака
  3. Сколько поездок начались и закончились в той же самой станции?
  4. Какой самый используемый байк(bikeid) в городе по количеству поездок? 
  5. Найдите идентификатор велосипеда (bikeid), у которого в среднем продолжительность поездок выше, чем у всех остальных
  6. Сколько строк, в которых отсутствуют данные о start station id?
  7. Какова средняя продолжительность поездки в минутах в зависимости от типа подписки c точностью до 2 знака?
  8. Найдите среднюю длину поездок в километрах с точностью до 2 знака, предварительно выкинув замкнутые траектории(те у которых совпадают start station id = end station id). Hint: можно воспользоваться библиотекой geopy и взять расстояние vincenty(минимальное расстояние между точками)
  9. Выберите станцию (start station id) с максимальным количеством отправлений с 18 до 20 вечера включительно
  10. Выберите идентификаторы станций(end station id), в которые приезжают с 6 до 10 утра включительно