Один из базовых пакетов tidyverse в языке программирования R , dplyr, в первую очередь, представляет собой набор функций, предназначенных для интуитивно понятного и удобного для пользователя управления фреймами данных . Аналитики данных обычно используют dplyr для преобразования существующих наборов данных в формат, более подходящий для определенного типа анализа или визуализации данных. [1] [2]
Автор (ы) оригинала | Хэдли Уикхэм |
---|---|
Первый выпуск | 7 января 2014 г . |
Стабильный выпуск | 1.0.0 / 1 июня 2020 г . |
Написано в | р |
Лицензия | GPLv2 |
Веб-сайт | dplyr |
Например, кто-то, желающий проанализировать огромный набор данных, может захотеть просмотреть только меньшее подмножество данных. В качестве альтернативы, пользователь может пожелать переупорядочить данные, чтобы увидеть строки, ранжированные по некоторому числовому значению или даже на основе комбинации значений из исходного набора данных.
Созданный в основном Хэдли Уикхэмом, dplyr был запущен в 2014 году. [3] На веб-странице dplyr пакет описан как «грамматика манипулирования данными, предоставляющая согласованный набор глаголов, которые помогут вам решить наиболее распространенные проблемы манипулирования данными. " [4]
Пять основных глаголов
Хотя на самом деле dplyr включает в себя несколько десятков функций, которые позволяют различные формы манипулирования данными, в пакете есть пять основных глаголов: [5]
filter () , который используется для извлечения строк из фрейма данных на основе условий, заданных пользователем;
select () , который используется для подмножества фрейма данных по его столбцам;
организовать () , который используется для сортировки строк в фрейме данных на основе атрибутов, содержащихся в определенных столбцах;
mutate () , который используется для создания новых переменных путем изменения и / или объединения значений из существующих столбцов; а также
summarize () , также пишется summarize () , который используется для сворачивания значений из фрейма данных в единую сводку.
Дополнительные функции
В дополнение к пяти основным глаголам, dplyr также включает несколько других функций, которые позволяют исследовать фреймы данных и управлять ими. Среди них:
count () , который используется для суммирования количества уникальных наблюдений, содержащих определенное значение или категориальный атрибут;
rename () , которая позволяет пользователю изменять имена столбцов для переменных, часто для облегчения использования и интуитивного понимания набора данных;
slice_max () , который возвращает подмножество данных, содержащее строки с наибольшим количеством значений для некоторой конкретной переменной;
slice_min () , который возвращает подмножество данных, содержащее строки с наименьшим количеством значений для некоторой конкретной переменной.
Встроенные наборы данных
Пакет dplyr поставляется с пятью наборами данных. Это: band_instruments, band_instruments2, band_members, starwars, storms.
Рекомендации
- ^ Ядав, Рохит (2019-10-29). "Панды Python против Tidyverse R: кто выходит на первое место?" . Журнал Analytics India . Проверено 6 февраля 2021 .
- ^ Криль, Пол (30.06.2015). «Почему R? Плюсы и минусы языка R» . InfoWorld . Проверено 6 февраля 2021 .
- ^ «Представляем dplyr» . blog.rstudio.com . Проверено 2 сентября 2020 .
- ^ «Справочник по функциям» . dplyr.tidyverse.org . Проверено 6 февраля 2021 .
- ^ Гролемунд, Гарретт; Уикхэм, Хэдли. 5 Преобразование данных | R для науки о данных .