dplyr

Один из базовых пакетов tidyverse в языке программирования R , dplyr, в первую очередь, представляет собой набор функций, предназначенных для интуитивно понятного и удобного для пользователя управления фреймами данных . Аналитики данных обычно используют dplyr для преобразования существующих наборов данных в формат, более подходящий для определенного типа анализа или визуализации данных. ^[1]^[2]

dplyr
Автор (ы) оригинала	Хэдли Уикхэм
Первый выпуск	7 января 2014 г . ; 7 лет назад ( 2014-01-07 )

Стабильный выпуск	1.0.0 / 1 июня 2020 г . ; 11 мес. Назад ( 2020-06-01 )

Написано в	р
Лицензия	GPLv2
Веб-сайт	dplyr .tidyverse .org //

Например, кто-то, желающий проанализировать огромный набор данных, может захотеть просмотреть только меньшее подмножество данных. В качестве альтернативы, пользователь может пожелать переупорядочить данные, чтобы увидеть строки, ранжированные по некоторому числовому значению или даже на основе комбинации значений из исходного набора данных.

Созданный в основном Хэдли Уикхэмом, dplyr был запущен в 2014 году. ^[3] На веб-странице dplyr пакет описан как «грамматика манипулирования данными, предоставляющая согласованный набор глаголов, которые помогут вам решить наиболее распространенные проблемы манипулирования данными. " ^[4]

Пять основных глаголов

Хотя на самом деле dplyr включает в себя несколько десятков функций, которые позволяют различные формы манипулирования данными, в пакете есть пять основных глаголов: ^[5]

filter () , который используется для извлечения строк из фрейма данных на основе условий, заданных пользователем;

select () , который используется для подмножества фрейма данных по его столбцам;

организовать () , который используется для сортировки строк в фрейме данных на основе атрибутов, содержащихся в определенных столбцах;

mutate () , который используется для создания новых переменных путем изменения и / или объединения значений из существующих столбцов; а также

summarize () , также пишется summarize () , который используется для сворачивания значений из фрейма данных в единую сводку.

Дополнительные функции

В дополнение к пяти основным глаголам, dplyr также включает несколько других функций, которые позволяют исследовать фреймы данных и управлять ими. Среди них:

count () , который используется для суммирования количества уникальных наблюдений, содержащих определенное значение или категориальный атрибут;

rename () , которая позволяет пользователю изменять имена столбцов для переменных, часто для облегчения использования и интуитивного понимания набора данных;

slice_max () , который возвращает подмножество данных, содержащее строки с наибольшим количеством значений для некоторой конкретной переменной;

slice_min () , который возвращает подмножество данных, содержащее строки с наименьшим количеством значений для некоторой конкретной переменной.

Встроенные наборы данных

Пакет dplyr поставляется с пятью наборами данных. Это: band_instruments, band_instruments2, band_members, starwars, storms.

dplyr

Пять основных глаголов

Дополнительные функции

Встроенные наборы данных

Рекомендации