Вывод траектории


Вывод траектории или псевдовременное упорядочение - это вычислительная техника, используемая в транскриптомике одиночных клеток для определения модели динамического процесса, в котором участвуют клетки, а затем упорядочивания клеток на основе их прохождения через этот процесс. Одноклеточные протоколы имеют гораздо более высокий уровень шума, чем массовая РНК-seq , [1] , поэтому распространенным шагом в рабочем процессе транскриптомики одиночных клеток является кластеризация клеток в подгруппы. [2] Кластеризация может бороться с этим неотъемлемым изменением, комбинируя сигнал от многих ячеек, позволяя при этом идентифицировать типы ячеек. [3] Однако некоторые различия в экспрессии геновмежду клетками являются результатом динамических процессов, таких как клеточный цикл , дифференцировка клеток или реакция на внешние раздражители. Вывод траектории стремится охарактеризовать такие различия, размещая клетки вдоль непрерывного пути, который представляет эволюцию процесса, а не разделяя клетки на дискретные кластеры. [4] В некоторых методах это делается путем проецирования ячеек на ось, называемую псевдовременем , которая представляет продвижение в процессе. [5]

С 2015 года создано более 50 алгоритмов вывода траекторий. [6] Хотя используемые подходы разнообразны, есть некоторые общие черты в методах. Как правило, этапы алгоритма состоят из уменьшения размерности для уменьшения сложности данных, построения траектории для определения структуры динамического процесса и проецирования данных на траекторию таким образом, чтобы ячейки позиционировались в соответствии с их эволюцией в процессе и клетки со сходными профилями экспрессии располагаются рядом друг с другом. [6]Алгоритмы вывода траекторий различаются конкретной процедурой, используемой для уменьшения размерности, типами структур, которые можно использовать для представления динамического процесса, и априорной информацией, которая требуется или может быть предоставлена. [2]

Данные, полученные с помощью одноклеточной РНК-секвенции, могут состоять из тысяч клеток, каждая из которых имеет уровни экспрессии, зарегистрированные для тысяч генов. [7] Чтобы эффективно обрабатывать данные с такой высокой размерностью, многие алгоритмы вывода траектории используют в качестве первого шага процедуру уменьшения размерности, такую ​​как анализ основных компонентов (PCA), анализ независимых компонентов (ICA) или t-SNE . [8] Целью этого шага является объединение многих характеристик данных в более информативную меру данных. [4]Например, координата, полученная в результате уменьшения размерности, может объединить уровни экспрессии многих генов, связанных с клеточным циклом, в одно значение, представляющее положение клетки в клеточном цикле. [8] Такое преобразование соответствует уменьшению размерности в пространстве признаков, но уменьшение размерности также может быть применено к выборочному пространству путем группирования групп похожих ячеек. [1]

Многие методы представляют структуру динамического процесса с помощью графического подхода. При таком подходе вершины графа соответствуют состояниям в динамическом процессе, например типам клеток при дифференцировке клеток, а ребра между узлами соответствуют переходам между состояниями. [6] Создание графа траекторий может быть выполнено с использованием k ближайших соседей или алгоритмов минимального остовного дерева . [9] Топология траектории относится к структуре графа, и различные алгоритмы ограничиваются созданием топологий графа определенного типа, таких как линейная , ветвящаяся ., или циклический . [4]

Некоторые методы требуют или позволяют вводить предварительную информацию, которая используется для управления созданием траектории. Использование априорной информации может привести к более точному определению траектории, но плохие априорные данные могут ввести алгоритм в заблуждение или сместить результаты в сторону ожиданий. [6] Примерами априорной информации, которую можно использовать при выводе траектории, являются выбор начальных ячеек, находящихся в начале траектории, количество ветвей на траектории и количество конечных состояний траектории. [10]


Вывод траектории, реализованный в Slingshot для (а) смоделированного двумерного набора данных и (б) набора данных одноклеточной РНК-seq обонятельного эпителия .
PCA многомерного распределения Гаусса . Показанные векторы представляют собой первый (более длинный вектор) и второй главные компоненты, которые указывают направления максимальной дисперсии.
Граф с шестью вершинами. Многие алгоритмы вывода траектории используют графики для построения траектории.