Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Mascot - это программная поисковая машина, которая использует данные масс-спектрометрии для идентификации белков из баз данных пептидных последовательностей . [1] [2] Mascot широко используется исследовательскими центрами по всему миру. Mascot использует вероятностный алгоритм оценки для идентификации белков, который был адаптирован из алгоритма MOWSE . Mascot находится в свободном доступе для использования на веб-сайте Matrix Science. [3] Для внутреннего использования требуется лицензия, в которую можно включить больше функций.

История означает [ править ]

MOWSE был одним из первых алгоритмов, разработанных для идентификации белков с использованием фингерпринта пептидных масс . [4] Первоначально он был разработан в 1993 году в результате сотрудничества между Дэррилом Паппином из Имперского фонда исследования рака (ICRF) и Аланом Близби из Совета по науке и инженерным исследованиям (SERC). MOWSE отличался от других алгоритмов идентификации белков тем, что вырабатывал вероятностную оценку для идентификации. Также впервые было учтено неравномерное распределение пептида.размеры, вызванные ферментативным перевариванием белка, необходимого для масс-спектрометрического анализа. Тем не менее, MOWSE был применим только к поиску пептидных массовых отпечатков пальцев и зависел от предварительно скомпилированных баз данных, которые были негибкими в отношении посттрансляционных модификаций и ферментов, кроме трипсина. Чтобы преодолеть эти ограничения, воспользоваться преимуществами многопроцессорных систем и добавить функциональность неферментативного поиска, Дэвид Перкинс из Imperial Cancer Research Fund снова начал разработку с нуля. Первые версии были разработаны для систем Silicon Graphics Irix и Digital Unix. В конечном итоге это программное обеспечение было названо Mascot, и для того, чтобы охватить более широкую аудиторию, Дэвидом Кризи и Джоном Коттреллом была создана внешняя биоинформатическая компания под названием Matrix Science для разработки и распространения Mascot.Существуют устаревшие версии программного обеспечения для Tru64, Irix, AIX, Solaris, Microsoft Windows NT4 и Microsoft Windows 2000. Mascot доступен в качестве бесплатной услуги на веб-сайте Matrix Science с 1999 года и был процитирован в научной литературе более 5000 раз. Matrix Science все еще продолжает работать над улучшением функциональности Mascot.

Приложения [ править ]

Талисман идентифицирует белки, интерпретируя данные масс-спектрометрии. Преобладающим экспериментальным методом идентификации белков является восходящий подход, когда образец белка обычно переваривается трипсином с образованием более мелких пептидов. Хотя большинство белков слишком большие, пептиды обычно попадают в ограниченный диапазон масс, который может измерить типичный масс-спектрометр. Масс-спектрометры измеряют молекулярную массу пептидов в образце. Затем Mascot сравнивает эти молекулярные массы с базой данных известных пептидов. Программа расщепляет каждый белок в указанной поисковой базе данных in silico в соответствии с определенными правилами в зависимости от фермента расщепления.используется для переваривания и рассчитывает теоретическую массу для каждого пептида. Затем Mascot вычисляет оценку на основе вероятности того, что пептиды из образца соответствуют пептидам из выбранной базы данных белков. Чем больше пептидов Mascot идентифицирует из определенного белка, тем выше оценка Mascot для этого белка.

Особенности [ править ]

Поиск по отпечатку пальца пептида
Определяет белки из загруженного списка пиков, используя метод, известный как массовый отпечаток пептидов .
Последовательный запрос
Объединяет данные о массе пептидов с аминокислотной последовательностью и информацией о составе, обычно получаемой из данных тандемной масс-спектрометрии MS / MS . На основе подхода метки пептидной последовательности .
МС / МС ионный поиск
Определите ионы фрагментов из неинтерпретированных данных МС / МС одного или нескольких пептидов.

Программа обрабатывает данные с масс-спектрометров следующих компаний:

Важные параметры [ править ]

  • Модификации могут быть фиксированными или переменными.
    • Фиксированные модификации применяются универсально к каждому аминокислотному остатку указанного типа или к N-концу или С-концу пептида. Масса для модификации добавляется к каждому из соответствующих остатков.
    • Когда указаны вариабельные модификации, программа пытается сопоставить все различные комбинации аминокислотных остатков с модификациями и без них. Это может значительно увеличить количество сравнений и привести к снижению результатов и увеличению времени поиска.
  • Установив таксономию , поиск можно ограничить определенными видами или группами видов. Это сократит время поиска и обеспечит включение только релевантных белков.

Подсчет очков [ править ]

Верхнее изображение представляет собой пример графика оценки протеина талисмана. Нижний график показывает распределение вероятностей для сравнения. На обоих изображениях область, отмеченная зеленым цветом, выделяет 95% области функции плотности вероятности . Вероятность случайного получения оценок справа от зеленой заштрихованной области составляет менее 5%.

Фундаментальный подход Mascot к идентификации пептидов заключается в вычислении вероятности того, что наблюдаемое совпадение между экспериментальными данными и пептидными последовательностями, найденными в справочной базе данных, произошло случайно. Совпадение с наименьшей вероятностью возникновения случайности возвращается как наиболее значимое совпадение. Значимость совпадения зависит от размера запрашиваемой базы данных. Mascot использует широко используемый уровень значимости 0,05, что означает, что в одном тесте вероятность случайного наблюдения события меньше или равна 1 из 20. В этом свете оценка 10 −5 может показаться очень многообещающей. Однако, если в базе данных, в которой выполняется поиск, содержится 10 6последовательностей можно было бы ожидать несколько баллов такой величины случайно, потому что алгоритм провел 10 6 индивидуальных сравнений. Для базы данных такого размера при применении поправки Бонферрони для учета множественных сравнений порог значимости снижается до 5 * 10 -8 . [1]

В дополнение к расчетным оценкам пептидов, Mascot также оценивает показатель ложного обнаружения.(FDR) путем поиска в базе данных приманок. При выполнении поиска-приманки Mascot генерирует рандомизированную последовательность одинаковой длины для каждой последовательности в целевой базе данных. Последовательность-приманка создается так, чтобы она имела такой же средний аминокислотный состав, как и база данных-мишени. FDR оценивается как отношение совпадений ложной базы данных к совпадениям целевой базы данных. Это относится к стандартной формуле FDR = FP / (FP + TP), где FP - ложные срабатывания, а TP - истинные срабатывания. Обманчивые совпадения наверняка будут ложными идентификациями, но мы не можем различить истинные и ложные срабатывания, идентифицированные в целевой базе данных. Оценка FDR была добавлена ​​в ответ на рекомендации журналов по отчетам об идентификации белков, например, из Molecular and Cellular Proteomics. [5]Расчет FDR Mascot основан на идеях из разных публикаций. [6] [7]

Альтернативы [ править ]

Наиболее распространенные альтернативные программы поиска по базе данных перечислены в статье о программном обеспечении для масс-спектрометрии . Работоспособность разнообразного программного обеспечения для масс-спектрометрии, включая Mascot, можно наблюдать в исследовании iPRG 2011 года . Сканирование пептидных отпечатков пальцев на основе генома - это еще один метод, который сравнивает пептидные отпечатки пальцев со всем геномом, а не только с аннотированными генами.

Ссылки [ править ]

  1. ^ a b Perkins DN, Pappin DJ, Creasy DM, Cottrell JS (декабрь 1999 г.). «Идентификация белков на основе вероятности путем поиска в базах данных последовательностей с использованием данных масс-спектрометрии». Электрофорез . 20 (18): 3551–67. DOI : 10.1002 / (SICI) 1522-2683 (19991201) 20:18 <3551 :: AID-ELPS3551> 3.0.CO; 2-2 . PMID  10612281 .
  2. ^ Koenig T, Menze BH, Kirchner M и др. (Сентябрь 2008 г.). «Надежное предсказание оценки MASCOT для улучшенной оценки качества в масс-спектрометрической протеомике». J. Proteome Res . 7 (9): 3708–17. DOI : 10.1021 / pr700859x . PMID 18707158 . 
  3. ^ Программное обеспечение Mascot , Matrix Science.
  4. ^ Pappin DJ, Hojrup P, Bleasby AJ (июнь 1993). «Быстрая идентификация белков путем снятия отпечатков пальцев по массе пептидов». Curr. Биол . 3 (6): 327–32. DOI : 10.1016 / 0960-9822 (93) 90195-Т . PMID 15335725 . S2CID 40203243 .  
  5. Брэдшоу, РА (31 января 2006 г.). «Сообщение данных идентификации белков: новое поколение рекомендаций» . Молекулярная и клеточная протеомика . 5 (5): 787–788. DOI : 10.1074 / mcp.E600005-MCP200 . PMID 16670253 . 
  6. Элиас, Джошуа Э; Хаас, Вильгельм; Фаэрти, Брендан К.; Гайги, Стивен П. (1 сентября 2005 г.). «Сравнительная оценка масс-спектрометрических платформ, используемых в крупномасштабных протеомных исследованиях». Природные методы . 2 (9): 667–675. DOI : 10.1038 / nmeth785 . PMID 16118637 . S2CID 16632066 .  
  7. ^ Ван, Гуанхуэй; Wu, Wells W .; Чжан, Чжэн; Масиламани, Шьяма; Шен, Ронг-Фонг (1 января 2009 г.). «Методы приманки для оценки ложных срабатываний и ложных открытий в протеомике дробовика» . Аналитическая химия . 81 (1): 146–159. DOI : 10.1021 / ac801664q . PMC 2653784 . PMID 19061407 .