Уоррен Гиш

Уоррен Ричард Гиш
Национальность	Американец
Альма-матер	Калифорнийский университет в Беркли
Известен	ВЗРЫВ
Научная карьера
Поля	Биоинформатика
Учреждения	Национальный центр биотехнологической информации Вашингтонский университет в Сент-Луисе Advanced Biocomputing LLC Калифорнийский университет, Беркли
Тезис	I. Мутанты SV40, выделенные из трансформированных клеток человека. II. Методы анализа последовательностей (1988)
Докторант	Майкл Ботчан ^[1]

Уоррен Ричард Гиш - владелец Advanced Biocomputing LLC. Он присоединился к Вашингтонскому университету в Сент-Луисе в качестве младшего преподавателя в 1994 году и был доцентом-исследователем генетики с 2002 по 2007 год. ^[2]^[3]

Образование [ править ]

После первоначального изучения физики, Gish получил AB степень в области биохимии из Калифорнийского университета, Беркли , и завершил работу по его Ph.D. степень в области молекулярной биологии в том же учреждении в 1988 году. ^[1]

Исследование [ править ]

Гиш прежде всего известен своим вкладом в NCBI BLAST , ^[4]^[5] его созданием BLAST Network Service и nr (неизбыточных) баз данных, его выпуском 1996 года оригинального BLAST с пробелами ( WU-BLAST 2.0 ) и большинством недавно его разработка и поддержка AB-BLAST . В Вашингтонском университете в Сент-Луисе Гиш также возглавлял группу анализа генома, которая аннотировала все готовые данные о геноме человека, мыши и крысы, полученные Центром секвенирования генома Университета с 1995 по 2002 год.

Будучи аспирантом, Гиш применил алгоритм Куайна-Маккласки для анализа последовательностей распознавания сайтов сплайсинга. В 1985 году с целью к быстрой идентификации ферментов рестрикции сайтов узнавания в ДНК, Gish разработала DFA библиотеку функций в языке Си . Идея применить конечный автомат к этой проблеме была предложена другим аспирантом и разработчиком BSD UNIX Майком Карелсом . Реализация DFA Гиша представляла собой архитектуру машины Мили , которая более компактна, чем эквивалентная машина Мура, и, следовательно, быстрее. Построение DFA было O ( n), где n - сумма длин последовательностей запросов. Затем DFA можно использовать для сканирования последовательностей субъектов за один проход без возврата в обратном направлении за время O ( m ), где m - общая длина объекта (ов). Позже было признано, что метод построения DFA представляет собой объединение двух алгоритмов, алгоритмов 3 и 4, описанных Альфредом В. Ахо и Маргарет Дж. Корасик . ^[6]

Работая в Калифорнийском университете в Беркли в декабре 1986 года, Gish ускорило FASTP программы ^[7] (позже известный как FASTA ^[8] ) из Уильяма Р. Пирсон и Дэвид Дж Липманав 2–3 раза без изменения результатов. Когда изменения производительности были переданы Пирсону и Липману, Гиш далее предположил, что DFA (а не таблица поиска) обеспечит более быструю идентификацию k-кортежей и повысит общую скорость программы, возможно, на 10% в некоторых случаях; однако такое незначительное улучшение даже в лучшем случае было сочтено авторами не стоящим дополнительной сложности кода. Гиш также предполагал в то время централизованную службу поиска, в которой все нуклеотидные последовательности из GenBank будут храниться в памяти для устранения узких мест ввода-вывода - и храниться в сжатом виде для экономии памяти - с клиентами, вызывающими поиск по FASTN удаленно через Интернет.

Самый ранний вклад Гиша в BLAST был сделан во время работы в NCBI , начиная с июля 1989 года. Даже в ранних прототипах BLAST обычно был намного быстрее, чем FASTA . Гиш осознал потенциальные дополнительные преимущества в этом приложении использования DFA для распознавания совпадений слов. Он преобразовал свой предыдущий код DFA в гибкую форму, которую включил во все режимы поиска BLAST . Другие его вклады в BLASTвключают: использование сжатых нуклеотидных последовательностей как в качестве эффективного формата хранения, так и в качестве формата быстрого нативного поиска; параллельная обработка; ввод-вывод с отображением памяти; использование контрольных байтов и контрольных слов в начале и конце последовательностей для повышения скорости расширения совпадения слов; оригинальные реализации BLASTX , ^[9] TBLASTN ^[4] и TBLASTX (не опубликовано); прозрачное использование внешних (подключаемых) программ, таких как seg , xnu и dust, для маскировки областей низкой сложности в последовательностях запросов во время выполнения; служба электронной почты NCBI BLAST с возможностью обмена данными с шифрованием с открытым ключом; экспериментальная сетевая служба BLAST NCBI; NCBI без резервирования (nr ) базы данных белков и нуклеотидных последовательностей, обычно обновляемые ежедневно со всеми данными из GenBank , Swiss-Prot и PIR . Гиш разработал первый BLAST API , который использовался в аннотациях EST ^[10] и производстве данных Entrez , а также в пакете приложений NCBI BLAST версии 1.4 (Gish, неопубликовано). Гиш также был создателем и руководителем проекта по раннему NCBI Dispatcher для распределенных сервисов (вдохновленного CORBA «S Request Object Broker). Экспериментальная сетевая служба BLAST NCBI, впервые открытая для внешних пользователей в декабре 1989 года, с использованием новейшего программного обеспечения BLAST на оборудовании SMP и последних выпусков основных баз данных последовательностей, быстро сделала NCBI удобным универсальным магазином для поиска сходства последовательностей. .

В Вашингтонском университете в Сент-Луисе Гиш произвел революцию в поиске сходства, разработав первый набор программ BLAST, сочетающий быстрое выравнивание последовательностей с пробелами и методы статистической оценки, подходящие для оценок выравнивания с пробелами. Полученные в результате программы поиска были значительно более чувствительными, но лишь ненамного медленнее, чем BLAST без пропусков , из-за нового применения оценки спада X BLAST во время расширения выравнивания с пропусками. Чувствительность BLAST с пробелами была дополнительно улучшена за счет нового применения статистики Karlin-Altschul Sum ^[11] для оценки множественных оценок выравнивания с пробелами во всех BLAST.режимы поиска. Суммарная статистика изначально была разработана аналитически для оценки множественных оценок согласования без пропусков. Эмпирическое использование статистики Sum для обработки баллов выравнивания с пробелами было подтверждено в сотрудничестве со Стивеном Альтшулом в 1994–1995 годах. В мае 1996 года была публично выпущена версия 2.0 WU-BLAST с выравниванием с пропусками в виде прямого обновления для существующих пользователей NCBI BLAST и WU-BLAST без пропусков (обе версии 1.4 после разветвления в 1994 году). На его разработку WU-BLAST было получено небольшое финансирование от NIH, в среднем 20% FTE, начиная с ноября 1995 года и заканчивая вскоре после выпуска в сентябре 1997 года NCBI с пробелом BLAST.(«Взрыв»). В качестве опции для WU-BLAST Гиш реализовал более быстрый, более эффективный с точки зрения памяти и более чувствительный алгоритм BLAST с двумя ударами , чем тот, который использовался программным обеспечением NCBI в течение многих лет. В 1999 году Гиш добавил в WU-BLAST поддержку расширенного формата базы данных (XDF), первого формата базы данных BLAST , способного точно представить полную черновую последовательность человеческого генома в полноразмерных объектах последовательности хромосом. Это также был первый раз, когда какой-либо пакет BLAST представил новый формат базы данных прозрачно для существующих пользователей, не отказываясь от поддержки предыдущих форматов, в результате абстрагирования функций ввода-вывода базы данных от функций анализа данных. WU-BLAST с XDF был первым BLASTнабор для поддержки индексированного поиска идентификаторов последовательностей в стандартном формате FASTA NCBI (включая весь диапазон идентификаторов NCBI); первый, позволяющий извлекать отдельные последовательности, частично или полностью, в исходном виде, транслировать или обратно дополнять; и первая способна сбрасывать все содержимое базы данных BLAST обратно в удобочитаемый формат FASTA . В 2000 году была добавлена уникальная поддержка отчетов о связях (согласованные наборы HSP; также называемые цепями в некоторых более поздних программных пакетах), а также возможность для пользователей ограничивать расстояние между HSP, разрешенное в одном наборе, до биологически релевантной длины ( например,длина ожидаемого самого длинного интрона в интересующем виде) и с учетом ограничения расстояния при вычислении E- значений . В период с 2001 по 2003 год Гиш улучшил скорость кода DFA, используемого в WU-BLAST. Гиш также предложил мультиплексировать последовательности запросов для ускорения поиска BLAST на порядок или больше (MPBLAST); реализованы сегментированные последовательности с внутренними контрольными байтами, частично для облегчения мультиплексирования с MPBLAST и частично для облегчения анализа сегментированных последовательностей запросов из сборок секвенирования дробовика; и направленное использование WU-BLAST в качестве быстрой и гибкой поисковой машины для точной идентификации и маскировки геномных последовательностей для повторяющихся элементов и последовательностей низкой сложности (MaskerAid ^[12]пакет для RepeatMasker). Вместе с докторантом Мяо Чжаном Гиш руководил разработкой EXALIN ^[13], которая значительно повысила точность прогнозов сплайсингового выравнивания за счет нового подхода, объединяющего информацию из моделей донорных и акцепторных сайтов сплайсинга с информацией о сохранении последовательностей. Хотя EXALIN по умолчанию выполняет полное динамическое программирование , он может дополнительно использовать выходные данные WU-BLAST для инициализации динамического программирования и ускорения процесса примерно в 100 раз с небольшой потерей чувствительности или точности.

В 2008 году Гиш основал Advanced Biocomputing, LLC, где он продолжает улучшать и поддерживать пакет AB-BLAST. ^{[ необходима цитата ]}

Ссылки [ править ]

^ a b Гиш, Уоррен Ричард (1988). I. Мутанты SV40, выделенные из трансформированных клеток человека. II. Методы анализа последовательностей (кандидатская диссертация). Калифорнийский университет в Беркли. ProQuest 303669506 .
^ Список публикаций из Microsoft Academic
^ Уоррен Гиш насервере библиографии DBLP
^ a b Altschul, S .; Gish, W .; Миллер, В .; Майерс, Э .; Липман, Д. (1990). «Базовый инструмент поиска местного выравнивания». Журнал молекулярной биологии . 215 (3): 403–410. DOI : 10.1016 / S0022-2836 (05) 80360-2 . PMID 2231712 .
^ Толку от последовательностей: Stephen F. Altschul на улучшение BLAST
^ Ахо, Альфред В .; Корасик, Маргарет Дж. (Июнь 1975 г.). «Эффективное сопоставление строк: помощь в библиографическом поиске». Коммуникации ACM . 18 (6): 333–340. DOI : 10.1145 / 360825.360855 . S2CID 207735784 .
^ Липман, DJ; Пирсон, WR (1985). «Быстрые и чувствительные поиски сходства белков». Наука . 227 (4693): 1435–41. Bibcode : 1985Sci ... 227.1435L . DOI : 10.1126 / science.2983426 . PMID 2983426 .
^ Пирсон, WR; Липман, DJ (1988). «Улучшенные инструменты для сравнения биологических последовательностей» . Труды Национальной академии наук Соединенных Штатов Америки . 85 (8): 2444–2448. Bibcode : 1988PNAS ... 85.2444P . DOI : 10.1073 / pnas.85.8.2444 . PMC 280013 . PMID 3162770 .
^ Gish, W .; Штаты, DJ (1993). «Идентификация кодирующих областей белка путем поиска сходства в базе данных». Генетика природы . 3 (3): 266–272. DOI : 10,1038 / NG0393-266 . PMID 8485583 . S2CID 15295142 .
^ Boguski, MS; Лоу, TM; Толстошев CM (1993). «dbEST - база данных для« тегов выраженной последовательности » » . Генетика природы . 4 (4): 332–333. DOI : 10.1038 / ng0893-332 . PMID 8401577 . S2CID 40138950 .
^ Карлин, С .; Альтшул, С.Ф. (1993). «Приложения и статистика для нескольких сегментов с высокими показателями в молекулярных последовательностях» . Труды Национальной академии наук Соединенных Штатов Америки . 90 (12): 5873–5877. Bibcode : 1993PNAS ... 90.5873K . DOI : 10.1073 / pnas.90.12.5873 . PMC 46825 . PMID 8390686 .
^ Bedell, JA; Корф, I .; Гиш, В. (2000). «MaskerAid: повышение производительности RepeatMasker» . Биоинформатика . 16 (11): 1040–1041. DOI : 10.1093 / биоинформатики / 16.11.1040 . PMID 11159316 .
^ Чжан, М .; Гиш, В. (2005). «Улучшенное совмещение сращиваний на основе теоретико-информационного подхода» . Биоинформатика . 22 (1): 13–20. DOI : 10.1093 / биоинформатики / bti748 . PMID 16267086 .

Внешние ссылки [ править ]

[gishphd-1] Гиш, Уоррен Ричард (1988). I. Мутанты SV40, выделенные из трансформированных клеток человека. II. Методы анализа последовательностей (кандидатская диссертация). Калифорнийский университет в Беркли. ProQuest 303669506 .

[microsoft-2] Список публикаций из Microsoft Academic

[dblp-3] Уоррен Гиш насервере библиографии DBLP

[Altschul1990-4] Altschul, S .; Gish, W .; Миллер, В .; Майерс, Э .; Липман, Д. (1990). «Базовый инструмент поиска местного выравнивания». Журнал молекулярной биологии . 215 (3): 403–410. DOI : 10.1016 / S0022-2836 (05) 80360-2 . PMID 2231712 .

[5] Толку от последовательностей: Stephen F. Altschul на улучшение BLAST

[6] Ахо, Альфред В .; Корасик, Маргарет Дж. (Июнь 1975 г.). «Эффективное сопоставление строк: помощь в библиографическом поиске». Коммуникации ACM . 18 (6): 333–340. DOI : 10.1145 / 360825.360855 . S2CID 207735784 .

[7] Липман, DJ; Пирсон, WR (1985). «Быстрые и чувствительные поиски сходства белков». Наука . 227 (4693): 1435–41. Bibcode : 1985Sci ... 227.1435L . DOI : 10.1126 / science.2983426 . PMID 2983426 .

[8] Пирсон, WR; Липман, DJ (1988). «Улучшенные инструменты для сравнения биологических последовательностей» . Труды Национальной академии наук Соединенных Штатов Америки . 85 (8): 2444–2448. Bibcode : 1988PNAS ... 85.2444P . DOI : 10.1073 / pnas.85.8.2444 . PMC 280013 . PMID 3162770 .

[9] Gish, W .; Штаты, DJ (1993). «Идентификация кодирующих областей белка путем поиска сходства в базе данных». Генетика природы . 3 (3): 266–272. DOI : 10,1038 / NG0393-266 . PMID 8485583 . S2CID 15295142 .

[10] Boguski, MS; Лоу, TM; Толстошев CM (1993). «dbEST - база данных для« тегов выраженной последовательности » » . Генетика природы . 4 (4): 332–333. DOI : 10.1038 / ng0893-332 . PMID 8401577 . S2CID 40138950 .

[11] Карлин, С .; Альтшул, С.Ф. (1993). «Приложения и статистика для нескольких сегментов с высокими показателями в молекулярных последовательностях» . Труды Национальной академии наук Соединенных Штатов Америки . 90 (12): 5873–5877. Bibcode : 1993PNAS ... 90.5873K . DOI : 10.1073 / pnas.90.12.5873 . PMC 46825 . PMID 8390686 .

[12] Bedell, JA; Корф, I .; Гиш, В. (2000). «MaskerAid: повышение производительности RepeatMasker» . Биоинформатика . 16 (11): 1040–1041. DOI : 10.1093 / биоинформатики / 16.11.1040 . PMID 11159316 .

[13] Чжан, М .; Гиш, В. (2005). «Улучшенное совмещение сращиваний на основе теоретико-информационного подхода» . Биоинформатика . 22 (1): 13–20. DOI : 10.1093 / биоинформатики / bti748 . PMID 16267086 .

[1]