Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Биостатистика - это разработка и применение статистических методов к широкому кругу вопросов биологии . Он включает в себя планирование биологических экспериментов , сбор и анализ данных этих экспериментов и интерпретацию результатов.

История [ править ]

Биостатистика и генетика [ править ]

Биостатистическое моделирование составляет важную часть многих современных биологических теорий. С самого начала генетические исследования использовали статистические концепции для понимания наблюдаемых экспериментальных результатов. Некоторые ученые-генетики даже внесли свой вклад в развитие статистики, разработав методы и инструменты. Грегор Мендель начал генетические исследования, исследуя закономерности генетической сегрегации в семьях гороха, и использовал статистику для объяснения собранных данных. В начале 1900-х годов, после переоткрытия работ Менделя по менделевскому наследованию, между генетикой и эволюционным дарвинизмом возникли пробелы в понимании. Фрэнсис Гальтонпопытался дополнить открытия Менделя человеческими данными и предложил другую модель, в которой доли наследственности, исходящие от каждого предка, составляли бесконечный ряд. Он назвал это теорией « Закона о наследственности ». С его идеями категорически не согласился Уильям Бейтсон , который следовал выводам Менделя о том, что генетическая наследственность передается исключительно от родителей, половина от каждого из них. Это привело к ожесточенным дебатам между специалистами по биометрии, которые поддерживали идеи Гальтона, такими как Уолтер Уэлдон , Артур Дукинфилд Дарбишир и Карл Пирсон , и менделевцами, которые поддерживали идеи Бейтсона (и Менделя), такими как Чарльз Давенпорт и Вильгельм Йохансен.. Позже биометристы не могли воспроизвести выводы Гальтона в различных экспериментах, и идеи Менделя преобладали. К 1930-м годам модели, построенные на статистических рассуждениях, помогли разрешить эти различия и произвести современный неодарвиновский эволюционный синтез.

Разрешение этих различий также позволило определить концепцию популяционной генетики и объединило генетику и эволюцию. Три ведущих деятеля в становлении популяционной генетики и этого синтеза опирались на статистику и развили ее использование в биологии.

  • Рональд Фишер разработал несколько основных статистических методов в поддержку своей работы по изучению экспериментов с культурами в Rothamsted Research , в том числе в своих книгах « Статистические методы для научных работников» (1925) и «Генетическая теория естественного отбора» (1930). Он внес большой вклад в генетику и статистику. Некоторые из них включают в себя ANOVA , р-значение понятия, точный критерий Фишера и уравнение Фишера для динамики популяций . Ему приписывают предложение «Естественный отбор - это механизм для создания чрезвычайно высокой степени невероятности». [1]
  • Сьюолл Г. Райт разработал F-статистику и методы ее вычисления, а также определил коэффициент инбридинга .
  • Книга Дж. Б.С. Холдейна « Причины эволюции» восстановила естественный отбор как главный механизм эволюции, объяснив его математическими последствиями менделевской генетики. Также разработал теорию первозданного супа .

Эти и другие биостатисты, математики-биологи и склонные к статистике генетики помогли объединить эволюционную биологию и генетику в единое, связное целое, которое можно было бы начать количественно моделировать.

Параллельно с этим общим развитием новаторская работа Д'Арси Томпсона в книге «О росте и форме» также помогла добавить количественную дисциплину в биологические исследования.

Несмотря на фундаментальную важность и частую необходимость статистических рассуждений, тем не менее, среди биологов могла быть тенденция не доверять или недооценивать результаты, которые не являются качественно очевидными. В одном анекдоте описывается, как Томас Хант Морган запретил калькулятор Фридена в своем отделе в Калифорнийском технологическом институте , сказав: «Ну, я похож на парня, который в 1849 году искал золото на берегу реки Сакраменто. Обладая небольшим интеллектом, я могу дотянуться вниз и собирать большие самородки золота. И пока я могу это делать, я не позволю никому в моем отделе тратить скудные ресурсы на добычу россыпи ». [2]

Планирование исследований [ править ]

Предлагается любое исследование в области наук о жизни, чтобы ответить на наш научный вопрос . Чтобы ответить на этот вопрос с высокой уверенностью, нам нужны точные результаты. Правильное определение основной гипотезы и плана исследования уменьшит количество ошибок при принятии решения о понимании явления. План исследования может включать в себя вопрос исследования, гипотезу, которая должна быть проверена, план эксперимента , методы сбора данных, перспективы анализа данных и возникшие затраты. Важно проводить исследование, основанное на трех основных принципах экспериментальной статистики: рандомизация , репликация., и местное управление.

Вопрос исследования [ править ]

Вопрос исследования будет определять цель исследования. Исследование будет возглавляться вопросом, поэтому оно должно быть кратким и в то же время сосредоточенным на интересных и новых темах, которые могут улучшить науку и знания в этой области. Чтобы определить способ постановки научного вопроса , может потребоваться исчерпывающий обзор литературы . Таким образом, исследование может быть полезным для научного сообщества . [3]

Определение гипотезы [ править ]

Как только цель исследования определена, можно предложить возможные ответы на вопрос исследования, превратив этот вопрос в гипотезу . Основное предложение называется нулевой гипотезой (H 0 ) и обычно основывается на постоянном знании темы или очевидном возникновении феномена, подтвержденном глубоким обзором литературы. Можно сказать, что это стандартный ожидаемый ответ для данных в тестовой ситуации . В общем, H O не предполагает никакой связи между лечением . С другой стороны, альтернативной гипотезой является отрицание H O. Предполагается некоторая степень связи между лечением и результатом. Тем не менее, эта гипотеза подтверждается исследованием вопросов и ожидаемыми и неожиданными ответами. [3]

В качестве примера рассмотрим группы похожих животных (например, мышей) с двумя разными системами питания. Вопрос исследования: какая диета самая лучшая? В этом случае H 0 будет означать, что нет разницы между двумя диетами в метаболизме мышей (H 0 : μ 1 = μ 2 ), и альтернативная гипотеза будет заключаться в том, что диеты по-разному влияют на метаболизм животных (H 1 : μ 1 ≠ μ 2 ).

Гипотеза определяется исследователем, в соответствии с его / ее интересы в ответе на главный вопрос. Кроме того, альтернативной гипотезой может быть несколько гипотез. Он может предполагать не только различия наблюдаемых параметров, но и степень их различий ( т.е. большую или меньшую).

Выборка [ править ]

Обычно цель исследования - понять влияние явления на население . В биологии , население определяются как все лица , у данного вида , в определенной области в данный момент времени. В биостатистике это понятие распространяется на множество возможных для изучения коллекций. Хотя, в биостатистике, население является не только физические лица , но в общей сложности один конкретный компонент их организмов , как весь геном , или все сперматозоиды клеток , для животных, или общей площади листа, для установки, например , .

Невозможно принять меры по всем элементам населения . По этой причине процесс выборки очень важен для статистических выводов . Выборка определяется как случайное получение репрезентативной части всей совокупности, чтобы сделать апостериорные выводы о совокупности. Таким образом, выборка может уловить наибольшую изменчивость в популяции. [4] Размер выборки определяется несколькими факторами, начиная с объема исследования и заканчивая доступными ресурсами. В клинических исследованиях такой тип исследования, как неполноценность , эквивалентность, а превосходство - ключ к определению размера выборки . [3]

Экспериментальный дизайн [ править ]

Планы экспериментов поддерживают эти основные принципы экспериментальной статистики . Есть три основные экспериментальные проекты в случайном порядке выделить лечения во всех участках в эксперименте . Это полностью рандомизированный дизайн , рандомизированный блочный дизайн и факторный план . Внутри эксперимента лечение можно организовать разными способами. В сельском хозяйстве правильный экспериментальный план является основой хорошего исследования, и организация обработок в рамках исследования имеет важное значение, поскольку окружающая среда в значительной степени влияет на участки.( растения , домашний скот , микроорганизмы ). Эти основные устройства можно найти в литературе под названиями « решетки », «неполные блоки», « разделенный участок », «расширенные блоки» и многие другие. Все планы могут включать контрольные графики , определенные исследователем, чтобы обеспечить оценку ошибки во время вывода .

В клинических исследованиях , то образцы , как правило , меньше , чем в других биологических исследованиях, а также в большинстве случаев, среда эффект можно контролировать или измерить. Обычно используются рандомизированные контролируемые клинические испытания , в которых результаты обычно сравнивают с проектами обсервационных исследований, такими как случай – контроль или когортные исследования . [5]

Сбор данных [ править ]

При планировании исследования необходимо учитывать методы сбора данных, поскольку они сильно влияют на размер выборки и дизайн эксперимента.

Сбор данных зависит от типа данных. Для качественных данных сбор может производиться с помощью структурированных вопросников или путем наблюдения с учетом наличия или интенсивности заболевания, с использованием критерия оценки для категоризации уровней возникновения. [6] Для получения количественных данных , сбор осуществляется путем измерения числовой информации с помощью инструментов.

В исследованиях сельского хозяйства и биологии данные об урожайности и ее составляющих можно получить с помощью метрических мер . Тем не менее, повреждения растений вредителями и болезнями получают путем наблюдения с учетом шкал для уровней повреждений. В частности, в генетических исследованиях современные методы сбора данных в полевых и лабораторных условиях следует рассматривать как высокопроизводительные платформы для фенотипирования и генотипирования. Эти инструменты позволяют проводить более масштабные эксперименты, в то же время делая возможным оценку многих графиков за меньшее время, чем метод сбора данных, основанный только на человеке. Наконец, все собранные данные должны храниться в организованном фрейме данных для дальнейшего анализа.

Анализ и интерпретация данных [ править ]

Описательные инструменты [ править ]

Данные могут быть представлены в виде таблиц или графического представления, такого как линейные диаграммы, гистограммы, гистограммы, точечная диаграмма. Кроме того, измерения центральной тенденции и изменчивости могут быть очень полезны для описания обзора данных. Следуйте некоторым примерам:

  • Таблицы частот

Одним из типов таблиц является таблица частотности , которая состоит из данных, упорядоченных по строкам и столбцам, где частота - это количество появлений или повторений данных. Частота может быть: [7]

Абсолютный : представляет количество раз, когда появляется определенное значение;

Относительная : получается делением абсолютной частоты на общее число;

В следующем примере у нас есть количество генов в десяти оперонах одного и того же организма.

  • Линейный график
Рисунок A: Пример линейного графика . Уровень рождаемости в Бразилии (2010–2016 гг.); [8] Рисунок B: Пример гистограммы. Уровень рождаемости в Бразилии за декабрьские месяцы с 2010 по 2016 год; Рисунок C: Пример прямоугольной диаграммы : количество глицинов в протеоме восьми различных организмов (AH); Рисунок D: Пример диаграммы рассеяния.

Линейные графики представляют изменение значения по сравнению с другим показателем, например, временем. Как правило, значения представлены на вертикальной оси, а изменение во времени - на горизонтальной оси. [9]

  • Гистограмма

Столбчатая диаграмма представляет собой график , который показывает Категориальные данные в виде стержней , представляющих высоты (вертикальная черта) или ширины (горизонтальная полоса) , пропорциональных представляют собой значение. Гистограммы представляют собой изображение, которое также может быть представлено в табличном формате. [9]

В примере гистограммы у нас есть коэффициент рождаемости в Бразилии за декабрьские месяцы с 2010 по 2016 год. [8] Резкое падение в декабре 2016 года отражает вспышку вируса Зика в уровне рождаемости в Бразилии .

  • Гистограммы
Пример гистограммы.

Гистограммы (или распределение частот) представляет собой графическое представление набора данных табличных и разделенных на одинаковые или неравномерные классы. Впервые его представил Карл Пирсон . [10]

  • Точечная диаграмма

График рассеяния представляет собой математическую схему , которая использует декартовы координаты для отображения значений набора данных. Диаграмма разброса показывает данные в виде набора точек, каждая из которых представляет значение одной переменной, определяющей положение на горизонтальной оси, и другой переменной на вертикальной оси. [11] Их также называют Разброс график , точечная диаграмма , Скатерограмма или диаграмму разброса . [12]

  • Иметь в виду

Среднее арифметическое представляет собой сумму из набора значений ( ) , деленному на количество элементов этой коллекции ( ).

  • Медиана

Медиана это значение в середине набора данных.

  • Режим

Режим является значение набора данных , который появляется чаще всего. [13]

  • Коробчатая диаграмма

Коробчатая диаграмма - это метод графического изображения групп числовых данных. Максимальные и минимальные значения представлены линиями, а межквартильный диапазон (IQR) составляет 25–75% данных. Выбросы могут быть изображены в виде кружков.

  • Коэффициенты корреляции

Хотя корреляции между двумя разными типами данных можно вывести с помощью графиков, таких как диаграмма рассеяния, необходимо подтвердить это с помощью числовой информации. По этой причине требуются коэффициенты корреляции. Они предоставляют числовое значение, которое отражает силу ассоциации. [9]

  • Коэффициент корреляции Пирсона
Диаграмма рассеяния, демонстрирующая корреляцию Пирсона для разных значений ρ.

Коэффициент корреляции Пирсона - это мера связи между двумя переменными, X и Y. Этот коэффициент, обычно представленный ρ (rho) для генеральной совокупности и r для выборки, принимает значения от -1 до 1, где ρ = 1 представляет идеальное положительная корреляция, ρ = -1 представляет собой идеальную отрицательную корреляцию, а ρ = 0 не является линейной корреляцией. [9]

Выводная статистика [ править ]

Он используется для заключения [14] о неизвестной популяции путем оценки и / или проверки гипотез. Другими словами, желательно получить параметры для описания представляющей интерес совокупности, но, поскольку данные ограничены, необходимо использовать репрезентативную выборку для их оценки. Таким образом, можно проверить ранее определенные гипотезы и применить выводы ко всей совокупности. Стандартная ошибка среднего значения является мерой изменчивости , которая имеет решающее значение , чтобы сделать выводы. [4]

  • Проверка гипотезы

Проверка гипотез важна для того, чтобы делать выводы о группах населения, стремящихся ответить на вопросы исследования, как указано в разделе «Планирование исследования». Авторы определили четыре шага, которые необходимо установить: [4]

  1. Гипотеза, подлежащая проверке : как указывалось ранее, мы должны работать с определением нулевой гипотезы (H 0 ), которая будет проверяться, и альтернативной гипотезой . Но их необходимо определить до проведения эксперимента.
  2. Уровень значимости и правило принятия решения : правило принятия решения зависит от уровня значимости или, другими словами, от допустимой частоты ошибок (α). Легче думать, что мы определяем критическое значение , определяющее статистическую значимость, когда с ним сравнивается тестовая статистика . Таким образом, перед экспериментом необходимо заранее определить α.
  3. Эксперимент и статистический анализ : это когда эксперимент действительно проводится в соответствии с соответствующим планом эксперимента , собираются данные и оцениваются наиболее подходящие статистические тесты.
  4. Вывод : делается, когда нулевая гипотеза отклоняется или не отвергается, на основании свидетельств, которые дает сравнение p-значений и α. Указывается, что неспособность отклонить H 0 просто означает, что недостаточно доказательств, чтобы поддержать его отклонение, но не то, что эта гипотеза верна.
  • Доверительные интервалы

Доверительный интервал - это диапазон значений, который может содержать истинное реальное значение параметра при определенном уровне достоверности. Первым шагом является оценка наиболее объективной оценки параметра совокупности. Верхнее значение интервала получается суммой этой оценки с умножением между стандартной ошибкой среднего и уровнем достоверности. Вычисление меньшего значения аналогично, но вместо суммы должно применяться вычитание. [4]

Статистические соображения [ править ]

Мощность и статистическая ошибка [ править ]

При проверке гипотезы, существует два типа статистических возможных ошибок: ошибки типа I и ошибка типа II . Ошибка типа I или ложноположительный результат - это неправильное отклонение истинной нулевой гипотезы, а ошибка типа II или ложноотрицательный результат - это неспособность отклонить ложную нулевую гипотезу . Уровень значимости, обозначенный α, представляет собой частоту ошибок типа I и должен быть выбран перед выполнением теста. Частота ошибок типа II обозначается β, а статистическая мощность теста составляет 1 - β.

p-значение [ править ]

Значение p - это вероятность получения таких же или более экстремальных результатов, чем наблюдаемые, при условии, что нулевая гипотеза (H 0 ) верна. Это также называется расчетной вероятностью. Обычно значение p путают с уровнем значимости (α) , но α является предопределенным порогом для получения значимых результатов. Если p меньше α, нулевая гипотеза (H 0 ) отклоняется. [15]

Множественное тестирование [ править ]

В нескольких тестах одной и той же гипотезы вероятность появления ложноположительных результатов (уровень семейных ошибок) увеличивается, и для контроля этого случая используются некоторые стратегии. Обычно это достигается за счет использования более жесткого порога для отклонения нулевых гипотез. Коррекции Бонферрони определяет приемлемый глобальный уровень значимости, обозначаемый & alpha ; * и каждый тест по отдельности по сравнению со значением a = a * / м. Это гарантирует, что частота ошибок в семье во всех m тестах меньше или равна α *. Когда m велико, поправка Бонферрони может быть слишком консервативной. Альтернативой коррекции Бонферрони является контроль уровня ложного обнаружения (FDR) . FDR контролирует ожидаемую долю отклоненныхнулевые гипотезы (так называемые открытия), которые являются ложными (неверные отклонения). Эта процедура гарантирует, что для независимых тестов частота ложного обнаружения не превышает q *. Таким образом, FDR менее консервативен, чем коррекция Бонферрони, и имеет большую мощность за счет большего количества ложных срабатываний. [16]

Проверки неправильной спецификации и устойчивости [ править ]

Основная проверяемая гипотеза (например, отсутствие связи между лечением и исходами) часто сопровождается другими техническими предположениями (например, о форме распределения вероятностей результатов), которые также являются частью нулевой гипотезы. Когда технические допущения нарушаются на практике, нуль может часто отклоняться, даже если основная гипотеза верна. Считается, что такие отказы связаны с неправильной спецификацией модели. [17] Проверка того, не меняется ли результат статистического теста при незначительном изменении технических допущений (так называемые проверки устойчивости), является основным способом борьбы с неправильной спецификацией.

Критерии выбора модели [ править ]

Выбор критериев модели выберет или смоделирует более приближенную истинную модель. В данном Критерии Akaike ( в АИК) , а также информационный критерий (BIC) являются примерами асимптотический эффективных критериев.

Разработки и большие данные [ править ]

Последние разработки оказали большое влияние на биостатистику. Двумя важными изменениями стали возможность сбора данных с высокой пропускной способностью и возможность выполнять гораздо более сложный анализ с использованием вычислительных методов. Это связано с развитием таких областей, как технологии секвенирования , биоинформатика и машинное обучение ( машинное обучение в биоинформатике ).

Использование в данных с высокой пропускной способностью [ править ]

Новые биомедицинские технологии, такие как микроматрицы , секвенаторы нового поколения (для геномики) и масс-спектрометрия (для протеомики), генерируют огромные объемы данных, позволяя проводить множество тестов одновременно. [18] Чтобы отделить сигнал от шума, требуется тщательный анализ с использованием биостатистических методов. Например, микроматрица может использоваться для одновременного измерения многих тысяч генов, чтобы определить, какие из них имеют различную экспрессию в пораженных клетках по сравнению с нормальными клетками. Однако только часть генов будет экспрессироваться по-разному. [19]

Мультиколлинеарность часто возникает в условиях биостатистики с высокой пропускной способностью. Из-за высокой взаимной корреляции между предикторами (такими как уровни экспрессии генов ) информация одного предиктора может содержаться в другом. Может случиться так, что только 5% предикторов отвечают за 90% вариабельности ответа. В таком случае можно применить биостатистический метод уменьшения размерности (например, с помощью анализа главных компонентов). Классические статистические методы, такие как линейная или логистическая регрессия и линейный дискриминантный анализне работают хорошо для данных большой размерности (т. е. когда количество наблюдений n меньше, чем количество функций или предикторов p: n <p). В самом деле, можно получить довольно высокие R 2 -значения , несмотря на очень низкой прогностической статистической модели. Эти классические статистические методы (особенно линейная регрессия по методу наименьших квадратов ) были разработаны для низкоразмерных данных (т. Е. Когда количество наблюдений n намного больше, чем количество предикторов p: n >> p). В случае большой размерности, всегда следует рассматривать независимый набор теста проверки и соответствующую остаточную сумму квадратов (RSS) и R 2 тестовой проверку набора, а не те , из обучающего набора.

Часто бывает полезно объединить информацию от нескольких предикторов вместе. Например, анализ обогащения генетического набора (GSEA) рассматривает возмущение целых (функционально связанных) наборов генов, а не отдельных генов. [20] Эти наборы генов могут быть известными биохимическими путями или другими функционально связанными генами. Преимущество этого подхода заключается в том, что он более надежен: более вероятно, что один ген окажется ложно нарушенным, чем ложно нарушен весь путь. Кроме того, с помощью этого подхода можно интегрировать накопленные знания о биохимических путях (например, о сигнальном пути JAK-STAT ).

Достижения биоинформатики в базах данных, интеллектуальном анализе данных и биологической интерпретации [ править ]

Развитие биологических баз данных позволяет хранить биологические данные и управлять ими с возможностью обеспечения доступа для пользователей по всему миру. Они полезны для исследователей, которые хранят данные, извлекают информацию и файлы (необработанные или обработанные), полученные в результате других экспериментов, или индексируют научные статьи, как PubMed . Другая возможность - поиск желаемого термина (ген, белок, болезнь, организм и т. Д.) И проверка всех результатов, связанных с этим поиском. Существуют базы данных, посвященные SNP ( dbSNP ), знаниям о характеристиках генов и их путях ( KEGG) и описание функции гена с классификацией его по клеточному компоненту, молекулярной функции и биологическому процессу ( Онтология гена ). [21] В дополнение к базам данных, которые содержат конкретную молекулярную информацию, есть другие, которые достаточно обширны в том смысле, что они хранят информацию об организме или группе организмов. Примером базы данных, ориентированной только на один организм, но содержащей много данных о нем, является генетическая и молекулярная база данных Arabidopsis thaliana - TAIR. [22] Фитозома, [23]в свою очередь, хранит сборки и файлы аннотаций десятков геномов растений, а также содержит инструменты визуализации и анализа. Более того, существует взаимосвязь между некоторыми базами данных в обмене / совместном использовании информации, и основной инициативой было Международное сотрудничество с базами данных нуклеотидных последовательностей (INSDC) [24], которое связывает данные из DDBJ, [25] EMBL-EBI, [26] и NCBI. . [27]

В настоящее время увеличение размера и сложности наборов молекулярных данных приводит к использованию мощных статистических методов, предоставляемых алгоритмами информатики, разработанными в области машинного обучения . Таким образом, интеллектуальный анализ данных и машинное обучение позволяют обнаруживать закономерности в данных со сложной структурой, например, биологические, с использованием , среди прочего, методов контролируемого и неконтролируемого обучения , регрессии, обнаружения кластеров и интеллектуального анализа ассоциативных правил . [21] Чтобы указать на некоторые из них, самоорганизующиеся карты и k- средние являются примерами кластерных алгоритмов; реализация нейронных сетей иМодели опорных векторных машин являются примерами распространенных алгоритмов машинного обучения.

Совместная работа молекулярных биологов, биоинформатиков, статистиков и специалистов по информатике важна для правильного проведения эксперимента, начиная от планирования, генерации и анализа данных и заканчивая биологической интерпретацией результатов. [21]

Использование вычислительно-ресурсоемких методов [ править ]

С другой стороны, появление современных компьютерных технологий и относительно дешевых вычислительных ресурсов позволило использовать ресурсоемкие биостатистические методы, такие как методы начальной загрузки и повторной выборки .

В последнее время случайные леса стали популярными как метод статистической классификации . Методы случайного леса генерируют панель деревьев решений. Деревья решений имеют то преимущество, что вы можете их рисовать и интерпретировать (даже имея базовое понимание математики и статистики). Таким образом, случайные леса использовались для систем поддержки принятия клинических решений. [ необходима цитата ]

Приложения [ править ]

Общественное здравоохранение [ править ]

Общественное здравоохранение , включая эпидемиологию , исследования служб здравоохранения , питание , гигиену окружающей среды, политику и управление здравоохранением. В этом медицинском содержании важно учитывать дизайн и анализ клинических испытаний . В качестве примера можно привести оценку тяжести состояния пациента с прогнозом исхода заболевания.

Благодаря новым технологиям и генетическим знаниям биостатистика теперь также используется в системной медицине , которая заключается в более персонализированной медицине. Для этого выполняется интеграция данных из разных источников, включая стандартные данные о пациентах, клинико-патологические параметры, молекулярные и генетические данные, а также данные, полученные с помощью дополнительных технологий new-omics. [28]

Количественная генетика [ править ]

Изучение популяционной генетики и статистической генетики с целью связать вариации генотипа с вариациями фенотипа . Другими словами, желательно обнаружить генетическую основу измеримого признака, количественного признака, находящегося под полигенным контролем. Область генома, отвечающая за непрерывный признак, называется локусом количественного признака (QTL). Изучение QTL становится возможным благодаря использованию молекулярных маркеров и измерению признаков в популяциях, но для их картирования необходимо получение популяции в результате экспериментального скрещивания, например F2 или рекомбинантных инбредных штаммов / линий (RIL). Чтобы сканировать области QTL в геноме,генная карта, основанная на сцеплении, должна быть построена. Некоторые из наиболее известных алгоритмов сопоставления QTL - это сопоставление интервалов, сопоставление составных интервалов и сопоставление множественных интервалов. [29]

Однако разрешение картирования QTL ухудшается из-за количества проанализированных рекомбинаций, что является проблемой для видов, у которых трудно получить большое потомство. Кроме того, разнообразие аллелей ограничено индивидуумами, происходящими от противоположных родителей, что ограничивает исследования разнообразия аллелей, когда у нас есть группа лиц, представляющих естественную популяцию. [30] По этой причине было предложено исследование ассоциации в масштабе всего генома , чтобы идентифицировать QTL на основе неравновесия по сцеплению , то есть неслучайной ассоциации между признаками и молекулярными маркерами. Это было усилено разработкой высокопроизводительного генотипирования SNP . [31]

В животных и растений селекции , использование маркеров в селекции , направленных на разведение, в основном молекулярные тех, совместно с развитием селекции с помощью маркеров. В то время как отображение QTL ограничено из-за разрешения, GWAS не имеет достаточной мощности при редких вариантах малого эффекта, которые также зависят от окружающей среды. Итак, концепция геномного отбора (GS) возникает для того, чтобы использовать все молекулярные маркеры в отборе и позволять прогнозировать эффективность кандидатов в этом отборе. Предложение состоит в том, чтобы генотипировать и фенотипировать обучающуюся популяцию, разработать модель, которая может получить геномные оценочные племенные ценности (GEBV) людей, принадлежащих к генотипированной, но не фенотипированной популяции, называемой тестируемой популяцией. [32] Этот вид исследования может также включать популяцию валидации, придерживающуюся концепции перекрестной валидации., в котором реальные результаты фенотипа, измеренные в этой популяции, сравниваются с результатами фенотипа, основанными на прогнозе, который использовался для проверки точности модели.

Подводя итог, можно сказать, что некоторые моменты применения количественной генетики:

  • Это использовалось в сельском хозяйстве для улучшения сельскохозяйственных культур ( селекция растений ) и животноводства ( разведение животных ).
  • В биомедицинских исследованиях эта работа может помочь в поиске аллелей генов- кандидатов , которые могут вызывать или влиять на предрасположенность к заболеваниям в генетике человека.

Данные выражения [ править ]

Исследования дифференциальной экспрессии генов по данным RNA-Seq , как и для RT-qPCR и микрочипов , требуют сравнения условий. Цель состоит в том, чтобы идентифицировать гены, у которых наблюдается значительное изменение численности в разных условиях. Затем эксперименты разрабатываются соответствующим образом, с повторениями для каждого состояния / лечения, рандомизацией и блокированием, если необходимо. В RNA-Seq количественная оценка экспрессии использует информацию о картированных считываниях, которые суммированы в некоторой генетической единице, как экзоны , являющиеся частью последовательности гена. Поскольку результаты микроматрицы могут быть аппроксимированы нормальным распределением, данные подсчета RNA-Seq лучше объясняются другими распределениями. Первым использованным дистрибутивом былПуассоновский , но он недооценивает ошибку выборки, что приводит к ложным срабатываниям. В настоящее время биологическая изменчивость рассматривается с помощью методов, оценивающих параметр дисперсии отрицательного биномиального распределения . Обобщенные линейные модели используются для выполнения тестов на статистическую значимость, и, поскольку количество генов велико, необходимо рассмотреть возможность корректировки множественных тестов. [33] Некоторые примеры другого анализа данных геномики получены из экспериментов по микрочипам или протеомике . [34] [35] Часто касается болезней или стадий заболевания. [36]

Другие исследования [ править ]

  • Экология , экологическое прогнозирование
  • Анализ биологической последовательности [37]
  • Системная биология для вывода генной сети или анализа путей. [38]
  • Динамика населения , особенно в отношении науки о рыболовстве .
  • Филогенетика и эволюция

Инструменты [ править ]

Существует множество инструментов, которые можно использовать для статистического анализа биологических данных. Большинство из них полезны в других областях знаний, охватывающих большое количество приложений (в алфавитном порядке). Вот краткое описание некоторых из них:

  • ASReml : Другое программное обеспечение, разработанное VSNi [39], которое также может использоваться в среде R как пакет. Он разработан для оценки компонентов дисперсии в рамках общей линейной смешанной модели с использованием ограниченного максимального правдоподобия (REML). Допускаются модели с фиксированными эффектами и случайными эффектами, а также вложенные или скрещенные. Дает возможность исследовать различные структуры ковариационно-дисперсионных матриц.
  • CycDesigN: [40] Компьютерный пакет, разработанный VSNi [39], который помогает исследователям создавать экспериментальные планы и анализировать данные, полученные из дизайна, представленного в одном из трех классов, обрабатываемых CycDesigN. Эти классы являются разрешимыми, неразрешаемыми, частично воспроизводимыми и перекрестными дизайнами . Он включает в себя менее используемые конструкции, латинизированные, а также t-латинизированные конструкции. [41]
  • Оранжевый : программный интерфейс для высокоуровневой обработки данных, интеллектуального анализа данных и визуализации данных. Включите инструменты для экспрессии генов и геномики. [21]
  • R : Среда с открытым исходным кодом и язык программирования, предназначенные для статистических вычислений и графики. Это реализация языка S, поддерживаемая CRAN. [42] Помимо функций чтения таблиц данных, сбора описательной статистики, разработки и оценки моделей, его репозиторий содержит пакеты, разработанные исследователями со всего мира. Это позволяет разрабатывать функции, предназначенные для статистического анализа данных, поступающих из конкретных приложений. В случае биоинформатики, например, есть пакеты, расположенные в главном репозитории (CRAN), а в других - как Bioconductor . Также можно использовать разрабатываемые пакеты, которые используются в хостинг-сервисах как GitHub..
  • SAS : программное обеспечение для анализа данных, широко используемое в университетах, сфере услуг и в промышленности. Разработанный одноименной компанией ( SAS Institute ), он использует язык SAS для программирования.
  • PLA 3.0: [43] - это программное обеспечение для биостатистического анализа регулируемых сред (например, тестирование на наркотики), которое поддерживает количественные анализы ответа (параллельная линия, параллельная логистика, коэффициент наклона) и дихотомические анализы (количественный ответ, двоичные анализы). Он также поддерживает методы взвешивания для комбинированных вычислений и автоматическое агрегирование данных независимых анализов.
  • Weka : программное обеспечение Java для машинного обучения и интеллектуального анализа данных , включая инструменты и методы для визуализации, кластеризации, регрессии, правила ассоциации и классификации. Есть инструменты для перекрестной проверки, начальной загрузки и модуль сравнения алгоритмов. Weka также может работать на других языках программирования, таких как Perl или R. [21]

Объем и программы обучения [ править ]

Практически все образовательные программы по биостатистике - это аспирантура . Чаще всего их можно найти в школах общественного здравоохранения, связанных с школами медицины, лесоводства или сельского хозяйства, или в качестве основных приложений в департаментах статистики.

В Соединенных Штатах, где в нескольких университетах есть специализированные кафедры биостатистики, многие другие ведущие университеты объединяют факультеты биостатистики со статистикой или другими факультетами, такими как эпидемиология . Таким образом, отделы, носящие название «биостатистика», могут существовать в совершенно разных структурах. Например, были созданы относительно новые кафедры биостатистики с упором на биоинформатику и вычислительную биологию , тогда как более старые кафедры, обычно связанные со школами общественного здравоохранения , будут проводить более традиционные направления исследований, включая эпидемиологические исследования и клинические испытания.а также биоинформатика. В более крупных университетах по всему миру, где существуют и статистические, и биостатистические факультеты, степень интеграции между этими двумя факультетами может варьироваться от минимума до очень тесного сотрудничества. В целом, разница между статистической программой и программой биостатистики двоякая: (i) статистические отделы часто проводят теоретические / методологические исследования, которые менее распространены в программах биостатистики, и (ii) отделы статистики имеют направления исследований, которые могут включать биомедицинские приложения. но также и другие области, такие как промышленность ( контроль качества ), бизнес и экономика, а также биологические области помимо медицины.

Специализированные журналы [ править ]

См. Также: Список журналов биостатистики
  • Биостатистика [44]
  • Международный журнал биостатистики [45]
  • Журнал эпидемиологии и биостатистики [46]
  • Биостатистика и общественное здравоохранение [47]
  • Биометрия [48]
  • Биометрика [49]
  • Биометрический журнал [50]
  • Коммуникации в биометрии и растениеводстве [51]
  • Статистические приложения в генетике и молекулярной биологии [52]
  • Статистические методы в медицинских исследованиях [53]
  • Фармацевтическая статистика [54]
  • Статистика в медицине [55]

См. Также [ править ]

  • Биоинформатика
  • Эпидемиологический метод
  • Эпидемиология
  • Меры размера группы
  • Индикатор здоровья
  • Математическая и теоретическая биология

Ссылки [ править ]

  1. Гюнтер, Крис (10 декабря 2008 г.). «Количественная генетика» . Природа . 456 (7223): 719. Bibcode : 2008Natur.456..719G . DOI : 10.1038 / 456719a . PMID  19079046 .
  2. ^ Чарльз Т. Мангер (2003-10-03). «Академическая экономика: сильные и слабые стороны с учетом междисциплинарных потребностей» (PDF) .
  3. ^ a b c Низамуддин, Сара Л .; Низамуддин, Джунаид; Мюллер, Ариэль; Рамакришна, Хариш; Шахул, Саджид С. (октябрь 2017 г.). «Разработка гипотез и статистическое планирование». Журнал кардиоторакальной и сосудистой анестезии . 31 (5): 1878–1882. DOI : 10,1053 / j.jvca.2017.04.020 . PMID 28778775 . 
  4. ^ а б в г Оверхользер, Брайан Р.; Совински, Кевин М (2017). «Учебник по биостатистике: Часть I». Питание в клинической практике . 22 (6): 629–35. DOI : 10.1177 / 0115426507022006629 . PMID 18042950 . 
  5. ^ Щеч, Линда Энн; Коладонато, Джозеф А .; Оуэн, Уильям Ф. (4 октября 2002 г.). «Ключевые концепции биостатистики: использование статистики для ответа на вопрос» Есть ли разница? " ". Семинары по диализу . 15 (5): 347–351. DOI : 10.1046 / j.1525-139X.2002.00085.x . PMID 12358639 . S2CID 30875225 .  
  6. ^ Sandelowski, Маргарета (2000). «Сочетание качественной и количественной выборки, сбора данных и методов анализа в исследованиях с использованием смешанных методов». Исследования в области сестринского дела и здравоохранения . 23 (3): 246–255. CiteSeerX 10.1.1.472.7825 . DOI : 10.1002 / 1098-240X (200006) 23: 3 <246 :: АИД-NUR9> 3.0.CO; 2-Н . PMID 10871540 .  
  7. ^ Математика, Сангаку. «Абсолютные, относительные, накопительные частотные и статистические таблицы - Вероятность и статистика» . www.sangakoo.com . Проверено 10 апреля 2018 .
  8. ^ a b «ДАННЫЕ: TabNet Win32 3.0: Nascidos vivos - Бразилия» . ДАННЫЕ: Tecnologia da Informação a Serviço do SUS .
  9. ^ a b c d Фортофер, Рональд Н .; Ли, Ын Сул (1995). Введение в биостатистику. Руководство по дизайну, анализу и открытиям . Академическая пресса. ISBN 978-0-12-262270-0.
  10. ^ Пирсон, Карл (1895-01-01). «X. Вклад в математическую теорию эволюции. - II. Отклонение в однородном материале» . Фил. Пер. R. Soc. Лондон. . 186 : 343–414. Bibcode : 1895RSPTA.186..343P . DOI : 10,1098 / rsta.1895.0010 . ISSN 0264-3820 . 
  11. ^ Utts, Джессика М. (2005). Просмотр статистики (3-е изд.). Бельмонт, Калифорния: Томсон, Брукс / Коул. ISBN 978-0534394028. OCLC  56568530 .
  12. ^ Б., Джаррелл, Стивен (1994). Базовая статистика . Дубьюк, Айова: Умм. C. Brown Pub. ISBN 978-0697215956. OCLC  30301196 .
  13. ^ Гуджарати, Дамодар Н. (2006). Эконометрика . МакГроу-Хилл Ирвин.
  14. ^ «Основы биостатистики в общественном здравоохранении и основы биостатистики Workbook: статистические вычисления с использованием Excel». Журнал общественного здравоохранения Австралии и Новой Зеландии . 33 (2): 196–197. 2009. DOI : 10.1111 / j.1753-6405.2009.00372.x . ISSN 1326-0200 . 
  15. ^ Бейкер, Моня (2016). «Статистики предупреждают о неправильном использовании значений P» . Природа . 531 (7593): 151. Bibcode : 2016Natur.531..151B . DOI : 10.1038 / nature.2016.19503 . PMID 26961635 . 
  16. ^ Бенджамини, Ю. и Хохберг, Ю. Контроль ложной скорости обнаружения: практический и мощный подход к множественному тестированию. Журнал Королевского статистического общества. Series B (Methodological) 57, 289–300 (1995).
  17. ^ "Нулевая гипотеза" . www.statlect.com . Проверено 8 мая 2018 .
  18. Хайден, Эрика Чек (8 февраля 2012 г.). «Биостатистика: раскрывающий анализ» . Природа . 482 (7384): 263–265. DOI : 10.1038 / nj7384-263a . PMID 22329008 . 
  19. Эфрон, Брэдли (февраль 2008 г.). «Микроматрицы, эмпирический байесовский анализ и модель двух групп». Статистическая наука . 23 (1): 1–22. arXiv : 0808.0572 . DOI : 10.1214 / 07-STS236 . S2CID 8417479 . 
  20. ^ Subramanian, A .; Tamayo, P .; Mootha, ВК; Mukherjee, S .; Эберт, Б.Л .; Gillette, MA; Паулович, А .; Помрой, SL; Голуб, Т.Р .; Lander, ES; Месиров, JP (30 сентября 2005 г.). «Анализ обогащения набора генов: основанный на знаниях подход для интерпретации профилей экспрессии в масштабе всего генома» . Труды Национальной академии наук . 102 (43): 15545–15550. Bibcode : 2005PNAS..10215545S . DOI : 10.1073 / pnas.0506580102 . PMC 1239896 . PMID 16199517 .  
  21. ^ а б в г е Мур, Джейсон Х (2007). «Биоинформатика». Журнал клеточной физиологии . 213 (2): 365–9. DOI : 10.1002 / jcp.21218 . PMID 17654500 . S2CID 221831488 .  
  22. ^ "ТАИР - Домашняя страница" . www.arabidopsis.org .
  23. ^ "Фитозома" . phytozome.jgi.doe.gov .
  24. ^ "Международное сотрудничество с базами данных нуклеотидных последовательностей - INSDC" . www.insdc.org .
  25. ^ «Вверху» . www.ddbj.nig.ac.jp .
  26. ^ "Европейский институт биоинформатики <EMBL-EBI" . www.ebi.ac.uk .
  27. ^ Информация, Национальный центр биотехнологии; Пайк, Национальная медицинская библиотека США, 8600 Роквилл; MD, Bethesda; США, 20894. «Национальный центр биотехнологической информации» . www.ncbi.nlm.nih.gov .CS1 maint: numeric names: authors list (link)
  28. ^ Апвейлер, Рольф; и другие. (2018). "Куда ведет системная медицина?" . Молекулярная медицина . 50 (3): e453. DOI : 10.1038 / emm.2017.290 . PMC 5898894 . PMID 29497170 .  
  29. Перейти ↑ Zeng, Zhao-Bang (2005). «Картирование QTL и генетические основы адаптации: последние разработки». Genetica . 123 (1–2): 25–37. DOI : 10.1007 / s10709-004-2705-0 . PMID 15881678 . S2CID 1094152 .  
  30. ^ Корте, Артур; Фарлоу, Эшли (2013). «Преимущества и ограничения анализа черт с помощью GWAS: обзор» . Растительные методы . 9 : 29. DOI : 10,1186 / 1746-4811-9-29 . PMC 3750305 . PMID 23876160 .  
  31. ^ Чжу, Чэнсонг; Гор, Майкл; Баклер, Эдвард С; Ю, Цзяньмин (2008). «Состояние и перспективы картирования ассоциаций у растений» . Геном растений . 1 : 5–20. DOI : 10,3835 / plantgenome2008.02.0089 .
  32. ^ Crossa, Хосе; Перес-Родригес, Паулино; Куэвас, Хайме; Монтесинос-Лопес, Осваль; Яркин, Диего; Де лос Кампос, Густаво; Бургеньо, Хуан; Гонсалес-Камачо, Хуан М.; Перес-Элизальде, Серхио; Бейене, Йосеф; Драйзигакер, Сюзанна; Сингх, Рави; Чжан, Сюэцай; Gowda, Manje; Руркивал, Маниш; Руткоски, Джессика; Варшней, Раджив К (2017). «Геномный отбор в селекции растений: методы, модели и перспективы» (PDF) . Тенденции в растениеводстве . 22 (11): 961–975. DOI : 10.1016 / j.tplants.2017.08.011 . PMID 28965742 .  
  33. ^ Ошлак, Алисия; Робинсон, Марк Д; Янг, Мэтью Д. (2010). «От чтения РНК-seq до результатов дифференциальной экспрессии» . Геномная биология . 11 (12): 220. DOI : 10.1186 / GB-2010-11-12-220 . PMC 3046478 . PMID 21176179 .  
  34. ^ Helen Causton; Джон Квакенбуш; Алвис Бразма (2003). Статистический анализ данных микрочипов экспрессии генов . Вили-Блэквелл.
  35. ^ Терри Спид (2003). Анализ данных экспрессии генов на микрочипах: Руководство для начинающих . Чепмен и Холл / CRC.
  36. ^ Франк Эммерт-Streib; Маттиас Демер (2010). Медицинская биостатистика сложных заболеваний . Вили-Блэквелл. ISBN 978-3-527-32585-6.
  37. ^ Уоррен Дж. Юэнс; Грегори Р. Грант (2004). Статистические методы в биоинформатике: Введение . Springer.
  38. ^ Matthias Dehmer; Франк Эммерт-Штрейб; Армин Грабер; Арминдо Сальвадор (2011). Прикладная статистика для сетевой биологии: методы системной биологии . Вили-Блэквелл. ISBN 978-3-527-32750-8.
  39. ^ a b «Дом - VSN International» . www.vsni.co.uk .
  40. ^ "CycDesigN - VSN International" . www.vsni.co.uk .
  41. ^ Пьефо, Ганс-Петер; Уильямс, Эмлин Р.; Мишель, Волкер (2015). "За пределами латинских квадратов: Краткий обзор конструкций рядка-столбец". Агрономический журнал . 107 (6): 2263. DOI : 10,2134 / agronj15.0144 .
  42. ^ "Комплексная сеть архивов R" . cran.r-project.org .
  43. ^ Stegmann, Dr Ralf (2019-07-01). «ПЛА 3.0» . PLA 3.0 - Программное обеспечение для биостатистического анализа . Проверено 2 июля 2019 .
  44. ^ "Биостатистика - Oxford Academic" . ОУП Академ .
  45. ^ https://www.degruyter.com/view/j/ijb
  46. Персонал NCBI (15 июня 2018 г.). «Журналы PubMed будут закрыты» .
  47. ^ https://ebph.it/ Эпидемиология
  48. ^ "Биометрия - Интернет-библиотека Wiley" . onlinelibrary.wiley.com .
  49. ^ "Биометрика - Оксфорд Академик" . ОУП Академ .
  50. ^ "Биометрический журнал - Интернет-библиотека Wiley" . onlinelibrary.wiley.com .
  51. ^ «Связь в биометрии и растениеводстве» . agrobiol.sggw.waw.pl .
  52. ^ «Статистические приложения в генетике и молекулярной биологии» . www.degruyter.com . 1 мая 2002 г.
  53. ^ «Статистические методы в медицинских исследованиях» . Журналы SAGE .
  54. ^ "Фармацевтическая статистика - Интернет-библиотека Wiley" . onlinelibrary.wiley.com .
  55. ^ «Статистика в медицине - Интернет-библиотека Wiley» . onlinelibrary.wiley.com .

Внешние ссылки [ править ]

СМИ, связанные с биостатистикой, на Викискладе?

  • Международное биометрическое общество
  • Собрание архива биостатистических исследований
  • Руководство по биостатистике (MedPageToday.com)
  • Биомедицинская статистика