Из Википедии, бесплатной энциклопедии
  (Перенаправлено от Дэвида Сильвера (программист) )
Перейти к навигации Перейти к поиску

Дэвид Сильвер (1976 г.р.) возглавляет исследовательскую группу по обучению с подкреплением в DeepMind и был ведущим исследователем AlphaGo , AlphaZero и одним из руководителей AlphaStar .

Он окончил Кембриджский университет в 1997 году, получив премию Аддисона-Уэсли, и там подружился с Демисом Хассабисом . [1] Впоследствии Сильвер стал соучредителем компании по производству видеоигр Elixir Studios , где он был техническим директором и ведущим программистом, получив несколько наград за технологии и инновации. [1] [2]

Сильвер вернулся в академию в 2004 году в Университете Альберты, чтобы учиться на доктора философии по обучению с подкреплением, где он стал одним из участников первых программ магистерского уровня 9 × 9 Go. [3] [4] Его версия программы MoGo (в соавторстве с Sylvain Gelly) была одной из самых сильных программ Go по состоянию на 2009 год. [5]

Сильвер был удостоен исследовательской стипендии Королевского общества в 2011 году, а впоследствии стал лектором в Университетском колледже Лондона , где он сейчас является профессором. [6] Его лекции по обучению с подкреплением доступны на YouTube. [7] Сильвер консультировал DeepMind с момента его создания, присоединившись к нему на постоянной основе в 2013 году.

Его недавняя работа была сосредоточена на сочетании обучения с подкреплением с глубоким обучением , включая программу, которая учится играть в игры Atari прямо с пикселей. [8] Сильвер возглавил проект AlphaGo, кульминацией которого стала первая программа по победе над лучшим профессиональным игроком в полноразмерной игре Go. [9] AlphaGo впоследствии получила почетную профессиональную сертификацию 9 дан; и получил награду «Каннский лев» за инновации. [10] Затем он руководил разработкой AlphaZero., который использовал тот же ИИ, чтобы научиться играть в го с нуля (обучаясь только играя самому, а не человеческим играм), прежде чем научиться играть в шахматы и сёги таким же образом, на более высоком уровне, чем в любой другой компьютерной программе.

Сильвер является одним из наиболее публикуемых сотрудников DeepMind, его цитировали более 67 000 раз, а его h- индекс 66. [11]

Он был награжден премией ACM 2019 в области вычислительной техники за прорыв в компьютерных играх. [12]

Ссылки [ править ]

  1. ^ a b Шид, Сэм. «Дэвид Сильвер: незамеченный герой и интеллектуальная сила в Google DeepMind» . Business Insider . Проверено 26 сентября 2020 .
  2. ^ «Что AI, стоящий за AlphaGo, может научить нас о том, чтобы быть людьми» . Wired.com . Дата обращения 17 мая 2016 .
  3. ^ Дэвид, Сильвер (2009). «Обучение с подкреплением и поиск на основе моделирования в Computer Go» . ЭРА . DOI : 10.7939 / R39D8T .
  4. ^ Сильвен Гелли, Дэвид Сильвер (2008). «Достижение мастерского уровня игры в компьютерной игре 9 × 9» (PDF) . Труды двадцать третьей конференции AAAI по искусственному интеллекту . CS1 maint: использует параметр авторов ( ссылка )
  5. ^ Стюарт Дж. Рассел , Питер Норвиг (2009). Искусственный интеллект: современный подход (3-е изд.). Прентис Холл .CS1 maint: использует параметр авторов ( ссылка )
  6. ^ "CSML | Дэвид Сильвер" . www.csml.ucl.ac.uk . Проверено 27 мая 2017 года .
  7. ^ "Курс RL Дэвида Сильвера - Лекция 1: Введение в обучение с подкреплением" . 13 мая 2015 г. - через YouTube .
  8. ^ Мних, Владимир; Кавукчуоглу, Корай; Сильвер, Дэвид; Русу, Андрей А .; Венесс, Джоэл; Bellemare, Marc G .; Грейвс, Алекс; Ридмиллер, Мартин; Фиджеланд, Андреас К. (26 февраля 2015 г.). «Контроль на уровне человека посредством глубокого обучения с подкреплением». Природа . 518 (7540): 529–533. Bibcode : 2015Natur.518..529M . DOI : 10,1038 / природа14236 . ISSN 0028-0836 . PMID 25719670 . S2CID 205242740 .   
  9. Сильвер, Дэвид; Хуанг, Аджа ; Мэддисон, Крис Дж .; Гез, Артур; Сифре, Лоран; Дрише, Джордж ван ден; Шриттвизер, Джулиан; Антоноглоу, Иоаннис; Паннеершелвам, Веда; Ланкто, Марк; Дилеман, Сандер; Греве, Доминик; Нхам, Джон; Кальхбреннер, Нал; Суцкевер, Илья ; Лилликрап, Тимоти; Лич, Мадлен; Кавукчуоглу, Корай; Грэпель, Тор; Хассабис, Демис (28 января 2016 г.). «Освоение игры в го с глубокими нейронными сетями и поиском по дереву». Природа . 529 (7587): 484–489. Bibcode : 2016Natur.529..484S . DOI : 10,1038 / природа16961 . ISSN 0028-0836 . PMID  26819042 . S2CID  515925 .
  10. ^ "Google DeepMind AlphaGo в Великобритании выигрывает Гран-при за инновации" . Проверено 27 мая 2017 года .
  11. ^ "Дэвид Сильвер - Цитаты ученых Google" . Проверено 1 марта 2021 года .
  12. ^ Ормонд, Джим. «Премия ACM в области вычислительной техники присуждена разработчику AlphaGo: Дэвид Сильвер получил признание за прорыв в компьютерных играх» . acm.org . Дата обращения 2 апреля 2020 .