Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
TreeMap -кака пробоя тематических областей Википедии по состоянию на февраль 2016 года, на основе случайной выборки из 1000 статей
Изображение, оценивающее размер печатной версии Википедии по состоянию на март 2020 года (из автоматически обновляемого изображения, основанного на использовании томов Encyclopdia Britannica с силуэтом среднего человека в масштабе)

Размер английской Википедии может быть измерена с точки зрения количества статей, количество слов, количество страниц, а размер базы данных, наряду с другими способами. По состоянию на 24 марта 2021 года в английской Википедии насчитывается 6275161 статья, содержащая более 3,83 миллиарда слов (что в среднем составляет около 610 слов на статью) и 52 986 294 страницы. Таким образом, статьи составляют 11,8% всех страниц Википедии. По состоянию на 1 февраля 2021 года размер текущей версии всех сжатых статей составляет около 19,23 ГБ. [1] [2]

Википедия продолжает расти, и количество статей в Википедии увеличивается более чем на 17 000 в месяц. Количество статей, добавляемых в Википедию каждый месяц, достигло своего пика в 2006 году, составив более 50 000 новых статей в месяц, и с тех пор медленно, но неуклонно сокращается. Хотя это может показаться, что рост Википедии замедляется или останавливается, следует отметить, что количество текста, добавляемого в статьи Википедии каждый год, было постоянным с 2006 года и составляло примерно 1 гигабайт (сжатого) текста.добавляется в год. Это означает, что с течением времени к существующим статьям добавляется пропорционально больше контента, чем к новым статьям, и что Википедия сохраняла постоянные темпы роста на протяжении, по крайней мере, последнего десятилетия. Другими словами, со временем средний размер статьи растет быстрее, чем количество статей.

Большинство более ранних записей было извлечено из Википедии: вехи . Более поздние записи взяты из наблюдений за встроенными функциями подсчета статей нового программного обеспечения. Для получения информации о том, что программное обеспечение Википедии считается статьей, см. Википедия: что такое статья # Списки статей и статистики .

Количество статей в Википедии, созданной ботами, например в версии Википедии на кебуанском языке , а также в версиях Википедии на шведском , голландском и варайском языках , растет намного быстрее, чем количество статей, написанных в основном людьми, таких как английская Википедия. . Шведский википедист Lsjbot Сверкера Йоханссона является основным автором этих четырех википедий, созданных в основном ботами, учитывая, что его жена - филиппинка. Однако отдельные статьи в Википедии, созданной ботами, в среднем намного короче, чем статьи в Википедии, написанной в основном людьми. Таким образом, само по себе количество статей - плохой показатель масштаба и объема всех изданий Википедии.

Рост количества статей в Википедии [ править ]

До 2012 года рост Википедии примерно соответствовал модели роста Гомперца. Эта модель была создана в июне 2010 года и определяется функцией Гомперца ,

,

с параметрами

а = 4378449
б = -15,42677
с = -0,384124
t - время в годах с 2001/1/1 (поэтому 2000/1/1 равно t = 10.00)

и где e - постоянная 2,71828 ( число Эйлера ).

Количество статей в Википедии на английском языке [3]
Английские редакторы Википедии с> 100 правками в месяц [4]


Некоторые характеристики этой модели:

  • точка поворота , при которой рост находится на своем пике. Для en.wikipedia.org это могло быть в августе 2006 г. с 60 000 новых статей в месяц.
  • максимум на количество статей около 4,4 миллиона долларов (как определено параметром модели). Следует отметить, что в будущем всегда будут новые события и люди, которых можно будет описать, но которые не учитываются в этой модели.

Эта модель связана с количеством (количеством артикулов). Качество все еще может увеличиваться независимо в зависимости от индивидуальной статьи.

Графики размеров и темпов роста [ править ]

В этом разделе первый график показывает историческое и ожидаемое общее количество статей; на втором графике - месячные темпы роста, замедляющиеся с конца 2006 г. (ряды имеют тенденцию к снижению).

Детальный анализ данных показывает, что с 2006 по 2009 год темпы роста статей следовали шестимесячному циклу с более быстрым ростом в феврале и августе, чем в мае и ноябре. Этот цикл не отображается здесь на графике темпов роста, потому что значения, показанные на графике, были усреднены за периоды в шесть месяцев.

Последний график в этом разделе показывает рост страниц с контентом (т.е. включая статьи и другие страницы) к маю 2019 года: обратите внимание на тенденцию к почти линейному росту с 2018 года.

Годовой темп роста английской Википедии [ править ]

Таким образом, до 7 миллионов статей в английской Википедии осталось 1123 дня .

Количество слов [ править ]

По состоянию на март 2021 года во всех статьях английской Википедии содержится примерно 3,81 миллиарда слов, примерно 609 слов в статье и примерно 22,86 миллиарда символов, если предположить, что каждое слово состоит из шести символов (в среднем пять букв для каждого слова плюс пробел или знак препинания). отметка). Последнее количество слов см. На странице Special: Statistics .

В таблице ниже показано только количество слов на всех страницах содержания, то есть 6 275 161 статья; он не включает слова из других пространств имен, таких как Talk, User или Wikipedia. Данные за 2002–2010 гг. Взяты из старого Wikistats-1 и, таким образом, точны только по месяцу, а не по конкретному дню в течение месяца. Данные за 2018 г. по настоящее время взяты со страницы Special: Statistics , сохраненные на эту дату в Интернет-архиве.. Нет данных о количестве слов с января 2010 года по декабрь 2017 года; Wikistats-1 больше не включает количество слов после января 2010 года, а страница Special: Statistics начала показывать количество слов на всех страницах контента только в декабре 2017 года. Обратите внимание, что в Интернет-архиве не всегда есть архивная версия Special : Страница статистики на первый день года.

Годовая статистика [ править ]

Средний прирост в год с 2010 по 2018 год; общее увеличение на 1 279 581 000 слов за тот же период времени
B Среднее процентное увеличение в год с 2010 по 2018 год; общий рост на 71% за тот же период времени
C Среднее увеличение в день с 2010 по 2018 год
D Пока в этом году

Ежемесячная статистика [ править ]

В таблице ниже указано общее количество слов во всех статьях и количество слов, добавленных в начале каждого месяца с января 2020 года.

Количество страниц [ править ]

По состоянию на 24 марта 2021 года , есть 52,986,294 страниц в английской Википедии , из которых 6275161 (11,8%) являются статьи, которые находятся в основном пространстве , или просто mainspace . Остальные страницы принадлежат одному из других 11 пространств имен , перечисленных здесь в алфавитном порядке: Категория, Черновик, Файл, Справка, MediaWiki, Модуль, Портал, Шаблон, TimedText, Пользователь и Википедия. Каждая страница в Википедии также может иметь соответствующую страницу обсуждения. Данные для этой таблицы взяты со страницы Special: Statistics и сохранены на эту дату в Интернет-архиве . Обратите внимание, что в Интернет-архиве не всегда есть заархивированная версия страницы Special: Statistics в первый день года.

Размер английской базы данных Википедии [ править ]

Общий текст статьи в английской Википедии, измеренный в гигабайтах (в сжатом виде). [5]

При описании размера базы данных Википедии следует учитывать различные элементы. Наиболее очевидные из них включают разметку статей, шаблонов, описаний медиа / файлов и основных мета-страниц, которые потребуются для отображения текста самой последней версии текущей энциклопедии. Связанные страницы обсуждения и другие пространства имен (Пользователь, Википедия, Справка и т. Д.) Часто рассматриваются отдельно. С каждым из них связана история редактирования и т. Д. Кроме того, существуют изображения и другие мультимедийные материалы (хранящиеся совместно во всех Википедиях). Важно учитывать, сжаты ли данные, и если да, то какая схема сжатия используется. Помимо английской Википедии, есть сотни Википедий на других языках, которые следует учитывать.

В апреле 2010 года размер полной истории редактирования английской Википедии без сжатия составлял 5,6 ТБ. [6]

По состоянию на июнь 2015 года дамп всех страниц с полной историей редактирования в формате XML в процессе создания дампа enwiki на 20150602 составлял около 100 ГБ, сжатых с использованием 7-Zip , и 10 ТБ без сжатия.

По состоянию на май 2015 года текущая версия текста статьи / шаблона / перенаправления на английском языке Википедии составляла около 51 ГБ в несжатом формате в формате XML.

Размер текста статьи в английской Википедии, измеряемый в гигабайтах (в сжатом виде), постоянно увеличивался с 1 ГБ в 2006 году до 9 ГБ в 2013 году до 11,5 ГБ в 2015 году, как показано на диаграмме. Однако из-за ошибки при составлении дампа данных за апрель 2016 г. размер текста статьи уменьшился примерно на 9% до 10,8 ГБ в сжатом виде (хотя фактический размер текста статьи в действительности увеличился, что можно увидеть, сравнив с свалки данных за март 2016 г. и май 2016 г.). [7] Аналогичная ошибка возникает при компиляции данных от 20 апреля 2018 г., которые составляют 12,85 ГБ (опять же, фактический размер текста статьи на самом деле увеличился). [8]

По состоянию на февраль 2013 г. размер XML-файла, содержащего только текущие страницы, без страниц пользователей или обсуждений, без сжатия составлял 42 987 293 445 байт (43 ГБ). XML-файл с текущими страницами, включая страницы пользователей и обсуждения, имел несжатый размер 93 754 003 797 байт (94 ГБ). Полные дампы истории, все из них 174 файла, занимали 10 005 676 791 734 байта (10 ТБ). [9]

Размер медиафайлов в Wikimedia Commons, который включает изображения, видео и другие медиафайлы, используемые во всех языковых Википедиях, был описан как более 23 ТБ ближе к концу 2014 года [10].

Другие источники последних оценок размеров:

  • m: Дампы данных
    • m: торренты дампа данных
  • m: Зеркальное отображение XML-дампов / оценок проекта Викимедиа
  • Статистика Википедии - Таблицы - Английский

Сравнение с другими Википедиями [ править ]

Распространение 56 067 458 статей в разных языковых изданиях (по состоянию на 24 марта 2021 г.) [11]

  Английский (11,2%)
  Себуано (10,1%)
  Шведский (5,8%)
  Немецкий (4,6%)
  Французский (4,1%)
  Голландский (3,7%)
  Русский (3%)
  Итальянский (3%)
  Испанский (3%)
  Польский (2,6%)
  Другое (48,9%)

Коды: en - английский • es - испанский • de - немецкий • ja - японский • ru - русский • fr - французский • it - итальянский • pl - польский • pt - португальский • zh - китайский

Этот график основан на данных http://stats.wikimedia.org/EN/TablesArticlesTotal.htm по состоянию на 14 июня 2015 г., а последние значения для английской Википедии взяты из данных ниже. В эту сумму включены все 270+ языков Википедии. См. Первую страницу http://www.wikipedia.org, чтобы узнать о количестве последних статей в 10 крупнейших Википедиях.

Английское издание остается самой большой Википедией, немного больше, чем второе по величине издание, Кебуанская Википедия . Многие другие издания разделяли квазиэкспоненциальный рост английского издания, хотя и отставали на один-три года. По мере того, как эти другие Википедии росли, общий процент статей на английском языке неуклонно снижался, и в марте 2007 года он упал ниже 25%. Доля статей в десяти крупнейших Википедиях также снижается, хотя на эту десятку по-прежнему приходится около 67% всех статей в Википедии по состоянию на июнь 2007 года. Обратите внимание, что бот Lsjbot , управляемый Сверкером Йоханссоном , ответственен за большую часть роста второй и третьей по величине Википедии, кебуанской иШведские Википедии , соответственно, а также быстрый рост Waray Wikipedia . На графиках не показаны википедии кебуано, шведского языка или варайского языка. Рост количества статей в этих трех Википедиях в основном состоит из заглушек, относящихся к живым организмам и географическим регионам.

В настоящее время английская Википедия составляет 11,19% всех томов всех редакций Википедии.

Размер базы данных английской Википедии примерно в 26 раз больше, чем у кебуанской Википедии.

Хронология версий программного обеспечения [ править ]

  • Фаза I, программное обеспечение на основе UseMod Wiki: 10 января 2001 г. - 25 января 2002 г.
  • Фаза II программного обеспечения на основе PHP: 25 января 2002 г. - 20 июля 2002 г.
  • Программное обеспечение на основе PHP фазы III : 20 июля 2002 г. - настоящее время.

В этом наборе данных отмечается тот факт, что эти цифры взяты из нескольких источников данных и разных оценок (подробности см. Ниже), и представлены в виде готовой таблицы для построения графиков. Исходные наборы данных заархивированы: см. Ссылки ниже. Также обратите внимание, что цифры выбираются в случайное время суток.

Размер бумажной копии [ править ]

В начале 2015 года Майкл Мандиберг опубликовал английскую Википедию в 7473 томах по 700 страниц каждый через Lulu , онлайн-платформу для самостоятельной публикации электронных книг и печатных материалов, дистрибьютора и продавца. [12]

На следующем рисунке показано, насколько большой могла бы быть английская Википедия, если бы статьи (без изображений и другого мультимедийного контента) печатались и переплетались в виде книги в формате, аналогичном Encyclopædia Britannica . Предполагается, что каждый том имеет высоту 25 см (9,8 дюйма), толщину 5 см (2,0 дюйма) и содержит 1 600 000 слов или 8 000 000 знаков. Размер этой иллюстрации основан на количестве статей в реальном времени.

Набор данных [ править ]

Пояснения к приведенным ниже данным:

  • приблизительно : эта цифра является приблизительной
  • нижняя граница означает, что страниц было как минимум столько же
  • mpac3.2 : количество статей на главной странице из программного обеспечения Phase III после корректировки количества 29 марта 2015 г.
  • mpac3.1 : количество статей на главной странице из программного обеспечения Phase III с 25 мая 2003 г. по 28 марта 2015 г .: пространство имен статей, без перенаправлений, содержащее хотя бы одну внутреннюю вики-ссылку
  • mpacIII : количество статей на главной странице из программного обеспечения Phase III до 22 мая 2003 г .: пространство имен статей, запятая, без перенаправления
  • mpacII : количество статей на главной странице из программного обеспечения Phase II
  • spII : количество статей на странице статистики из программного обеспечения Phase II
  • all : общее количество всех страниц любого типа
  • commapp : страницы, содержащие запятую, грубый способ поиска "настоящих" статей.
  • Sovnt : "консервативный подсчет", полученный путем удаления количества различных типов не статей из числа запятых страниц.
  • MF: Малькольм Фармер
  • LMS: Ларри Сэнгер
  • WA: Википедия: Объявления

Теперь расширен и аннотирован (в некоторой степени гномичным [ требуется разрешение ] ) исходной информацией. Обратите внимание, что время выборки записывается только для дня, указанного пользователем, записывающим запись, и что нет четкой информации о часовом поясе для этого дня.

Примечание . Текущее количество статей о mpac3.2 в англоязычной Википедии составляет 6 275 161 статью.