В разделе «Википедия» (ранее известная как « Состояние Википедии» ) обсуждаются некоторые способы количественного измерения различных аспектов проекта Википедии, а также рассматриваются исследования, проведенные в этой области. Это сложный вопрос, поскольку у Википедии могут быть разные цели и разные способы измерения их достижения.
Теория
Необработанные числа
Сложный способ измерить успех - это подсчитать количество статей в Википедии. Эту информацию можно найти на странице статистики . Проблема с простым подсчетом количества статей в том, что такое «статья»? Большой процент наших «статей» может быть очень короткими или даже просто неуловимыми вандализмами. {{ объединение }} коротких статей приводит к меньшему количеству статей лучшего качества без потери содержания. Более точным показателем размера Википедии является количество символов или слов в статьях. В Википедии по состоянию на октябрь 2006 г. было 1,4 миллиона статей средней длиной 3300 символов.
Такое измерение не дает представления о качестве контента. Гораздо сложнее оценить количество хороших, полезных, точных или сбалансированных статей в Википедии. Для этого мы можем принимать во внимание только статьи, которые были так или иначе оценены как « рекомендованные », « хорошие », « A- » или « B-Class ». По состоянию на февраль 2007 г. один из ок. 550 статей в Википедии можно отнести к категории «рекомендуемых» или «хороших».
Один из способов думать о странице статистики - рассматривать ее как меру успеха Википедии как проекта, а не как справочную работу. Поскольку это проект по созданию справочной работы (создание сообщества является побочным эффектом, а не второстепенной целью), оценка успеха проекта будет напрямую связана с оценкой справочной работы.
Актуальность для Интернета
Еще один способ признать успех Википедии - спросить, насколько информация из Википедии актуальна для Всемирной паутины . Сколько посещений в день получает сайт Википедии? Сколько читателей из Google ? Какие страницы имеют высокий рейтинг страницы в Google ?
Показателем популярности Википедии является запись на Alexa, которая показывает рейтинг ее веб-трафика.
Одним из ценных показателей, которые сложно автоматизировать, является рассмотрение Википедии: 10 самых популярных запросов Google . Сколько из предметов, уже представленных в Википедии, достаточно хороши, чтобы получить высокий рейтинг страницы в Google?
Еще одно измерение может включать количество или степень, в которой другие сайты используют контент Википедии . Тот факт, что ряд других сайтов доверяет точности содержания Википедии, является убедительным показателем ее успеха.
Покрытие
Еще одна ось, которую следует учитывать, - это охват Википедии . Охват - это мера того, какая часть нужной нам информации уже есть в Википедии. Насколько хорошо Википедия «покрывает» тот диапазон знаний, который ей необходим?
Один из способов представить себе охват - это представить себе некую «конечную точку» в будущем - Edit Zero - где вся информация, достойная Википедии, находится в системе. В этот момент работа Wikipedian изменится от написания о существующих предметах к добавлению статей о новых предметах по мере появления новых людей, событий, стран, церемоний награждения, видов, альбомов, книг и планет. Мерой текущего охвата Википедии было бы измерение того, сколько статей в этой воображаемой энциклопедии уже существует в той или иной полезной форме.
В большинстве случаев это неизмеримая метрика. Мы не знаем, сколько статей будет в Википедии в Edit Zero, поэтому мы не можем знать, какой процент из них у нас уже есть. Лучшее, на что мы можем надеяться, - это приблизить «реальную» метрику покрытия с помощью специальных измерений.
Некоторые предлагаемые приближения:
- Сколько из статей в Британской энциклопедии 1911 года имеют соответствующие статьи в Википедии? (Совершенно примитивно, но если бы мы вернулись в 1911 г., разве мы не хотели бы иметь хотя бы столько же знаний, сколько EB? Близко к этому?)
- Какой процент поисковых запросов в Википедии оказывается пустым? (Это позволит измерить, какой процент вещей, которые, по мнению читателей Википедии, должны быть в системе, уже есть.)
- Из внутренних ссылок внутри Википедии какой процент нигде? Сколько статей на конечной точке не являются заглушками? (Это позволит измерить, какой процент вещей, которые, по мнению авторов Википедии, должны быть в системе, уже есть.)
Обратите внимание, что модель Edit Zero упрощает ожидание того, что в какой-то момент в будущем количество статей, достойных Википедии, сойдется.
Список проведенных исследований и другие ресурсы
Википедия (в первую очередь) и другие проекты Викимедиа все чаще проводят исследования, связанные с изучением явлений, ответственных за их функционирование. Некоторые из этих исследований были опубликованы в профессиональных академических журналах или представлены на конференциях: см. Википедия: Академические исследования Википедии .
Однако значительное количество других запросов не публикуется в таких журналах, и в результате пространство имен Википедии в Википедии, а также некоторые страницы в нашей мета-вики и, вероятно, по другим проектам, все чаще заполняются такими короткими исследовательскими работами, эссе и т. Д. другие источники. meta: Исследования - это то место, где такие исследования должны координироваться, но на самом деле большинство инструментов и статей можно найти в английской Википедии . Ниже приводится руководство по этим ресурсам.
Категория: Статистика Википедии
Примечание 1: жирным шрифтом выделены наиболее интересные и более или менее актуальные проекты .
Примечание 2: графики, диаграммы и т. Д. Должны быть добавлены в категорию: диаграммы Википедии.
Ключевые слова:
- Редакторы: о редакторах
- Пользователи: о пользователях
- Статьи: о статьях
- Технические: технические аспекты проектов (программное обеспечение, код ...)
Пункт | Описание и комментарии | Последнее обновление от | Временной ряд от | Анализ | Имеет таблицы / списки | Имеет диаграммы | Ключевые слова |
---|---|---|---|---|---|---|---|
Статистика администратора: Пользователь: NoSeptember / Административный проект NoSeptember | Много административной статистики, много подстраниц. | Февраль 2007 г. | К началу, насколько это возможно | да | да | да | Редакторы |
Анонсы | Объявления о 1) Важные вехи, статистика и новости рейтинга Alexa, касающиеся английской Википедии (см. Special: Statistics) 2) Любые новости о Фонде Викимедиа, влияющие на английскую Википедию. | Ежемесячно | С января 2001 г. | Тип пресс-релиза | да | Нет | |
Статьи по удалению статистики | Грубую статистику АдГ см. На подстраницах. Особенно полезно: Википедия: AFD 100 дней : компьютерный сценарий, разработанный Dragons flight, использовался для анализа 100-дневных журналов AFD с 1 июня 2005 г. по 8 сентября 2005 г. для поиска ключевых слов, выделенных жирным шрифтом (например, удалить, сохранить, объединить, перенаправить, убить , очистка и т. д.) в подписанных комментариях. Это позволило сформировать большую статистическую выборку, на основе которой можно было бы идентифицировать важные закономерности в поведении при голосовании и удалении статей. | Январь 2006 г. | 7 февраля | Некоторый | да | Нет | Статьи |
Статей на популяцию | Количество статей в Википедии на каком-либо языке на миллион носителей этого языка. | Сентябрь 2006 г. | Нет, но история показывает серию обновлений с ноября 2005 г. | Нет | да | Нет | Статьи |
Статистика осведомленности | Попытки измерить рост общественной осведомленности о Википедии. В первую очередь касается рейтингов Alexa в Википедии , то есть «насколько популярна Википедия». | Варьируется, но большинство таблиц обновлены по состоянию на 7 января 2007 г .; графики помечены как январь 2006 г. | Зависит от октября 2002 г. и позже | да | да | да | Пользователи |
Браузеры | Какие браузеры используются для доступа к английской Википедии | Сентябрь 2004 г. | История показывает старые данные с апреля 2004 г. | Нет | да | Нет | Технические, Пользователи |
Статистика избранных статей | Некоторая базовая статистика по избранным статьям . | Ежемесячно | Январь 2004 г. | да | да | да | Статьи |
Хорошая статистика статей | Немного базовой статистики по Хорошим статьям . | Февраль 2007 г. | Ноябрь 2005 г. | да | да | да | Статьи |
Что понравилось Google | У Google есть веб-страница под названием Google Zeitgeist, посвященная шаблонам поиска и тенденциям в Интернете в целом. Это может сказать нам в Википедии, что люди ищут. Есть ли у нас контент, который они могут найти? В противном случае для нас было бы хорошо, если бы создание такого списка было приоритетным, особенно для самых последних десяти поисковых запросов. В идеале статистика Google Zeitgeist должна соответствовать статистике ссылок Google на Википедию. См. Также Википедию: статьи, которые занимают первое место по поиску в Google по одному слову, и Википедия: Zeitgeist (данные 2004 г.) | 7 марта 2003 г. | Ноябрь 2001 г. | да | да | Нет | Пользователи, Технические |
Список Википедистов по количеству правок | Название говорит само за себя. | Май 2008 г. | 16 июня 2004 г. | Маленький | да | Нет | Редакторы |
Список Википедистов по количеству последних правок | Название говорит само за себя. | Май 2008 г. | Май 2004 г. | Нет | да | Нет | Редакторы |
Статистика вех | Языки (даты достижения контрольных точек (определяемых как количество статей в данной Википедии) в порядке их достижения) | Февраль 2007 г. | Нет, но история показывает обновления за ноябрь 2004 г. | Нет | да | Нет | Статьи |
Моделирование роста Википедии | На этой странице анализируются данные о количестве статей в Википедии: размер Википедии и делается попытка подогнать простую численную модель прошлого и будущего роста к наблюдаемому размеру количества статей и данным о росте. | Ноябрь 2006 г. | Июнь 2003 г., если хотите покопаться в истории | да | Нет | да | Статьи |
Самые популярные статьи | Это самые популярные статьи из дампа базы данных от 25 января 2006 года. | 25 января 2006 г. | 14 августа 2003 года в истории страниц | да | да | Нет | Статьи |
Наиболее часто редактируемые страницы | Очевидный. | Май 2008 г. | Январь 2004 г. | Нет | да | Нет | Статьи |
Самые популярные страницы Октябрь 2001 г. | Очевидно и не обновлено. См. Популярные страницы . | Октябрь 2001 г. | Нет | да | да | Нет | Статьи |
Самые редактируемые страницы обсуждений | Вот страницы обсуждения с наибольшим количеством изменений по состоянию на 11 ноября 2003 г. | 11 ноября 2003 г. | Февраль 2003 г. | Нет | да | Нет | Статьи |
Рост числа википедистов по языкам. В этой категории много страниц, особенно интересных: Википедия: многоязычная ежемесячная статистика (панорама) и Википедия: многоязычная статистика . | Февраль 2007 г. | Июль 2001 г. | Иногда | да | Нет | Статьи | |
Люди по годам | Использует категории рождения и смерти для подсчета количества статей о людях, родившихся / умерших в заданный год. См. Также Википедию: Люди по годам / Отчеты . | Июль 2005 г. | Сентябрь 2004 г. | Нет | да | Нет | Статьи, Технические |
Бассейны | Были созданы пулы, в которых люди делают предположения о различных будущих вехах для Википедии, причем вехи определяются как «когда Википедия достигнет определенного количества статей». Может быть полезно для анализа прогнозов. | Разные | Разные | N / A | да | Нет | |
Популярные страницы | Список страниц, упорядоченный по количеству просмотров за последний месяц. | Май 2008 г. | Апрель 2004 г. | Нет | да | Нет | Статьи |
Википедия: продуктивность авторов Википедии | Активность редакторов по языкам Википедии | середина 2006 г. | Нет | да | да | Нет | Редакторы |
Изучение Википедии | На этой странице обсуждаются некоторые способы количественного измерения нашего успеха в Википедии. В основном очерк о статистике Википедии. | 2003 г. | Нет | да | Нет | Нет | Все |
Статистика поисковой системы | Он записывает данные о частоте и значимости, с которой Википедия появляется в поисковых системах (Google). | Ноябрь 2005 г. | Нет | да | да | да | Статьи, Технические |
Сравнение размеров | В этой статье сравнивается размер Википедии с другими энциклопедиями и информационными коллекциями. | Февраль 2007 г. | Сентябрь 2002 в истории статьи | да | да | Нет | Статьи, Пользователи |
Размер Википедии | Старая страница статистики. В основном исторический. | Некоторые из них актуальны, некоторые нет. | Проверить историю. | да | да | да | Статьи, Пользователи |
Википедия: Статистика | Главная страница официальной статистики. | В основном в актуальном состоянии. | Декабрь 2001 г., но ничего полезного нет. | да | Нет | Нет | Все |
Проценты заглушки | Когда в начале 2006 года Википедия перевалила за миллион статей, я задал простой вопрос: какая доля из этих статей - незавершенные? | Июль 2005 г. | Нет | да | Нет | да | Статьи |
Wikimania 2006 Wikipedian Survey | Небольшой обзор причин успеха Википедии. Открытые вопросы: что в первую очередь побуждает людей редактировать Википедию? Почему редакторы остаются с проектом? Что взамен дало вам редактирование Википедии? Что-нибудь еще, что вы хотели бы добавить? Сколько тебе лет? Как часто вы редактируете? Каков ваш самый высокий уровень пользователя (анонимный, зарегистрированный пользователь, администратор, бюрократ, управляющий, разработчик, член правления, дурачок)? | Лето 2006 г. | Не повторяется | да | Нет | Нет | Редакторы |
Википедия интервики и тест на специализированные знания | Сколько еще информации может усвоить Википедия? | 22 июля 2006 г. | Не обновляются | да | Нет | Нет | Статьи |
Запрошенные статьи Статистика ботов | На этой странице отображается текущее количество запросов на каждой из запрошенных страниц статей, которые может обработать RABot. Также показано максимальное / минимальное количество запросов, которые наблюдались на каждой странице с момента запуска бота, и количество выполненных запросов, которые RABot удалил. Цифры «за день» отражают количество дней, в течение которых RABot использовался в качестве вспомогательного средства на каждой странице, что может быть меньше общего количества дней, в течение которых скрипт существовал. Первоначальная очистка, включая сотни запросов, удаленных при первом запуске, не включается в эти итоги. | Июнь 2006 г. | Июнь 2005 г. | да | да | Нет | Статьи |
Википедия: Департамент статистики | Этот проект, Департамент статистики, предоставляет участникам, интересующимся статистикой, возможность обсудить, что измерять, когда и как. | неактивный | неактивный | некоторый | нет | нет | |
Слов в статье | Один из показателей на странице «Википедия: сравнение размеров» - это количество слов в статье. Некоторые авторы Википедии ожидают, что скорость создания новых статей в конечном итоге замедлится, и вместо этого будут предприняты усилия по повышению качества существующих статей. На этой странице исследуется пара тенденций, слабо связанных с качеством: количество слов в статье и количество исправлений в статье. | Октябрь 2005 г. | Январь 2001 г. | да | Нет | да | Статьи |
Подчиняется ли трафик Википедии закону Ципфа? | Закон Ципфа | Сентябрь 2006 г. | Нет | да | Нет | да | Пользователи |
Википедия: статистика Xiong | Это предварительный анализ избранных статистических данных английской Википедии за период с января 2002 г. по март 2005 г. Данные исследуются на предмет подтверждения изменений в ценностях и культурном составе Википедического сообщества. | 2005 март | 2002 Январь | да | Нет | да | Статьи, Пользователи, Редакторы |
Википедия: Трафик | Некоторые данные о ежедневной посещаемости англоязычной Википедии на конец 2002 - начало 2003 года в количестве просмотров в день: | 2003 г. | 2002 г. | да | да | да | Пользователи |
Тенденции создания WikiProject | Использование метаданных, связанных с WikiProjects, в качестве окна эволюции Википедии. | Июль 2005 г. | Никто | да | Нет | да | Редакторы, Статьи |
Категория: Ресурсы Википедии для исследователей
Описание категории:
Эта категория предназначена для включения ресурсов для исследователей в двух направлениях:
- . Использование Википедии в качестве инструмента исследования (см. Википедия: исследования с помощью Википедии )
- . О Википедии как предмете исследования (см. Мета: Исследование )
Нас интересует вторая подкатегория, в которой на удивление очень мало страниц.
Пункт | Описание и комментарии |
---|---|
Википедия: WikiProject Wikidemia | Этот проект, Wikidemia, предоставляет пространство для статей, связанных с академическими исследованиями Википедии. Полуактивный. Википедия: Похоже, Википедиология - это забытая неактивная версия. |
Википедия: Академические исследования Википедии | Неполный список академических презентаций и статей в Википедии. |
Википедия: опрос пользователей | Забытое предложение, см. Мета: Общий опрос пользователей для более продвинутого, к сожалению, также неактивного. Смотрите также Википедия: Университет Вюрцбурга обследования 2005 . |
Википедия: исследования с помощью Википедии | Хотя это ресурс для первой категории, это хорошая статья и хорошее введение в Википедию с более академической точки зрения. |
Категория: Инструменты Википедии
Следующие инструменты полезны для исследования / анализа статистики Википедии и связанных проектов.
Пункт | Описание и комментарии | Ключевые слова |
---|---|---|
Запрос API | Этот API позволяет вашим приложениям запрашивать данные непосредственно с серверов MediaWiki. Можно получить одну или несколько частей информации о сайте и / или заданном списке страниц. Информация может быть возвращена либо на машине (xml, json, php, yaml, wddx), либо в удобочитаемом формате. В одном запросе может быть запрошено более одной части информации. | |
Инструмент IBM History Flow | Хороший инструмент 2004 года ( скачать ), который привел к созданию этой статьи , к сожалению, не существует (известного мне) «как» его использовать, и он был разработан для MediaWiki до 1.5 (на основе SQL), что означает, что он может быть в основном бесполезный сейчас. Если кто-то может обновить и создать разумное «как это использовать», пожалуйста, сделайте это. | |
WhodunitQuery | Приложение для Windows, разработанное для англоязычной Википедии. С его помощью пользователь может загрузить любую статью из Википедии, выбрать определенную фразу и одним щелчком мыши выполнить поиск в истории страницы, чтобы определить, кто добавил фразу. Может быть весьма полезно для некоторого контент-анализа. | |
Изменить счетчики | Editcounters. Самый простой способ получить полезные статистические данные на этой стороне попытки иметь дело с дампами базы данных. Особенно полезно: Счетчик вкладов в статью TDS : список авторов статьи по количеству авторов (объединяет анонсы вместе, используйте это, чтобы получить список анонсов) ; Статистика пользователя Interiot Tool 3 и Tool 1 (разная структура - разная статистика доступна легче в каждом из них). Инструмент Flcelloguy - скоро протестирую, выглядит очень многообещающе. Список статей, созданных пользователем . | |
Скрипты | Я считаю, что следующие сценарии полезны для сбора данных: History and Edit Summary Use Analysis (полезно, но время от времени может вызывать сбой браузера, а описание ('кодовая книга ...') некоторых статистических данных, которые он вычисляет, не очень ясное), New журнал страниц и счетчики редактирования журнала новых пользователей (еще не пробовали) | |
WikiXRay на мета | Основная цель этого проекта - разработать надежный и расширяемый программный инструмент для углубленного количественного анализа всего проекта Википедии. Выглядит многообещающе, но на данный момент не очень удобен для пользователя (уровень pre-alpha)). | |
WikiEvidens | WikiEvidens - это инструмент статистики и визуализации для вики. |
Категория: Очерки Википедии
Смотрите также
- Википедия: этическое исследование Википедии
- Википедия: Статистика
- Википедия: WikiProject Wikidemia
- Википедия: Академические исследования Википедии
- WP: ORCID - Использование вашего идентификатора ORCID на странице пользователя в Википедии.
- мета: Исследования