Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Облако слов foundation-l , созданное с помощью полных архивов списков, сжатых gzip (без дублирующих писем из архивов, всех заголовков и цитируемого текста в теле), с использованием IBM Word Cloud Generator build 32. [1]
Облако тегов с терминами, относящимися к Web 2.0

Облако тегов ( слово облако или Wordle или взвешенный список в визуальном дизайне) является новшеством визуальное представление текстовых данных, как правило , используется для описания ключевых слов метаданных (теги) на веб - сайтах, или визуализировать в свободной форме. Теги обычно представляют собой отдельные слова, и важность каждого тега отображается размером шрифта или цветом. [2] Этот формат полезен для быстрого восприятия наиболее известных терминов и определения их относительной значимости. Более крупный термин означает больший вес. [3] При использовании в качестве средства навигации по сайту, термины имеют гиперссылки на элементы, связанные с тегом.

История [ править ]

Хайди Пэрис: первоначальный вариант обложки немецкого издания "Тысячи плато" Жиля Делёза и Феликса Гваттари от 14 ноября 1991 года.

На языке визуального дизайна облако тегов (или облако слов) - это один из видов «взвешенного списка», который обычно используется на географических картах для представления относительного размера городов с точки зрения относительного размера шрифта. Одним из первых напечатанных примеров взвешенного списка английских ключевых слов были «файлы подсознания» в книге Дугласа Купленда « Microserfs» (1995). Немецкое появление произошло в 1992 году. [4]

Специфическая визуальная форма и общее использование термина «облако тегов» приобрели известность в первом десятилетии 21-го века как широко распространенная особенность ранних веб- сайтов и блогов Web 2.0 , используемая в основном для визуализации частотного распределения метаданных ключевых слов, описывающих веб-сайт. контент, а также в качестве средства навигации.

Первые облака тегов на популярном веб-сайте были на сайте для обмена фотографиями Flickr , созданном соучредителем Flickr и дизайнером взаимодействия Стюартом Баттерфилдом в 2004 году. Эта реализация была основана на Джиме Фланагане Search Referral Zeitgeist [5], визуализации Интернета. рефереры сайта. Примерно в то же время облака тегов были популяризированы, в частности, Del.icio.us и Technorati .

Перенасыщенность метода облака тегов и неоднозначность его полезности в качестве инструмента веб-навигации привели к заметному снижению его использования среди этих первых последователей. [6] Flickr позже «извинится» перед сообществом веб-разработчиков в своей речи, состоящей из пяти слов, в связи с присуждением премии Webby «Best Practices» 2006 года , где они просто заявят «извините за облака тегов». [7]

Второе поколение разработки программного обеспечения обнаружило более широкое разнообразие применений облаков тегов в качестве основного метода визуализации текстовых данных. В этом контексте было предложено несколько расширений облаков тегов.

Типы [ править ]

Облако данных, показывающее население каждой из стран мира. Создано в R с помощью пакета wordcloud . Данные по населению страны . Обратите внимание, что пропорциональные размеры Китая и Индии разделились пополам.

В социальном программном обеспечении существует три основных типа приложений облака тегов , которые различаются по значению, а не по внешнему виду. В первом типе есть тег для частоты каждого элемента, тогда как во втором типе есть глобальные облака тегов, в которых частоты агрегированы по всем элементам и пользователям. В третьем типе облако содержит категории, размер которых указывает на количество подкатегорий.

Частота [ править ]

В первом типе размер представляет количество раз, когда тег был применен к одному элементу. [8] Это полезно как средство отображения метаданных об элементе, за который демократическим путем «проголосовали» и где точные результаты нежелательны.

Во втором, более часто используемом типе размер [ citation required ] представляет количество элементов, к которым был применен тег, как представление популярности каждого тега .

Значение [ править ]

Вместо частоты размер можно использовать для представления значимости слов и их совпадения по сравнению с фоновым корпусом (например, по сравнению со всем текстом в Википедии). [9] Этот подход нельзя использовать отдельно, он основан на сравнении частот документов с ожидаемыми распределениями.

Категоризация [ править ]

В третьем типе теги используются как метод категоризации для элементов контента. Теги представлены в облаке, где более крупные теги представляют количество элементов контента в этой категории.

Существует несколько подходов к созданию кластеров тегов вместо облаков тегов, например, путем применения одновременного появления тегов в документах. [10]

В более общем плане для отображения данных без тегов [11] можно использовать тот же визуальный прием, что и в облаке слов или данных.

Термин « облако ключевых слов» иногда используется в качестве термина поискового маркетинга (SEM), который относится к группе ключевых слов, имеющих отношение к определенному веб-сайту. В последние годы облака тегов приобрели популярность из-за их роли в поисковой оптимизации веб-страниц, а также в поддержке пользователя в эффективной навигации по контенту в информационной системе. [12] Облака тегов как инструмент навигации делают ресурсы веб-сайта более связанными [13] при сканировании пауком поисковой системы, что может повысить рейтинг сайта в поисковых системах.. С точки зрения пользовательского интерфейса они часто используются для обобщения результатов поиска, чтобы помочь пользователю быстрее найти контент в конкретной информационной системе. [14]

Внешний вид [ править ]

Облака тегов обычно представлены с помощью встроенных HTML- элементов. Теги могут располагаться в алфавитном порядке, в произвольном порядке, их можно отсортировать по весу и так далее. Иногда в дополнение к размеру шрифта манипулируют и другими визуальными свойствами, такими как цвет, интенсивность или насыщенность шрифта. [15] Самым популярным является прямоугольное расположение тегов с алфавитной сортировкой в ​​последовательной построчной компоновке. Решение об оптимальном макете должно определяться ожидаемыми целями пользователя. [15] Некоторые предпочитают группировать теги семантически так, чтобы похожие теги появлялись рядом друг с другом [16] [17] [18], или используют методы встраивания , такие как tSNE, для позиционирования слов.[9] Края могут быть добавлены, чтобы подчеркнуть совместное появление тегов и визуализировать взаимодействия. [9] Эвристика может использоваться для уменьшения размера облака тегов независимо от того, является ли цель кластеризацией тегов. [17]

Визуальная таксономия облака тегов определяется рядом атрибутов: правилом упорядочения тегов (например, в алфавитном порядке, по важности, по контексту, случайным образом, в порядке визуального качества), формой всего облака (например, прямоугольник, круг, заданные границы карты), форма границ тега (прямоугольник или тело символа), вращение тега (нет, свободно, ограничено), вертикальное выравнивание тега (придерживаясь типографских базовых линий, бесплатно). Облако тегов в Интернете должно решать проблемы моделирования и управления эстетикой, построения двумерного макета тегов, и все это должно выполняться в короткие сроки на изменчивой платформе браузера. Облака тегов для использования в Интернете должны быть в формате HTML., а не графика, чтобы сделать их удобочитаемыми для роботов, они должны быть созданы на стороне клиента с использованием шрифтов, доступных в браузере, и должны помещаться в прямоугольную рамку. [19]

Облака данных [ править ]

Облако данных, показывающее движение цен акций. Цвет указывает на положительное или отрицательное изменение, размер шрифта указывает на процентное изменение.

А данные облако или облако данные являются отображением данных , который использует размер и / или цвет , чтобы указать числовые значения шрифта. [20] Это похоже на облако тегов [21], но вместо количества слов отображает такие данные, как население или цены на фондовом рынке .

Текстовые облака [ править ]

Текстовое облако, сравнивающее Послание президента США Буша о положении страны в 2002 году и Послание президента Обамы в 2011 году. [22]
Облако текста малаялам со словами, связанными с наукой

Текст облака или слово облако является визуализация частоты слова в данном тексте как взвешенная списка. [23] Техника недавно [ когда? ] широко использовался для визуализации актуального содержания политических выступлений. [22] [24]

Совместите облака [ править ]

Расширяя принципы текстового облака, совмещенное облако обеспечивает более сфокусированное представление документа или корпуса . Вместо того, чтобы резюмировать весь документ, облако словосочетаний исследует использование определенного слова. Полученное облако содержит слова, которые часто используются вместе с поисковым словом. Эти коллокации отформатированы так, чтобы отображать частоту (как размер), а также силу словосочетания (как яркость). Это обеспечивает интерактивные способы просмотра и изучения языка. [25]

Восприятие [ править ]

Облака тегов были предметом изучения в нескольких исследованиях удобства использования. Следующее резюме основано на обзоре результатов исследования, сделанном Ломанн и др .: [15]

  • Размер тега: большие теги привлекают больше внимания пользователя, чем маленькие теги (эффект зависит от дополнительных свойств, например, количества символов, положения, соседних тегов).
  • Сканирование: пользователи сканируют, а не читают облака тегов.
  • Центрирование: теги в середине облака привлекают больше внимания пользователя, чем теги рядом с границами (эффект зависит от макета ).
  • Позиция: левый верхний квадрант привлекает больше внимания пользователей, чем другие (западные читательские привычки).
  • Исследование: облака тегов обеспечивают неоптимальную поддержку при поиске определенных тегов (если они не имеют очень большого размера шрифта).

Феликс и др. [26] сравнили, чем производительность чтения человеком отличается от традиционных облаков тегов, которые сопоставляют числовые значения с размером шрифта, и альтернативных дизайнов, которые используют, например, цвет или дополнительные формы, такие как круг и полосы. Они также сравнили, как различное расположение слов влияет на производительность.

  • Использование дополнительной полосы или кружка вместо размера шрифта повышает точность чтения числового значения
  • Однако пользователи могут быстрее находить конкретное слово, если не используется дополнительная отметка.
  • Производительность зависит от задачи, простые задачи, такие как поиск слова, сильно зависят от выбора дизайна, однако влияние на такие задачи, как определение темы облака тегов, намного меньше.

Создание [ править ]

Wordle составлен из 1000 самых важных статей Википедии, отсортированных по количеству просмотров. [27] Доступно в галерее Wordle. [28]

В принципе, размер шрифта тега в облаке тегов определяется его распространением. Для облака слов таких категорий, как веб-журналы, частота, например, соответствует количеству записей веб-журнала, присвоенных категории. Для меньших частот можно напрямую указать размер шрифта, от единицы до любого максимального размера шрифта. Для больших значений следует выполнить масштабирование. При линейной нормализации вес дескриптора отображается в масштаб от 1 до f , где и определяют диапазон доступных весов.

для ; еще
  • : display fontsize
  • : Макс. размер шрифта
  • : считать
  • : мин. считать
  • : Макс. считать

Поскольку число индексированных элементов в дескрипторе обычно распределены по степенному закону , [29] для больших диапазонов ценностей, логарифмическое представление имеет смысл. [30]

Реализации облаков тегов также включают синтаксический анализ текста и фильтрацию бесполезных тегов, таких как общие слова, числа и знаки препинания.

Существуют также веб-сайты, создающие облака тегов с искусственным или случайным весом для рекламы или для юмористических результатов.

См. Также [ править ]

  • Соответствие
  • Фольксономия
  • Визуализация информации
  • Ключевые слова
  • tf-idf

Ссылки [ править ]

  1. ^ Генератор облака слов (архив)
  2. ^ Мартин Halvey и Марк Т. Кина, Оценка меченых презентационные техники Архивные 2017-05-14 в Wayback Machine , стендовый на WWW 2007, 2007
  3. ^ Helic, Денис; Траттнер, Кристоф; Штромайер, Маркус; Эндрюс, Кит (2011). «Полезны ли облака тегов для навигации? Теоретико-сетевой анализ» . Международный журнал социальных вычислений и киберфизических систем . 1 (1): 33. doi : 10.1504 / IAOCPS.2011.043603 . ISSN  2040-0721 .
  4. Жиль Делёз, Феликс Гваттари (1992). Плато Таусенд. Kapitalismus und Schizophrenie . ISBN 978-3-88396-094-4.
  5. ^ Копия «Search Referral Zeitgeis t»Джима Фланаганабыла доступна на сайте archive.org, но с тех пор была заблокирована. В комментариях к записи в блоге, заархивированной 26 апреля 2006 г.на Wayback Machine , пользователь, идентифицированный как Стив Минутилло, приписал идею Джиму Фланагану, заявив, что на сайте Фланагана были такие дисплеи в 2002 году.
  6. ^ "Облака тегов RIP?" . Readwriteweb.com. 2011-03-30. Архивировано из оригинала на 2012-03-19.
  7. ^ «Добро пожаловать на Webby Awards» . Webbyawards.com. 2011-10-28. Архивировано 3 июля 2006 года . Проверено 27 июля 2013 .
  8. ^ Bielenberg, К. и Захер, М., группы в Social Software: Использование Tagging для интеграции Individual контексты социальной навигации Архивированные 2007-10-08 в Wayback Machine , магистерской диссертациипредставленные в программе Digital Media, Universität Bremen (2006 )
  9. ^ a b c Шуберт, Эрих; Шпиц, Андреас; Вейлер, Майкл; Гейсс, Йоханна; Герц, Майкл (2017-08-11). «Семантические облака слов с фоновой нормализацией корпуса и t-распределенным стохастическим встраиванием соседей». arXiv : 1708.03569 [ cs.IR ].
  10. ^ Knautz, К., Soubusta, S., & Шток, WG (2010). Кластеры тегов как интерфейсы поиска информации. Архивировано 17 июля 2011 г. в Wayback Machine . Материалы 43-й ежегодной Гавайской международной конференции по системным наукам (HICSS-43), 5–8 января 2010 г. IEEE Computer Society Press (10 страниц).
  11. ^ Aouiche, Камель; Лемир, Даниэль; Годин, Роберт (2007). "Совместная OLAP с облаками тегов: формализм OLAP Web 2.0 и экспериментальная оценка". arXiv : 0710.2156 [ cs.DB ].
  12. ^ Helic, D .; Trattner, C .; Strohmaier, M .; Эндрюс, К. (2011). «Полезны ли облака тегов для навигации? Теоретико-сетевой анализ» (PDF) . Международный журнал социальных вычислений и киберфизических систем . 1 (1): 33–55. DOI : 10.1504 / IJSCCPS.2011.043603 .
  13. ^ Trattner, C .: Связывание связанного контента в веб-энциклопедиях с облаками тегов поисковых запросов. Архивировано 15 июня 2012 г.на Wayback Machine . Международный журнал IADIS в WWW / Интернете, том 9, выпуск 2, 2011 г.
  14. ^ Траттер, К., Лин, Ю., Парра, Д., Юэ, З., Брусиловский, П .: Оценка доступа к информации на основе тегов в коллекциях изображений, заархивированных 15 июня 2012 г.на Wayback Machine . В материалах 23-й конференции ACM по гипертексту и социальным медиа (HT 2012). ACM, Нью-Йорк, Нью-Йорк, США, 2012 г.
  15. ^ a b c Lohmann, S., Ziegler, J., Tetzlaff, L. Сравнение макетов облака тегов: производительность, связанная с задачами, и визуальное исследование. Архивировано 2007-10-07 в Wayback Machine , T. Gross et al. (Ред.): INTERACT 2009, Часть I, LNCS 5726, стр. 392–404, 2009.
  16. Hassan-Montero, Y., Herrero-Solana, V. Улучшение облаков тегов как интерфейсов поиска визуальной информации. Архивировано 13 августа2006 г. в Wayback Machine . InSciT 2006: Мерида, Испания. 25–28 октября 2006 г.
  17. ^ a b Касер, Оуэн; Лемир, Даниэль (2007). «Отрисовка облака тегов: алгоритмы облачной визуализации». arXiv : cs / 0703109 .
  18. Salonen, J. 2007. Самоорганизующиеся облака тегов на основе карт - Создание пространственно значимых представлений данных тегов. Архивировано 24декабря 2008 г.на Wayback Machine . Материалы 1-й конференции OPAALS, 26–27 ноября 2007 г., Рим, Италия.
  19. ^ Маршалковский, Дж., Моква, Д., Дроздовски, М., Русецкий, Л., Нарожный, Х. Быстрые алгоритмы для онлайн-построения облаков веб-тегов , Инженерные приложения искусственного интеллекта 64, стр. 378–390, 2017.
  20. ^ Апель, Уоррен. «Визуализация и комментарии ManyEyes: облако данных о населении мира » . Архивировано 29 октября 2007 года . Проверено 26 августа 2007 .
  21. ^ Ваттенберг, Мартин. «Визуализация ManyEyes: рекламное облако » . Архивировано 14 февраля 2008 года . Проверено 12 марта 2007 .
  22. ^ a b Стейнбок, Даниэль. «Визуализация TagCrowd: Состояние Союза» . Архивировано 11 апреля 2011 года . Проверено 5 марта 2011 .
  23. ^ Lamantia, Джо. "Текстовые облака: новая форма облака тегов?" . [https: 655 / http://www.joelamantia.com/blog/archives/tag_clouds/text_clouds_a_new_form_of_tag_cloud.html архивации] Проверить значение ( помощь ) от оригинала на 2008-09-10 . Проверено 11 сентября 2008 .|archive-url=
  24. Мехта, Чираг. "Облако тегов речей президента США" . Архивировано 19 октября 2007 года . Проверено 11 сентября 2008 .
  25. ^ "Сложить облако" . Проверено 5 декабря 2008 .
  26. Феликс, Кристиан; Франконери, Стивен; Бертини, Энрико (январь 2018 г.). «Разбирая облака слов на части: эмпирическое исследование пространства дизайна для сводок ключевых слов». IEEE Transactions по визуализации и компьютерной графике . 24 (1): 657–666. DOI : 10.1109 / TVCG.2017.2746018 . PMID 28866593 . S2CID 6570943 .  
  27. ^ «Ежемесячные обращения к странице wiki для en.wikipedia» . Wikistics.falsikon.de. 31 августа 2009 г. Архивировано из оригинала на 2013-04-19 . Проверено 27 июля 2013 .
  28. ^ "WikipediaTop1000VitalArticleHits" . Wordle. Архивировано 27 сентября 2013 года . Проверено 27 июля 2013 .
  29. Перейти ↑ Voss, Jakob (2006). «Коллективный тезаурус, помечающий путь Википедии». arXiv : cs / 0604036 .
  30. ^ "Kentbyte: алгоритм распределения шрифтов облака тегов . Июнь 2005" . Echochamberproject.com. Архивировано 2 октября 2013 года . Проверено 27 июля 2013 .

Внешние ссылки [ править ]

  • Общие сведения об облаках тегов - анализ информационного дизайна облаков тегов
  • Советы по созданию облаков тегов - руководство по разработке программного обеспечения от O'Reilly's ONLamp