Enron Корпус представляет собой базу данных из более чем 600 000 писем генерируется 158 сотрудников [1] в Enron Corporation в годы , предшествовавшие краху компании в декабре 2001 года корпус был создан из Enron почтовых серверов со стороны Федеральной комиссии по регулированию энергетики (FERC ) при его последующем исследовании. [2] Копия базы данных электронной почты была впоследствии куплена за 10 000 долларов Эндрю МакКаллумом , ученым-компьютерщиком из Массачусетского университета в Амхерсте . [3] Он предоставил эту копию исследователям, предоставив массу данных, которые использовались для исследованийсоциальные сети и компьютерное общение .
Создание
В ходе судебного расследования краха Enron процесс обнаружения потребовал сбора и сохранения огромных объемов данных, для чего FERC наняла Aspen Systems (теперь часть Lockheed Martin ). Электронные письма были собраны в штаб-квартире Enron Corporation в Хьюстоне в течение двух недель в мае 2002 года Джо Бартлингом, [4] подрядчиком по поддержке судебных процессов и анализу данных для Aspen. Помимо электронных писем сотрудников Enron, все корпоративные системы баз данных Enron [5], размещенные в базах данных Oracle на серверах Sun Microsystems , были захвачены и сохранены, включая его платформу онлайн- торговли энергией EnronOnline .
После сбора электронные письма Enron обрабатывались и размещались на проприетарных платформах электронного поиска (сначала Concordance, затем iCONECT) для проверки следователями из FERC, Комиссии по торговле товарными фьючерсами и Министерства юстиции . По завершении расследования и после выпуска отчета персонала FERC [6] электронные письма и собранная информация считались общедоступными и использовались в исторических исследованиях и академических целях. Архив электронной почты стал общедоступным и доступным для поиска через Интернет с помощью iCONECT 24/7, но из-за огромного объема электронной почты, превышающего 160 ГБ, его использование было непрактичным. Копии собранных писем и баз данных были доступны на жестких дисках .
Джитеш Шетти и Джафар Адиби из Университета Южной Калифорнии обработали данные в 2004 году и выпустили версию MySQL . [7] В 2010 году EDRM.net опубликовал исправленную и расширенную версию 2 корпуса [8], содержащую более 1,7 миллиона сообщений, которая была сделана доступной на Amazon S3 для облегчения доступа исследователей.
Эксплуатация
Корпус ценится как одна из немногих общедоступных массовых коллекций реальных электронных писем, легко доступных для изучения; такие коллекции обычно связаны многочисленными ограничениями конфиденциальности и юридическими ограничениями, которые затрудняют доступ к ним, например соглашениями о неразглашении и очистке данных . [3] Шетти и Адиби, основываясь на своей версии MySQL, опубликовали анализ ссылок, в которых учётные записи пользователей отправляли сообщения по электронной почте. [9] Лингвистическое сравнение с более поздними корпусами электронной почты показывает изменения в реестре электронной почты на английском языке. Он также используется в качестве тестовых или обучающих данных для исследований в области обработки естественного языка и машинного обучения . [10]
Рекомендации
- ^ Климт, Брайан; Имин Ян (2004). «Корпус Enron: новый набор данных для исследования классификации электронной почты»: 217–226. CiteSeerX 10.1.1.61.1645 . Цитировать журнал требует
|journal=
( помощь ) - ^ « Корпус электронной почты Enron, заархивированный 08.03.2011 на Wayback Machine » Дата обращения 5 марта 2011 г.
- ^ a b Марков, Джон. « Армии дорогих юристов заменены более дешевым программным обеспечением ». New York Times, 5 марта 2011 г. стр. A1.
- ^ Бартлинг, Джо (3 сентября 2015 г.). «Набор данных Enron - откуда он взялся?» . Bartling Forensic and Advisory . Проверено 3 сентября 2015 года . CS1 maint: обескураженный параметр ( ссылка )
- ^ «FERC: Industries - бизнес-процессы и базы данных Enron по торговле энергией» . www.ferc.gov . Проверено 2 сентября 2015 . CS1 maint: обескураженный параметр ( ссылка )
- ^ Отчет персонала FERC - Манипулирование ценами на западных рынках - Краткий обзор результатов (3-26-2003)
- ^ " База данных, обработанная Enron "
- ^ Соха, Джордж. «Доступен набор данных электронной почты EDRM Enron v2» . EDRM.net. Архивировано из оригинала на 2011-09-04 . Проверено 3 сентября 2012 .
- ^ Шетти, Джитеш; Адиби, Джафар (2005). «Обнаружение важных узлов с помощью энтропии графа на примере базы данных электронной почты Enron». Материалы 3-го международного семинара по обнаружению ссылок - LinkKDD '05 . С. 74–81. DOI : 10.1145 / 1134271.1134282 . ISBN 978-1595932150.
- ^ Фригинал, Эрик; Харди, Джек (2013). Корпусная социолингвистика: пособие для студентов . Рутледж. п. 167. ISBN. 978-1-136-29277-4. Проверено 29 мая 2020 . CS1 maint: обескураженный параметр ( ссылка )
Внешние ссылки
- Набор данных Nuix очищен от PII (требуется регистрация)
- Учебное пособие по моделированию данных с помощью Enron Corpus
- Загрузка набора данных электронной почты Enron Шетти и Адиби на S3 (178 МБ)
- Натан Хеллер: Что о нас говорят электронные письма Enron Житель Нью-Йорка, 24 июля 2017 г.
- База данных электронной почты Enron с возможностью поиска (требуется регистрация)
- Открытый тестовый поиск. Доступный для поиска корпус всех вложений электронной почты, используемый для сравнения различных поисковых систем предприятия.