Basis Technology Corp. - компания-разработчик программного обеспечения, специализирующаяся на применении методов искусственного интеллекта для понимания документов и неструктурированных данных, написанных на разных языках. Штаб-квартира находится в Кембридже, Массачусетс, и офисы в Сан-Франциско, Вашингтоне, округе Колумбия, Лондоне и Токио.
Тип | Частный |
---|---|
Промышленность | Информационные технологии Доступ к информации Цифровая криминалистика Транслитерация |
Основан | 1995 г. |
Штаб-квартира | Сомервилль, Массачусетс , США |
Обслуживаемая площадь | Америка Европа Азия |
Ключевые люди | Карл Хоффман (генеральный директор и председатель) Стивен Коэн (исполнительный вице-президент / главный операционный директор, соучредитель) Брайан Кэрриер (технический директор) Крис Мак (вице-президент по текстовой аналитике) Крис Био (старший вице-президент по глобальному государственному сектору) Дафна Куо ( старший вице- президент / финансовый директор) Юничи Хасегава ( Вице- президент по Азии) Гил Ирисарри (вице-президент по проектированию) Кфир Бар (главный научный сотрудник) |
Продукты | Розетка KonaSearch Cyber Сортировки Вскрытие Сыщик Kit Highlight |
Веб-сайт | http://www.basistech.com http://www.rosette.com http://www.konasearch.com http://www.autopsy.com http://www.cybertriage.com |
Компания была основана в 1995 году выпускниками Массачусетского технологического института с целью использования методов искусственного интеллекта для понимания множества различных языков, используемых людьми. Его программное обеспечение ориентировано на поиск структуры внутри текста, чтобы алгоритмы могли лучше понимать значение слов. Инструменты идентифицируют различные формы имен и фраз. Имя человека, например, Альберта П. Джонса, может появляться по-разному. В одних текстах его называют Эл Джонс, в других - «Мистер Джонс», а в третьих - «Альберт Пол Джонс». Программное обеспечение Basis Technology может соответствовать всем этим экземплярам.
Их программное обеспечение улучшает инструменты синтаксического анализа, классифицируя роль слов и предоставляя метаданные о роли слов для других алгоритмов. Программное обеспечение от Basis Technology, например, идентифицирует язык входящего потока символов, а затем идентифицирует части каждого предложения, такие как подлежащее или прямой объект. [ необходима цитата ]
Компания наиболее известна своей платформой Rosette Linguistics Platform, которая использует методы обработки естественного языка для улучшения поиска информации , интеллектуального анализа текста , поисковых систем и других приложений. Инструмент используется для создания нормализованных форм текста основными поисковыми системами и переводчиками. [ необходима цитата ] Программное обеспечение Basis Technology также используется судебными аналитиками для поиска в файлах слов, токенов, фраз или чисел, которые могут быть важны для следователей. [ необходима цитата ]
Розетка
Платформа Rosette Linguistics Platform состоит из библиотеки компонентов для поиска и анализа многоязычного текста. Rosette обеспечивает автоматическую идентификацию языка, лингвистический анализ, извлечение сущностей и перевод сущностей из неструктурированного текста. Его можно интегрировать в приложения, чтобы анализировать объемы неструктурированного текста. [ необходима цитата ]
Лингвистическая платформа Rosette состоит из следующих модулей:
- Rosette Language Identifier проверяет структурную и статистическую подпись файла для определения языка. Предварительно сконфигурированное программное обеспечение может распознавать 55 различных языков с 45 различными кодировками.
- Rosette Base Linguistics идентифицирует лемму или основу слова после нахождения токенов. Поиск часто выполняется быстрее и точнее, если слова сгруппированы по основанию. [1]
- Rosette Entity Extractor анализирует исходный текст и определяет вероятную роль, которую слова и фразы играют в документе, - ключевой шаг, который позволяет алгоритмам различать различные значения, которые могут иметь многие слова. Разделение исходного текста на группы слов в соответствии с их ролью с последующей классификацией их вклада в значение часто называется анализом сущности. Гибридный подход Basis смешивает статистическое моделирование с правилами, регулярными выражениями и географическими справочниками, списками специальных слов, которые могут быть настроены на язык и текст, подлежащий анализу. Инструмент предназначен для работы непосредственно с различными алфавитами и несколькими языками, что является преимуществом, поскольку иностранные слова часто транслитерируются разными способами. [2] Считается, что это первый коммерчески доступный инструмент для анализа арабского текста. [3]
- Переводчик имен Rosette транслитерирует нелатинские алфавиты, такие как арабский, в согласованную латинскую форму.
- Rosette Name Indexer позволяет осуществлять простой поиск по вариациям имен либо путем подключения к поисковым системам с открытым исходным кодом, либо в качестве отдельной службы. [4]
- Базовая библиотека Rosette для Unicode упрощает использование текста Unicode. [ требуется разъяснение ]
- Rosette Chat Translator для арабского языка конвертирует слова из арабского алфавита чата в арабский.
Платформа Rosette используется как в правительственных учреждениях США для поддержки переводов, так и в крупных компаниях, занимающихся инфраструктурой Интернета, например в поисковых системах. [5] [6]
Цифровая криминалистика
Basis Technology разрабатывает инструменты цифровой криминалистики с открытым исходным кодом , The Sleuth Kit и Autopsy , чтобы помочь идентифицировать и извлекать улики из устройств хранения данных, таких как жесткие диски или флэш-карты, а также таких устройств, как смартфоны и iPod. Модель лицензирования с открытым исходным кодом позволяет использовать их в качестве основы для более крупных проектов, таких как инструмент на основе Hadoop для массового параллельного криминалистического анализа очень больших коллекций данных.
Набор инструментов цифровой криминалистики используется для анализа файловых систем, новых типов мультимедиа, новых типов файлов и метаданных файловых систем. Инструменты могут искать определенные шаблоны в файлах, что позволяет им нацеливаться на важные файлы или профили использования. Например, он может искать общие файлы с помощью хэш-функций, а также разбирать структуры данных важных файлов журналов операционной системы.
Инструменты предназначены для настройки с помощью открытой архитектуры плагинов. Basis Technology помогает управлять большим и разнообразным сообществом разработчиков, которые используют этот инструмент в исследованиях.
Выделять
Highlight - это программа для транслитерации, предназначенная для помощи лингвистам и аналитикам в стандартизации имен и мест, позволяя им сосредоточиться на «соединении точек». Highlight - это плагин к Microsoft Office Excel и Word. Ключевые особенности включают:
- Поддерживает СЕМЬ языков: арабский , дари , фарси , пушту , китайский , русский и корейский .
- Стандартизация организаций, соответствующих требованиям разведывательного сообщества (IC), для людей и мест
- Запись / просмотр правок для контроля качества и расширенной аналитики
Выделить можно:
- Разрешите разное написание иностранных лиц и мест к стандартным формам.
- Перевести списки имен, телефонные справочники и кадровые базы с иностранных языков на английский.
- Свяжите названия мест, появляющиеся в отчетах, с местоположениями на картах.
- Получите доступ к списку глав государств ЦРУ
- Брошюра для Highlight
Рекомендации
- ^ Erard, Майкл (1 марта 2004). «Перевод в эпоху террора» . Обзор технологий .
- ^ Бойд, Кларк (14 января 2004 г.). «Языковые средства борьбы с террором» . BBC News .
- ^ Вайс, Тодд Р. (10 марта 2003 г.). «Программное обеспечение для языкового анализа помогает поиску террористов в Интернете в США» . Компьютерный мир .
- ^ Профиль в Boston Business Journal
- ^ Холлмер, Марк (21 марта 2003 г.). «Basis Technology уделяет особое внимание государственной безопасности» . Бостонский деловой журнал .
- ^ Бейкер, Лорен (30 ноября 2004 г.). «Поисковая система MSN использует базовую технологию для обработки естественного языка» . Журнал поисковых систем .
Внешние ссылки
- Официальный веб-сайт