|
|
|
НОВОСТИ
03.02.2010 Новости компании "Эр-Си-О"Основная форма работы компании - это выполнение заказных проектных решений с использованием готовых программных компонент собственной разработки. Ключевые из этих компонент предлагаются нами также в виде "коробочных" продуктов для разработки заказчиками своих собственных приложений. Они необходимы для создания современных информационно-поисковых и информационно-аналитических систем, эффективно работающих с электронными документами и базами данных на русском и английском языках.
Эволюция используемых нами подходов к обработке текстовой информации, достаточно полно отраженная в публикациях за последние 15 лет, привела к развитию сложных лингвистических алгоритмов, которые позволяют проводить синтаксический анализ и семантическую интерпретацию текста на естественном языке, целенаправленно извлекать информацию и структурировать ее в соответствии с заданной моделью предметной области.
Исследования в области математической обработки текстовых данных привели к разработке множества эффективных программных решений для поиска, сравнения, классификации, идентификации текстов и объектов в базах данных.
Специалисты компании ЭР СИ О имеют большой практический опыт разработки решений для государственных и коммерческих структур в различных предметных областях.
Вот некоторые области применения наших программ:
• мониторинг деятельности хозяйствующих субъектов и конкурентная разведка;
• сбор фактографических данных;
• поиск криминальных связей для служб безопасности;
• анализ освещения и оценки общественно-политических событий в СМИ;
• анализ отзывов (мнений) о людях, компаниях и товарах;
• автоматическое рубрицирование, новостная агрегация;
• построение тезаурусов для ИПС (юриспруденция, нанотехнологии)
• выявление тем исследований и экспертов в научных сообществах;
• ввод информации в БД из текстов досье на персоны и организации;
• расстановка ссылок в текстах нормативно-правовых документов;
• вымарывание персональных данных из судебных решений;
• обработка запросов к поисковым машинам на естественном языке;
• поиск похожих фрагментов текста, цитирований и заимствований;
• нормализация и идентификация данных о персонах и организациях в БД;
Технологии ЭР СИ О прошли успешную апробацию на обработке текстов самых различных стилей: СМИ, нормативно-правовые документы, научно-технические отчеты, досье, сводки, социальные сети Интернета, web-сайты, записи баз данных (анкеты, реестры физических и юридических лиц, сообщения о банковских операциях и др.).
Вот типовые задачи, которые мы эффективно решаем с помощью компьютерной обработки текста:
• для текстов СМИ: выявление упоминаний персон и организаций, извлечение фактов заданного типа и их участников (биографические данные, связи, владение собственностью, экономические показатели, что он говорит и что о нем говорят), мониторинг упоминаний о событиях заданного типа (кадровые перестановки, купля-продажа, договора, судебные разбирательства, расходы бюджета, законотворчество), новостная агрегация (группировка текстов в сюжеты), автоматическое рубрицирование;
• для научно-технических отчетов и статей: построение тезаурусов понятий и связей предметной области, выявления направлений проводимых исследований и достигнутых результатов, специалистов в соответствующих областях, распознавание ссылок на публикации и построение индексов цитирования, выявление плагиата и повторений научных исследований;
• для социальных сетей Интернета: анализ мнений, предпочтений и интересов (какими эпитетами награждают губернатора Чукотки в блогах ЖЖ? Чем интересуются члены автомобильного сообщества ЖЖ? Что любят и покупают те, кто упоминает слово "пиво" в Одноклассниках?);
• для нормативно-правовых документов: идентификация в тексте ссылок на документы, поиск похожих судебных решений, вымарывание персональных данных, автоматическое рубрицирование;
• для досье, биографий, технических описаний, "карточек" проектов и прочих документов специального вида: извлечение фактографических данных, стандартизация и ввод в базу данных;
• для запросов к поисковым машинам: разбор запроса на естественном языке и трансляция в релевантные запросы на языке поисковика, расширение слов запроса всеми грамматическими формами;
• для записей в базе данных: стандартизация записей ФИО и наименований организаций, извлечение реквизитов из несоответствующих им полей, идентификация записей о физических и юридических лицах с опорной базой, формирование единого реестра физических и юридических лиц из различных источников, нормализация российских почтовых адресов и восстановление пропущенных компонент адреса на основе классификатора КЛАДР.
|
|
|