ПерваяНовостиО технологииOn-line переводчикСсылки


Ukraine Context Optimizer.Технологии информационного поиска


НОВОСТИ

03.02.2010
Поиск похожих фрагментов текста.


Поиск похожих фрагментов текста
Данный вид поиска позволяет для заданного текста найти другие тексты, содержащие фрагменты, похожие на какие-либо фрагменты заданного текста. Оригинальный алгоритм поиска устойчив к изменениям текста и способен найти не точное совпадение фрагментов, что позволяет выявить заимствование или плагиат даже в том случае, если скопированный фрагмент был подвергнут редакторской правке. Так, например, после совпадения цепочки из восьми или более слов следующие восемь или менее слов могут отличаться, а затем опять следует совпадение цепочки из восьми или более слов и т.д. В итоге, к примеру, можно задать следующие условия поиска: найти все документы, содержащие похожие фрагменты длиной не менее 30 слов, с возможными расхождениями в этих фрагментах не более десяти слов, и с общим количеством слов в совпавших фрагментах не менее 30% от количества слов в заданном тексте.
Существует режим поиска всех совпадающих фрагментов в одной коллекции документов, что позволяет, к примеру, выявить все повторения и заимствования в корпусе научно-технических отчетов или заявок на финансирование исследовательских работ, где исполнители часто из года в год повторяют старое содержание под новым названием.
Поиск похожих фрагментов реализован нами под СУБД Oracle и эффективно работает для относительно небольших коллекций документов, порядка нескольких гигабайт чистого текста. Для быстрого поиска используется специальный индекс документов, скорость построения которого составляет порядка суток на гигабайт текста, в зависимости от требуемых настроек последующего поиска - чем выше степень допустимых различий между искомыми фрагментами, тем больше время индексации и время поиска.




Все новости

Новости компании "Эр-Си-О" [03.02.2010]

Разбор частично-структурированного текста. [03.02.2010]

Очистка информации в базах данных. [03.02.2010]

Поиск похожих фрагментов текста. [03.02.2010]

Извлечение знаний из текста и их обработка: состояние и перспективы. [03.02.2010]

"Обработка естественно-языковых запросов к поисковой машине на основе их лингвистического анализа". [02.06.2009]

Компания RCO анонсирует расширения для продукта IBM OmniFind. [01.10.2008]

Появилось описание библиотеки семантических шаблонов [24.09.2008]

Статья "Практические применения анализа текстовой информации" директора компании "Текон" Коржова Е.И. опубликованная в журнале "Копоративные системы" №4/2008г. [24.09.2008]

Вышла новая версия пакета лингвистического анализа русского текста RCO Fact Extractor SDK 2.0 [28.07.2008]

Статья директора компании «Текон» Евгения Коржова «UOSES: «правовой» доступ к информации в корпорации» в журнале «Директор Информационной службы» №3/2008 г. [24.06.2008]

Статья "Лингвистика для бизнеса: поиск общего языка" директора компании "Текон" Коржова Е.И. "Корпоративная информация: особенности поиска" опубликованная в журнале "Копоративные системы" №3/2008г. [13.06.2008]

Участие в конференции Диалог [12.06.2008]

Технологии RCO на Украине [25.04.2008]

Статья диретора компании "Текон" Коржова Е.И. "Корпоративная информация: особенности поиска" опубликованная в журнале "Копоративные системы" №2/2008г. [10.04.2008]

Статья "Украинизация лингвистических возможностей ORACLE" [10.04.2008]

Автоматизация государственного языка [12.03.2008]

Решения RCO внедрены в новостной агрегатор CNews Дайджест. [31.01.2008]

RCO Fact Extractor SDK - новый пакет для анализа текста [30.10.2007]

Технологии RCO в новой системе для поиска данных в корпоративной информационной среде - ROSES [16.10.2007]

ФОРС выводит на рынок РФ поисковую систему для корпоративных сетей [15.10.2007]

Компания "Текон" зарегистрировала торговый знак "UCO". [17.08.2007]

Участие в конференции Диалог'2007 "Компьютерная лингвистика и интеллектуальные технологии" [06.06.2007]

Russian Context Optimizer - RCO. [25.04.2007]

Открыт английский сайт RCO. [19.03.2007]

RCO представляет последние разработки на CEBIT'2007 [14.03.2007]

RCO Fact Extractor "завалил" серебряного ЗУБРа! [02.03.2007]

Новые версии RCO Semantic Entity Extractor SDK и RCO Fact Extractor SDK. [19.10.2006]

Статья "Технологии извлечения знаний из текста". [18.09.2006]

Статья "Мост между мирами" [09.08.2006]

Выход очередной версии UCO для Оракл (Oracle). [21.04.2006]

Обновлен ассортимент программных продуктов RCO и политика их лицензирования [05.12.2005]

RCO for BackOffice дополнен инструментарием для разработчиков информационно-поисковых систем [28.09.2005]

Для ТНК-ВР создан и запущен в эксплуатацию новый двуязычный интранет-сайт проекта по реинжинирингу системы снабжения (SPR). [15.08.2005]

Участие наших партнеров Гарант-Парк_интернет в Международной конференции Диалог [16.06.2005]

GTRF.ru: записи общей продолжительностью 15 лет [05.05.2005]

Группа ИСТ ЛАЙН использует интранет-технологии для формирования корпоративной культуры [05.05.2005]

На сайте наших партнеров "Гарант-Парк-Интернет" обновлен раздел "Технологии" [05.04.2005]

Доклад "Текон" - Технологии анализа и поиска текстовой информации. Ukraine Context Optimizer для платформы Windows & Linux. [22.02.2005]

Участие "Текон" в семинаре для разработчиков программного обеспечения на базе технологий Oracle. [15.02.2005]

19-20 января 2005 специалисты компании "Гарант-Парк-Интернет" приняли участие в 3-ей конференции "Конкурентная разведка в металлургии", проходившей в Москве в гостинице «Балчуг Кемпински». [28.01.2005]

Программа для поиска фактов в тексте RCO Fact Extractor 1.0 [12.01.2005]

Новый генератор отчетов для корпоративных хранилищ текстовой информации масштаба предприятия. [16.11.2004]

Веб-сервис в приложениях Microsoft Office 2003. [09.11.2004]

Online-заказы на продукты RCO. [04.11.2004]

Открытие первого этапа проекта. [27.10.2004]

“Гарант-Парк-Интернет” приняла участие в семинаре по оценке методов информационного поиска РОМИП'2004 [07.10.2004]

Aladdin и «Гарант-Парк-Интернет»: новое партнерство, новые перспективы [04.10.2004]

Oracle буде «розмовляти» українською. [20.09.2004]

Программный продукт RCO for Backoffice исправляет ошибки Microsoft [17.09.2004]

Библиотека анализа текста RCO Semantic Network 3.0 – инструмент для компьютерной разведки [17.09.2004]

Гарант-Парк-Интернет и TECON продвигают поисковые технологии RCO® в Украине. [12.09.2004]







Авторское право © Компания Текон & Студия РОМАрт, 2004-.
UCO™ является торговой маркой компаний Текон и "ЭР СИ О".
RCO™ является торговой маркой компании "ЭР СИ О".
Все права защищены.


Яндекс цитирования