ПерваяНовостиО технологииOn-line переводчикСсылки


Ukraine Context Optimizer.Технологии информационного поиска


НОВОСТИ

03.02.2010
Очистка информации в базах данных.

Очистка информации в базах данных
Задача обеспечения качества информации в базе данных является типовой для больших коммерческих компаний, а также для государственных и негосударственных учреждений, занимающихся проблемами безопасности, правоохранной деятельностью, ведущих различного рода расследования. По факту, все крупные БД в России с информацией о физ- и юрлицах содержат большое (порядка нескольких процентов) количество ошибок, неоднозначностей, пропусков данных, а также несогласованностей по форме представления данных даже внутри одной и той же базы.
Поддержание базы данных большого объема требует включения в состав ETL-процессов (Extraction, Transformation, Loading) автоматизированного контроля за качеством данных, в том числе процедур автоматической проверки, исправления ошибок и стандартизации представления данных, называемых в комплексе процедурами очистки данных.
Необходимость в процедурах очистки в еще большей степени возникает в БД, консолидирующей информацию из различных источников, когда исходными данными могут служить справочники товарных позиций на складах, базы клиентов различных подразделений организации, ведомственные базы и другие источники, сильно различающиеся между собой по содержанию, структуре и форме записи данных. Попытка консолидации данных из разных источников, помимо приведения их к единой модели, потребует расширения комплекса процедур очистки за счет специальной процедуры идентификации данных, относящихся к одним и тем же сущностям, а также синтеза набора реквизитов и связей для сущностей по результатам идентификации.
Почему построение процедур очистки и контроля за качеством данных практически невозможно без привлечения инструментов компьютерной лингвистики, силами одних только инструментов БД? Почему не существует готового программного продукта, способного включить процедуры очистки данных в ETL-процессы без длительной настройки и программирования?
Основная причина в том, что первичным источником данных являются люди, а допустимое написание многих типов нечисловых данных (имена, названия, адреса) неформализуемо. Практически невозможно описать в программе все способы написания данных человеком, используя конечный перечень допустимых значений или форматов, не допускающих неоднозначного представление одного и того же значения.
На практике это приводит к невозможности создания универсального средства, решающего задачи очистки данных. Для решения этих задач, как правило, привлекается специализированное ПО, решающее наиболее типичные проблемы заказчика, выявленные на основе предварительного анализа данных, затем проводится настройка на данных для достижения приемлемой полноты и точности очистки и интеграция ПО с ETL-процессами, а при необходимости создается дополнительное специализированное ПО.
Специализированные программные компоненты, разработанные “ЭР СИ О”, предоставляют широкий спектр возможностей для решения комлекса задач очистки данных, с учетом специфики русского языка и российских стандартов. Вот ключевые из этих компонент:
• RCO Pattern Extractor – модуль выделения конструкций в тексте по шаблонам;
• RCO Fact Extractor – библиотека полного лингвистического разбора русского текста;
• RCO Address Parser – модуль разбора почтовых адресов России;
• RCO Fuzzy Search – набор компонент для нечеткого сравнения объектов и поиска по подобию;
Специалистами ЭР СИ О накоплен опыт создания как частных, так и комплексных решений для крупнейших коммерческих и государственных структур (в их числе Федеральное агентство по финансовому мониторингу и Центральный Банк России) с использованием продуктов и компонентов собственной разработки. К числу основных решаемых задач относятся:
• разбор и стандартизация записей ФИО и наименований организаций;
• идентификация типов реквизитов, разбор смешения различных реквизитов в одном поле, извлечение реквизитов из несоответствующих им полей или из текста;
• разбор и нормализация российских почтовых адресов, идентификация и восстановление пропущенных компонент адреса на основе классификатора КЛАДР;
• идентификация записей о физических и юридических лицах с опорной базой на основе процедур нечеткого сравнения наименований и комплексов реквизитов;
• формирование единого реестра физических и юридических лиц из различных источников, консолидация реквизитов и устранение похожих дубликатов.




Все новости

Новости компании "Эр-Си-О" [03.02.2010]

Разбор частично-структурированного текста. [03.02.2010]

Очистка информации в базах данных. [03.02.2010]

Поиск похожих фрагментов текста. [03.02.2010]

Извлечение знаний из текста и их обработка: состояние и перспективы. [03.02.2010]

"Обработка естественно-языковых запросов к поисковой машине на основе их лингвистического анализа". [02.06.2009]

Компания RCO анонсирует расширения для продукта IBM OmniFind. [01.10.2008]

Появилось описание библиотеки семантических шаблонов [24.09.2008]

Статья "Практические применения анализа текстовой информации" директора компании "Текон" Коржова Е.И. опубликованная в журнале "Копоративные системы" №4/2008г. [24.09.2008]

Вышла новая версия пакета лингвистического анализа русского текста RCO Fact Extractor SDK 2.0 [28.07.2008]

Статья директора компании «Текон» Евгения Коржова «UOSES: «правовой» доступ к информации в корпорации» в журнале «Директор Информационной службы» №3/2008 г. [24.06.2008]

Статья "Лингвистика для бизнеса: поиск общего языка" директора компании "Текон" Коржова Е.И. "Корпоративная информация: особенности поиска" опубликованная в журнале "Копоративные системы" №3/2008г. [13.06.2008]

Участие в конференции Диалог [12.06.2008]

Технологии RCO на Украине [25.04.2008]

Статья диретора компании "Текон" Коржова Е.И. "Корпоративная информация: особенности поиска" опубликованная в журнале "Копоративные системы" №2/2008г. [10.04.2008]

Статья "Украинизация лингвистических возможностей ORACLE" [10.04.2008]

Автоматизация государственного языка [12.03.2008]

Решения RCO внедрены в новостной агрегатор CNews Дайджест. [31.01.2008]

RCO Fact Extractor SDK - новый пакет для анализа текста [30.10.2007]

Технологии RCO в новой системе для поиска данных в корпоративной информационной среде - ROSES [16.10.2007]

ФОРС выводит на рынок РФ поисковую систему для корпоративных сетей [15.10.2007]

Компания "Текон" зарегистрировала торговый знак "UCO". [17.08.2007]

Участие в конференции Диалог'2007 "Компьютерная лингвистика и интеллектуальные технологии" [06.06.2007]

Russian Context Optimizer - RCO. [25.04.2007]

Открыт английский сайт RCO. [19.03.2007]

RCO представляет последние разработки на CEBIT'2007 [14.03.2007]

RCO Fact Extractor "завалил" серебряного ЗУБРа! [02.03.2007]

Новые версии RCO Semantic Entity Extractor SDK и RCO Fact Extractor SDK. [19.10.2006]

Статья "Технологии извлечения знаний из текста". [18.09.2006]

Статья "Мост между мирами" [09.08.2006]

Выход очередной версии UCO для Оракл (Oracle). [21.04.2006]

Обновлен ассортимент программных продуктов RCO и политика их лицензирования [05.12.2005]

RCO for BackOffice дополнен инструментарием для разработчиков информационно-поисковых систем [28.09.2005]

Для ТНК-ВР создан и запущен в эксплуатацию новый двуязычный интранет-сайт проекта по реинжинирингу системы снабжения (SPR). [15.08.2005]

Участие наших партнеров Гарант-Парк_интернет в Международной конференции Диалог [16.06.2005]

GTRF.ru: записи общей продолжительностью 15 лет [05.05.2005]

Группа ИСТ ЛАЙН использует интранет-технологии для формирования корпоративной культуры [05.05.2005]

На сайте наших партнеров "Гарант-Парк-Интернет" обновлен раздел "Технологии" [05.04.2005]

Доклад "Текон" - Технологии анализа и поиска текстовой информации. Ukraine Context Optimizer для платформы Windows & Linux. [22.02.2005]

Участие "Текон" в семинаре для разработчиков программного обеспечения на базе технологий Oracle. [15.02.2005]

19-20 января 2005 специалисты компании "Гарант-Парк-Интернет" приняли участие в 3-ей конференции "Конкурентная разведка в металлургии", проходившей в Москве в гостинице «Балчуг Кемпински». [28.01.2005]

Программа для поиска фактов в тексте RCO Fact Extractor 1.0 [12.01.2005]

Новый генератор отчетов для корпоративных хранилищ текстовой информации масштаба предприятия. [16.11.2004]

Веб-сервис в приложениях Microsoft Office 2003. [09.11.2004]

Online-заказы на продукты RCO. [04.11.2004]

Открытие первого этапа проекта. [27.10.2004]

“Гарант-Парк-Интернет” приняла участие в семинаре по оценке методов информационного поиска РОМИП'2004 [07.10.2004]

Aladdin и «Гарант-Парк-Интернет»: новое партнерство, новые перспективы [04.10.2004]

Oracle буде «розмовляти» українською. [20.09.2004]

Программный продукт RCO for Backoffice исправляет ошибки Microsoft [17.09.2004]

Библиотека анализа текста RCO Semantic Network 3.0 – инструмент для компьютерной разведки [17.09.2004]

Гарант-Парк-Интернет и TECON продвигают поисковые технологии RCO® в Украине. [12.09.2004]







Авторское право © Компания Текон & Студия РОМАрт, 2004-.
UCO™ является торговой маркой компаний Текон и "ЭР СИ О".
RCO™ является торговой маркой компании "ЭР СИ О".
Все права защищены.


Яндекс цитирования