Слайды

loading, please wait for a moment...

NOTE: You must enable JavaScript in your browser to view this page.

Решение для автоматизированной обработки клиентских данных

Вы приобретаете высокотехнологичный, конкурентный IT-продукт за меньшие деньги

Вы приобретаете высокотехнологичный, конкурентный IT-продукт за меньшие деньги

О нашей компании

GENES1S intellectual solutions

 

Мы сочетаем в своей работе большой опыт разработки программных продуктов и использование современных технологий проектирования.

  

В нашем штате работают признанные специалисты в области теории алгоритмов, архитектуры и разработки программного обеспечения, статистического анализа данных, а также дизайна интерфейсов.

Проблема качества клиентских данных

    Одной из наиболее серьёзных проблем, возникающих при обработке больших клиентских реестров, является низкое качество содержащихся в них данных.

    Ошибки в реестрах обычно возникают в силу стечения двух обстоятельств:

  • действия человеческого фактора (ошибки, допускаемые операторами при вводе информации);
  • несовершенства информационной системы, не производящей валидацию данных на этапе их ввода.
  • К наиболее распространённым проблемам качества клиентских данных относятся:

  • ошибки в записи адресов, в т.ч. хранение адреса в виде одного строкового поля при отсутствии единого принципа форматирования адреса;
  • ошибки в записи телефонов (устаревшие коды, отсутствие единого форматирования);
  • ошибки в ФИО клиента, в т.ч. Хранение ФИО в виде одного строкового поля;
  • ошибки при указании пола клиента.

Проблема качества клиентских данных

Качество клиентских данных является базовым требованием при выполнении любых операций с реестром, начиная от рассылки уведомлений и заканчивая статистической обработкой данных.

Кроме того, при импорте сторонних реестров в базу данных компании, может потребоваться разделение адресного поля или поля ФИО на составляющие.

Ручное редактирование клиентских данных — весьма трудоёмкая задача, которая не только требует существенных затрат средств и времени, но, кроме того, не гарантирует достижения необходимого результата.

Например, редактирование адреса требует не только правильного выделения его составляющих, но и проверки его валидности при помощи КЛАДР (государственного реестра адресов). При этом неоднозначности в записи адреса могут потребовать многократных обращений к КЛАДР, что ещё более замедляет и усложняет процесс редактирования.

Описание продукта

CLEANUPDATAпредставляет собой набор компонентов для автоматического и полуавтоматического исправления ошибок в пакетах клиентских данных.

Пакет CLEANUPDATA включает в себя компоненты для интеллектуального анализа и исправления полей адресов, телефонов, ФИО и других типичных компонентов клиентских данных. Эвристические алгоритмы, используемые системой, позволяют автоматически разбирать подавляющее большинство записей даже в случае их крайне низкого качества, что делает Пакет
CLEANUPDATA
лучшим решением в этой области, доступным на российском рынке.

CLEANUPDATAтакже включает в себя модули для автоматического преобразования структур данных для случаев, когда необходимо импортировать сторонний реестр в базу данных фирмы.

Примеры работы модуля разбора адресов

1. Исходная строка адреса: « г. Москва, ул.Советская, д.1, кв.4».

2. Исходная строка адреса: « Москва, Советская, 1-4»

3. Исходная строка адреса: « МО,Москва, Совецкая, 1кв4».

4. Исходная строка адреса: « МосьКВА ул.Соевтская, 1-4».

5. Исходная строка адреса: « Россия. Моск.обл., Москва, Советская ул. д.1-4».

6. Исходная строка адреса: « М.О.,,г. Москва, УЛ. СОВЕТСКАЯ 1 4».

7. Исходная строка адреса: « гМосква, улСоветская, 1, 4».

8. Исходная строка адреса: « Москва, неопределен, Советская д1кв 4».

Результат работы парсера для любой из вышеперечисленных строк:

Элемент

Значение

Почтовый индекс

105187

Регион

г. Москва

Район

НП-1 (город)

НП-2 (село)

Улица

ул. Советская

Дом

д. 1

Квартира

кв. 4

Статус разбора

ОК

Примеры работы модуля разбора адресов

9. Исходная строка адреса: «ЗЕЛЕНОГРАД 1518-9».

 

Некоторые населенные пункты имеют специфическую нумерацию зданий. Например, в г. Зеленоград большая часть домов не относится к какой-либо улице, а вместо номера дома имеют только номер корпуса. Система обладает необходимыми знаниями для правильной обработки таких специфических ситуаций.

 

 

Результат работы парсера:

Элемент

Значение

Почтовый индекс

124617

Регион

г. Москва

Район

НП-1 (город)

г. Зеленоград

НП-2 (село)

Улица

Дом

к. 1518

Квартира

кв. 9

Статус разбора

ОК

Примеры работы модуля разбора адресов

10. Исходная строка адреса: «Неопределен, Калининец, Центральная ул в/ч61896,1».

 

Типичной ситуацией является использование слов «неопределен», «отсутствует», «NULL», «UNDEF», а также прочерков вместо какого-либо отсутствующего элемента адреса. Кроме того, адрес может содержать указание воинской части, в то время, как КЛАДР, не содержит в себе адресов воинских частей. Даже в такой сложной ситуации парсер в состоянии решить проблему разбора:

Результат работы парсера:

Элемент

Значение

Почтовый индекс

143371

Регион

Московская обл.

Район

Наро-Фоминский р-н

НП-1 (город)

НП-2 (село)

п. Калининец-1

Улица

Дом

д. 1

Квартира

Статус разбора

ОК

Примеры работы модуля разбора адресов

11. Исходная строка адреса: «Летчика Бабушкина, 2-12».

 

В ряде случаев в адресе могут отсутствовать некоторые обязательные элементы. Поскольку парсер использует КЛАДР, он в состоянии, например, определить, что улица Лётчика Бабушкина есть только в одном городе России, а именно, — в Москве.

 

 

 

Результат работы парсера:
 

Элемент

Значение

Почтовый индекс

129344

Регион

г. Москва

Район

НП-1 (город)

НП-2 (село)

Улица

ул. Летчика Бабушкина

Дом

д. 2

Квартира

кв. 12

Статус разбора

ОК

Примеры работы модуля разбора адресов

12. Исходная строка адреса: «ул.Советская, 2-1».

 

В некоторых ситуация отсутствие необходимых частей адреса не позволяет однозначно его идентифицировать. В таких случаях адресу присваивается статус «Ambiguous» (неоднозначный), а в качестве элементов адреса выдаются элементы соответствующие региону с наибольшим населением (что максимизирует вероятность «угадывания» адреса). Приоритеты регионов могут быть изменены в соответствие с настройками.

 

Результат работы парсера:

Элемент

Значение

Почтовый индекс

105187

Регион

г. Москва

Район

НП-1 (город)

НП-2 (село)

Улица

ул. Советская

Дом

д. 2

Квартира

кв. 1

Статус разбора

Ambiguous

Примеры работы модуля разбора адресов

13. Исходный адрес «На деревню дедушке Василию Макаровичу».

 

Конечно, бывают ситуации, в которых искусственный интеллект бессилен. В таких ситуациях парсер присваивает адресу статус «ParseError» (ошибка разбора), а также сообщает некоторые детали в отношении произошедшей ошибки:

 

 

 

Результат работы парсера:

Элемент

Значение

Почтовый индекс

Регион

Район

НП-1 (город)

НП-2 (село)

Улица

Дом

Квартира

Статус разбора

ParseError («Unrecognized string token: На»)

Обработка плохих адресов

Те адреса, которые не были успешно разобраны системой, могут быть обработаны вручную с помощью удобного интерфейса, позволяющего не только вручную модифицировать отдельные компоненты адреса, но и внести необходимое изменение в исходную строку, а затем повторно вызвать парсер для её разбора. Такой подход позволяет существенно снизить трудозатраты на разбор испорченных адресов.

 

Форма для ручного редактирования адреса может быть добавлена в вашу информационную систему нашими специалистами на этапе интеграции. 

 

В некоторых случаях парсер в состоянии однозначно определить, что адрес испорчен и не подлежит восстановлению. Например, если строка не содержит ни одного значащего идентификатора (пуста или содержит только числа и знаки препинания).

Выбраковка таких адресов также позволяет сэкономить время, затрачиваемое на ручную обработку адресов, не разобранных парсером.

Примеры работы модуля разбора телефонов

1. Исходная строка «+74953103421».

2. Исходная строка «(495) 310-34-21».

3. Исходная строка «8 (095) 3103421».

4. Исходная строка «8 (095)(985) 3103421».

5. Исходная строка «8 (0495) 3103421».

6. Исходная строка «Контактный телефон: 8 (495) 310-34-21».

7. Исходная строка «8095-3103421». 

8. Исходная строка «Звоните по номеру (7495) 310-3421». 

 

 

Результат работы парсера для любой из перечисленных строк:

Элемент

Значение

Номер телефона

3103421

Код

495

Регион

г. Москва

Оператор

МГТС

Тип телефона

Городской

Статус разбора

ОК

Примечания


Примеры работы модуля разбора телефонов

9. Исходный телефон «8 (495) 530-12-34».

В ряде городов России в разное время производились замены телефонных номеров. Модуль разбора телефонов содержит в себе базу данных подобных изменений. Поскольку приведенный нами номер может соответствовать как номеру, для которого была произведена замена, так и номеру, вновь выданному уже после замены, результат становится неоднозначным. Поэтому парсер, наравне с оригинальным номером, предлагает также другой вариант телефона: 

Результат работы парсера:

Элемент

Значение

Номер телефона

7101234

Код

499

Регион

г. Москва

Оператор

МГТС

Тип телефона

Городской

Статус разбора

Ambiguous

Примечания

Замена номеров 495-530-XXXX на 499-710-XXXX (01.09.2008)

Резюме

Результат работы парсеров может быть легко приведён к форме, необходимой для корпоративной информационной системы.

Импорт сторонних клиентских реестров

Модули CLEANUPDATA могут быть использованы для организации импорта сторонних клиентских реестров в базу данных Компании. Данные исходного реестра преобразуются в XML-формат, который затем подвергается преобразованию при помощи XSLT в XML, соответствующий структуре базы данных Компании. Полученный XML десериализуется в коллекцию объектом ORM NHibernate/ActiveRecord, которая затем сохраняется в базу данных. При этом парсеры адресов, ФИО, телефонов и т.д. могут быть использованы как пользовательские функции при создании XSLT. CLEANUPDATA использует пакет Altova MapForce для визуального редактирования XSLT.

Импорт сторонних клиентских реестров

Использование ORM позволяет легко адаптировать систему для работы с любой СУБД, используемой в вашей компании.

 

При необходимости обеспечения экстремально высокой производительности при вставке данных в БД, CLEANUPDATA содержит в себе компоненты для осуществления пакетной вставки записей.

 

Задача стыковки модулей импорта реестров с информационной системой компании достаточна проста и сводится в большинстве случаев к созданию ORM-мэппинга для конкретной структуры базы.

 

Использование CLEANUPDATA позволяет организовать импорт сторонних клиентских реестров фактически без участия квалифицированных IT-специалистов, разгрузив IT-отдел компании от больших объёмов черновой работы.

Интеграция и сопровождение

Модули CLEANUPDATA могут поставляться как в виде компонентов .NET, так и в виде SOAP-сервисов.

Помимо поставки компонентов, наша компания предлагает следующие сопутствующие услуги:

— работы по интеграции компонентов в информационную систему вашей компании;

— разработка необходимых интерфейсов для ввода  и обработки данных (включающих в себя механизмы автоматической валидации и быстрого ввода), в т.ч. на основе web;

— разработка на основе компонентов CLEANUPDATA системы для импорта пакетов данных в информационную систему вашей компании;

— расширение функционала системы в случае наличия специфических требований;

— организация обучения персонала вашей компании (в т.ч. IT-специалистов) особенностям работы с поставляемыми решениями;

— регулярное сопровождение и обновление поставляемых решений.

Другие решения нашей компании

Наша компания также предлагает вашему вниманию следующие решения и услуги в сфере IT:

 пакет компонентов для автоматического поиска контактных телефонов физических лиц при помощи большого набора online и offline телефонных баз;

— услуги по разработке программного обеспечения с применением широкого спектра программных инструментов; в том числе с передачей исходных текстов и исключительных прав;

— услуги по статистическому анализу данных (data mining), созданию математических моделей для скоринга и прогнозирования;

— верстка и дизайн корпоративных сайтов, в т.ч. реализующих сложные сервисы для их посетителей;

— комплекс IT-решений для букмекерского бизнеса; 

— консалтинг в области IT на единовременной или регулярной основе, в т.ч. помощь в организации подбора кадров, создании IT-инфраструктуры компании.

О нашей компании

Основными направлениями деятельности компании ООО «Генезис» являются:

Разработка IT-решений для автоматизированной интеллектуальной обработки данных, data mining, а также консалтинг в сфере IT.

Мы сочетаем в своей работе большой опыт разработки программных продуктов и использование современных технологий проектирования, практикуя гибкий и рациональный подход при взаимодействии с нашими клиентами, направленный на достижение максимального удобства для конечного пользователя. Мы готовы взяться за решение самых сложных задач и создать для вас простой и практичный программный инструмент.

Наш сайт: http://genes1s.net

Вы приобретаете высокотехнологичный, конкурентный IT-продукт за
                         меньшие деньги

Вы приобретаете высокотехнологичный, конкурентный IT-продукт за меньшие деньги

Help Prev Slide Prev Step Next Step Next Slide Auto Play Log