Развитие корпоративных баз данных, как правило, повторяет в сжатом во времени виде историю развития информационных технологий. Корпорации начинают c небольших разрозненных баз данных, работающих под управлением скромных СУБД, а с ростом потока данных постепенно переходят к централизованным базам на основе полномасштабных реляционных СУБД. И только накопив огромное количество данных, осознают, что само по себе обладание информацией не дает особых преимуществ.

Для того, чтобы база данных работала эффективно, необходимо как минимум обеспечить экспертам доступ к информации. При этом доступ должен быть оперативным, не требовать навыков программирования, а данные должны быть представлены в привычном для экспертов виде. Подобные минимальные требования вполне соответствуют OLAPтехнологиям. За последние 5 лет компанией РДТЕХ было реализовано несколько подобных систем (как по традиционной технологии – MOLAP, так и с использованием таких разновидностей как реляционный и гибридный OLAP), до сих пор успешно эксплуатируемых нашими клиентами.

К сожалению, в рамках OLAP технологий основная тяжесть анализа по-прежнему ложится на плечи человека. Более того, есть задачи, где слишком велико количество информации, либо решение зависит слишком от многих факторов, что делает невозможным анализ данных и выработку решения экспертом.

В последнее время многими компаниями, разрабатывающими программное обеспечение для баз данных, в том числеOracle, был выпущен ряд продуктов, реализующих алгоритмы “поиска знаний” (Data Mining), позволяющие автоматизировать этот процесс и облегчить работу экспертов по анализу данных.

В данной статье хотелось бы поделиться нашим опытом применения технологий “поиска знаний” к задачам анализа данных, стоящих перед Государственным Таможенным Комитетом. В качестве инструментария мы использовали Oracle Server 8 и Oracle Darwin.

Товары риска
Одна из основных задач, стоящих перед таможенными органами – выявление преднамеренного искажения грузовых таможенных деклараций. В силу ограниченных ресурсов полная проверка всех перемещаемых через границу Российской Федерации грузов невозможна. В то же время ГТК России собирает подробные базы данных по грузовым таможенным декларациям. Анализ этих данных может быть использован для выявления тенденций во внешней торговле РФ и групп товаров, наиболее подверженных фальсификации при прохождении таможни – “товары риска”. Имея данные о “товарах риска” таможенные посты могли бы более пристально проверять прохождение грузов “группы риска” и уменьшить потери РФ от фальсификации таможенных документов.

Одна из основных задач, стоящих перед таможенными органами – выявление преднамеренного искажения грузовых таможенных деклараций. В силу ограниченных ресурсов полная проверка всех перемещаемых через границу Российской Федерации грузов невозможна. В то же время ГТК России собирает подробные базы данных по грузовым таможенным декларациям. Анализ этих данных может быть использован для выявления тенденций во внешней торговле РФ и групп товаров, наиболее подверженных фальсификации при прохождении таможни – “товары риска”. Имея данные о “товарах риска” таможенные посты могли бы более пристально проверять прохождение грузов “группы риска” и уменьшить потери РФ от фальсификации таможенных документов.

Предметом анализа являлась база данных Европейского Союза по внешней торговле с Российской Федерацией и данные базы грузовых таможенных деклараций (ГТД) Единой Автоматизированной Информационной Системы ГТК России. База данных ЕС содержит только агрегированную до уровня одного месяца и восьми знаков ТНВЭД (ТНВЭД – товарная номенклатура внешнеэкономической деятельности, десятизначный классификатор товаров, используемый таможенными органами. В 2000 году содержал более 12 тысяч групп товаров) информацию об объеме и стоимости перемещаемых товаров. В Российскую же декларацию заносится детальная информация о каждом грузе. В нашем анализе мы использовали лишь часть информации, содержащейся в декларации:

  • направление перемещения (импорт/экспорт)
  • объем (вес)
  • стоимость в долларах США
  • дата оформления

Сравнение статистических данных ЕС и РФ
Имея два источника сведений о внешнеэкономической деятельности, можно попытаться сопоставить данные. При этом мы должны одновременно анализировать всю совокупность ТНВЭД. Если сравнивать данные по группам товаров, то разница значений еще не может привести к каким-либо выводам, поскольку существуют естественные причины отклонения в данных ЕС и РФ:

  1. ошибки ввода данных;
  2. округление веса до целого значения в тоннах в данных EC;
  3. округление стоимости до целого значения в долларах США в данных РФ;
  4. несоответствие даты декларирования товара в РФ и стране контрагенте – хотя данные агрегированы до месяца, даты декларирования могут принадлежать различным месяцам;
  5. разница курсов валют в момент вывоза и ввоза товара;
  6. различия в классификации ТНВЭД и ГС в РФ и EC, в результате чего некоторые товары могут быть учтены по разным группам ТНВЭД/ГС в статистике РФ и EC.

В то же время не могут быть непосредственно использованы оригинальные переменные – вес нетто и стоимость, так как различные группы товаров характеризуются различной ценой и характерными объемами перемещаемых товаров. Кроме того, цель анализа – не выявление расхождений между данными ЕС и РФ, а величина риска, связанная с данной группой товаров, то есть величина относительного несоответствия между данными. В связи с этим в качестве основных переменных выбраны относительные разности по стоимости и весу нетто, определяемые как:

, где COST_RF, COST_EC – статистическая стоимость товаров данной группы по статистике RF и EC соответственно,NETTO_RF, NETTO_EC – аналогичные показатели для веса нетто. Нормировка на минимальные значения обоснована, поскольку неизвестно истинное значение стоимости и веса, кроме того, это приближает распределение значений переменных к известному статистическому распределению.

Сравнить данные по всем группам можно, построив гистограмму (гистограмма – график, показывающий, как часто встречается то или иное значение переменной. По оси Х – откладываются значения переменной, по Y – количество случаев, когда переменная принимала данное значение) описанных выше переменных. На рисунке 1 показаны отнормированные распределения для относительного отклонения стоимости и веса для экспорта и импорта.


 

сли бы различия между данными ЕС и РФ носили “естественный” характер, без фальсификации данных, то распределения были бы симметричными, а импорт совпадал бы с экспортом. И действительно, график, характеризующий вес, выглядит достаточно симметричным, а распределения для импорта и экспорта практически совпадают. Совершенно иная картина наблюдается для стоимости – если экспорт более или менее симметричен, то в случае импорта мы имеем гораздо больше случаев с заниженной по сравнению с данными ЕС стоимостью ввозимых товаров (отрицательные значения переменной cost).

сь есть определенная логика: вес груза легко проконтролировать, в то время как измерить стоимость невозможно. Кроме того, для большинства товарных групп таможенная пошлина взимается именно со стоимости. Однако при более подробном анализе становится ясным, что подозрительные аномалии наблюдаются и в поведении переменной netto. На рисунке 2 показано совместное распределение относительных отклонений по стоимости и весу.

Поскольку выбранные нами переменные не являются полностью независимыми – стоимость = цена * вес – то ожидаемое распределение должно выглядеть как наклоненный на 45 градусов эллипс. Именно так выглядит распределение для экспорта. В случае же импорта вновь видны характерные фальсификации. Есть группы товаров, для которых при небольшом отклонении веса стоимость занижена в 15 раз. И есть товарные группы, в которых присутствует завышение веса при относительно правильной стоимости импортируемого товара. На первый взгляд это кажется странным. Зачем завышать вес ввозимого товара?

Оказывается, этому есть простое объяснение. Вес груза декларируется верно, но фальсифицируется наименование товара – в декларации указывается близкий по характеристикам товар с меньшей ставкой таможенной пошлины. В результате для определенных групп товаров наблюдается существенный прирост импорта по сравнению с данными ЕС. Эта схема ухода от таможенных платежей хорошо известна таможенным органам как “товар прикрытия”.

Товар риска – товар прикрытия
Как правило, при “прикрытии” одного товара другим в рамках одного груза (и одной таможенной декларации) действительно перевозятся оба товара, однако доля “дорогого” товара занижается. Этот факт может быть использован для выявления подобных пар.

При отборе потенциальных пар “товар риска” – “товар прикрытия” мы использовали следующие критерии:

  • условная вероятность ввоза товара А, когда по той же декларации ввозится товар B, достаточно велика (аналогичный критерий используется алгоритмом ассоциативных правил, включенным в Oracle Server 9i ODM)
  • пошлина на товар риска больше, чем на товар прикрытия
  • сравнение со статистикой ЕС показывает завышение объема импорта для товара прикрытия
  • сравнение со статистикой ЕС показывает занижение объема импорта для товара риска

Первый критерий является основным и означает, что один из товаров вероятнее всего сопутствует другому. Впрочем, это еще не означает, что товар обязательно прикрывается другим – множество людей ежедневно покупают хлеб и молоко без всякого злого умысла. И при импорте товаров существуют случаи естественной корреляции между товарами. Чтобы очистить отобранные пары от таких случаев, мы наложили дополнительные условия: прикрытие должно быть экономически выгодно, а сравнительный анализ статистических данных должен подтверждать факт прикрытия.

Анализ предоставленных Таможенным Комитетом данных выявил значительное количество пар, удовлетворяющих выбранным критериям. Безусловно, не все они являются парами “товар риска – товар прикрытия”. Эффективность реализованного алгоритма может быть подтверждена только в ходе дополнительных проверок на таможенных постах. Однако следует отметить, что число подобных пар существенно меньше, нежели общее число товарных групп, и их список вполне может быть использован как рекомендация по более тщательному досмотру определенных грузов.

В качестве примера приведем лишь одну пару товаров: шины для легковых автомобилей и протекторные заготовки для их восстановления. В таблице 1 приведены данные по импорту этих двух групп товаров за 2000 год, а именно число случаев ввоза каждого из товаров, число случаев совместного ввоза и вычисленные по этим данным коэффициент корреляции и вероятности.

месяц Р (шины|заготовки) Р (заготовки|шины) N (заготовки) N (шины) N (заготовки и шины) Коэффициент корреляции
январь 1,00 0,02 2 106 2 0,14142
февраль 0,63 0,03 8 189 5 0,13748
март 0,97 0.13 35 271 34 0,35511
апрель 0,95 0,14 38 261 36 0,36469
май 0,75 0,05 16 225 12 0,19365
июнь 0,84 0,14 25 151 21 0,34293
июль 0,95 0,20 41 196 39 0,43589
август 1,00 0,17 50 287 50 0,41231
сентябрь 0,95 0,20 58 281 55 0,43589
октябрь 0,93 0,21 75 327 70 0,44193
ноябрь 0,98 0,30 112 373 110 0,54222
декабрь 0,89 0,13 37 249 33 0,34015
весь год 0,94 0,16 497 2916 467 0,38781

Таблица 1. Данные по импорту шин для легковых автомобилей и протекторных заготовок для ремонта шин.

Как видно из таблицы на протяжении всего 2000 года вероятность ввоза шин вместе с заготовками очень высока – в среднем 95% за год. Случаев ввоза только заготовок практически не было. При этом коэффициент корреляции не столь велик, поскольку достаточно большой объем импорта шин не сопровождается заготовками. Сам по себе факт корреляции между этими группами товаров достаточно естественен. Однако ставка таможенной пошлины в 2000 году на заготовки была в 5 раз ниже, нежели для шин – 5% и 25% соответственно. Более того, сравнительный анализ данных РФ и ЕС показал, что импорт заготовок согласно российским данным почти в 200 раз выше, чем по данным ЕС, а импорт шин ниже в 3.5 раза, если сравнивать объемы импорта по весу. При этом суммарный вес импорта по этим двум группам совпадает по данным РФ и ЕС с точностью до 20% – см. таблицу 2.


Таблица 2. Объем импорта шин и заготовок за 2000 год.

Похожая картина наблюдается и в стоимостном выражении. Стоимость ввезенных в РФ заготовок в 30 раз выше, чем вывезенных из стран ЕС, в то время как шин, если судить по декларированной стоимости, ввезено в 2.7 раза меньше вывезенного количества. То есть, судя по приведенным данным, с большой вероятностью протекторные заготовки в 2000 году использовались рядом импортеров как прикрытие для ввозимых шин. Потери государства на таможенных пошлинах составили предположительно около 7 миллионов долларов.

Итоги
Анализ электронных копий ГТД , в совокупности с анализом ставок таможенных пошлин и агрегированных данных статистики внешней торговли Евросоюза (EC) и Российской Федерации (RF), проведенный средствами информационной технологии Data Mining позволил определить корреляции между товарными группами, сделать обоснованные предположения по определению “товаров риска” и “товаров прикрытия”, а также дать оценку возможных потерь таможенных платежей.

Таким образом, проведенное нами исследование показало, что технологии Data Mining могут успешно применяться в таможенных органах для выявления скрытых тенденций во внешнеторговой деятельности. При этом следует отметить, что в отличие от других технологий поддержки принятия решений Data Mining обладает более высокой степенью интеллектуальности, позволяет автоматизировать анализ данных и работать в любых масштабах. Все это говорит о высоком потенциале технологий Data Mining.