Динамика технологий

Версия для печати



Сегодня компаниям все чаще приходиться сталкиваться с хранением и обработкой большого объема данных. Существует два режима обработки данных: пакетный и поточный. В отличие от потокового режима, пакетный способ подразумевает обработку поступающих данных по таймеру, а не по мере их поступления. Кроме того, задача обработки большого объема данных классифицируется по их объему: просто большой объем может быть обработан «силами» одного сервера, а для очень большого объема необходимо использование набора машин, объединенных в кластер.

Компания CPM предлагает решения для всех четырех вариантов задачи по обработке большого объема данных.

 

Режим

Масштаб

Предлагаемое решение

1

Пакетный

Сервер

Набор скриптов, запускаемых по расписанию.
Сроки проекта: один-два месяца.

Инструментарий*: скриптовые языки программирования (AWK, Python) или Java.

2

Потоковый

Сервер

Скрипт, запускаемый по триггеру, т.е. по факту появления новой порции данных.

Сроки проекта: три-шесть месяцев.

Инструментарий*: брокеры по обмену сообщениями (JBoss HornetQ, RabbitMQ, ZeroMQ), серверы приложений (JBoss Netty, Jetty), язык программирования – Java (Oracle JVM).

3

Пакетный

Кластер

По таймеру или запросу осуществляется обработка очень больших объемом данных, распределенных между несколькими серверами (кластер машин).

Сроки проекта: от полугода до года.

Инструментарий*: GridGrain, Apache Hadoop, Apache Cassandra, Riak.

4

Потоковый

Кластер

Новое направление, предлагаемые решения обеспечивают обработку очень большого объема данных в режиме «мягкого реального времени» (десятки мс, максимум – сотни мс).

Сроки проекта: от полугода до года.

Инструментарий*: Storm (https://github.com/nathanmarz/storm).

* Указанные инструменты являются решениями Open Source и не требуют покупки лицензий.

Примеры проектов компании CPM:

  • Решение для обработки в пакетном режиме нормализованных CDR-записей от всех транзитных голосовых коммутаторов (месячный объем около 160 млн записей, общий объем файлов ~16 Гбайт). Было предложено два варианта: на основе скрипта AWK и на основе платной потоковой базы данных kdb. (Заказчик: «Ростелеком»).
  • Решение для агрегирования в потоковом режиме поступающих от ECAP-серверов XML-файлов (функции предбиллинга с последующей передачей требуемых параметров системе биллинга). Объем данных – 3,6 Гбайт в сутки. Прототип был разработан на Java. (Заказчик: МТТ).
Бизнес-приложения
dir-biz


Высокий уровень выполнения работ и поставку только проверенных надежных решений гарантирует 15-летний опыт работы компании


Banner