8 ggv (21.10.2015 14:27)

вот пример производительности.
Задача - агрегатированный отчёт. То, что в Excel называется Сводная Таблица или Pivot Table.
Строки - названия.
Колонки - группы дней, до одного дня, 1-3 дня, 4-7, и так далее, до 13-21 день. На пересечениях строк и колонок - суммированные показатели, за строку и за группу дней. Но последняя колонка - Среднее Значение, но не строк в Сводной Таблице, а по формуле
СрЗнач = (4дня*n1+ 5дней*n2+6дней*n3+...+92дня*n89)/(n1+n2+n2+...+n89) где n1,2,3 - собственно агрегатируемый показатель.
Очевидно, что в Сводной Таблице по группам дней исходных данных для формулы нету, и простым щелчком мыши Среднее Значение не посчитать.

Данные в СУБД.
Вынимаются из неё в последовательный набор, 25 тыщ цилиндров, LRECL=971, два поля дата-время, текстовые поля, одно из них используется в Сводной Таблице для обозначения строк, и, падла, может быть незаполненно, но есть числовое поле, код которого обозначает должное быть название в текстовом поле (идентификатор).

Агрегаты дожны считаться по разнице дат полей дата-время каждой строки.
Вынимается по условию из СУБД 13 с лишним миллиона строк.
Первым шагом отфильтровываются около миллиона строк.

Вторым шагом отфильтровываются в разне наборы данных записи содержащие текстовое поле (название строк будущей Сводной Таблицы, 4.5 миллиона записей), не содержащие этого текстового поля (7 с чем-то миллионов записей), и не содержащие числового поля - идентификатора (меньше 800 тыщ записей).

Третьим шагом набор, не содержащий значения в текстовом поле, соединяется (JOINKEYS) с набором, содержащим идентификаторы и соответсвующие им текстовые названия.

Четвёртым шагом соединяются (MERGE), то есть просто копируются в один, набор содержавший значение текстового поля, и набор получивший значение текстового поля, на выходе 11.5 миллионов записей.

Пятым шагом добавляется новое поле - разница двух дат полей дата-время.
Если разница меньше минуты между полями дата-время (с учётом перехода через 0 часов), то добавляется поле-метка, помечая таким образом эти записи.
Происходит добавление поля-метки обозначения группы, к которую попадает запись, в зависимости от количества дней разницы между полями дата-время - 0 суток, 1-3 суток, 4-7 и так далее.
На выходе количество записей не меняется, но она становится диннее.

Шестым шагом происходит агрегатирование (DFSORT SECTIONS) по полю-метке, обозначающем группу дней, в которую попала запись.
Входящие 11.5 миллионов записей свернулись в чуть больше, чем 2 тыщи записей, первый отчёт, исходные данные для Сводной Таблицы.

Седьмым шагом происходит агрегатирование по количеству дней разницы между полями дата-время, входящие 11.5 миллиона записей сворачиваются в 43 тыщи записей, второй отчёт, исходные данные для подсчёта Среднего Значения по предоставленной формуле.

Работа в DFSORT закончилась, прошло 15 минут на хиленькой машинке. Да и в геркулесе это отрабатывает на удивление неплохо.

Отчёты загружаются в Excel.
По первому строится сводная таблица, и накладывая фильтр на нужное текстовое поле, строятся множество сводных таблиц по нужному параметру.
По второму строится сводная таблица, и накладыва тот же фильтр, что и в первом случае, числа использутся в сводных таблицах в ячейке с формулой среднего значения.
Делов минут на 5 с наведением красоты.

При изменении хотелок DFSORT натравливается на исходный набор, и готовится основа для следующего отчёта, без обращения к базе.

DFSORT - первый продукт, который должен браться в руки в случаях, когда кто-то произносит "Отчёты" или "Аналитика".
И только если им невозможн выполнить задачу - то тогда уже можно думать, какой аналитический пакет брать.
Excel - сильный продукт, но от 13 миллионов записей ему плохеет...
А DFSORT'у фиолетово, сколько ему на вход подают записей.

7 Gregory (12.10.2015 11:59)

Спам

IMHO, единственным существенным недостатком DFSORT является невнятные управляющие операторы, правда, ICETOOL частично устраняет этот недостаток. А вот скорость работы DFSORT иногда просто поражает. Кроме того, в ряде случаев без DFSORT очень трудно вообще обойтись, например, при устранении дублирования данных, полученных из разных источников. Сделать то же самое с помощью SQL очень непросто, а DFSORT/ICETOOL - на раз (SPLICE). Так что в реализации E-T-L DFSORT давно занимает достойное место

1 akost (09.10.2015 10:41)

дык а в чем наброс-то?... в старых, особенно импортных, организациях отчетные системы, построеные на DFSORT, давно используются. я с немцем и американцем общался в конце 90-х, они занимались ТОЛЬКО DFSORT, и ничем больше.
у меня в нынешней организации ряд аналитичек собирается тож без СУБД, чисто возможностями DFSORT.
в моей прежней организации тоже некую аналитику для нескольких задачек под VM делали на чистом DFSORT+REXX, без всякого DB2))), хехе...
так что вот.

2 ggv (09.10.2015 13:09)

Спам

ну если меня назвали за такие мысли ретроградом....
то на тебя даже слов не хватает smile

Назвали ретроградом и тут же начали нахваливать in-memory всякие чудеса.
У меня только один вопрос - они вот расчётные 90 террабайт информации в какое in-memory чудо засунут, и сколько оно в итоге будет стоить?
И сколько будет стоить DFSORT которая с ленты тоже может читать, вернее, не она, но не суть.

3 akost (10.10.2015 15:23)

Вот если правду говорить, то у DFSORT тоже есть цена, она не бесплатная, и цена эта не копеечная. И еще - DFSORT имеет нестандартный и странноватый язык, он требует освоения. SQL попроще будет. У меня (как и у моих собеседников) процесс обработки выглядел так: программа выгрузки сырых данных - DFSORT - пользовательская программа - DFSORT - DFSORT - пользовательская программа.
То есть DFSORT - очень крутая, безумно классная программа, но со своими ограничениями и требующая знания своих возможностей, языка, и дополнительной обработки полученных результатов.

4 ggv (10.10.2015 22:09)

Спам

дык я про синтаксис написал...
да, есть такое дело.... недостаток, как продолжение достоинства.
хотя я вот заметил, что начал читать влёт уже...
так что это дело навыка.
он непривычен - да, но чертовски логичен.

Так что - надо учить, и надо использовать.
Могу сюда тиснуть, например, джобик, по динамическому резервному копированию каталогов.
Хотя это бесполезно - куда как полезнее самому написать.

А по поводу требует дополнительной обработки...
Вот, к примеру, Excel - безумно крутая по возможностям вещь, что угодно можно сделать.
Но вот выгружаем данные эдак гигабайт на 10.
Что нам Excel на это скажет?
А DFSORT-у на размер фиолетово.
А вот уже посе обработки разными способами в DFSORT, фильтраций, вычислений агрегатов, слияний и объединений - результат в Excel, и оформляем до конца.
Хотя ничто не мешает включать в промежутки пользовательские программы, как у вас.
Мне пока такого не надо было, но лиха беда начало, ещё потребуется.

Просто вот понравился мне DFSORT, а у нас тут про него молчок... Решил, что это несправедливо - достойная компонента z/OS. Таким творением можно гордиться.
Не Когнос какой-то smile

5 akost (11.10.2015 10:37)

Ну чойта у нас про DFSORT вдруг и молчок? А это - http://s390soft.ru/publ/12-1-0-4 - как раз про нее, вполне практическое применение, с живой установки снято. И вот это - http://s390soft.ru/forum/3-136-1#1471 - тоже. Так что если есть желание поделиться в раздел примеров, так не стесняйся, хорошее дело!

6 ggv (11.10.2015 11:55)

Спам

а, ну ок, в понедельник запостим первый примерчик