Name: Транзакционная обработка последовательных наборов
Item: Транзакционная обработка последовательных наборов
Author: Gregory

14 Gregory (15.07.2016 22:59)

0

а почему DSNTIAUL а не UNLOAD?

15 ggv (16.07.2016 13:37)

0

Хороший вопрос, немного дискуссионный smile

Можно и UNLOAD наверняка, особенно на этапе первоначального переноса данных, когда самая большая выгрузка, с целью
экономии ресурсов.
Но потом будет, скорее всего, этап потоянного пополнения баз IMS из постоянно пополняющихся баз DB2, будут выгрузки только свежих данных, поступивших за какой-то прошедший период, то есть выгрузка будет результатоми SQL запроса, который пока даже не сформулировался, поскольку в эксплуатации одновременно несколько версий структур дб2, немного отличающихся между собой, идёт плавное переползание старых версий на новые, что там будет в реальности на момент постоянного переноса даных между дб2 и IMS пока непонятно... И показалось, что с DSNTIAUL будет возможность гибче подстроится... Опять же, при регулярном пополнении IMS баз из дб2 базы переносится будут не такие большие порции, и full tablespace scan при UNLOAD выглядит затратнее по ресурсам, чем SQL запрос DSNTIAUL.
Хотя, повторюсь, на первоначальном этапе можно и UNLOAD, на наших объёмах может быть значительная экономия по ресурсам. А спецификацию полей выгружаемых данных на UNLOAD можно взять ту же, что и для DSNTIAUL.

16 Gregory (16.07.2016 20:49)

0

"full tablespace scan при UNLOAD выглядит затратнее по ресурсам, чем SQL запрос DSNTIAUL."
замкчу, что DSNTIAUL - не утилита, а демонстрационный пример, равно как и DSNTEP2/4, DSNTIAD. Насколько я понимаю, UNLOAD оперирует непосредственно с табличным пространством, то есть работает существнно быстрее, и возможностей у UNLOAD значительно больше. Только одного UNLOAD ... FORMAT DELIMITED достаточно biggrin

17 ggv (18.07.2016 10:29)

0

Да всё так, тут спорить не о чем.
Будет время - можно будет замерить разницу на выгрузке небольшого объёма данных из большой таблицы.

18 Gregory (18.07.2016 21:23)

0

кстати, о UNLOAD/LOAD, извиняюсь за некоторый оффтопик. Техника, описанная здесь пост #43 применима и для UNLOAD/LOAD, так что возможно выполнить выборку из таблицы/таблиц и загрузку результата в целевую таблицу без промежуточного набора данных. Функционально это эквивалент cross-load, но для cross-load требуется конфигурированное соединение DRDA, а для техники с использованием fifo-файла - нет.

19 ggv (19.07.2016 11:35)

0

через fifo оно и работает на порядок быстрее, чем через cross-loader, если указать FORMAT INTERNAL
Правда, делали в рамках одной машины, без ftp.

2 AKonev (12.07.2016 16:09)

0

Спам

Э-э, а не проще ли написать программку, которая одной ногой в DB2, а другой в IMS ... ?
Объемы-то реально какие? Может и не стоят они тех чекпойнтов, пишем каждый раз заново и всё.

4 ggv (13.07.2016 17:07)

0

Я по секрету скажу, что это именно такая программка и есть.
IMS через соответствующий attachment facility коннектится к дб2.
Иначе никакой возможности через SQL Lob reference вытащить содержимое LOB поля в dataset. LOB'ов в перспективной архитектуре не будет как класса, вместо них документы в наборах данных.
Поначалу так и было сделано - пишем каждый раз заново и всё.
Но это реально не вариант - хотя бы вот 130 миллионов датасетов из LOB'ов вынуть заново - не вариант, а это всего лишь малая часть данных. Это примерно соответствует 600 ГБ входному файлу и столько же выходному.
И ещё раз повторю, это где-то одна восьмая, на вскидку, ну или одна шестая всех данных.
Так что овчинка стоит выделки, тем более, если не забывать, что этот ящик полон всяких других маразматических с нашей точки зрения, но более важных с пользовательской точки зрения задач.
У нас прецедент был. Мелкомягкие коллеги грузили исторические данные в дб2. На вопрос не поставить ли их табличные расписания в регулярный бекап ответили гордым отказом - "перезальём, если что". Через три месяца работы, когда "всё пропало", и встала речь, что надо перезаливать, схватились за голову - три месяца работы насмарку.
Так что стоит оно того, стоит. Уж лучше 1000 записей по-новой обработать (и, соответсвенно, удалить 1000 датасетов, приготовившись к их повторному распределению) чем 130 миллионов умножить пусть даже на шесть раз.

5 ggv (13.07.2016 18:36)

0

Если вопрос о том, что можно было бы читать из DB2 и сразу писать в IMS, вместо того, чтобы из db2 выгружать в PS набор, то так сделано сознательно.
В IMS создано несколько структур (баз), для наиболее эффективно загрузки в каждую надо бы иметь входные данные сортированные в порядке иерархии сегментов. По сути, это пришлось бы открывать на каждую структуру IMS свой курсор в db2, с нужной сортировкой. Перерасход ресурсов, дб2 стараемся грузить как можно меньше, ибо чревато последствиями.
А выгрузив в PS набор, можно сортировать как угодно и подавать на вход программе загрузки в IMS. Могу на примитивном примере нарисовать, почему так удобнее.
Опять же, можно в разные структуры (базы) IMS можно грузить параллельно если на вход набор данных. В случае с чтением курсором из дб2 можно, конечно, попытаться сделать параллелизм, но явно заморочистей и перерасход ресурсов.
А учитывая, что структуры IMS партиционированы (DEDB area) то можно грузить отдельно в каждую area, не мешая друг другу и не пересекаясь по блокировкам и другим ресурсам (отсортировав на входе записи для каждой area моим любимым DFSORT), в пределе количество потоков это количество баз умножить на количетсво партиций, но это перебор, надо будет подобрать экспериментально по результатам мониторинга.
Я сейчас не беру общие случаи, в общем случае можно много потоков в одну area грузить, в нашем конкретном случае, при использовании своих рандомайзеров, когда есть понятие, какой ключ пойдёт в какую area, можно спокойно разводить потоки с данными по разным area устранив любые конфликты по блокировкам.
Вообще IBM'у вместо чего попало в маркетинге надо бы подробнее разьяснять такие фичи, например, как рандомайзер, это же жуть как здорово! Я уже писал про рандомайзеры но про них стоит каждый раз упоминать, одно это перевесит очень многое при выборе платформы. Когда будет в более высокой степени готовности - я обязательно подробнее опишу, и роль рандомайзеров в том числе, а она, бесспорно, ключевая.

6 ggv (13.07.2016 18:49)

0

можно ещё добавить, что позиция в курсоре дб2 не сохраняется при ims checkpoint, и, стало быть, не происходит репозиционирования после рестарта.
А значит придётся сортировать запрос для курсора, сохранять в save area при выполнении checkpoint значение уникального ключа записи дб2, а потом, при рестарте, получив значние уникального ключа в save area, открывать курсор начиная с этого значения ключа.
Каждая лишняя сортировка в дб2 это...
Куда как проще в последовательный набор выгрузить с наименьшим вовлечением таких пожирателей ресурсов, как дб2. Уж последовательный набор репозиционируется при рестарте отлично by design, без дополнительного кодирования.
Убогая эта дб2, ну что с неё взять smile

7 AKonev (14.07.2016 09:18)

0

Спам

Уф! Еле осилил, нельзя человеку, вышедшему из отпуска, читать такие вещи biggrin

Вопрос был в большей степени риторический. Я не зря спросил про объемы, а 130 млн. датасетов это конечно круто и безусловно лучше помнить что уже переписал, а что нет. А насчет убогости, у меня с недавних пор сложилось мнение, что IT в целом - это великий обман человечества cry

8 ggv (14.07.2016 10:58)

0

Что-то от лукавого в ИТ есть, соглашусь, и чем дальше, тем больше, особенно в потребительском секторе, в автоматизации промышленности оно, скорее всего, получше будет.
130 млн датасетов это не круто, это примерно один год.
Круто эту кучу запихнуть в дб2 в LOb'ы.... и иметь через это кучу проблем.

9 akost (14.07.2016 16:55)

0

недавно разговаривал с иноземцем, они размазывали 500 млн файликов (размер от 10 кбайт до 500 мегабайт, преимущественно 1-5 мегабайт) по распределенной файловой системе, на базе около 20 реальных линуксовых серверов, 5 дисковых систем разного класса. ну понятно, балансировщики нагрузки, фронт-енд сервера для обработки ftp-запросов на вход, ДНС с раунд-робином, чтобы поставить несколько балансировщиков, инкрементальный размазанный архив и все дела.
в общем, у них получилось, но проектировали и допиливали больше двух лет. подробностей иноземец сказал мало, сидят в штатах, работают на розничную сеть. вопрос мейнфрейма тоже стоял, но был зарублен по политическим и ценовым соображениям.
так вот BLOB у них тож проверялся, но умер, не пройдя нагрузочное тестирование.

11 AKonev (14.07.2016 20:00)

0

Спам

Всегда тоже был за возможность не использовать "LOBстеры и BLOBстеры".
Фактически информация это всегда объективные цифры, частично объективный текст, а остальное рюшечки и плюшечки в виде графики и изображения суть вещь необъективная, каждый видит то что хочет видеть.
По этому всю информацию в текстово-числовой формат, подвергнуть компрессу и в VARCHAR её родимую.

13 ggv (14.07.2016 20:37)

0

Так еще надо исходить из того, кто и как будет пользоваться сжатыми данными из этого varchar поля. Я вот для нашего проекта никакой пользы не вижу.

10 akost (14.07.2016 16:59)

0

ИТ, как и, например, мебель или автомобили, могут быть функциональным делом, предметом имиджа или капризом. у нас в стране, например, редко ИТ обеспечивает конкурентное преимущество кому-то зачем-то. но, побывав в МФЦ, я пришел к выводу, что иногда ИТ может принести реальную пользу.
Ну и не забывайте - теперь можно кино смотреть прямо в автобусе. Это и есть триумф ИТ!

12 AKonev (14.07.2016 20:05)

0

Спам

Так я и не спорю об этом, а поворчать таки хочется..
Есть у меня дома отдельно стоящий пятнадцатилетний компьютер, ничего на нем не было и нет кроме файерфокса, так вот раньше на нем все летало, а теперь еле шевелится, так не обман ли это? biggrin

1 akost (12.07.2016 15:17)

0

Ох, елки-палки, как красиво! Жалко только, что маааалееенький чертик скрывается вот в этих строках:

Цитата

"... Описываем входные и выходные наборы данных в IMS.... А читаем/пишем вызовами API IMS ..."

Жаль, что у меня нет IMS))).
Если бы было побольше людей, у которых IMS таки есть, я бы предложил написать Григорию более развернутую статью. А так - отлично, хорошая возможность и хорошо использована.

3 ggv (13.07.2016 16:55)

0

Да, фишка в том, что нужны журналы IMS и само собой, сервис по ведению-чтению журналов от IMS. Больше там, собственно, ничего не задействовано от IMS