Проблема с OE Replication

Обсуждение вопросов по администрированию СУБД Progress OpenEdge
Alexnas
Новичок
Сообщения: 9
Зарегистрирован: 17 мар 2008, 14:03

Проблема с OE Replication

Сообщение Alexnas » 25 мар 2013, 15:38

Доброго времени суток! Знатоки по настройке репликации, помогите справиться с проблемой. Репликациию настраиваю с нуля, синхронизация проходит, агент на target БД функционирует в нормальном режиме.
Все так шоколадно до первого останова source БД. При последующем старте БД, сервер репликации запускается, коннектится с агентом и завершается с ошибкой. При этом и сам агент на target БД так же завершает работу и уходит в состояние PRE-TRANSITION

Лог source db:

[2013/03/25@11:17:11.714+0400] P-15092 T--1789340672 I RPLS 85: (10507) The Fathom Replication Server has successfully connected to the Fathom Replication Agent agent1 on host 192.168.10.3.
[2013/03/25@11:17:11.714+0400] P-15092 T--1789340672 I RPLS 85: (11251) The Replication Server successfully connected to all of it's configured Agents.
[2013/03/25@11:17:11.545460847347+0400] P-15092 T--1789340672 I RPLS 85: (10440) Either the Fathom Replication Agent agent1 has been incorrectly configured or the target database /usr/pro/oblik81/db/account has been improperly sourced.
[2013/03/25@11:17:11.7440263716211262195+0400] P-15092 T--1789340672 I RPLS 85: (11696) The Agent agent1 cannot be properly configured and is being terminated.
[2013/03/25@11:17:11.755+0400] P-15092 T--1789340672 I RPLS 85: (10700) The Fathom Replication Agent agent1 is being terminated.
[2013/03/25@11:17:11.2318901243096859379+0400] P-15092 T--1789340672 I RPLS 85: (10504) Unexpected error -129 returned to function rpSRV_ServerLoop.
[2013/03/25@11:17:13.3978420320724845301+0400] P-15092 T--1789340672 I RPLS 85: (10505) The Fathom Replication Server is ending.

Ради эксперимента попробовал рестартануть БД после 10 минутной активности, в таком виде все синхронизируется идеально:
Состояние AI экстентов до ребута source:
Extent: 1
Status: Empty
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a1
Size: 120
Used: 0
Start: N/A
Seqno: 0

Extent: 2
Status: Empty
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a2
Size: 120
Used: 0
Start: N/A
Seqno: 0

Extent: 3
Status: Empty
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a3
Size: 120
Used: 0
Start: N/A
Seqno: 0

Extent: 4
Status: Empty
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a4
Size: 120
Used: 0
Start: N/A
Seqno: 0

Extent: 5
Status: Empty
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a5
Size: 120
Used: 0
Start: N/A
Seqno: 0

Extent: 6
Status: Empty
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a6
Size: 120
Used: 0
Start: N/A
Seqno: 0

Extent: 7
Status: Empty
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a7
Size: 120
Used: 0
Start: N/A
Seqno: 0

После ребута source:
Extent: 1
Status: Busy
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a1
Size: 632
Used: 403
Start: Tue Mar 26 14:39:59 2013
Seqno: 91

Extent: 2
Status: Empty
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a2
Size: 120
Used: 0
Start: N/A
Seqno: 0

Extent: 3
Status: Empty
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a3
Size: 120
Used: 0
Start: N/A
Seqno: 0

Extent: 4
Status: Empty
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a4
Size: 120
Used: 0
Start: N/A
Seqno: 0

Extent: 5
Status: Empty
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a5
Size: 120
Used: 0
Start: N/A
Seqno: 0

Extent: 6
Status: Empty
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a6
Size: 120
Used: 0
Start: N/A
Seqno: 0

Extent: 7
Status: Empty
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a7
Size: 120
Used: 0
Start: N/A
Seqno: 0

Extent: 8
Status: Empty
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a8
Size: 120
Used: 0
Start: N/A
Seqno: 0

Extent: 9
Status: Empty
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a9
Size: 120
Used: 0
Start: N/A
Seqno: 0

Extent: 10
Status: Empty
Type: Variable Length
Path: /usr/pro/oblik81_ai/account.a10
Size: 120
Used: 0
Start: N/A
Seqno: 0

Информацию о суточной активности смогу предоставить только завтра утром.
Последний раз редактировалось Alexnas 26 мар 2013, 16:10, всего редактировалось 1 раз.

Аватара пользователя
Arelav
Администратор
Сообщения: 1881
Зарегистрирован: 25 мар 2005, 17:05
Откуда: Progress Technologies

Re: Проблема с OE Replication

Сообщение Arelav » 25 мар 2013, 18:28

По вашим *.repl.properies файлам.
За исключением проблем с параметром repl-keep-alive=0, других проблем не обнаружил.
Какая у вас версия OpenEdge ? 10.2B07 мне просто не дал стартануть репликацию со значением repl-keep-alive=0.

Проверил в своей "песочнице", правда в рамках localhost, с вашими настройками (repl-keep-alive установил равным 90, в более ранних версиях там минимум по моему был 300) - все работает нормально, даже перезапускал source, target, делал truncate bi у source базы - не получилось её вырубить.

Даже не знаю чего сказать. Как понимаю, у вас проблема сейчас решается пересозданием target-базы? Кстати, а что в логе target-базы пишется? Как долго работает репликация до перестарта Source и начала проблемы?
Сможете подробно описать процесс создания target-базы, старта source и target, конкретные команды и их последовательность...так, чтобы выполнив их можно было бы прийти к этой ошибке?


Alexnas
Новичок
Сообщения: 9
Зарегистрирован: 17 мар 2008, 14:03

Re: Проблема с OE Replication

Сообщение Alexnas » 26 мар 2013, 11:27

Да, на данный момент третий раз пересоздаем target базу. Версия OpenEdge Release 10.2A03. Репликация работает ровно сутки до перезагрузки source (раз в сутки профилактически рестартуем БД). Объем баз 120 и 200 ГБ, на них по 5 и 10 динамических AI экстентов соответственно.

Создание таргет (AI включен заранее):
proutil 1.db -C enableSiteReplication source
proserve 1.db -pf 1.pf (в 1.pf добавляем параметр -DBService replserv)
probkup online 1.db 1.bkp -com -REPLTargetCreation

На другом сервере:
prorest 1.db 1.bkp
proutil 1.db -C enableSiteReplication target
proserve 1.db -pf 1.pf (в 1.pf добавляем параметр -DBService replagent -S 4522)

Логи после рестарта:

source:
[2013/03/26@09:44:19.559+0400] P-1981 T--1789339488 I RPLS 5: (10507) The Fathom Replication Server has successfully connected to the Fathom Replication Agent agent1 on host 192.168.10.3.
[2013/03/26@09:44:19.559+0400] P-1981 T--1789339488 I RPLS 5: (11251) The Replication Server successfully connected to all of it's configured Agents.
[2013/03/26@09:44:19.583+0400] P-2007 T--1789339456 I AIMGT 11: (-----) Login by root.
[2013/03/26@09:44:19.584+0400] P-2007 T--1789339456 I AIMGT 11: (13194) The after-image manager is beginning.
[2013/03/26@09:44:19.584+0400] P-2007 T--1789339456 I AIMGT 11: (2518) Started.
[2013/03/26@09:44:19.545460847191+0400] P-1981 T--1789339488 I RPLS 5: (10440) Either the Fathom Replication Agent agent1 has been incorrectly configured or the target database /usr/pro/oblik81/db/account has been improperly sourced.
[2013/03/26@09:44:19.7440263716211262039+0400] P-1981 T--1789339488 I RPLS 5: (11696) The Agent agent1 cannot be properly configured and is being terminated.
[2013/03/26@09:44:19.599+0400] P-1981 T--1789339488 I RPLS 5: (10700) The Fathom Replication Agent agent1 is being terminated.
[2013/03/26@09:44:19.2318901243096859224+0400] P-1981 T--1789339488 I RPLS 5: (10504) Unexpected error -129 returned to function rpSRV_ServerLoop.
[2013/03/26@09:44:21.4049924856119034458+0400] P-1981 T--1789339488 I RPLS 5: (10505) The Fathom Replication Server is ending.

target:
[2013/03/26@09:38:33.8241953592899011259+0400] P-32608 T--1789340672 I RPLA 5: (12688) The Replication Server has been terminated or the Source database has been shutdown. The Agents will enter PRE-TRANSITION, waiting for re-connection from the Replication Server.
[2013/03/26@09:44:18.-4294966741+0400] P-32608 T--1789340672 I RPLA 5: (10392) Database /usr/pro/oblik81/db/account is being replicated from database /usr/pro/oblik81/db/account on host 192.168.10.1.
[2013/03/26@09:44:21.4908968888558944854+0400] P-32608 T--1789340672 I RPLA 5: (12688) The Replication Server has been terminated or the Source database has been shutdown. The Agents will enter PRE-TRANSITION, waiting for re-connection from the Replication Server.

Промониторили экстенты на source, возникло мнение, что при proshut 1.db -by 1 экстент не успевает слиться и лочится. Чуть позже скину логи.

Alexnas
Новичок
Сообщения: 9
Зарегистрирован: 17 мар 2008, 14:03

Re: Проблема с OE Replication

Сообщение Alexnas » 04 апр 2013, 11:54

Пока так и не разобрались до конца в ситуации, но сбоев больше не было. Сейчас отказались от "скриптового" метода и делаем ребуты БД руками из командной строки.