[pgpool-general-jp: 1693] Re: pgpool-iiの3.7系のフェイルオーバーについて

Bo Peng pengbo @ sraoss.co.jp
2022年 4月 7日 (木) 11:46:49 JST


彭です。

ご報告ありがとうございます。

> この構成で、DB1を落とした時
> follow_masterがうまく動かずにはまってしまっています…

事象について、了解しました。

> DB1  0 172.20.8.7 master
> DB2  1 172.20.8.8 slave
> DB3  2 172.20.8.9 slave
>
> pgpool 172.20.8.10

設定ファイルより、Pgpool-II は2台構成と認識しています。
ap-001、ap-002 のいずれかが 172.20.8.10 でしょうか。

----
wd_hostname = 'ap-001'
heartbeat_destination0 = 'ap-002'
other_pgpool_hostname0 = 'ap-002'
----

可能でしたら、Watchdog を無効にして頂き、再度お試して頂けますでしょうか。

  use_watchdog = off


上記設定変更で改善されない場合には、以下の情報を共有していただけますと幸いです。

- すべての Pgpool-II のログ (起動後から follow master 完了までのログ)
- すべての Pgpool-II の pgpool.conf
- failover.sh

以上、よろしくお願いします。

On Wed, 6 Apr 2022 18:17:01 +0900
nakamura <nakamura @ ichi-holdings.com> wrote:

> 
> 中村と申します。
> 
> お世話になります
> 
> pgpool-II 
> 3.7.18、PostgreSQLは13.5でのストリーミングレプリケーションを使用しています
> 
> DB1  0 172.20.8.7 master
> DB2  1 172.20.8.8 slave
> DB3  2 172.20.8.9 slave
> 
> pgpool 172.20.8.10
> 
> この構成で、DB1を落とした時
> follow_masterがうまく動かずにはまってしまっています…
> 
> failover.shでは
> new_primaryが1 , 172.20.8.8になったと検知され
> dbのpromoteと、pcpでのpromoteが共に動く状態です
> #念の為、follow_masterの部分を''にしてfailbackのみでテストしたところここまでは問題がなく動作しておりました
> 
> ただ、follow_master側で受けた時の引数が、ダウンしたはずの
> 172.20.8.7がプライマリとして呼び出されてしまい、follow_masterが失敗してしまう状態です
> 
> 
> failoverの後すぐ呼び出されるのが原因かと思い、sleepなども入れたのですが
> やはり落ちたはずのDBをprimaryとして呼び出されてしまう状態です
> 
> failover.shについては
> https://www.pgpool.net/docs/37/ja/html/example-cluster.html
> を参考にpromoteをかけ、念の為pcp_promoteなどもつけるなどの処理も付け加えたり戻したりをしている状態です
> 
> 
> 何かお気づきの点などありましたら、ご指摘いただけませんでしょうか?
> よろしくお願いいたします。
> 
> 以下設定内容になります
> 
> pgpool.conf
> -------------------------
> follow_master_command = '/etc/pgpool/follow_master.sh %d %h %p %D %m %H 
> %M %P %r %R'
> -------------------------
> 
> follow_master.sh
> -------------------------
> NODE_ID=$1
> NODE_HOST=$2
> NODE_PORT=$3
> NODE_PGDATA=$4
> .
> .
> .
> 
> 
> echo "count= $# DUMP >>> $@" >> $log
> -------------------------
> 
> *log
> -------------------------
> failed_node_id=0 new_primary=172.20.8.8 new_primary_id=1
> count= 10 DUMP >>> 0 172.20.8.7 5432 /var/postgresql/data/ 0 172.20.8.7 0 0
> OLD PRIMARY = 0 NEW PRIMARY = 0
> count= 10 DUMP >>> 1 172.20.8.8 5432 /var/postgresql/data/ 0 172.20.8.7 0 0
> count= 10 DUMP >>> 2 172.20.8.9 5432 /var/postgresql/data/ 0 172.20.8.7 0 0
> 
> -------------------------


-- 
Bo Peng <pengbo @ sraoss.co.jp>
SRA OSS, Inc. Japan
http://www.sraoss.co.jp/


pgpool-general-jp メーリングリストの案内