Last modified: Fri Sep 5 22:40:36 JST 2014
Welcome to pgpool -II page

pgpool-IIとは

pgpool-IIはPostgreSQL専用のミドルウェアで、PostgreSQLのデータベースクライアントと PostgreSQLサーバの間に割り込む形で動作し、PostgrSQLに以下のような機能を追加します。

pgpool-IIはPostgreSQLバックエンドとフロントエンドの通信プロトコルを理解してその間を中継します。 すなわち、PostgreSQLのデータベースアプリケーションからはPostgreSQLサーバに、 PostgreSQLからはデータベースアプリケーションに見えるように設計されています。

そのため、PostgreSQLそのものはもちろん、アプリケーションの開発言語によらず、 PostgreSQLのデータベースアプリケーションにほとんど手を加えることなく、 pgpool-IIの機能が利用できます。

一部のSQLには制限事項があります。

pgpool-IIの稼働環境

pgpool-IIは、Linuxをはじめ、SolarisやFreeBSDなどのほとんどのUNIX環境で動作します。Windowsでは動きません。

対応するPostgreSQLのバージョンは、PostgreSQLの6.4以降です。 ただしパラレルクエリモードを使用するときはPostgreSQL 7.4以降をお使いください。 また、PostgreSQL 7.4より前のバージョンでは、使用できる機能に制限事項があります。 もっとも、そのような古いバージョンのPostgreSQLはそもそも使うべきではありません。

pgpool-II配下で利用するPostgreSQLサーバのメジャーバージョン、OSやハードウェアアーキテクチャを同じものにしなければなりません。 また、バージョンが同じであっても、PostgreSQLのビルド方法が違うものを混ぜている場合の動作は保証できません。 たとえば、SSLサポートの有無、日付型の実装方法(--disable-integer-datetimes)、ブロックサイズの違いなどは、pgpool-IIの一部の機能に影響を与えるでしょう。 PostgreSQLのマイナーバージョンが違う場合は大抵の場合問題になりませんが、すべてのPostgreSQLのマイナーバージョンを検証したわけではないので、できればマイナーバージョンを合わせておくことをお勧めします。

pgpool-IIのインストール

Linux用のRPMパッケージは、CentOS、RedHat Enterprise Linux、Fedora、Debian用などが提供されています。 該当リポジトリをチェックしてみてください。

pgpool-II のソースコードはpgpool開発ページ から ダウンロードできます。

pgpool-IIのソースコードからのインストールには、gcc 2.9以上、およびGNU makeが必要です。 また、pgpool-IIはlibpq(PostgreSQL付属のクライアントライブラリ)を使用するので、 ビルドを行うマシン上にlibpqがインストールされていることが必要です。 また、OpenSSLサポートを有効にする場合は、OpenSSLライブラリと開発用のヘッダーファイルが必要です。

configureの実行

ソースコードのtar ballを展開したら、configureを実行します。

./configure

configureに指定できるオプションは以下です。

--prefix=path pgpool-II本体や関連ファイルをインストールするトップディレクトリを指定します。 デフォルトは/usr/localです。
--with-pgsql=path PostgreSQLのクライアントライブラリなどがインストールされているトップディレクトリを指定します。 デフォルトはpg_configコマンドで取得できるパスです。
--with-openssl pgpool-IIをOpenSSLサポート付で作成します。 デフォルトではOpenSSLサポートは無効です。 V2.3 〜
--enable-sequence-lock pgpool-II 3.0シリーズ(3.0.4まで)互換のinsert_lockを使用します。 pgpool-IIは、シーケンステーブルの行に対してロックを行います。 これは、2011年06月より後にリリースされたPostgreSQL 8.2以降では使用できません。 V3.1 〜
--enable-table-lock pgpool-II 2.2と2.3シリーズ互換のinsert_lockを使用します。 pgpool-IIは、挿入対象のテーブルに対してロックを行います。 これは、ロックがVACUUMと競合するため非推奨です。 V3.1 〜
--with-memcached=path キャッシュストレージに memcached を利用し、 オンメモリクエリキャッシュ機能を 利用したい場合に指定します。 libMemcachedのインストールが必要です。 V3.2 〜
makeの実行
make
make install
pgpool_regclassのインストール V3.0 〜

PostgreSQL 8.0以降を使用している場合は、pgpool-IIが内部で使用するC関数pgpool_regclassをインストールします。 この関数がインストールされていなくてもpgpool-IIは動作しますが、違うスキーマで同じテーブル名を定義していて、 SQL文の中でスキーマ名を省略している場合に、不具合が生じることがあります(一時テーブルを除く)。 したがって、可能ならばpgpool_regclassをインストールすることをお勧めします。

このインストールは、pgpool-IIがアクセスする予定のすべてのPostgreSQLサーバで実施してください。

cd pgpool-II-x.x.x/sql/pgpool-regclass
make
make install
psql -f pgpool-regclass.sql template1

pgpool-regclass.sqlの実行は、pgpool-II経由で利用するデータベース毎に必要になります。 ただし、"psql -f pgpool-regclass.sql template1"を実行後に作成されたデータベースでは 自動的にpgpool-regclass.sqlの内容が反映されているので、新たにpgpool-regclass.sqlを実行する必要はありません。

insert_lockテーブルの作成 V3.0 〜

レプリケーションモードでinsert_lockを利用したい場合は、排他制御用のテーブル pgpool_catalog.insert_lockを作成します。 insert_lockテーブルが存在しなくても今のところinsert_lockは動作しますが、 その場合は、挿入対象のテーブルに対してロックが行われます。 これはpgpool-II 2.2と2.3シリーズの動作と同じです。挿入対象のテーブルに対するロックは、 VACUUMと競合してINSERT処理が長時間が待たされる可能性があります。

したがって、insert_lockテーブルを作成することをお勧めします。 テーブルの作成は、pgpool-IIがアクセスする予定のすべてのPostgreSQLサーバで実施してください。

cd pgpool-II-x.x.x/sql
psql -f insert_lock.sql template1

insert_lock.sqlの実行は、pgpool-II経由で利用するデータベース毎に必要になります。 ただし、"psql -f insert_lock.sql template1"を実行後に作成されたデータベースでは 自動的にinsert_lock.sqlの内容が反映されているので、 新たにinsert_lock.sqlを実行する必要はありません。

以上でインストールが完了します(GNU makeが必要なので、SolarisやFreeBSDなどでは makeをgmakeに読み替えてください)。

pgpool-IIの設定

pgpool-IIの設定ファイルはデフォルトでは/usr/local/etc/pgpool.confおよび /usr/local/etc/pcp.confです。pgpool-IIは動作モードによって使用できる機能と、 必要な設定項目が異なります。

使用できる機能/モードrawモード(*3)レプリケーションモード マスタスレーブモードパラレルクエリモード
コネクションプーリング×
レプリケーション× ×△(*1)
負荷分散× △(*1)
フェイルオーバ ×
オンラインリカバリ× △(*2)×
パラレルクエリ×× ×
サーバ台数1以上2以上 2以上2以上
システムDB不要不要 不要必要

pcp.confの設定

どの動作モードでも、pcp.confの設定は必要です。pgpool-IIには管理者がpgpool-IIの 停止や情報取得などの管理操作を行うためのインターフェイスが用意されています。 そのインターフェイスを利用するためにはユーザ認証が必要になるので、 そのユーザ名とパスワードをpcp.confに登録します。 pgpool-IIをインストールすると、$prefix/etc/pcp.conf.sampleができるので、それを $prefix/etc/pcp.confという名前でコピーします。

cp $prefix/etc/pcp.conf.sample $prefix/etc/pcp.conf

pcp.confでは空白行や#で始まる行はコメントと見なされます。 ユーザとパスワードは、

ユーザ名:[md5暗号化したパスワード]

のように指定します。 [md5暗号化したパスワード]は、$prefix/bin/pg_md5コマンドで作成できます。

./pg_md5 foo
acbd18db4cc2f85cedef654fccc4a4d8

パスワードを引数に渡したくない場合は pg_md5 -p を実行してください。

./pg_md5 -p
password: <パスワードを入力>

pcp.confは、pgpool-IIを動作させるユーザIDで読み取り可能になっていなければ なりません。

pgpool.confの設定

サンプルファイル 2.3 〜

pgpool-IIをインストールすると、インストール先ディレクトリ(デフォルトでは/usr/local) /etc/pgpool.conf.sampleができるので、それを インストール先ディレクトリ/etc/pgpool.confという名前でコピーします。

cp インストール先ディレクトリ/etc/pgpool.conf.sample $prefix/etc/pgpool.conf

また、各動作モード用のサンプルpgpool.confが用意されています。 こちらもご利用下さい。

動作モードサンプルファイル名
レプリケーションモードpgpool.conf.sample-replication
マスタースレーブモード(Slony-I)pgpool.conf.sample-master-slave
マスタースレーブモード(Streaming replication)pgpool.conf.sample-stream

コメントの扱い

pgpool.confでは空白行や#で始まる行はコメントと見なされます。

共通設定項目

各動作モードで共通する設定項目を説明します。

Connections

listen_addresses

pgpool-IIがTCP/IPコネクションを受け付けるアドレスをホスト名またはIPアドレスで指定します。 「*」を指定するとすべてのIPインタフェースからのコネクションを受け付けます。 「''」を指定するとTCP/IPコネクションを受け付けません。デフォルト値は「localhost」です。 UNIXドメインソケット経由のコネクションは常に受け付けます。

このパラメータを変更した時には pgpool-II を再起動してください。

port

pgpool-IIがコネクションを受け付けるポート番号です。デフォルト値は9999 です。 このパラメータを変更した時には pgpool-II を再起動してください。

socket_dir

pgpool-IIがコネクションを受け付けるUNIXドメインソケットを置くディレクトリです。 デフォルト値は'/tmp'です。 このソケットは、cronによって削除されることがあるので注意してください。 '/var/run'などのディレクトリに変更することをお勧めします。

このパラメータを変更した時には pgpool-II を再起動してください。

pcp_port

pcpが使用するポート番号です。

このパラメータを変更した時には pgpool-II を再起動してください。

pcp_socket_dir

pcpがコネクションを受け付けるUNIXドメインソケットを置くディレクトリです。 デフォルト値は'/tmp'です。 このソケットは、cronによって削除されることがあるので注意してください。 '/var/run'などのディレクトリに変更することをお勧めします。

このパラメータを変更した時には pgpool-II を再起動してください。

backend_socket_dir 〜 V3.0

DEPRECATED(〜 3.0) このパラメータは、libpqのポリシーに合わせて削除されます。 代わりに backend_hostname パラメータを使ってください。

UNIXドメインソケット経由でpgpool-IIがPostgreSQLと接続する際に使用する PostgreSQLのUNIXドメインソケットが置かれているディレクトリです。デフォルト値は/tmpです。

このパラメータを変更した時には pgpool-II を再起動してください。

Pools

num_init_children

preforkするpgpool-IIのサーバプロセスの数です。デフォルト値は32になっています。 これが、pgpool-IIに対してクライアントが同時に接続できる上限の数になります。 これを超えた場合は、そのクライアントは、pgpool-IIのどれからのプロセスへのフロントエンドの接続が終了するまで 待たされます(PostgreSQLと違ってエラーになりません)。 待たされる数の上限は、2 * num_init_children です。 待ち行列は、OS内部に作られ、「listenキュー」と呼ばれます。listenキューの長さは「バックログ」と呼ばれます。 システムによってはバックログの上限が設定されており、2 * num_init_children がこれを越える場合はシステム側の設定変更が必要になります。 さもないと高負荷時にlistenキューが溢れ、pgpool-IIへの接続が失敗したり、システム内で行われるリトライにより著しく性能が低下することがあります。 listenキューが溢れているかどうかは、"netstat -s"で確認できます。"TcpExt"のパートで、

535 times the listen queue of a socket overflowed
        

のようなメッセージが出ていればlistenキューが溢れています。listenキュー溢れを防ぐためにバックログを大きくするには、Linuxでは以下のようにします(root権限が必要です)。

# sysctl net.core.somaxconn
net.core.somaxconn = 128
# sysctl -w net.core.somaxconn = 256
        

もちろん、/etc/sysctl.confに以下のように書いても構いません。

net.core.somaxconn = 256
        

基本的に後述のmax_pool * num_init_children分だけPostgreSQLへのコネクションが張られますが、 他に以下の考慮が必要です。

  • 問い合わせのキャンセルを行うと通常のコネクションとは別に新たなコネクションが張られます。 したがって、すべてのコネクションが使用中の場合は問い合わせのキャンセルができなくなってしまうので、 ご注意下さい。 問い合わせのキャンセルを必ず保証したい場合は、想定されるコネクション数の倍の値を 設定することをおすすめします。
  • 一般ユーザでPostgreSQLに接続できるのは、 max_connections - superuser_reserved_connections 分だけです。

以上をまとめると、

クエリのキャンセルを考慮しない場合 max_pool * num_init_children <=
(max_connections - superuser_reserved_connections)
クエリのキャンセルを考慮する場合 max_pool * num_init_children * 2 <=
(max_connections - superuser_reserved_connections)

のどちらかを満たすように設定してください。

このパラメータを変更した時には pgpool-II を再起動してください。

child_life_time

pgpool-IIの子プロセスの寿命です。アイドル状態になってから child_life_time秒経過すると、一旦終了して新しいプロセスを起動します。 メモリーリークその他の障害に備えた予防措置です。 child_life_timeのデフォルト値は300秒、すなわち5分です。 0を指定するとこの機能は働きません(すなわち起動しっ放し)。 なお、まだ一度もコネクションを受け付けていないプロセスにはchild_life_timeは適用されません。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

child_max_connections

各pgpool-II子プロセスへの接続回数がこの設定値を超えると、その子プロセスを終了します。 child_life_timeconnection_life_timeが 効かないくらい忙しいサーバで、 PostgreSQLバックエンドが肥大化するのを防ぐのに有効です。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

client_idle_limit

前回クライアントから来たクエリから、client_idle_limit 秒越えても次の クエリが届かない場合は、クライアントへの接続を強制的に切断し、 クライアントからの次のコネクションを待つようにします。 この設定は、だらしないクライアントプログラムや、クライアントとpgpoolの間の TCP/IPコネクションが不調なことによって、 pgpoolの子プロセスが占有されてしまう問題を回避するのに役立ちます。 デフォルト値は 0(無効)です。このパラメータは、オンラインリカバリのセカンドステージでは無視されます。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

enable_pool_hba

trueならば、pool_hba.confに従ってクライアント認証を行います。 詳細はクライアント認証(HBA)のためのpool_hba.conf設定方法を参照してください。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

pool_passwd

md5 認証で用いる認証ファイルのファイル名を指定します。 デフォルト値は "pool_passwd" です。 空文字列("")を指定すると 認証ファイルの読込は無効になります。 詳細は認証・アクセス制御方式を参照してください。

このパラメータを変更した時には pgpool-II を再起動してください。

authentication_timeout

認証処理のタイムアウト時間を秒単位で指定します。0 を指定するとタイムアウトを無効にします。 authentication_timeout のデフォルト値は60です。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

Logs

log_destination V3.1 〜

pgpool-IIは、stderrかsyslogのどちらかにログを書くことができます。デフォルトはstderrです。

注意:syslogを使う場合は、syslogデーモンの設定を変更する必要があります。

pgpool-IIは、syslog ファシリティ LOCAL0 から LOCAL7 までにログを書くことができます (syslog_facilityをご覧ください)。 しかし、ほとんどのデフォルトのsyslog設定は、そのようなメッセージを廃棄してしまいます。 そこで、syslogデーモンの以下のような設定が必要になります。

local0.*    /var/log/pgpool.log
print_timestamp

trueならばpgpool-IIのログにタイムスタンプを追加します。デフォルトはtrueです。

このパラメータを変更した時には pgpool-II を再起動してください。

log_connections

trueならば、全てのクライアント接続をログへ出力します。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

log_hostname

trueならば、psコマンドでの状態表示時にIPアドレスではなく、ホスト名を表示します。 また、log_connectionsが有効な場合にはログにホスト名を出力します。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

log_statement

trueならばSQL文をログ出力します。この役目はPostgreSQLのlog_statementオプションと似ていて、 デバッグオプションがないときでも問い合わせをログ出力して調べることができるので便利です。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

log_per_node_statement V2.3 〜

log_statementと似ていますが、DBノード単位でログが出力されるので、 レプリケーションや負荷分散の確認が容易です。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

syslog_facility V3.1 〜

syslogが有効な場合、このパラメータによってsyslogの「ファシリティ」を設定します。 LOCAL0, LOCAL1, LOCAL2, LOCAL3, LOCAL4, LOCAL5, LOCAL6, LOCAL7から選択します。 デフォルトは LOCAL0 です。 併せてsyslogデーモンのドキュメントもご覧ください。

syslog_ident V3.1 〜

syslogが有効な場合、このパラメータによってsyslogのメッセージにあらわれるプログラム名を設定します。 デフォルトは"pgpool"です。

debug_level V3.0 〜

デバッグメッセージの詳細レベル。0でデバッグメッセージの出力なし。 1以上でデバッグメッセージを出力します。 数字が大きければより詳細なメッセージが出力されるようになります (3.0では今のところメッセージの詳細度は変りません)。 デフォルト値は0です。

File locations

pid_file_name V2.2 〜

pgpool-IIのpid file(プロセスIDを格納したファイル)のフルパス名です。 デフォルト値は'/var/run/pgpool/pgpool.pid'です。

このパラメータを変更した時には pgpool-II を再起動してください。

logdir

このディレクトリ下に、pgpool-IIのDBノードの状態を記録するpgpool_statusファイルが書かれます。

Connction pooling

connection_cache

trueならPostgreSQLへのコネクションをキャッシュします。デフォルトはtrueです。

このパラメータを変更した時には pgpool-II を再起動してください。

Health check

health_check_timeout

pgpool-IIはサーバ障害やネットワーク障害を検知するために、定期的にバックエンドに接続を試みます。 これを「ヘルスチェック」と言います。障害が検知されると、フェイルオーバや縮退運転を試みます。

この パラメータは、ネットワークケーブルが抜けた際などにヘルスチェックが長時間待たされるのを防ぐための タイムアウト値を秒単位で指定します。 デフォルトは20秒です。0を指定するとタイムアウト処理をしません (すなわち TCP/IP のタイムアウトまで待つことになります)。

なお、ヘルスチェックを有効にすると、ヘルスチェックのための余分の接続が1つ必要になりますので、 PostgreSQLのpostgresql.confの設定項目のmax_connectionsを少くとも1増やすようにしてください。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

health_check_period

ヘルスチェックを行う間隔を秒単位で指定します。0を指定するとヘルスチェックを行いません。 デフォルトは0です(つまりヘルスチェックを行いません)。 このパラメータを変更した時には設定ファイルを再読み込みしてください。

health_check_user

ヘルスチェックを行うためのPostgreSQLユーザ名です。 このユーザ名はPostgreSQLに登録済みでなければなりません。 さもないと、ヘルスチェックがエラーとなります。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

health_check_password V3.1 〜

ヘルスチェックを行うためのPostgreSQLパスワードです。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

health_check_max_retries V3.2 〜

ヘルスチェックに失敗した後(したがってフェイルオーバする前に)リトライする回数を指定します。 この設定は動作にむらのあるネットワーク環境において、マスタが正常であるにも関わらず たまにヘルスチェックが失敗することが予想される場合に有用です。 デフォルト値は0で、この場合はリトライをしません。 この設定を有効にする場合は、併せてfail_over_on_backend_errorを offにすることをお勧めします。

health_check_max_retriesを変更した場合は、pgpool.confの再読込が必要です。

health_check_retry_delay V3.2 〜

ヘルスチェックのリトライの間の秒数を指定します(health_check_max_retries > 0でなければ有効になりません)。 0を指定すると、待ちなしに直ちにリトライします。

health_check_retry_delayを変更した場合は、pgpool.confの再読込が必要です。

Failover and failback

failover_command

ノードが切り離された時に実行するコマンドを指定します。特殊文字を指定すると、 pgpool が必要な情報に置き換えてコマンドを実行します。

文字意味
%d切り離されたノード番号
%h切り離されたノードのホスト名
%H新しいマスターのホスト名
%p切り離されたノードのポート番号
%D切り離されたノードのデータベースクラスタパス
%M古いマスターのノード番号
%m新しいマスターのノード番号
%P古いプライマリノード番号
%r新しいマスターのポート番号
%R新しいマスターのデータベースクラスタパス
%%'%'文字

このパラメータを変更した時には設定ファイルを再読み込みしてください。

フェイルオーバー時には、pgpoolはまず子プロセスを切断します(結果として、すべてのセッションが切断されます)。 次に、pgpoolはフェイルオーバコマンドを実行し、その完了を待ちます。 そのあとで新しいpgpoolの子プロセスが起動され、クライアントからの接続を受け付けられる状態になります。

failback_command

ノードが復帰した時に実行するコマンドを指定します。特殊文字を指定すると、 pgpool が必要な情報に置き換えてコマンドを実行します。

文字意味
%d復帰したノード番号
%h復帰したノードのホスト名
%p復帰したノードのポート番号
%D復帰したノードのデータベースクラスタパス
%M古いマスターのノード番号
%m新しいマスターのノード番号
%H新しいマスターのホスト名
%P古いプライマリノード番号
%r新しいマスターのポート番号
%R新しいマスターのデータベースクラスタパス
%%'%'文字

このパラメータを変更した時には設定ファイルを再読み込みしてください。

follow_master_command V3.1 〜

マスターノードのフェイルオーバー後に実行するコマンドを指定します。 これは、マスタースレーブモードでストリーミングレプリケーション構成の場合のみ有効です。 特殊文字を指定すると、pgpool が必要な情報に置き換えてコマンドを実行します。

文字意味
%d切り離されたノード番号
%h切り離されたノードのホスト名
%p切り離されたノードのポート番号
%D切り離されたノードのデータベースクラスタパス
%M古いマスターのノード番号
%m新しいマスターのノード番号
%H新しいマスターのホスト名
%P古いプライマリノード番号
%r新しいマスターのポート番号
%R新しいマスターのデータベースクラスタパス
%%'%'文字

このパラメータを変更した時には設定ファイルを再読み込みしてください。

空文字列以外を指定すると、マスターノードのフェイルオーバー後に新しいマスター以外のすべてのノードは切り離され、 クライアントから再び接続を受け付けるために子プロセスの再起動が行われます。 その後、切り離されたそれぞれのノードに対してfollow_master_commandに指定したコマンドが実行されます。 通常は、ここに pcp_recovery_node コマンドを組み込んだシェルスクリプトなどを 指定し、新しいマスターからスレーブをリカバリするために使用します。

fail_over_on_backend_error V2.3 〜

trueならば、バックエンドのソケットへからの読み出し、書き込みに失敗するとフェイルオーバします。 falseにすると、フェイルオーバせず、単にエラーがレポートされてセッションが切断されます。 このパラメータをfalseにする場合には、health checkを有効にすることをお勧めします。 なお、このパラメータがfalseの場合でも、バックエンドがシャットダウンされたことを pgpool-IIが検知した場合にはフェイルオーバが起きることに注意してください。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

Load balancing mode

ignore_leading_white_space

trueならば、load balanceの際にSQL文行頭の空白を無視します(全角スペースは無視されません)。 これは、DBI/DBD:Pgのように、勝手に行頭にホワイトスペースを追加するようなAPIを使い、 ロードバランスしたいときに有効です。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

Backends

backend_hostname

使用するPostgreSQLサーバのホスト名を指定します。 pgpool-IIは、このホスト名を使ってPostgreSQLと通信します。

TCP/IPを使用する場合、ホスト名またはIPアドレスを指定できます。 "/"で始まる文字列を指定すると、TCP/IPではなく、UNIXドメインソケットを使用され、 ディレクトリ名とみなしてそこにソケットファイルが作成されることになります。 空文字('')を指定すると、/tmp下に作成したUNIXドメインソケットで接続します。

実際には、"backend_hostname"の後に0, 1, 2...と数字を付加して使用する複数 のPostgreSQLを区別します(たとえばbackend_hostname0)。 この数字のことを「DBノードID」と呼び、0から開始します。 DBノードID == 0のPostgreSQLは、特別に「マスターDB」と呼ばれます。 複数のDBノードを運用している場合、条件によってはマスターDBがダウンしても運用を続けることができます。 この場合は、稼働中かつDBノードIDがもっとも若いものが新しいマスターDBになります。

ただし、ストリーミングレプリケーションモードで運用している場合は、 DBノードIDが0のノードには特別な意味はなく、プライマリノードかどうかが問題になります。 詳細はStreaming Replicationへの対応をご覧ください。

1台しかPostgreSQLを使用しない場合は、"backend_hostname0"としてください。

backend_hostname は新しく追加した行を設定ファイル再読み込みで追加することができます。 すでにある情報を途中で変更することはできません。 変更する場合には pgpool-II を再起動してください。

backend_port

使用するPostgreSQLサーバのポート番号を指定します。 実際には、"backend_port"の後に0, 1, 2...とDBノードIDを付加して使用する複数のPostgreSQLを区別します。 1台しかPostgreSQLを使用しない場合は、"backend_port0"としてください。

backend_port は新しく追加した行を設定ファイル再読み込みで追加することができます。 すでにある情報を途中で変更することはできません。変更する場合には pgpool-II を再起動してください。

backend_weight

使用するPostgreSQLサーバに対する負荷分散の比率を0以上の整数または浮動小数点で指定します。 "backend_weight"の後には、DBノードIDを付加して使用する複数のPostgreSQLを区別します。 1台しかPostgreSQLを使用しない場合は、"backend_weight0"としてください。 負荷分散を使用しない場合は、「1」を設定してください。

backend_weight は新しく追加した行を設定ファイル再読み込みで追加することができます。 pgpool-II 2.2.6/2.3以降では、設定ファイルの再読込でbackend_weight値を変更できます。 新しく接続したクライアントセッションから、この新しいweight値が反映されます。 マスタースレーブモードにおいて、あるスレーブに対して管理業務を実施する都合上、 問い合わせがそのスレーブに送られるのを防ぎたい場合に有用です。

backend_data_directory

使用する PostgreSQL サーバのデータベースクラスタのパスを指定します。 実際には、"backend_data_directory"の後にDBノードIDを付加して使用する複数のPostgreSQLを区別します。 このパラメータはオンラインリカバリの際に使用します。 オンラインリカバリを使用しない場合には設定する必要はありません。

backend_data_directory は新しく追加した行を設定ファイル再読み込みで追加することができます。 すでにある情報を途中で変更することはできません。変更する場合には pgpool-II を再起動してください。

backend_flag V3.1 〜

バックエンド単位での様々な挙動を制御するフラグです。 実際には、"backend_flag"の後に数字を付けて、どのバックエンドのフラグか指定します。

例: backend_flag0

複数のフラグを"|"で連結して指定することができます。 現在以下のものがあります。

ALLOW_TO_FAILOVER フェイルオーバやデタッチが可能になります。これがデフォルトの動作です。 DISALLOW_TO_FAILOVERと同時には指定できません。
DISALLOW_TO_FAILOVER フェイルオーバやデタッチが行われません。 HeartbeatやPacemakerなどのHA(High Availability)ソフトでバックエンドを二重化しているなどの事情で、 pgpool-II側でフェイルオーバの制御をして欲しくないときなどに指定します。 ALLOW_TO_FAILOVERと同時には指定できません。

このパラメータを変更した時には pgpool-II を再起動してください。

SSL

ssl V2.3 〜

trueならばpgpool-IIとフロントエンド、pgpool-IIとバックエンドの間のSSL接続が可能になります。 なお、pgpool-IIとフロントエンドの接続にSSLが利用できるためには、 ssl_keyssl_certが設定されてなければなりません。

デフォルトではSSLサポートはオフになっています。 SSLサポートを有効にするためには、configure時にOpenSSLサポートを有効にする必要があります。 詳細はインストールの項目をご覧下さい。

sslを有効に設定したら、pgpoolの再起動をしてください。

ssl_key V2.3 〜

フロントエンドとの接続に使用するプライベートキーファイルのフルパスを指定します。

ssl_keyのデフォルト値はありません。 ssl_keyの設定がない場合は、フロントエンドとの接続でSSLが使用されなくなります。

ssl_cert V2.3 〜

フロントエンドとの接続に使用する公開x509証明書のフルパスを指定します。

ssl_certのデフォルト値はありません。 ssl_certの設定がない場合は、フロントエンドとの接続でSSLが使用されなくなります。

ssl_ca_cert

1 つ以上の CA ルート証明書を格納している PEM 形式ファイルのパスを指定します。 このファイルはバックエンドサーバ証明書の検証に用いられます。 このオプションは OpenSSL の verify(1) コマンドにおける -CAfile オプションと同様の機能を提供します。

デフォルトでは値が設定されておらず検証は行われません。 このオプションが設定されていない場合においても、ssl_ca_cert_dir オプション が設定されている場合には検証が行われます。

ssl_ca_cert_dir

PEM 形式の CA 証明書ファイルを格納しているディレクトリのパスを指定します。 これらのファイルはバックエンドサーバ認証の検証に用いられます。 このオプションは OpenSSL の verify(1) コマンドにおける -CApath オプションと同様の機能を提供します。

デフォルトでは値が設定されておらず検証は行われません。 このオプションが設定されていない場合においても、ssl_ca_cert オプション が設定されている場合には検証が行われます。

Other

relcache_expire V3.1 〜

リレーションキャッシュの寿命を秒単位で指定します。 0を指定すると、キャッシュの寿命の管理は行わず、プロセスが生きているか、 キャッシュが溢れるまでは有効になります(デフォルトの動作)。

リレーションキャッシュは、PostgreSQLのシステムカタログに対する問い合わせを保存しておくものです。 問い合わせる内容は、テーブルの構造、テーブルが一時テーブルかどうかなどがあります。 キャッシュはpgpoolの子プロセスのローカルメモりに保管されています。

もしALTER TABLEが発行されると、テーブルの構造が変わる場合があり、 リレーションキャッシュの内容と一致しなくなる恐れがあります。 relcache_expireにより、その危険性をコントロールできるようになります。

relcache_size V3.2 〜

リレーションキャッシュのサイズを指定します。 デフォルトは256です。

"pool_search_relcache: cache replacement happend"

のようなメッセージがログに頻繁に出る場合は、この数字を大きくしてください。

check_temp_table V3.2 〜

もしonなら、SELECTに含まれるテーブルが一時テーブルかどうかのチェックを行います。 このチェックは、primary/masterのシステムカタログへのアクセスを発生させ、それなりに負荷を上げます。 もし一時テーブルを使っていないということが確かで、primary/masterの負荷を少しでも下げたいのであれば、 offにすることができます。デフォルトはonです。

SSL証明書の生成

証明書の扱いについてはこのマニュアルの範囲外です。 PostgreSQLドキュメント SSLによる安全なTCP/IP接続の章に自分で認証する証明書を作成するコマンドの例があります。

rawモードにおけるフェイルオーバ動作について

rawモードにおいて、2台以上のPostgreSQLサーバを指定すると、フェイルオーバが可能です。 フェイルオーバでは、正常時にはbackend_hostname0で指定したPostgreSQLのみを使用し、 ほかのサーバにはアクセスしません。 backend_hostname0のサーバがダウンすると、次にbackend_hostname1で指定したサーバにアクセスをこころみ、 成功すればそれを使用します。以下、backend_hostname2...でも同様になります。

コネクションプールモード

rawモードに加え、コネクションプーリングが利用できるようになります。 コネクションプールモードを有効にするには、 connection_cache をonにします。 以下の設定項目がコネクションプールの動作に影響を与えます。

max_pool

pgpool-IIの各サーバプロセスがキープするPostgreSQLへの最大コネクション数です。 pgpool-IIは、ユーザ名、データベースが同じならばコネクションを再利用しますが、 そうでなければ新たにPostgreSQLへのコネクションを確立しようとします。 したがって、ここでは想定される[ユーザ名:データベース名]のペアの種類の数だけを max_poolに指定しておく必要があります。 もしmax_poolを使いきってしまった場合は一番古いコネクションを切断し、 そのスロットが再利用されます。

max_poolのデフォルト値は4です。

なお、pgpool-II全体としては、num_init_children * max_pool 分だけ PostgreSQLへのコネクションが張られる点に注意してください。

このパラメータを変更した時には pgpool-II を再起動してください。

connection_life_time

コネクションプール中のコネクションの有効期間を秒単位で指定します。 0を指定すると有効期間は無限になります。 connection_life_timeのデフォルト値は0です。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

reset_query_list

セッションが終了するときにコネクションを初期化するためのSQLコマンドを「;」で区切って列挙します。 デフォルトは以下のようになっていますが、任意のSQL文を追加しても構いません。

reset_query_list = 'ABORT; DISCARD ALL'

PostgreSQLのバージョンによって使用できるSQLコマンドが違います。 各バージョンごとのお勧め設定は以下です(ただし、"ABORT"は必ずコマンドに含めてください)。

PostgreSQLバージョンreset_query_listの推奨設定値
7.1以前ABORT
7.2から8.2ABORT; RESET ALL; SET SESSION AUTHORIZATION DEFAULT
8.3以降ABORT; DISCARD ALL
  • 「ABORT」は、PostgreSQL 7.4以上ではトランザクションブロックの中にいない場合には発行されません。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

コネクションプールモードにおけるフェイルオーバ動作について

rawモードと同様の動作をします。

レプリケーションモード

レプリケーションを有効にするモードです(設定ファイルの雛形はpgpool.conf-replication)。 rawモード、コネクションプールモードに加え、以下を設定します。

replication_mode

レプリケーションモードで動作させる場合はtrueを指定してください。デフォルト値はfalseです。

このパラメータを変更した時には pgpool-II を再起動してください。

load_balance_mode

trueを指定するとレプリケーションモードまたはマスタースレーブモードの際に、 SELECT文をロードバランスして検索性能を向上させることができます。デフォルト値はfalseです。

このパラメータを変更した時には pgpool-II を再起動してください。

replication_stop_on_mismatch

各DBノードから送られてくるパケットの種類が不一致になった場合に、DBノードを切り放して縮退運転に入ります。

良くあるケースとしては、replicate_select が指定されていて SELECTが各DBノードで実行されているときに、 検索結果行数が一致しないなど、があります(これに限定されるものではありません。 たとえばあるDBノードでUPDATEが成功したのに、他のDBノードでは失敗した場合が一例です)。 ただし、pgpoolはパケットの中身まではチェックしていないので、SELECT結果のデータ内容が異なっていても、 縮退は起きないことに注意してください。

縮退対象のDBノードは「多数決」で少数派になったものが対象になります。 もし多数決で同票になった場合は、マスタDBノード(DBノード番号がもっともわかいもの)を含むグループが優先され、 それ以外のグループに所属するDBノードが切り放しの対象になります。

このオプションがfalseの場合は、該当のセッションを強制的に終了するだけに留めます。 デフォルト値はfalseです。

failover_if_affected_tuples_mismatch V3.0 〜

各DBノードで実行されたINSERT/UPDATE/DELETEの結果行数が不一致になった場合に、 DBノードを切り放して縮退運転に入ります。

縮退対象のDBノードは「多数決」で少数派になったものが対象になります。 もし多数決で同票になった場合は、マスタDBノード(DBノード番号がもっともわかいもの)を含むグループが優先され、 それ以外のグループに所属するDBノードが切り放しの対象になります。

このオプションがfalseの場合は、該当のセッションを強制的に終了するだけに留めます。 デフォルト値はfalseです。

white_function_list V3.0 〜

データベースに対して更新を行なわない関数名をコンマ区切りで指定します。 このリストに含まれない関数呼び出しを含むSELECTは、負荷分散の対象とはならず、 レプリケーションモードにおいてはすべてのDBノードで実行されます。 (マスタースレーブモードにおいては、マスター(primary)DBノードにのみ送信されます)。

関数名には正規表現を使うことができます。指定した各表現に ^ と $ をつけた形で使われます。 たとえば、読み出しのみの関数が"get_"あるいは"select_"で始まるならば、以下のような指定が可能です。

white_function_list = 'get_.*,select_.*'
black_function_list V3.0 〜

データベースに対して更新を行なう関数名をコンマ区切りで指定します。 このリストに含まれる関数呼び出しを含むSELECTは、負荷分散の対象とはならず、 レプリケーションモードにおいてはすべてのDBノードで実行されます。 このリストに含まれない関数呼び出しを含むSELECTは、負荷分散の対象となります。

関数名には正規表現を使うことができます。指定した各表現に ^ と $ をつけた形で使われます。 たとえば、読み出しのみの関数が"set_"、"update_"、"delete_"あるいは"insert_"で始まるならば、 以下のような指定が可能です。

black_function_list = 'nextval,setval,set_.*,update_.*,delete_.*,insert_.*'

white_function_listとblack_function_listの両方を空以外にすることはできません。 どちらか一方のみに関数名を指定します。

pgpool-II 3.0より前のバージョンでは、固定でnextvalとsetvalが書き込みを行なう関数として認識されていました。 それと同じ動作を行なわせるには、以下のようにwhite_function_listとblack_function_listを指定します。

white_function_list = ''
black_function_list = 'nextval,setval,lastval,currval'

上の例では、nextvalとsetvalに加え、lastvalとcurrvalが追加されていることに注意してください。 lastvalとcurrvalは書き込みを行う関数ではありませんが、これらの関数が負荷分散されることによって、 エラーが発生するのを未然に防ぐことができます。 black_function_listに含まれる関数は負荷分散されないからです。

replicate_select

true を設定すると、レプリケーションモードでは SELECT 文をレプリケーションします。 これは pgpool-II 1.0 までの挙動と同じになります。 false を設定すると SELECT 文をマスタのみに送信します。デフォルト値は false です。

replicate_select、load_balance_mode、 SELECT問合わせが明示的なトランザクションブロックの内側にあるかどうかどうかで、 レプリケーションモードの動作が変化します。詳細を表に示します。

SELECTが明示的なトランザクションブロックの内側にある YYYNNNYN
replicate_selectがtrue Y Y N N Y Y N N
load_balance_modeがtrue YNNNYNYY
結果(R:レプリケーション, M: マスタのみに送信, L: ロードバランスされる) RRMMRRML
insert_lock

SERIAL型を使っているテーブルをレプリケーションすると、SERIAL型の列の値がDBノードの間で 一致しなくなることがあります。 この問題は、該当テーブルを明示的にロックすることで回避できます (もちろんトランザクションの並列実行性は犠牲になりますが)。 しかし、そのためには、

INSERT INTO ...

BEGIN;
LOCK TABLE ...
INSERT INTO ...
COMMIT;

に書き換えなければなりません。 insert_lockをtrueにすると自動的にトランザクションの開始、テーブルロック、トランザクションの終了を 行ってくれるので、こうした手間を省くことができます (すでにトランザクションが開始されている場合はLOCK TABLE...だけが実行されます)。

pgpool-II 2.2以降

テーブルがSERIAL列を持つかどうか自動判別するため、 SERIAL列がなければ決してテーブルをロックしません。

pgpool-II 3.0.4までの3.0シリーズ

対応するシーケンステーブルに対して行ロックをかけることで排他制御を行ないます。 それ以前のバージョンと比べると、VACUUM(autovacuumを含む)とのロック競合がなくなるメリットがあります。

しかし、これは他の問題を引き起こします。 トランザクション周回が起きた後、シーケンステーブルに対する行ロックはPostgreSQLの内部エラー (詳細には、トランザクション状態を保持するpg_clogへのアクセスエラー)を起こします。 これを防ぐため、PostgreSQLのコア開発者はシーケンステーブルに対する行ロックを許可しないことを決定しました。 これはもちろんpgpool-IIを動作不能にします(修正されたPostgreSQLはバージョン 9.0.5, 8.4.9, 8.3.16そして8.2.22としてリリースされるでしょう)。

pgpool-II 3.0.5以降

新しいPostgreSQLがシーケンステーブルに対するロックを許可しなくなったため、 pgpool_catalog.insert_lockテーブルに対して行ロックをかけることで排他制御を行ないます。 したがって、pgpool-II経由でアクセスするすべてのデータベースにinsert_lockテーブルを あらかじめ作成しておく必要があります。 詳細はinsert_lockテーブルの作成の項目をご覧ください。

もし、insert_lockテーブルが存在しない場合は、挿入対象のテーブルに対してロックを行います。 これは、pgpool-II 2.2と2.3シリーズのinsert_lockと同じ動作です。 また、過去のバージョンと互換性のあるinsert_lockを使用したい場合は、configureスクリプトで設定できます。 詳細はconfigureの実行の項目をご覧下さい。

なお、あまり必要ないかも知れませんが、コメントを利用して、この挙動を細かく制御することもできます。

  1. insert_lockをtrueにして、INSERT文の先頭に/*NO INSERT LOCK*/コメントを追加する。 このコメントがあると、テーブルロックは行われません(pgpool-II 3.0以降でも同様)。
  2. insert_lockをfalseにして、INSERT文の先頭に/*INSERT LOCK*/コメントを追加する。 このコメントがあると、このINSERT文に対してのみテーブルロックが行われます(pgpool-II 3.0以降でも同様)。

insert_lockのデフォルト値はtrueです。

なお、insert_lockを有効にしてregression testを実行すると、少くともPostgreSQL 8.0では transactions, privileges, rules, alter_tableがfailします。 ruleでは、viewに対してLOCKをしようとしてしまうこと、ほかのものは

! ERROR:  current transaction is aborted, commands ignored until end of transaction block

というようなメッセージが出てしまうためです。たとえば、transactions では、 存在しないテーブルに対してINSERTを行うテストが含まれており、 pgpoolが最初に存在しないテーブルに対してLOCKを行う結果、エラーになってトランザクションがアボート状態になり、 続くINSERTで上記エラーが出てしまいます。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

recovery_user

オンラインリカバリを行うための PostgreSQL ユーザ名です。 このパラメータを変更した時には設定ファイルを再読み込みしてください。

recovery_password

オンラインリカバリを行うための PostgreSQL ユーザパスワードです。 このパラメータを変更した時には設定ファイルを再読み込みしてください。

recovery_1st_stage_command

オンラインリカバリ中に起動するコマンド名を指定します。 このスクリプトはPostgreSQLのマスタサーバ(プライマリサーバ)が起動します。 コマンドファイルはセキュリティ上の観点からデータベースクラスタ以下にある コマンドやスクリプトのみを呼び出します。 例えば、recovery_1st_stage_command = 'sync-command' と設定してある場合、 $PGDATA/sync-command を起動しようとします。

recovery_1st_stage_command は次の3つの引数を受けとります。

  1. マスタ(プライマリ)データベースクラスタへのパス
  2. リカバリ対象のPostgreSQLのホスト名
  3. リカバリ対象のデータベースクラスタへのパス

recovery_1st_stage_command を実行している間は pgpool ではクライアン トからの接続を制限しません。参照や更新を行うことができます。

注意: recovery_1st_stage_command は、PostgreSQLから見ると、一つのSQLとして実行されます。PostgreSQLの statement_timeout を無効にするか、statement_timeout が recovery_1st_stage_command の実行時間よりも十分長くないと、コマンドの実行がPostgreSQLにより途中でキャンセルされてしまいます。 この場合の典型的な症状は、recovery_1st_stage_command の中で呼び出されるコマンド(たとえば rsync)がシグナル2を受け取って中断する、というものです。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

recovery_2nd_stage_command

2 回目のオンラインリカバリ中に起動するコマンド名を指定します。 このスクリプトはPostgreSQLのマスタサーバ(プライマリサーバ)が起動します。 コマンドファイルはセキュリティ上の観点からデータベースクラスタ以下にある コマンドやスクリプトのみを呼び出します。 例えば、recovery_2nd_stage_command = 'sync-command' と設定してある場合、 $PGDATA/sync-command を起動しようとします。

recovery_2nd_stage_command は次の3つの引数を受けとります。

  1. マスタ(プライマリ)データベースクラスタへのパス
  2. リカバリ対象のPostgreSQLのホスト名
  3. リカバリ対象のデータベースクラスタへのパス

recovery_2nd_stage_command を実行している間は pgpool ではクライアントから 接続、参照、更新処理を一切受け付けません。 また、バッチ処理などによって接続しているクライアントが長時間存在している場合にはコマンドを起動しません。 新たな接続を制限し、現在の接続数が 0 になった時点 でコマンドを起動します。

注意: recovery_2nd_stage_command は、PostgreSQLから見ると、一つのSQLとして実行されます。PostgreSQLの statement_timeout を無効にするか、statement_timeout が recovery_2nd_stage_command の実行時間よりも十分長くないと、コマンドの実行がPostgreSQLにより途中でキャンセルされてしまいます。 この場合の典型的な症状は、recovery_2nd_stage_command の中で呼び出されるコマンド(たとえば rsync)がシグナル2を受け取って中断する、というものです。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

recovery_timeout

pgpoolは、オンラインリカバリの際にすべてのクライアントが接続を終了するまで待ちます。 recovery_timeoutでその最大待ち時間を指定します。単位は秒です。 待ち時間がrecovery_timeoutを越えると、オンラインリカバリは中止され、通常の状態に戻ります。

アイドル状態のクライアントが自分から切断するのを待ちたくない場合は、 client_idle_limit_in_recoveryを利用することもできます。

recovery_timeoutは、この他、オンラインリカバリの最後にリカバリ対象のDBノードで postmasterを起動する際の待ち時間にも利用されます。

recovery_timeoutのデフォルト値は90秒です。 recovery_timeoutを0としてもタイムアウトが無効になるわけではなく、 単に即座にタイムアウトするだけですので注意してください。 このパラメータを変更した時には設定ファイルを再読み込みしてください。

client_idle_limit_in_recovery V2.2 〜

client_idle_limitと似ていますが、このパラメータはリカバリのセカンドステージでのみ効力があります。 前回クライアントから来たクエリから、client_idle_limit_in_recovery 秒越えても次のクエリが届かない場合は、 クライアントへの接続を強制的に切断し、リカバリのセカンドステージの進行が妨害されるのを防ぎます。 -1を指定すると、直ちにクライアントへの接続を切断してセカンドステージに入ります。 デフォルト値は 0(無効)です。

クライアントが忙しく、アイドル状態にならない場合はclient_idle_limit_in_recoveryを設定しても セカンドステージに移行できません。 この場合、client_idle_limit_in_recoveryに-1を設定すると、クライアントがビジーであっても ただちにクライアントへの接続を切断し、セカンドステージに移行することができます。

このパラメータを変更した時には設定ファイルを再読み込みしてください。

lobj_lock_table V2.3 〜

ラージオブジェクトのレプリケーションを行いたいときにロック管理に使うためのテーブル名を指定します。 このテーブルが指定されていて、ラージオブジェクトの作成要求がクライアントから送信され、 かつその要求の中にラージオブジェクトのIDの明示的な指定が含まれていない場合 (つまり、lo_creatでラージオブジェクトを作成する場合)、 pgpool-IIは、排他制御のためにこのテーブルをロックした後、 ラージオブジェクトを格納するシステムカタログpg_largeobjectのラージオブジェクトに格納されている IDの最大値を取りだし、その値+1のIDを使ってlo_create()を呼び出してラージオブジェクトの作成を行います (lo_create()を持たないバージョン8.1より前のPostgreSQLではこの処理は行われません)。 この方法により、すべてのDBノードで同じIDを持つラージオブジェクトが作成されることが保証されます。

このような処理の対象となるラージオブジェクトの操作は、PostgreSQLのC言語用のAPI(libpq)で言うと、lo_creat()です。 2010年2月時点の我々の調査では、以下の言語のラージオブジェクト作成APIは、すべてlo_creat()を呼び出すか、 またはlo_creat()と同じ通信プロトコルを使っているので、pgpool-IIの上記の操作の対象になり、 ラージオブジェクトのレプリケーションが安全に行われるようになります。

  • Java(JDBCドライバ)
  • PHP(pg_lo_create関数、またはPDOなどの該当API)
  • psqlから\lo_importを呼び出す場合

上記以外であっても、ラージオブジェクトの作成APIで ラージオブジェクトのIDを引数として渡すようになっていないものは 間違いなくlo_creat()を使っており、pgpool-IIの上記の操作の対象になると考えて良いでしょう。

pgpool-IIの上記処理の対象とならないようなラージオブジェクトの作成処理は以下のものです。

  • libpqのlo_create()を使用している
  • C言語以外のAPIで、lo_create()を使用しているもの
  • バックエンド関数のlo_importをSELECTで呼び出す場合
  • バックエンド関数のlo_creatをSELECTで呼び出す場合

lobj_lock_tableで指定するテーブルはどのような定義のものでも構いませんが、 あらかじめ作成済でかつすべてのユーザが書き込み可能でなければなりません。 そのようなテーブルを作る例を示します。

CREATE TABLE public.my_lock_table ();
GRANT ALL ON public.my_lock_table TO PUBLIC;

この操作はpgpool-II経由で接続するすべてのデータベースに対して、あらかじめ実施しておかなければなりません。 しかし、この操作をtemplate1データベースに対して一度行っておけば、 以後作成されるデータベースにはこのテーブルが含まれるようになるので、管理の手間が省けます。

lobj_lock_tableに指定するテーブル名が空文字の場合は、ラージオブジェクトに関する上記の処理は行いません (したがって、ラージオブジェクトのレプリケーションは保証されません)。 lobj_lock_tableのデフォルト値は空文字です。

ロードバランスの条件について

load_balance_mode = true を設定した場合、以下の条件のすべてを満たした時に SELECTなどの問い合わせがロードバランスされます。

(replicate_selectの項目も参考にしてください) また、詳細な判定条件をフローチャートにしたものもご覧下さい。

なお、

/*REPLICATION*/ SELECT ...

とすることによって、本来負荷分散されたり、マスタのみに送信されるべき問合わせが すべてのバックエンドに送信される(レプリケーションされる)ようになります。 副作用がある関数を含む問合わせに対してはこのテクニックが利用できます。

注意: JDBC ドライバなどのように、ドライバ内で autocommit の有効・無効のオプションがある場合、 autocommit を無効にすると、ドライバが内部で BEGIN コマンドを実行し、明示的なトランザクションが開始されます。 この場合、トランザクション内における上記のロードバランスの制限事項が適用されます。

レプリケーションモードにおける縮退運転について

PostgreSQLサーバのうち、1台がダウンすると、そのサーバを切り離して縮退運転に入ります。 1台でもサーバが生き残っていれば、システムとしての運用を継続できます。

レプリケーションモード固有のエラーについて

レプリケーションモードにおいて、pgpoolはレプリケーション時に INSERT、UPDATE、DELETE の更新件数が すべてのノードが同じでない場合、 failover_if_affected_tuples_mismatch が falseならば、 意図的に構文エラーを起すSQLを送信することによって、トランザクションをアボートさせます。 trueならば、フェイルオーバが起きます。その際、以下のようなエラーメッセージが表示されます。

=# UPDATE t SET a = a + 1;
ERROR: pgpool detected difference of the number of update tuples Possible last query was: "update t1 set i = 1;"
HINT: check data consistency between master and other db node

ログには更に以下のように、更新行数が記録されます(この場合はDBノード0が0行、DBノード1が1行)。

2010-07-22 13:23:25 LOG:   pid 5490: SimpleForwardToFrontend: Number of affected tuples are: 0 1
2010-07-22 13:23:25 LOG:   pid 5490: ReadyForQuery: Degenerate backends: 1
2010-07-22 13:23:25 LOG:   pid 5490: ReadyForQuery: Number of affected tuples are: 0 1

マスタースレーブモード

master/slaveモードは、Slony-IやStreaming Replicationのような、 master/slave式のレプリケーションソフトにレプリケーションをまかせるモードです。

なお、スレーブの数は1である必要はありません。 実際には127個までのスレーブを持つことができます(スレーブの数は0でも構いません)。

このモードで使うためには、レプリケーションモードと同じように、 DBノードのホスト情報(backend_hostname, backend_port, backend_weight, backend_flag それにオンラインリカバリが必要ならば backend_data_directory)をセットし、 master_slave_modeload_balance_modeをtrueにします。

pgpool-IIは、レプリケーションされる必要のある問い合わせはマスターに送り、 その他の問い合わせを可能ならば負荷分散します。問い合わせによってマスターDBだけに問い合わせが送られる場合と、 DBノードの間でロードバランスされて問い合わせが送られる場合があります。

マスタスレーブモードでは、一時テーブルの作成、更新、検索はマスタノードでのみ実行されます。 SELECTをマスタだけで実行するように強制することができます。 このためには、/*NO LOAD BALANCE*/ コメントをSELECTに前に挿入しなければなりません。

マスタースレーブモードでは、pgpool.confのreplication_modeをfalseに、 master_slave_mode をtrueにします(同時にtrueにはできません)。 また、'master_slave_sub_mode'を指定します。 これは、'slony'(デフォルト)か、'stream'です。

'slony'はSlony-Iを利用する時に指定します。 'stream'は、PostgreSQL組み込みのStreaming Replicationを利用するときに指定します。

Slony-Iを使う場合の設定ファイルの雛形はpgpool.conf.sample-master-slaveです。 Streaming Replicationを使う場合の雛形はpgpool.conf.sample-streamです。

このパラメータを変更した時には pgpool-II を再起動してください。

マスタースレーブモードでも、DB書き込みを行なう関数の呼び出しを含むSELECTを負荷分散の対象から外す指定を white_function_listblack_function_listで行なうことができます。 詳細はwhite_function_listの項をご覧下さい。

Streaming Replicationへの対応 V3.1 〜

前述のように、マスタスレーブモードで、'master_slave_sub mode'に 'stream'を指定すると、PostgreSQL 9.0から利用可能になったStreaming Replicationに対応します (pgpool-IIでは、今のところ、Streaming ReplicationとHot Standbyを併用することを前提にしています)。 このモードでは、以下の設定項目も利用できます。

delay_threshold V3.0 〜

スタンバイサーバへのレプリケーションの遅延許容度をバイト単位で指定します。 pgpool-IIは、スタンバイサーバの遅延がこの値を超えた場合には、 負荷分散が有効であってもそのDBノードにSELECTを送信せず、プライマリサーバに送るようにします。 delay_thresholdが0の場合は、遅延のチェックを行ないません。 また、delay_thresholdが指定されていても、sr_check_periodが無効(=0)ならば、 やはりこの機能は働きません。 デフォルト値は0です。

このパラメータは設定ファイルの再読込によって変更できます。

sr_check_period V3.1 〜

ストリーミングレプリケーションの遅延チェックの間隔を秒単位で指定します。 デフォルト値は0で、これはチェックを行わないことを意味します。

このパラメータは設定ファイルの再読込によって変更できます。

sr_check_user V3.1 〜

ストリーミングレプリケーションの遅延チェックを行うユーザ名を指定します。 このユーザは、すべてのバックエンドに存在しなければなりません。 さもなければエラーになります。 sr_check_userとsr_check_passwordは、sr_check_periodが0であっても 指定が必要です。pgpool-IIは、どのサーバがprimaryサーバであるのかを調べるために、 PostgreSQLバックエンドに関数呼び出しのリクエストを送ります。 そのセッションでsr_check_userとsr_check_passwordが使われるからです。

このパラメータは設定ファイルの再読込によって変更できます。

sr_check_password V3.1 〜

ストリーミングレプリケーションの遅延チェックを行うユーザに対するパスワードをを指定します。 パスワードが必要なければ空文字('')を指定します。

このパラメータは設定ファイルの再読込によって変更できます。

log_standby_delay V3.0 〜

レプリケーションの遅延状況をログする条件を指定します。 'none'を指定すると、ログを出力しません。 'always'ならレプリケーションの遅延チェックを実行するたびに必ず出力します。 'if_over_threshold'を指定すると、delay_thresholdを超えたときだけ ログが出力されます。 デフォルト値は'none'です。

このパラメータは設定ファイルの再読込によって変更できます。

なお、レプリケーションの遅延状況は show pool_status コマンドでも確認できます。 項目名は"standby_delay#"です(#はDBノードIDです)。

Streaming Replicationでのフェイルオーバ

Streaming replicationを利用したマスタスレーブモードでは、PrimaryやStandbyノードが停止した場合に、 レプリケーションモードと同じように自動フェイルオーバを行なわせることができます。 特に何も設定しなくても、停止したノードを自動的に切り放すことができますが、Streaming replicationでは、 「トリガファイル」を作成することにより、Standbyノードを、リカバリモードから更新問い合わせを受け付ける 通常のPostgreSQLの動作モードに自動変更することができます。 これを利用して、フェイルオーバコマンドを併用して、Primaryノードがダウンしたときに、 Standbyノードが自動的にとって代るような設定を行なうことができます。

注意: 複数のStandbyノードを利用している場合、この設定を行なうときは、 delay_thresholdを設定して、 他のStandbyに振り分けられたSELECTが古いデータを取得しないようにしておくことをお勧めします。 また、1台目のStandbyノードがPrimaryにとって代ったのちにダウンしてしまったケースで、 2台目のStandbyが更に取って代わるとデータに不整合がおきるので、そのような設定は行なわないようにしてください。

フェイルオーバの設定手順を示します。

  1. フェイルオーバ用のスクリプトを適当な場所(ここでは/usr/local/pgsql/bin)に配置して、実行権限を与えておきます。
    $ cd /usr/loca/pgsql/bin
    $ cat failover_stream.sh
    #! /bin/sh
    # Failover command for streming replication.
    # This script assumes that DB node 0 is primary, and 1 is standby.
    #
    # If standby goes down, does nothing. If primary goes down, create a
    # trigger file so that standby take over primary node.
    #
    # Arguments: $1: failed node id. $2: new master hostname. $3: path to
    # trigger file.
    
    failed_node=$1
    new_master=$2
    trigger_file=$3
    
    # Do nothing if standby goes down.
    if [ $failed_node = 1 ]; then
        exit 0;
    fi
    
    # Create trigger file.
    /usr/bin/ssh -T $new_master /bin/touch $trigger_file
    
    exit 0;
    
    chmod 755 failover_stream.sh
    
  2. pgpool.confの、failover_commmandを設定します。
    failover_command = '/usr/local/src/pgsql/9.0-beta/bin/failover_stream.sh %d %H /tmp/trigger_file0'
    
  3. standbyノードのrecovery.confを設定します。 recovery.confのサンプルは PostgreSQLのインストールディレクトリ下の "share/recovery.conf.sample"にあります。 これをstanndbyノードのデータベースクラスタ下に"recovery.conf"としてコピーしておきます。 そして、以下の項目を設定します。
    standby_mode = 'on'
    primary_conninfo = 'host=primary_hostのホスト名 user=postgres'
    trigger_file = '/tmp/trigger_file0'
    
  4. primaryノードのpostgresql.confを設定します。 以下は例ですので、必ず実際に合わせて調整してください。
    wal_level = hot_standby
    max_wal_senders = 1
    
  5. primaryノードのpg_hba.confを設定します。 以下は例ですので、必ず実際に合わせて調整してください。
    host    replication    postgres        192.168.0.10/32        trust
    

primaryとstandbyのPostgreSQLを起動すれば、Streaming replicationが開始されます。 そして、primaryノードがダウンしたときに、自動的にstandbyノードが通常のPostgreSQLとして立ち上がり、 更新問い合わせを受け付けるようになります。

Streaming Replicationでのクエリ振り分け

Streaming replicationとHot Standbyを利用している環境では、primaryノードに送ってよい問い合わせ、 standbyに送ってもよい問い合わせ、両方に送らなければならない問い合わせを厳密に管理する必要があります。 pgpool-IIのStreaming Replicationモードは、こうした振り分けを自動的に行ないます。 ここでは、そのロジックについて説明します。

まず、問い合わせの種類によって以下のように分けられます。

明示的なトランザクションでは、以下のようになります。

問い合わせが、拡張問い合わせモードで実行される場合は、問い合わせのparse段階で、 問い合わせが負荷分散可能かどうかで送信先が決まります。 その際の判断ルールは、通常のSQLと同じです。 たとえば問い合わせがINSERTならば、Primaryサーバで実行される、という具合です。 parseに続くbind, describe, executeも同じDBノードで実行されます。

[注: SELECTが負荷分散されて Standby ノードで parseが実行されてから更新クエリが来た場合は、 そのSELECTはPrimaryノードで実行されなければなりません。 そのため、同じSELECTが再度Primaryノードでパースされることになります。]

最後に、pgpool-IIのパーサが構文エラーと判断した問い合わせはPrimaryノードだけに送られます。

Streaming Replicationでのオンラインリカバリ

Streaming replicationを利用したマスタスレーブモードでは、 レプリケーションモードと同じようにオンラインリカバリが利用できます。 primaryサーバをマスタとし、standbyサーバをリカバリします。 primaryサーバが動作しているのがこの方法の前提条件ですので、 primaryサーバが停止している状態ではオンラインリカバリはできません。 primaryサーガ停止している状態からの復旧は、すべてのDBノードとpgpool-IIを停止させて手動で実施しなければなりません。

  1. リカバリ処理を実行するユーザ recovery_user を設定します。 通常、postgresユーザとなります。
    recovery_user = 'postgres'
    
  2. recovery_password を設定します。 これは、recovery_user がDBにログインするときに使うパスワードです。
    recovery_password = 't-ishii'
    
  3. recovery_1st_stage_command を設定します。

    ここで指定するファイルは、primaryサーバからベースバックアップを取得し、 standbyサーバにリストアするものでなければなりません。 recovery_1st_stage_command は、primaryのPostgreSQLから、recovery_userの権限で起動され、 その時に引数を受けとります。 詳細は、recovery_1st_stage_commandの設定項目をご覧ください。

    このスクリプトファイルは、primaryのデータベースクラスタ下に配置し、実行権限を与えておきます。 サンプルとして、primary/standbyそれぞれ一台構成の場合のスクリプト (basebackup.sh)を示します。 このスクリプトでは、recovery_user がパスワードなしでリカバリ対象の standbyノードにログインできることを前提にしているので、 あらかじめsshの設定を行なっておく必要があります。

    recovery_1st_stage_command = 'basebackup.sh'
    
  4. recovery_2nd_stage_command は、空のままで構いません。
    recovery_2nd_stage_command = ''
    
  5. オンラインリカバリを実施するための PostgreSQL の C 言語関数やSQL関数を各DBノードにインストールします。
    # cd pgpool-II-x.x.x/sql/pgpool-recovery
    # make
    # make install
    # psql -f pgpool-recovery.sql template1
        
  6. オンラインリカバリが終了したあと、pgpool-IIは、停止していたDBノードのPostgreSQLを起動します。 そのためのスクリプトを、各DBノードのDBクラスタにインストールします。

    スクリプトのサンプルがソースコードの"sample"ディレクトリに含まれているので、 それを利用してください。 このサンプルの中では、PostgreSQLの起動をpg_ctlコマンドで行っており、pg_ctlコマンドへのパスが記述されています。 デフォルトでは/usr/local/pgsql/bin/pg_ctlとなっているので、お使いの環境に合わせて修正してください。

    なお、このスクリプトはsshを使用しますので、少くとも、primaryのDBノードから、standbyのDBノードに対して、 recovery_userでパスワードなしでsshが利用できることが必要です。 必要ならばあらかじめ設定しておいてください。

以上でオンラインリカバリの設定が終了しました。 standbyノードを停止した状態で、pcp_recovery_node を利用するか、 pgpoolAdminの「リカバリ」ボタンでオンラインリカバリが出来るようになったはずです。 うまくいかない場合は、pgpool-IIのログ、primaryサーバ、standbyサーバのログを確認してください。

参考までに、ストリーミングレプリケーションでのオンラインリカバリの内部処理の流れを説明します。

  1. pgpool-IIは、primaryサーバにユーザ: recovery_user, パスワード: recovery_password で template1データベースに接続します。
  2. primaryサーバで、pgpool_recovery関数を実行します。
  3. pgpool_recovery関数は、recovery_1st_stage_command で 指定されたスクリプトを実行します。

    なお、PostgreSQLは、データベースクラスタディレクトリ中で関数を実行します。 よって、pgpool_recovery関数もprimaryサーバのデータベースクラスタディレクトリ中で 関数を実行されることに注意してください。

  4. primaryサーバで、pgpool_remote_start関数を実行します。

    この関数は、primaryサーバのデータベースクラスタディレクトリ中にある pgpool_remote_startという名前のスクリプトを起動し、 ここからssh経由でリカバリ対象のstandbyサーバのPostgreSQLをpg_ctlコマンドを使って起動します。 起動はバックグラウンドで行われ、起動できたかどうかは次のステップで確認されます。

  5. pgpool-IIから、standbyサーバのPostgreSQLのpostgresデータベース (postgresデータベースがない場合はtemplate1データベース)に、 ユーザ: recovery_user, パスワード: recovery_password でtemplate1データベースに接続を試みます。

    リトライは、recovery_timeout秒間行われます。 PostgreSQLの起動に成功したら、次のステップに移ります。

  6. failback_commandが空でない場合は、 pgpool-IIの親プロセスは指定されたスクリプトを起動します。
  7. failback_commandが終了したら、pgpool-IIの子プロセスをすべて再起動します。

パラレルモード

パラレルクエリ機能が利用できるモードです。 テーブルを分割させ、各ノードにデータを持たせることができます。またレプリケーションや負荷分散機能も同時に使うことができます。

パラレルモードでは、pgpool.confのreplication_modeまたは loadbalance_modeにtrueを設定し、 master_slave をfalseにし、 parallel_mode をtrueにします。 このパラメータを変更した時には pgpool-II を再起動してください。

システムDBの設定

パラレルモードを利用するためには、システムDBを設定する必要があります。 システムDBはデータを各PostgreSQLサーバで分割するためのルールをPostgreSQLのテーブルの形で保持します。 システムDBはpgpoolが動作するホストと同じホストに置く必要はありません。 システムDBの設定はpgpool.confで行います。

system_db_hostname

システムDBが動いているホスト名です。 "/"で始まる文字列を指定するとソケットファイルが存在するディレクトリ名とみなされ、 TCP/IP ではなく UNIX ドメインソケットが使用されます。 空文字('')を指定すると、/tmpが使用されます。

このパラメータを変更した時には pgpool-II を再起動してください。

system_db_port

システムDBのポート番号です。

このパラメータを変更した時には pgpool-IIを再起動してください。

system_dbname

システムDBは専用のデータベースに設置します。そのデータベース名を指定します。 このデータベースはあらかじめ存在しなければなりません。ここでは、 "pgpool"というデータベース名にするものとします。

このパラメータを変更した時には pgpool-II を再起動してください。

system_db_schema

システムDBは専用のスキーマに設置します。そのスキーマ名を指定します。 このスキーマはあらかじめ存在しなければなりません。ここでは、 "pgpool_catalog"というスキーマにするものとします。

このパラメータを変更した時には pgpool-II を再起動してください。

system_db_user

システムDBに接続するときのユーザ名です。

このパラメータを変更した時には pgpool-II を再起動してください。

system_db_password

システムDBに接続するときのパスワードです。パスワードを設定していない場合は空文字にしておきます。

このパラメータを変更した時には pgpool-II を再起動してください。

システムDBの初期設定

システムDBにスキーマとテーブルを作成します。初期設定用のスクリプトが $prefix/share/system_db.sqlにあるのでそれを利用します。 ただし、このスクリプトではスキーマ名が"pgpool_catalog"となっているので、 違うスキーマを使う場合は適当に書き換えてください。 また、データベース名として"pgpool"以外を使う場合は以下を適当に読み替えてください。

psql -f $prefix/share/system_db.sql pgpool

パラレルモードではdblinkを使います。dblinkはPostgreSQLソースファイル($POSTGRES_SRC)

$(POSTGRES_SRC)/contrib/dblink

にあります。$POSTGRES_SRC/contrib/dblink/README.dblinkを参考にシステム DBにdblinkをインストールしてください。

また、pgpoolデータベースに関数の登録が必要です。

psql pgpool < $POSTGRES_SRC/contrib/dblink/dblink.sql

コネクション数の設定

パラレルモードでは、クエリによりシステムDBからdblink経由でpgpoolに接続するので、 想定される同時接続数以上のコネクションが必要になる場合があります。 そのため、pgpool.confのnum_init_childrenには 同時接続数より十分大きい値を設定して下さい。

目安として以下の式でnum_init_childrenを設定してください。

num_init_children = 想定される同時接続数 * ( 1 + クエリの中で使われているテーブルの最大数)

データ分割ルールの登録

データ分割を行うテーブルに対しては、テーブル情報をあらかじめ pgpool_catalog.dist_def というテーブルに登録しておきます。

CREATE TABLE pgpool_catalog.dist_def(
    dbname TEXT,                   -- DB名
    schema_name TEXT,              --schema名
    table_name TEXT,               -- テーブル名
    col_name TEXT NOT NULL CHECK (col_name = ANY (col_list)),    -- 分散キー列名
    col_list TEXT[] NOT NULL,      -- tableの属性名
    type_list TEXT[] NOT NULL,     -- 属性のタイプ名
    dist_def_func TEXT NOT NULL,   -- 分散先のDBノードを決定する関数名
    PRIMARY KEY (dbname,schema_name,table_name)
    );

レプリケーションテーブルのルール登録

一つのSQL文にJOIN等でデータ分割ルールに登録したテーブルと共に レプリケーションを行うテーブルを指定する場合には、レプリケーションを行うテーブルの情報を あらかじめ、pgpool_catalog.replicate_defというテーブルに登録しておきます。

CREATE TABLE pgpool_catalog.replicate_def(
    dbname TEXT,                 -- DB名
    schema_name TEXT,            -- schema名
    table_name TEXT,             -- テーブル名
    col_list TEXT[] NOT NULL,    -- tableの属性名
    type_list TEXT[] NOT NULL,   -- 属性のタイプ名
    PRIMARY KEY (dbname,schema_name,table_name)
);

pgbench テーブルでの分割ルール例

pgbenchのテーブルを分割するルールの例を示します。

この例では、accountsテーブルに対しては分割を行い、branchesテーブル とtellersテーブルに対してはレプリケーションを行うことにします。 また、accountsテーブルとbanchesテーブルはbidで結合されることを想定し branchesテーブルはレプリケーションテーブルのルール登録を行います。

もし、accountsテーブル、branchesテーブルとtellersテーブルの3つの テーブルの結合が行われる場合には、あらかじめtellersテーブルに対しても レプリケーションテーブルのルール登録を行う必要があります。 

INSERT INTO pgpool_catalog.dist_def VALUES (
    'pgpool',
    'public',
    'accounts',
        'aid',
        ARRAY['aid','bid','abalance','filler'],
        ARRAY['integer','integer','integer','character(84)'],
        'pgpool_catalog.dist_def_accounts'
);

INSERT INTO pgpool_catalog.replicate_def VALUES (
    'pgpool',
    'public',
    'branches',
    ARRAY['bid','bbalance','filler'],
    ARRAY['integer','integer','character(84)']
);

ここで、pgpool_catalog.dist_def_accountsは、引数として分割キーの値を受け取り、 どのPostgreSQLサーバ(「DBノード」と呼びます)を0からの番号で返す関数です。 ここでは、3台のDBノードにデータを分割する関数の例を示します。

CREATE OR REPLACE FUNCTION pgpool_catalog.dist_def_accounts (val ANYELEMENT) RETURNS INTEGER AS '
  SELECT CASE WHEN $1 >= 1 and $1 <= 30000 THEN 0
          WHEN $1 > 30000 and $1 <= 60000 THEN 1
          ELSE 2
END' LANGUAGE SQL;

クライアント認証(HBA)のための pool_hba.conf 設定方法

PostgreSQLのpg_hba.confと同じようにpgpoolでもpool_hba.confファイルを使った クライアント認証がサポートされています。

pgpoolをインストールするとデフォルトインストール先の設定ファイルディレクトリ "/usr/local/etc"にpool_hba.conf.sampleが一緒にインストールされます。 このpool_hba.conf.sampleファイルをpool_hba.confとしてコピーし、 必要であれば編集してください。 デフォルトではpool_hbaによる認証は無効にになっています。 pgpool.confのenable_pool_hbaをonにしてください。

pool_hba.confのフォーマットはpg_hba.confのものとほとんど同じです。

local      DATABASE  USER  METHOD  [OPTION]
host       DATABASE  USER  CIDR-ADDRESS  METHOD  [OPTION]

各フィールドで設定できる値の詳細は"pool_hba.conf.sample"を参照してください。

以下はpool_hbaの制限事項です。

ここで説明された機能、制限はクライアントとpgpool間で行われるクライアント認証についてだということに 注意してください。 クラインアントはpgpoolのクライアント認証に成功したとしても、 PostgreSQLによるクライアント認証に成功しないと接続状態となりません。 pool_hbaにとってはクライアントに指定されたユーザ名やデータベース名(例. psql -U testuser testdb)が 実際にバックエンド上に存在するかどうかは問題ではありません。 それがpool_hba.confの値とマッチするかどうかでチェックが行われます。

pgpoolが稼働するホスト上のユーザ情報を使ったPAM認証を利用することができます。 pgpoolをPAMサポート付きでビルドするにはconfigureオプションに"--with-pam"を指定してください。

./configure --with-pam

実際にPAM認証を有効にするには、pool_hba.confで"pam"メソッドを設定するのに加え、 pgpoolのサービス設定ファイルをシステムのPAM設定ディレクトリ(通常は /etc/pam.d に作成する必要があります。 サービス設定ファイルの例はインストールディレクトリの"share/pgpool.pam"を参考にしてく ださい。

クエリキャッシュの設定方法 〜 V3.1 (DEPRECATED)

注意: このクエリキャッシュ機能は近い将来実装から削除される予定です。 代わりに、オンメモリクエリキャッシュ機能を使用してください。

pgpool-IIでは、すべてのモードでクエリキャッシュを利用することができます。 クエリキャッシュは、SELECTの結果を再利用することにより、性能を向上させます。 利用する場合には、pgpool.confの設定を以下のように設定します。

enable_query_cache = true

また、システムDBに以下のテーブルを作成してください。

CREATE TABLE pgpool_catalog.query_cache (
  hash TEXT,
  query TEXT,
  value bytea,
  dbname TEXT,
  create_time TIMESTAMP WITH TIME ZONE,
  PRIMARY KEY(hash, dbname)
);

ただし、この例ではスキーマ名が"pgpool_catalog"となっているので、 違うスキーマを使う場合は適当に書き換えてください。

注意: 現在のクエリキャッシュの実装では、キャッシュがデータベース上に作成されます。 そのため、実行にあまり時間のかからないようなSELECTでは、クエリキャッシュを有効にすることによって、 かえって遅くなることがあります。また、クエリキャッシュの内容は、テーブルが更新されてもそのままです。 手動で上記テーブルから削除するか、-c オプション(クエリキャッシュのクリア)を追加して pgpool-IIを再起動する必要があります。

オンメモリクエリキャッシュの設定方法 V3.2 〜

pgpool-IIでは、すべてのモードでオンメモリクエリキャッシュを利用することができます。 上記のクエリキャッシュと違い、メモリ上にキャッシュが置かれるので高速であるばかりでなく、 データが更新されると自動的にキャッシュが無効になり、pgpool-IIの再起動の必要がありません。

オンメモリクエリキャッシュは、問い合わせのSELECT文(拡張問い合わせの場合は更にバインドパラメータ)と 検索結果をペアで記録し、2回目以降に同じSELECT文が発行された場合に、キャッシュから結果を返します。 通常のSELECT文処理と違って、PostgreSQLにアクセスしないだけでなく、 pgpool内部のSQLパース処理などを経由しないため、非常に高速です。

反面、キャッシュにヒットしない場合は通常のSELECT文の処理に加えてキャッシュ処理のオーバヘッドが生じるので、 かえって遅くなります。 また、あるテーブルが更新された場合、そのテーブルを参照している すべてのキャッシュが自動削除されるため(自動削除しない設定も可能)、 更新処理が多いシステムではオンメモリクエリキャッシュを有効にしていることでかえって遅くなります。 キャッシュのヒット率が70%以下の場合は、オンメモリクエリキャッシュの設定を有効にしないほうが良いでしょう。

オンメモリクエリキャッシュの制限事項

オンメモリクエリキャッシュの有効化

オンメモリクエリキャッシュを有効にするには、pgpool.confの"memory_cache_enabled"を有効にします。

memory_cache_enabled = true

キャッシュストレージの選択

メモリキャッシュのストレージには、共有メモリとmemcachedのどちらかを 選択することができます(併用はできません)。

共有メモリを使用するクエリキャッシュは高速で、memcachedの立ち上げも必要なく、手軽に利用できます。 ただし、共有メモリサイズの上限によって保存できるキャッシュの量に制限があります。 memcachedをキャッシュストレージに使用する場合は、ネットワークアクセスのオーバヘッドがあるものの、 比較的自由にキャッシュメモリの大きさを設定できます。

共有メモリを利用する場合は"memqcache_method"に 'shmem'、Memcachedを利用する場合は'memcached'と設定します。 デフォルトは、'shmem'です。

キャッシュが作成される場合と作成されない場合

すべてのSELECT(もしくはWITH)がオンメモリクエリキャッシュの対象になるわけではありません。 キャッシュとDBの一貫性を極力保つために、キャッシュされないケースがあります。以下それを列挙します。

キャッシュがあっても参照されない場合

オンメモリクエリキャッシュが存在しても、そのキャッシュが利用されないケースがあります。 以下それを列挙します。

共通設定項目

キャッシュストレージを共有メモリにする場合でも、memcachedにする場合でも、共通で設定する項目を説明します。

memqcache_expire V3.2 〜

クエリキャッシュの寿命を秒単位で設定します。デフォルト0です。 0を指定すると寿命が無限大になり、関連テーブルが更新されるまではキャッシュが有効になります。 なお、この設定は、memqcache_auto_cache_invalidationとは 独立です。

memqcache_auto_cache_invalidation V3.2 〜

trueならば関連するテーブルが更新されるとキャッシュを無効化します。 falseならばテーブルが更新されてもキャッシュを無効化しません。 デフォルト値はonです。 なお、この設定はmemqcache_expireの設定とは独立です。

white_memqcache_table_list V3.2 〜

VIEW やunloggedテーブルを使っているSELECTは通常キャッシュの対象になりませんが、 white_memqcache_table_list に記述しておくことで、キャッシュされるようになります。 テーブル名はカンマ区切りで指定します。正規表現も利用できます (指定した各表現に ^ と $ をつけた形で使われます)。

なお、同じテーブル・VIEW が black_memqcache_table_list と両方に 指定されている場合は、white_memqcache_table_list が優先され、キャッシュを利用します。

スキーマ名を付けないテーブル名とスキーマ名を付けた形の両方をクエリの中で使う場合は、両方共リストに登録してください。たとえば、"table1"と"public.table1"の両方がクエリに現れる場合は、単に"table1"ではなく、"table1,public.table1"を追加する必要があります。

black_memqcache_table_list V3.2 〜

SELECT結果をキャッシュしたくないテーブル名をカンマ区切りで指定します。正規表現も利用できます (指定した各表現に ^ と $ をつけた形で使われます)。

スキーマ名を付けないテーブル名とスキーマ名を付けた形の両方をクエリの中で使う場合は、両方共リストに登録してください。たとえば、"table1"と"public.table1"の両方がクエリに現れる場合は、単に"table1"ではなく、"table1,public.table1"を追加する必要があります。

memqcache_maxcache V3.2 〜

SELECT文の実行結果がmemqcache_maxcacheバイトを超えると、キャッシュされません。 この場合、以下のようなメッセージが表示されます。

2012-05-02 15:08:17 LOG:   pid 13756: pool_add_temp_query_cache: data size exceeds memqcache_maxcache. current:4095 requested:111 memq_maxcache:4096

この問題を回避するためには、memqcache_maxcacheを大きくすれば良いのですが、 キャッシュストレージとして共有メモリを使用する場合は、 memqcache_cache_block_sizeを超えないようにしてください。 キャッシュストレージとしてmemcachedを使用する場合は、 memcachedのスラブサイズ(デフォルトで1MB)を超えないようにしてください。

memqcache_oiddir V3.2 〜

SELECT文が使用するテーブルにOIDを格納する一時ファイル領域のトップディレクトリをフルパスで指定します。 memqcache_oiddir以下には、データベースOID名のディレクトリが作成され、 更にその下にはテーブルOID名のファイルが作成されます。 テーブルOID名ファイルの中には、クエリキャッシュへのポインタが格納されており、 テーブルの更新があった際にキャッシュを削除するキーとなります。

この領域はデフォルトでは、pgpool を再起動しても再利用されます。 再利用せずに削除して起動したい場合は、pgpool コマンド に -C オプションをつけて起動します。

キャッシュのモニタリング

オンメモリクエリキャッシュをモニタする方法を説明します。 キャッシュから検索結果が取得されたかどうかは、log_per_node_statement を 有効にすることで確認できます。

2012-05-01 15:42:09 LOG:   pid 20181: query result fetched from cache. statement: select * from t1;

クエリキャッシュのヒット率は、show pool_status コマンド で確認できます。

memqcache_stats_start_time           | Tue May  1 15:41:59 2012 | Start time of query cache stats
memqcache_no_cache_hits              | 80471                    | Number of SELECTs not hitting query cache
memqcache_cache_hits                 | 36717                    | Number of SELECTs hitting query cache

この例では、

(memqcache_cache_hits) / (memqcache_no_cache_hits+memqcache_cache_hits) = 36717 / (36717 + 80471) = 31.3%

がキャッシュヒット率ということになります。

show pool_cacheコマンドでも同様の内容が確認できます。

共有メモリ設定項目

キャッシュストレージとして共有メモリを使用する場合の設定項目を説明します。

memqcache_total_size V3.2 〜

キャッシュストレージに使用する共有メモリ領域のサイズを指定します。単位はバイトです。

memqcache_max_num_cache V3.2 〜

キャッシュの数を指定します。 この設定項目は、キャッシュの管理領域の大きさを決めるために使用します (memqcache_total_sizeとは別に取られます)。 管理領域の大きさは、memqcache_max_num_cache * 48(バイト)になります。 この数は少なすぎるとキャッシュを登録することができずにエラーになります。 逆に多すぎると無駄になります。

memqcache_cache_block_size V3.2 〜

キャッシュストレージとして共有メモリを使用する場合は、メモリを memqcache_cache_block_size のブロックに分けて利用します。検索結果 のキャッシュはこのブロックに入るだけ詰め込まれます。 ただし、キャッシュは複数のブロックにまたがって格納されないので、 memqcache_cache_block_sizeを検索結果が超えると、キャッシュに格納できなくなります。 memqcache_cache_block_sizeは、512以上の値でなければなりません。

memcached設定項目

キャッシュストレージとしてmemcachedを使用する場合の設定項目を説明します。

memqcache_memcached_host V3.2 〜

memcachedが動いているホスト名またはIPアドレスを指定します。 pgpool-IIと同じマシンでmemcachedを動かす場合は、'localhost'とします。

memqcache_memcached_port V3.2 〜

memcachedのポート番号を指定します。デフォルト値は 11211 です。

memcachedのインストール

pgpool-IIのクエリキャッシュストレージとしてmemcachedを使用する場合は、動作しているmemcachedと、 libmemcachedというクライアントライブラリのインストールが必要です。 rpmなどからインストールするのがおすすめですが、ここではソースコードからインストールする方法を説明します。

memcachedのソースコードはmemcached開発ページからダウンロードできます。

configureの実行

ソースコードのtar ballを展開したら、configureを実行します。

./configure
makeの実行
make
make install

libmemcachedのインストール

memcachedのクライアントライブラリは、libmemcachedを使用しています。
memcachedのインストール後に、libmemcachedをインストールする必要があります。

libmemcachedのソースコードは、libMemcached開発ページから ダウンロードできます。

configureの実行

ソースコードのtar ballを展開したら、configureを実行します。

./configure

configureに指定できるオプションは以下です。

  • --with-memcached=path
    Memcachedがインストールされているトップディレクトリを指定します。
makeの実行
make
make install

pgpool-IIの起動と停止

pgpool-II の起動

以上で設定が終わったので、各DBノードを起動し、必要ならばシステムDBも起動してからpgpool-IIを起動します。

pgpool [-c][-f config_file][-a hba_file][-F pcp_config_file][-n][-D][-d]
-c--clear-cache クエリキャッシュを消去します
-f config_file--config-file config-file pgpool-IIの設定ファイルを指定します
-a hba_file--hba-file hba_file HBA認証設定ファイルを指定します
-F pcp_config_file--pcp-password-file pcpの設定ファイルを指定します
-n--no-daemon デーモンモードで起動しません(制御端末を切り離しません)
-D--discard-status pgpool_statusを削除し、以前の状態を復元しません V3.0 〜
-C--clear-oidmaps オンメモリクエリキャッシュの memqcache_oiddir の ディレクトリの中身を消去します (memqcache_method が 'memcached' のときのみ。 'shmem' のときは指定しなくても、必ず消去されます)。 V3.2 〜
-d--debug デバッグモードで起動します

pgpool-II の停止

pgpool-IIの停止は後述のpcpコマンドでもできますが、pgpool-IIコマンドを使うこと もできます。

pgpool [-f config_file][-F pcp_config_file] [-m {s[mart]|f[ast]|i[mmediate]}] stop
-m s[mart]--mode s[mart] 接続中のクライアントが接続を終わるのを待ってから停止します(デフォルト)
-m f[ast]--mode f[ast] 接続中のクライアントが接続を終わるのを待たずに直ちに停止します
-m i[mmediate]--mode i[mmediate] -m fと同じ動作です

pgpoolが停止すると、[logdir]/pgpool_statusというファイルにバックエンドの状態を書き込みます。 次回pgpoolが起動したときにこのファイルが存在すると、バックエンドの状態をそこから復元します。 これによって、

  1. バックエンドが停止してフェイルオーバ
  2. pgpool経由で正常なDBを更新
  3. pgpoolを停止
  4. 停止していたDBを再起動
  5. pgpoolを再起動

というシーケンスで、不整合のあるDBからレプリケーション状態に移行することを防ぐことができます。

もしもDBの状態に不整合がなくなっている、あるいはpgpool.confを書き換えて設定を変えてしまった、 というときはpgpool_statusを削除すればバックエンドの状態の復元を行いません。

pgpool-IIの設定ファイルの再読み込み

pgpool-IIの設定ファイルは、pgpool-IIを再起動することなく読み直すことができます。

pgpool [-f config_file][-a hba_file][-F pcp_config_file] reload
-f config_filepgpool-IIの設定ファイルを指定します
-a hba_fileHBA認証設定ファイルを指定します
-F pcp_config_filepcpの設定ファイルを指定します

設定項目によっては、再読み込みを行なっても反映されないものがあるので、ご注意下さい。 また、設定の変更はすでに接続中のセッションには反映されません。 次回、クライアントがpgpool-IIに接続したときから反映されます。

SHOWコマンド

概要

pgpool-IIでは、SHOWコマンドを使って情報を参照することができます。 SHOWはSQLコマンドですが、pgpool-IIは一部のSHOWコマンドを独自に解釈して、pgpool-IIが管理する情報を返却します。 以下のようなものがあります。

pool_status構成情報
pool_nodes DBノード情報 V3.0 〜
pool_processes pgpool-IIプロセスの内部情報 V3.0 〜
pool_pools コネクションプール情報 V3.0 〜
pool_version pgpool-IIのバージョン V3.0 〜

"pool_status" SQL は以前からありますが、他のSQLはpgpool-II 3.0から追加されました。

注意: "pool"という用語は、pgpoolプロセスによって所有されるPostgreSQLセッションを指します。 pgpoolによって所有されるセッション全体ではありません。

pool_status

"SHOW pool_status" は設定パラメータの名前と値、説明を表示します。出力の一部を示します。

benchs2=# show pool_status;
                 item                 |             value              |                           description
--------------------------------------+--------------------------------+------------------------------------------------------------------
 listen_addresses                     | localhost                      | host name(s) or IP address(es) to listen to
 port                                 | 9999                           | pgpool accepting port number
 socket_dir                           | /tmp                           | pgpool socket directory
 pcp_port                             | 9898                           | PCP port # to bind
 pcp_socket_dir                       | /tmp                           | PCP socket directory

pool_nodes V3.0 〜

"SHOW pool_nodes"は、DBノードのリストを表示します。 ホスト名、ポート番号、状態、重み(ロードバランスモードで運用しているときにのみ意味があります)、 ノードの役割が表示されます。 状態(status)の意味については、pcp_node_infoリファレンスで説明されています。

benchs2=# show pool_nodes;
  id  |  hostname   | port | status | lb_weight |  role
------+-------------+------+--------+-----------+---------
   0  | 127.0.0.1   | 5432 | 2      | 0.5       | primary
   1  | 192.168.1.7 | 5432 | 3      | 0.5       | standby
(2 lignes)

pool_processes V3.0 〜

"SHOW pool_processes"は、接続待ち、あるいは接続中pgpool-IIの子プロセスの状態を表示します。

6つのカラムがあります。

返却行数は常にnum_init_childrenになります。 また、データベース名などが表示されるのは、そのプロセスにフロントエンドからの接続がある場合に限ります。

benchs2=# show pool_processes;
 pool_pid |     start_time      | database | username  |     create_time     | pool_counter
----------+---------------------+----------+-----------+---------------------+--------------
 8465     | 2010-08-14 08:35:40 |          |           |                     |
 8466     | 2010-08-14 08:35:40 | benchs   | guillaume | 2010-08-14 08:35:43 | 1
 8467     | 2010-08-14 08:35:40 |          |           |                     |
 8468     | 2010-08-14 08:35:40 |          |           |                     |
 8469     | 2010-08-14 08:35:40 |          |           |                     |
(5 lines)

pool_pools V3.0 〜

"SHOW pool_pools"は、pgpool-IIのコネクションプールの状態を表示します。

11のカラムがあります。

返却行数は常にnum_init_children * max_pool * 「バックエンドの数」になります。

benchs2=# show pool_pools;
  pool_pid |     start_time      | pool_id | backend_id | database | username  |     create_time     | majorversion | minorversion | pool_counter | pool_backendpid | pool_connected
----------+---------------------+---------+------------+----------+-----------+---------------------+--------------+--------------+--------------+-----------------+----------------
 8465     | 2010-08-14 08:35:40 | 0       | 0          |          |           |                     |              |              |              |                 |
 8465     | 2010-08-14 08:35:40 | 1       | 0          |          |           |                     |              |              |              |                 |
 8465     | 2010-08-14 08:35:40 | 2       | 0          |          |           |                     |              |              |              |                 |
 8465     | 2010-08-14 08:35:40 | 3       | 0          |          |           |                     |              |              |              |                 |
 8466     | 2010-08-14 08:35:40 | 0       | 0          | benchs   | guillaume | 2010-08-14 08:35:43 | 3            | 0            | 1            | 8473            | 1
 8466     | 2010-08-14 08:35:40 | 1       | 0          |          |           |                     |              |              |              |                 |
 8466     | 2010-08-14 08:35:40 | 2       | 0          |          |           |                     |              |              |              |                 |
 8466     | 2010-08-14 08:35:40 | 3       | 0          |          |           |                     |              |              |              |                 |
 8467     | 2010-08-14 08:35:40 | 0       | 0          |          |           |                     |              |              |              |                 |
 8467     | 2010-08-14 08:35:40 | 1       | 0          |          |           |                     |              |              |              |                 |
 8467     | 2010-08-14 08:35:40 | 2       | 0          |          |           |                     |              |              |              |                 |
 8467     | 2010-08-14 08:35:40 | 3       | 0          |          |           |                     |              |              |              |                 |
 8468     | 2010-08-14 08:35:40 | 0       | 0          |          |           |                     |              |              |              |                 |
 8468     | 2010-08-14 08:35:40 | 1       | 0          |          |           |                     |              |              |              |                 |
 8468     | 2010-08-14 08:35:40 | 2       | 0          |          |           |                     |              |              |              |                 |
 8468     | 2010-08-14 08:35:40 | 3       | 0          |          |           |                     |              |              |              |                 |
 8469     | 2010-08-14 08:35:40 | 0       | 0          |          |           |                     |              |              |              |                 |
 8469     | 2010-08-14 08:35:40 | 1       | 0          |          |           |                     |              |              |              |                 |
 8469     | 2010-08-14 08:35:40 | 2       | 0          |          |           |                     |              |              |              |                 |
 8469     | 2010-08-14 08:35:40 | 3       | 0          |          |           |                     |              |              |              |                 |
(20 lines)

pool_version V3.0 〜

"SHOW pool_version" はpgpool-IIのバージョン情報を表示します。 例を示します。

benchs2=# show pool_version;
      pool_version
------------------------
 3.0-dev (umiyameboshi)
(1 line)

pool_cache V3.1 〜

"SHOW pool_cache" はオンメモリクエリキャッシュが有効である場合に、クエリキャッシュのヒット率や、キャッシュストレージの状況を表示します。 例を示します。

test=# \x
\x
Expanded display is on.
test=# show pool_cache;
show pool_cache;
-[ RECORD 1 ]---------------+---------
num_cache_hits              | 891703
num_selects                 | 99995
cache_hit_ratio             | 0.90
num_hash_entries            | 131072
used_hash_entries           | 99992
num_cache_entries           | 99992
used_cache_enrties_size     | 12482600
free_cache_entries_size     | 54626264
fragment_cache_entries_size | 0

オンラインリカバリ

オンラインリカバリ概要

この章では、レプリケーションモードで利用する場合のオンラインリカバリ機能 について説明します。 マスタ/スレーブモード(Streaming Replication)でのオンラインリカバリの利用方法については、 Streaming Replicationへの対応をご覧下さい。 レプリケーションモードで pgpool が動作している場合、ダウンしたノードのデータを再同期させた上で、 ノードを復帰させることができます。この機能を「オンラインリカバリ」と呼びます。

オンラインリカバリを実施するためには、ノードが切り離されていると pgpool が検知している必要があります。ノードを動的に追加したい場合には pgpool.conf の backend_hostnameなどのパラメータを追加しておき、 設定ファイルを再読み込みさせると、ノードが切り離された状態で pgpool にノード情報が登録されます。

また、リカバリするノードの PostgreSQL がすでに動作中であれば、あらかじめ PostgreSQL をシャットダウンさせておいてください。

pgpool ではオンラインリカバリを 2 段階に分けて実施します。 pgpool のクライアントからは完全なデータの同期を取るために若干の接続待ちが発生します。 リカバリ手順で以下の通りです。

  1. CHECKPOINT 実行
  2. ファーストステージの実施
  3. 接続がすべて切断されるまで待機
  4. CHECKPOINT 実行
  5. セカンドステージの実施
  6. postmaster の起動(pgpool_remote_start の実行)
  7. ノードの復帰

データ同期の第一段階を「ファーストステージ」と呼びます。ファーストステージ中に1 回目のデータ同期を行います。 ファーストステージ中はデータの更新や参照を並行して行うことができます。

ファーストステージで処理する内容はユーザが定義することができます。 スクリプトでは 3 つの引数を受け取ることができます。

  1. マスタのデータベースクラスタパス
  2. リカバリノードのホスト名
  3. リカバリノードのデータベースクラスタパス

次に 2 回目のデータ同期を行います。これを「セカンドステージ」と呼びます。 pgpool ではセカンドステージに入る前に接続中のクライアントがすべて接続が終了されるまで待ちます。 その間に接続リクエストが来た場合には、その接続をすべてブロックします。

セカンドステージで処理する内容はユーザが定義することができます。 スクリプトでは 3 つの引数を受け取ることができます。

  1. マスタのデータベースクラスタパス
  2. リカバリノードのホスト名
  3. リカバリノードのデータベースクラスタパス

すべての接続が終了されると、ファーストステージ以降に更新されたデータを同期するための セカンドステージが開始されます。そこで最終的なデータの同期を行います。 この間はクライアントからは pgpool への接続が待たされる状態になります。

なお、オンラインリカバリの制限事項として、複数のホストに pgpool を配置して レプリケーションさせている場合には、オンラインリカバリは正しく動作しません。 どれかの pgpool にリカバリリクエストを出した時に、他の pgpool から更新が伝搬すると、 データを同期させることができなく なります。

pgpool の設定

オンラインリカバリを設定するためには、pgpool.conf の以下の値を設定してください。

C 言語関数のインストール

次に、リカバリを実施するための PostgreSQL の C 言語関数を各ノードの template1 データベースにインストールします。ソースコードは

pgpool-II-x.x.x/sql/pgpool-recovery/

にあります。ディレクトリを移動し、make install してください。

% cd pgpool-II-x.x.x/sql/pgpool-recovery/
% make install

C 言語関数のモジュールをインストールしたら、続いて C 言語関数を呼びだすための SQL をインストールします。

% cd pgpool-II-x.x.x/sql/pgpool-recovery/
% psql -f pgpool-recovery.sql template1

リカバリスクリプトの配置

データを同期させるためのスクリプトと、リモートから postmaster を再起動させるためのスクリプトを 各ノードの $PGDATA 以下に配置します。 あらかじめpgpool-II-x.x.x/sample 以下にサンプルスクリプトも用意してありますので参考にしてください。 ここではサンプルスクリプトを使って、PITR によるリカバリ方法と、rsync によるリカバリ方法を説明します。

PITR によるリカバリ

ここでは PostgreSQL 8.2 以降で PITR 機能を使ってリカバリをする設定例を説明します。 PITR によるリカバリをする場合にはあらかじめ PostgreSQL の設定で ログをアーカイブさせるようにしておいてください。

1st stage

まずファーストステージでベースバックアップを取得し、リカバリ先へコピーするスクリプト (ここではファイル名を copy-base-backup とします)を用意します。 例えば以下のようなスクリプトで取得することができます。

#! /bin/sh

DATA=$1
RECOVERY_TARGET=$2
RECOVERY_DATA=$3

psql -c "select pg_start_backup('pgpool-recovery')" postgres
echo "restore_command = 'scp $HOSTNAME:/data/archive_log/%f %p'" > /data/recovery.conf
tar -C /data -zcf pgsql.tar.gz pgsql
psql -c 'select pg_stop_backup()' postgres
scp pgsql.tar.gz $RECOVERY_TARGET:$RECOVERY_DATA

ベースバックアップ取得時に recovery.conf を生成しておきます。

restore_command = 'scp master:/data/archive_log/%f %p'

2nd stage

セカンドステージでは最新の状態まで PITR によるリカバリを実施できるようにするために、 pgpool_recovery_pitr スクリプトを$PGDATA にコピーします。 このスクリプトではトランザクションログを強制的に切り替えるようにします。

通常、トランザクションログを切り替えるには、pg_switch_xlog 関数を利用しますが、 この関数は、アーカイブログファイルが生成される前に終了してしまう可能性があります。

V3.1 〜 そこで、より安全にオンラインリカバリを行うために pgpool_switch_xlog 関数が用意されています。 pgpool_switch_xlog 関数の基本動作は pg_switch_xlog 関数と同じですが、 トランザクションログの切り替えによるアーカイブログファイルの生成を 待ってから終了します。 この関数は、前述の「C言語関数のインストール」を実施するとインストールされ、 引数にはアーカイブログの出力先ディレクトリを指定します。

#! /bin/sh
# Online recovery 2nd stage script
#
datadir=$1       # master dabatase cluster
DEST=$2          # hostname of the DB node to be recovered
DESTDIR=$3       # database cluster of the DB node to be recovered
port=5432        # PostgreSQL port number
archdir=/data/archive_log    # archive log directory

# Force to flush current value of sequences to xlog
psql -p $port -t -c 'SELECT datname FROM pg_database WHERE NOT datistemplate AND datallowconn' template1|
while read i
do
  if [ "$i" != "" ];then
    psql -p $port -c "SELECT setval(oid, nextval(oid)) FROM pg_class WHERE relkind = 'S'" $i
  fi
done

psql -p $port -c "SELECT pgpool_switch_xlog('$archdir')" template1

スクリプト中のwhileループは、全データベース中のシーケンス値をトランザクションログに吐き出します。 これによって、シーケンスも正しくリカバリされるようになります。

スクリプトの配置が完了したら pgpool.conf に設定します。

recovery_1st_stage_command = 'copy-base-backup'
recovery_2nd_stage_command = 'pgpool_recovery_pitr'

これで PITR によるオンラインリカバリの準備が完了です。

pgpool_remote_start

データ再同期後に postmaster を起動させるスクリプトです。 pgpool からは以下の形式でスクリプトを実行します。

% pgpool_remote_start remote_host remote_datadir
remote_host:    リカバリノードのホスト名
remote_datadir: リカバリノードのデータベースクラスタパス

サンプルスクリプトでは ssh 経由で postmaster を起動しています。 こちらもあらかじめパスフレーズ無しで ssh 経由でログインできるように設定しておく必要があります。

PITR によるリカバリであれば、pgpool_remote_start 内でベースバックアップを展開し、 recovery.conf の内容にしたがってリカバリした後にpostmaster が接続可能状態になります。

#! /bin/sh
DEST=$1
DESTDIR=$2
PGCTL=/usr/local/pgsql/bin/pg_ctl

# Expand a base backup
ssh -T $DEST 'cd /data/; tar zxf pgsql.tar.gz' 2>/dev/null 1>/dev/null < /dev/null
# Startup PostgreSQL server
ssh -T $DEST $PGCTL -w -D $DESTDIR start 2>/dev/null 1>/dev/null < /dev/null &

rsync によるリカバリ

7.4 以前の場合は PITR 機能がありません。また、8.0 と 8.1 の場合は トランザクションログを強制的に切り替える関数が用意されていません。 そこで PITR を使わずにrsync を使ったリカバリ方法を説明します。

sample ディレクトリに pgpool_recovery というファイルがあります。 マスタから復帰させるノードへのデータの物理コピーを行うスクリプトです。 pgpool からは以下の形式でスクリプトを実行します。

% pgpool_recovery datadir remote_host remote_datadir
datadir:        マスタのデータベースクラスタパス
remote_host:    リカバリノードのホスト名
remote_datadir: リカバリノードのデータベースクラスタパス

サンプルスクリプトでは rsync を使って物理コピーをしています。もし rsync を使う場合は、パスフレーズ無しで ssh 経由でログインできるように あらかじめ設定しておく必要があります。

rsyncに関する注記:

pgpool_recovery を使う場合は pgpool.conf に以下の行を追加してください。

recovery_1st_stage_command = 'pgpool_recovery'
recovery_2nd_stage_command = 'pgpool_recovery'

リカバリの実行

以上でオンラインリカバリの準備が整いました。 オンラインリカバリを実行するには pcp_recovery_node コマンドを使うか、 pgpool 管理ツールから実行してください。

注意点として、pcp_recovery_node を実行する際に、タイムアウトを長くして ください。pgpoolAdmin から実行する場合は pgmgt.conf.php 内の _PGPOOL2_PCP_TIMEOUT を大きくしてください。

オンラインリカバリを利用したPostgreSQLのマイナーバージョンアップ

レプリケーションモードの場合

レプリケーションモードでpgpool-IIが動作している場合は、 オンラインで各ノードのPostgreSQLをバージョンアップできます。 ただし、ノードの切り離し時と追加時に、pgpool-IIに接続しているすべての すべてのセッションが切断されるので注意してください。 また、オンラインリカバリが利用できるバージョンアップはマイナーバージョンアップのみで、 ダンプ/リストアが不要なリリースに限ります。

はじめに、上記の「オンラインリカバリの概要」を参考に各ノードでオンラインリカバリが利用できるように準備します。

PostgreSQLのバージョンアップは、マスタ以外のノードから行い、最後にマスタノードをバージョンアップします。 そこで、まずバージョンアップを行うマスタ以外の1つのノードのPostgreSQLを停止します。 pgpool-IIがPostgreSQLの停止を検知すると、以下のようなログを出力して縮退運転に移行します。 その際、pgpool-IIに接続しているすべてのセッションは一旦切断されます。

2010-07-27 16:32:29 LOG:   pid 10215: set 1 th backend down status
2010-07-27 16:32:29 LOG:   pid 10215: starting degeneration. shutdown host localhost(5433)
2010-07-27 16:32:29 LOG:   pid 10215: failover_handler: set new master node: 0
2010-07-27 16:32:29 LOG:   pid 10215: failover done. shutdown host localhost(5433)

停止したノードのPostgreSQLをバージョンアップします。 バージョンアップは、新しいバージョンのPostgreSQLを古いバージョンのインストール先に上書きしても構いませんが、 問題が起きた時に元のバージョンに戻せるようにインストール先を変えておくことをお勧めします。

新しいバージョンのPostgreSQLを古いバージョンと別の場所にインストールした場合、 リカバリスクリプトを編集することなくそのまま使用するには、シンボリックリンクなどを使用してインストール先のパスを以前と合わせる必要があります。 上書きインストールした場合は以下のC言語関数をインストールするまでの操作は不要です。 すぐにオンラインリカバリが実行できます。

古いバージョンのPostgreSQLのインストール先ディレクトリ名を変更します。 以下は、PostgreSQLが/usr/local/pgsqlにインストールされていたと仮定した一例です。

$ mv /usr/local/pgsql /usr/local/pgsql-old

新しいバージョンのPostgreSQLのインストール先にシンボリックリンクを作成します。 これにより、今までどおりのパスで新しいバージョンのPostgreSQLが使用できるようになります。 以下は、新しいバージョンのPostgreSQLが/usr/local/pgsql-newにインストールされていると仮定した一例です。

$ ln -s /usr/local/pgsql-new /usr/local/pgsql

データベースクラスタディレクトリがPostgreSQLのインストール先ディレクトリの下位にある場合は、 同じパスでデータベースクラスタにアクセスできるようにシンボリックリンクを作成するかコピーします。 以下は、シンボリックリンクを作成する例です。

$ ln -s /usr/local/pgsql-old/data /usr/local/pgsql/data

新しいバージョンのPostgreSQLに、オンラインリカバリ用の関数を 「C言語関数のインストール」を参考にインストールします。 オンラインリカバリは、データベースクラスタをコピーしますので、最後のpsqlを使用した関数の作成は不要です。 make installを実行してください。

最後にオンラインリカバリを実行して、1つのノードのバージョンアップが完了します。 オンラインリカバリは、pcp_recovery_nodeコマンドを実行するかpgpoolAdminで行います。

以上の手順をマスタ以外のノードで繰り返し、最後にマスタノードで行えば、 全体のPostgreSQLのマイナーバージョンアップは完了です。

Streaming Replicationを利用している場合

マスタースレーブモードでStreaming Replicationを利用している場合は、 オンラインでスタンバイのPostgreSQLをマイナーバージョンアップできます。

スタンバイのPostgreSQLをマイナーバージョンアップする手順は、上記のレプリケーションモードの手順と同じです。 ただし、recovery_1st_stage_commandとrecovery_2nd_stage_commandの設定などは、 「Streaming Replicationでのオンラインリカバリ」を参考にしてください。

プライマリのPostgreSQLのマイナーバージョンアップは、オンラインではできません。 pgpool-IIの停止が必要になります。 プライマリのPostgreSQLもバージョンアップの方法自体は、スタンバイと同様です。 プライマリのPostgreSQLのバージョンアップは以下の手順で行います。

  1. pgpool-IIを停止
  2. プライマリのPostgreSQLを停止
  3. プライマリのPostgreSQLをバージョンアップ
  4. プライマリのPostgreSQLを起動
  5. pgpool-IIを起動

バックアップ

バックエンドとシステムDBのPostgreSQLのバックアップは、単体のPostgreSQLと同様に、 物理バックアップ、論理バックアップ(pg_dump, pg_dumpall)、PITRが使用できます。 ただし、論理バックアップとPITRの操作は、pgpool-IIを経由せずにPostgreSQLに対して直接行ってください。 これは、load_balance_modereplicate_selectなどの 設定によるバックアップの失敗を避けるためです。

レプリケーションモード、マスタースレーブモード

レプリケーションモードとマスタースレーブモードでpgpool-IIが動作している場合は、 クラスタを構成しているいずれかのノードでバックアップを行います。

マスタースレーブモードで非同期のレプリケーションを行っている場合で、かつ、 最新のバックアップを取得したい場合は、マスタノードでバックアップしてください。

バックアップ時の注意点として、PostgreSQLに対してpg_dumpコマンドなどを実行すると、 ACCESS SHAREモードのロックがかかります。 そのため、ACCESS SHAREモードと競合するACCESS EXCLUSIVEロックが必要になるコマンド (ALTER TABLE、DROP TABLE、TRUNCATE、REINDEX、CLUSTERおよびVACUUM FULLなど)は、ロック待ちが発生します。 これは、非同期のレプリケーションで、スレーブノードに対してバックアップを行っている場合も、 マスタが影響を受けることがありますので注意してください。

パラレルモード

パラレルモードでpgpool-IIが動作している場合、クラスタ全体のデータが一貫性のある状態でバックアップを取得するには、 アプリケーション、またはpgpool-IIの一時的な停止が必要になります。

論理バックアップを利用する場合は、アプリケーション、またはpgpool-IIを停止し、 すべてのノードでpg_dump, pg_dumpallコマンドを実行します。 そして、すべてのノードでダンプが終了したら、アプリケーション、またはpgpool-IIを起動してください。

PITRを利用する場合は、まず各ノードのシステムの時刻がほぼ一致していることを確認してください。 そして、事前に各ノードでアーカイブログの設定を行い、ベースバックアップを取得します。 ベースバックアップが終了したら、アプリケーション、またはpgpool-IIを一時的に停止します。 停止後、その時刻と次に起動した時刻を記録します。 この一時的な停止によって、クラスタ全体のデータが一貫性のある状態を保った期間ができます。 ベースバックアップとアーカイブログを使用して各ノードをリストアする場合は、 一時停止期間の真ん中あたりの時刻をrecovery.confのrecovery_target_timeに指定したうえで、リカバリを行ってください。

システムDBのバックアップ

パラレルクエリモード、またはクエリキャッシュを使用している場合は、システムDBもバックアップする必要があります。 pgpool.confの system_db_dbname に設定したデータベースをバックアップしてください。

pgpool-IIの配置について

pgpool-IIは、独立したサーバに配置することもできますし、アプリケーションサーバと同居させることもできますし、 その他の配置も考えられます。 ここではそれぞれの配置方法を紹介し、それぞれの特徴、メリット、デメリットを検討します。

専用のサーバに配置

pgpool-IIを物理的に独立した専用のサーバに配置する方法です。 分かりやすい方法ですし、他のサーバソフトウェアの影響を受けないのでpgpool-IIをもっとも安全に運営できますが、 サーバ装置を1台余計に増やす必要があるのが欠点です。 また、そのサーバが単一障害点になります(pgpool-IIが単一障害点になることを回避するには、 後述のwatchdogかpgpool-HAを併用します)。

Webサーバやアプリケーションサーバと同居

Apache、JBoss、TomcatなどのWebサーバやアプリケーションサーバが稼働しているサーバに pgpool-IIを同居させる方法です。 この方法では、Webサーバやアプリケーションサーバとpgpool-IIの通信がローカルマシン内になるので、 ソケット通信がマシン間で通信するよりも高速になるメリットがあります。 また、複数のWebサーバ/アプリケーションサーバがあれば、自然と単一障害点を回避できるようになります。 (この場合、複数のpgpool-IIの設定はwatchdog用の設定を除き同じにしてください)。 なお、複数のpgpool-IIが動作しているケースでは以下のような問題が考えられますが、watchdogを有効にすることによって問題の2つ目は回避できます(問題の一つ目はpgpool-II 3.3以降で解消されています)。したがって、このような構成ではwatchdogを有効にすることを強くおすすめします。

  • pgpool-IIとDBサーバの間のネットワークが不安定だと、pgpool-IIから見てDBノード#1がダウン、 他のpgpool-IIから見て正常、というような状態になってしまうことがあります。 ネットワークを二重化するなどして、ネットワーク障害が起きないようにしてください。
  • レプリケーションモードで、オンラインリカバリ実行中は、一つのpgpool-IIだけ残して 他のpgpool-IIを落してください。 さもないと、リカバリ後の結果に整合性がなくなる可能性があります。 マスター/スレーブモード+Streaming Replicationモードでは、同時に複数のpgpool-IIで オンラインリカバリを実行しない限り、問題ありません。
DBサーバと同居

PostgreSQLの稼働しているDBサバと同居させる方法です。 この方法では、pgpool-IIが単一障害点になることがなく、余計なサーバを追加する必要もない点が優れていますが、 アプリケーションがどのDBサーバに接続するのかを自ら判断する必要があるのが欠点です。 この問題を解決するには、watchdogを有効にするか、pgpool-HAと組み合わせて仮想IPを利用します。

pgpool-HAについて

pgpool-HAは、heartbeatなどを利用してpgpool-IIを二重化し、pgpool-II自体の可用性を上げるソフトウェアです。 pgpool-IIと同様、pgpoolプロジェクトのサブプロジェクトであり、pgpoolの開発サイトでOSSとして公開されています。

Watchdog V3.2 ~

watchdog プロセスは pgpool-II 本体から起動される、高可用性を目的としたプロセスです。 以下の機能を提供します。

pgpool サービスの死活監視

watchdog は pgpool のプロセスではなく、サービスの応答を監視します。 監視対象の pgpool から PostgreSQL に問い合わせを行い、その応答をチェックします。

また watchdog は、pgpool から上位のサーバ(アプリケーションサーバなど)への接続も監視します。 上位サーバから PostgreSQL への接続・応答を pgpool のサービスとして死活監視します。

watchdog プロセスの相互監視

各 watchdog はお互いの監視対象のサーバの情報を交換します。 これにより、pgpool サーバの情報を最新に保てるだけでなく、各 watchdog プロセスの相互監視を行っています。

障害発生検知時のアクティブ、スタンバイ切り替え

pgpool のサービスに障害を検知した場合、watchdog は他の watchdog に障害検知を通知します。 故障した pgpool がアクティブの場合、他の watchdog は新しいアクティブを投票で決め、 アクティブ・スタンバイの切り替えを行います。

サーバ切り替えと連動した仮想 IP アドレスの自動付け替え

スタンバイが新しいアクティブに昇格する際、新アクティブ機の watchdog は アクティブ用の仮想IPインターフェースを起動します。

一方、旧アクティブ機の watchdog はアクティブ用仮想 IP インターフェースを停止します。 これにより、サーバが切り替わった後もアクティブは同じ IP アドレスでサービスを継続することができます。

サーバ復旧時、スタンバイ機としての自動登録

障害機の復旧や新規サーバを追加する場合、watchdog はサーバの情報を他の watchdog に通知し、 他の watchdog からはアクティブや他のサーバの情報を受け取ります。 これにより追加したサーバはスタンバイ機として自動的に追加されます。

サーバ構成

watchdogプロセスを含むpgpool-IIサーバは以下の図のようなシステム構成をとります。

watchdog server composition

watchdog の起動と停止

watchdog プロセスは pgpool-II から自動的に起動・停止されますので、固有の起動・停止コマンドはありません。 しかし、watchdog プロセスは仮想IPインターフェースの起動・停止を行いますので、 pgpool-II の起動は root 権限で 行う必要があります。

なお、他の pgpool-II および接続先の PostgreSQL が全て起動するのを待ってから、死活監視を開始します。

pgpool.conf の設定

watchdog プロセスの設定項目は pgpool.conf に記述します。 pgpool.conf.sample ファイルの WATCHDOG セクションにサンプルを記述していますので、参照してください。

注意: watchdogを有効化する場合は、num_init_childrenに十分大きな値を設定して下さい。watchdog自身もpgpool-IIにクライアントとして接続するためです。

watchdog プロセスは以下の項目すべてを指定する必要があります。

基本設定セクション

有効化

use_watchdog V3.2 ~

watchdog を有効にするには on にします。デフォルトは off です。

このパラメータを変更した時には pgpool-II を再起動してください。

上位サーバへの接続

pgpool あるいは PostgreSQL のサービス提供先(DB クライアント)のサーバを、上位サーバと呼びます。 pgpoolが生きていて PostgreSQLと繋がっている場合でも、 上位サーバとのリンクが切れていれば「サービス」を継続できません。 そのため、watchdog は上位サーバとのリンクが繋がっているかどうかも監視します。

trusted_servers V3.2 ~

上位接続を確認するための信頼できるサーバリストです。 ping の応答が得られる必要があります。 "hostA,hostB,hostC ..." のようにカンマで区切って複数のサーバを指定できます。

指定がない場合は上位サーバへのネットワーク到達監視をしません。

このパラメータを変更した時には pgpool-II を再起動してください。

ping_path V3.2 ~

上位サーバへの接続監視に利用する ping コマンドのパスです。 "/bin" のようにパスだけを指定します。

このパラメータを変更した時には pgpool-II を再起動してください。

pgpool-II の死活監視

wd_interval V3.2 ~

pgpool-II への生存監視の間隔(秒)です。 (1 以上の数値)

このパラメータを変更した時には pgpool-II を再起動してください。

wd_life_point V3.2 ~

pgpool-II の死活監視で応答が得られなかった場合のリトライ回数です。 (1 以上の数値)

このパラメータを変更した時には pgpool-II を再起動してください。

wd_lifecheck_query V3.2 ~

pgpool-II の死活監視のために発行されるクエリです。 デフォルトは "SELECT 1" です。

このパラメータを変更した時には pgpool-II を再起動してください。

仮想 IP

delegate_IP V3.2 ~

(アプリケーションサーバなど)外部からの接続される pgpool-II の仮想 IP アドレスです。 スタンバイからアクティブに切り替わる際、pgpool はこの仮想 IP を引き継ぎます。

このパラメータを変更した時には pgpool-II を再起動してください。

ifconfig_path V3.2 ~

IP アドレス切り替えに利用するコマンドのパスです。 "/sbin" のようにパスだけを指定します。

このパラメータを変更した時には pgpool-II を再起動してください。

if_up_cmd V3.2 ~

仮想 IP を起動するために実行するコマンドです。 "ifconfig eth0:0 inet $_IP_$ netmask 255.255.255.0" のようにコマンドとパラメータを指定します。 $_IP_$ は delegate_IP で指定された IP アドレスに置換されます。

このパラメータを変更した時には pgpool-II を再起動してください。

if_down_cmd V3.2 ~

仮想IPを停止するために実行するコマンドです。 "ifconfig eth0:0 down" のようにコマンドとパラメータを指定します。

このパラメータを変更した時には pgpool-II を再起動してください。

arping_path V3.2 ~

IP アドレス切り替え後に ARP リクエストを送信するコマンドのパスです。 "/usr/sbin" のようにパスだけを指定します。

このパラメータを変更した時には pgpool-II を再起動してください。

arping_cmd V3.2 ~

IPアドレス切り替え後にARPリクエストを送信するコマンドです。 "arping -U $_IP_$ -w 1" のようにコマンドとパラメータを指定します。 $_IP_$ は delegate_IP で指定された IP アドレスに置換されます。

このパラメータを変更した時には pgpool-II を再起動してください。

死活監視の受信設定セクション

wd_hostname V3.2 ~

watchdog プロセスが相互監視を受信する為のホスト名または IP アドレスです。

このパラメータを変更した時には pgpool-II を再起動してください。

wd_port V3.2 ~

watchdog プロセスが相互監視を受信する為のポート番号です。

このパラメータを変更した時には pgpool-II を再起動してください。

死活監視対象サーバ指定セクション

other_pgpool_hostname0 V3.2 ~

監視対象のpgpool-IIサーバのホスト名を指定します。 数値の部分は監視対象サーバの番号です。 監視対象のサーバ毎に 0 からの連番にします。

other_pgpool_port0 V3.2 ~

監視対象のpgpool-IIサーバのpgpool用のポート番号を指定します。 数値の部分は監視対象サーバの番号です。 監視対象のサーバ毎に 0 からの連番にします。

other_wd_port0 V3.2 ~

監視対象のpgpool-IIサーバのwatchdog用のポート番号を指定します 数値の部分は監視対象サーバの番号です。 監視対象のサーバ毎に 0 からの連番にします。

watchdog の制限事項

トラブルシューティング

この章では、pgpool-IIを運用中に直面しやすい障害と、その対策方法をケース別に説明します。

health check failed

ヘルスチェックでpgpool-IIがDBノードの障害を検出しました。

2010-07-23 16:42:57 ERROR: pid 20031: health check failed. 1 th host foo at port 5432 is down
2010-07-23 16:42:57 LOG:   pid 20031: set 1 th backend down status
2010-07-23 16:42:57 LOG:   pid 20031: starting degeneration. shutdown host foot(5432)
2010-07-23 16:42:58 LOG:   pid 20031: failover_handler: set new master node: 0
2010-07-23 16:42:58 LOG:   pid 20031: failover done. shutdown host foo(5432)

このログは、DBノード1(ホスト名 foo)がダウンして切り離され、 新しくDBノード0がマスタとして扱われ出したことを示しています。 DBノード1をチェックし、異常原因を取り除いた後に、可能であればオンラインリカバリ機能を使っ てDBノード1を復帰させてください。

failed to read kind from frontend
2010-07-26 18:43:24 LOG:   pid 24161: ProcessFrontendResponse: failed to read kind from frontend. frontend abnormally exited

pgpool-IIから見てクライアントが突然セッションを切断した際にこのようなログが残ります。 原因としては、アプリケーションのバグ、アプリケーションが強制終了された、 やネットワークの一時的な障害が考えられます。 このログが出ても、DBが壊れるとか一貫性がなくなるような問題は起きませんが、 継続してこのログが出力されるようであれば、アプリケーションやネットワークの障害を調査することをおすすめします。

kind mismatchエラー

レプリケーションモードで運用している場合に出ることがあるエラーです。

2010-07-22 14:18:32 ERROR: pid 9966: kind mismatch among backends. Possible last query was: "FETCH ALL FROM c;" kind details are: 0[T] 1[E: cursor "c" does not exist]

pgpool-IIは、SQLコマンドを各DBノードに送信したら、各DBノードから同じレスポンスが返ってくることを期待します。 このエラーは、異なるレスポンスが返ってきたことを示します。 Possible last query was:のあとに、このエラーを返す原因となった問い合わせのSQL文が表示されます。 そのあとで、各DBノードからのレスポンスの種類と、レスポンスがエラーの場合は、 PostgreSQLのエラーメッセージが表示されます。 ここでは、"0[T]"により、0番目のDBノードが"T"(行情報の開始)という応答を返したこと、 一方"1[E"で、DBノード1がエラーを返したとこと、そのエラーメッセージは 「cursor "c" does not exist」であったことがわかります。

注意: このエラーは、マスタースレーブモードでも出ることがあります。 たとえば、SETコマンドは、各セッションの状態を同じにするために、基本的にすべてのDBノードに送信されるからです。

データベースを調べて原因を特定し、もしDBの同期が崩れているようであれば、 オンラインリカバリを使って正しいデータと同期させてください。

pgpool detected difference of the number of inserted, updated or deleted tuples

レプリケーションモードにおいて、pgpool-IIが、DBノード間でINSERT/UPDATE/DELETEが返す結果行の違いを検出しました。

2010-07-22 11:49:28 ERROR: pid 30710: pgpool detected difference of the number of inserted, updated or deleted tuples. Possible last query was: "update t1 set i = 1;"
2010-07-22 11:49:28 LOG:   pid 30710: ReadyForQuery: Degenerate backends: 1
2010-07-22 11:49:28 LOG:   pid 30710: ReadyForQuery: Affected tuples are: 0 1

この例では、update t1 set i = 1によって更新された行数が、DBノードで異なっています。 また、次の行では、DBノード1を切り離したこと、更にDBノード0での結果行数が0だったのに対して、DBノード1では、1行だったことを表しています。

正しくないデータを持っていると思われるDBノードを停止し、オンラインリカバリを使って 正しいデータと同期させてください。

制限事項

PostgreSQLの機能

認証・アクセス制御方式

一時テーブルの扱い

制限対象:マスタースレーブモード

一時テーブルの作成、更新は常にマスタ(primary)で行なわれます。 一時テーブルの検索も、pgpool-II 3.0以降では、マスタで行なわれるので、 一時テーブルを使っているかどうかを意識する必要はありません。 ただし、文字列として一時テーブル名をSELECTの中で使っている場合は一時テーブルかどうかの確認のしようがないので、 負荷分散されてしまい、その一時テーブルが見つからないか、 もしくは同じ名前の別のテーブルを検索してしまうことになります。 そのような問い合わせは避けるか、/*NO LOAD BALNCE*/のコメントを挿入してください。

SELECT 't1'::regclass::oid;

ちなみに、psqlの\dコマンドのように、システムカタログを問い合わせる中で 文字列としてのテーブル名を使っている場合は、pgpool-II 3.0以降ではマスタで検索が行なわれるので、問題になりません。 なぜなら、システムカタログへの検索は常にマスタで行なわれるからです。

レプリケーションモードで注意が必要な関数など

pgpool-IIでは同じ問い合わせを送っても異なる結果を返すようなデータ、 たとえば乱数やトランザクションID、OIDのようなものに関してはレプリケーションはしますが、 2台のホストでまったく同じ値がコピーされる保証はありません。

シリアル型に関しては、insert_lockを有効にしておけばテーブルロックを利用して同期が取られます。 シーケンスを扱う関数をSELECT setval()、SELECT nextval()で呼び出している場合は 自動的にレプリケーションされるので同期が取れます。

pgpool-II 2.3以降では、テーブルのデフォルト値での利用も含め、 CURRENT_TIMESTAMP, CURRENT_DATE, now()は、自動的にマスタ側から取得した時刻値に置き換えることによって レプリケーションできるようになっています。 ただし、以下の点に注意してください。

PostgreSQL 8.2かそれより前のPostgreSQLをお使いの場合、 CREATE TEMP TABLEで作成されたテーブルはフロントエンドがセッションを終了しても削除されません。 これは、コネクションプールの効果でバックエンドから見るとセッションが継続しているように見えるからです。 セッションの終了時に明示的にDROP TABLEするか、トランザクションブロックの中で CREATE TEMP TABLE ... ON COMMIT DROPをお使い下さい。

PostgreSQL 8.3以降では、reset_query_listにDISCARD ALLを指定すれば自動的に削除されるので問題ありません。

クエリについて

pgpool-II では扱うことができないクエリについて説明します。

マルチバイト文字について

制限対象:全モード

現在の実装では、マルチバイト文字の変換処理を行いません。 クライアントエンコーディング、バックエンドノードのサーバエンコーディング、システムDB のサーバエンコーディングを一致させるようにしてください。

マルチステートメント

制限対象:全モード

マルチステートメント(';' で区切って複数の文をまとめた SQL)を pgpool が 正しく処理することができません。必ず文を分けて送信してください。

なお、psql を使って pgpool に接続した場合は、psql 内部でマルチステートメントを分解し、 1 つずつ送信するので、実際には問題になりません。

拡張問い合わせプロトコル

制限対象:パラレルモード

JDBC ドライバなどのような拡張問い合わせプロトコルには対応していません。 必ず簡易問い合わせプロトコルを使用してください。

PREPARE, EXECUTE

制限対象:パラレルモード

PREPARE 文で生成された準備文には対応していません。

SELECT

制限対象:パラレルモード

postgresql.conf の add_missing_from 設定値を off (デフォルト値)に設定してください。 add_missing_from 設定値が on の時に使えるクエリは正しくpgpoolで処理されない可能性 があります。

INSERT

制限対象:パラレルモード

データ分割をしているテーブルに対して INSERT を行う際には、分割ルールとなる値を DEFAULT にはできません。 例えばテーブル t のカラム x が分割ルールの対象カラムだった場合には、

INSERT INTO t(x) VALUES (DEFAULT);

とはできません。また、以下の様に分割ルールとなる値が関数呼び出しの場合も 対応していません。

INSERT INTO t(x) VALUES (func());

このカラムには必ず明示的に値を与える必要があります。

また、SELECT INTOINSERT INTO ... SELECT、および以下のような VALUES を用いた複数行の挿入には対応していません。

INSERT INTO t(x) VALUES (1),(2),(3);

UPDATE

制限対象:パラレルモード

分割ルールとなるカラムを更新すると分割ルールに従ったデータの整合性が崩 れる可能性があります。pgpool-II では特にデータの再配置ということは行い ません。

もし制約違反などにより一部のノードでエラーになった場合にロールバックす ることはできません。

WHERE 句にデータ分割を行ったテーブルを参照するサブクエリや関数呼び出しがある場合には正しく動かない可能性が あります。

例:UPDATE branches set bid = 100 where bid = (select max(bid) from beances);

SELECT ... FOR UPDATE

制限対象:パラレルモード

WHERE 句にデータ分割を行ったテーブルを参照するサブクエリや関数呼び出しがある場合には正しく動かない可能性が あります。

例:SELECT * FROM  branches where bid = (select max(bid) from beances) FOR UPDATE;

COPY

制限対象:パラレルモード

COPY BINARY には対応していません。また、ファイルからのコピーにも対応していません。 COPY FROM STDIN と COPY TO STDOUT のみ対応しています。

ALTER/CREATE TABLE について

制限対象:パラレルモード

pgpool に情報を更新させるためには、pgpool を再起動する必要があります。

トランザクション

制限対象:パラレルモード

トランザクション中に発行される SELECT は dblink を経由する場合には別ト ランザクションになります。以下に例を示します。

BEGIN;
INSERT INTO t(a) VALUES (1);
SELECT * FROM t ORDER BY a; <-- 上の INSERT した値は見えない
END;

また制約違反などにより一部のノードでエラーになった場合にロールバックすることはできません。

View/Rule

制限対象:パラレルモード

View や Rule は各ノードに同じ内容が定義されます。

CREATE VIEW sample AS SELECT * FROM a, b where a.i = b.i

上記のような テーブル結合を含んだVIEWは、a と b は同じノード内でのみ結合処理を行い、 各ノードからの実行結果を統合します。ノードをまたがった JOIN を行う View を作成することはできません。 Rule についても同様になります。

ただし、データ分割したテーブルを同じノード内でのみ結合したい場合に、VIEWを作成することは可能です。 この場合にはVIEWをpgpool_catalog.dist_defテーブルにVIEWを登録しておきます。

また、pgpool_catalog.dist_defテーブルのcol_nameとdist_def_funcには、 VIEWで定義したカラムとVIEWに対してINSERTが発行された場合に 何処のノードにクエリを問い合わせるのかを決定する関数を登録してください。

関数/トリガについて

制限対象:パラレルモード

関数は各ノードに同じ内容が定義されます。関数内で JOIN や他のノードのデータ操作を行うことはできません。

Natural Join について

制限対象:パラレルモード

Natural Join は利用できません。ON 結合条件または、USING(結合カラム) を明示的に 指定する必要があります。

USING 句について

制限対象:パラレルモード

JOIN 構文の中で利用される USING 句はクエリの書き換え処理によって ON 句に変換されます。 そのため、ターゲットリストに "*" を利用する問い合わせを行う場合には、同じ列名が出力されます。

デッドロックについて

制限対象:パラレルモード

ノード間をまたがるデッドロックを検出することができません。

例:accountsテーブルは以下のルールで分割されている。
    aid <= 100000 ノード 0
    aid >= 100000 ノード 1

  A) BEGIN;
  B) BEGIN;
  A) SELECT * FROM accounts WHERE aid = 100001 FOR UPDATE;
  B) SELECT * FROM accounts WHERE aid = 100000 FOR UPDATE;
  A) SELECT * FROM accounts WHERE aid = 100000 FOR UPDATE;
  B) SELECT * FROM accounts WHERE aid = 100001 FOR UPDATE;

この場合、単一のノードではデッドロックを検知できないため、pgpool は待 たされた状態になります。この現象は SELECT FOR UPDATE 以外にも行ロック を獲得するクエリで発生する可能性があります。

また、あるノードでデッドロックが発生した場合は、各ノードのトランザクショ ンの状態が異なる状況になります。そのため、デッドロックを検知した時点で 以下のログを出力して pgpool は該当のプロセスを終了させます。

pool_read_kind: kind does not match between master(84) slot[1] (69)

スキーマについて

制限対象:パラレルモード

public 以外のスキーマに属すようなオブジェクトの参照は必ず

スキーマ.オブジェクト

と指定するようにしてください。

set search_path = xxx

を指定し、スキーマ名を省略すると、pgpool がどの分散ルールを適用するか 判断できません。

テーブル名、カラム名について

制限対象:パラレルモード

pool_で始まるテーブル、カラム名は使えません。クエリ書き換えの際に内部処理で使用します。

システム DB

分割ルール

pgpool-II では分割ルールの対象のカラムは 1 つのみとします。x と y の OR 条件などといったものには対応していません。

ビルドに必要な環境

libpq

pgpool-II では libpq をリンクします。libpq のバージョンは 2.0 の場合、 configure に失敗します。必ず libpq 3.0 以降(PostgreSQL 7.4以降) をリンクするよ うにしてください。また、SystemDB のバージョンも PostgreSQL 7.4 以降が 必須になります。

クエリキャッシュ

ディスク上のクエリキャッシュ機能では、キャッシュの無効化を手動で行う必要があります。 オンメモリクエリキャッシュ機能にはこの制限は当てはまりません。

リファレンス

PCPコマンドリファレンス

PCPコマンド一覧

pgpool-IIを操作するUNIXコマンドとして、以下のものがあります。

pcp_node_count ノード数を取得する
pcp_node_info ノード情報を取得する
pcp_proc_count プロセス一覧を取得する
pcp_proc_info プロセス情報を取得する
pcp_pool_status pgpool.conf のパラメータ設定値を取得する V3.1 〜
pcp_systemdb_info システムDB情報を取得する
pcp_detach_node ノードを切り離す
pcp_attach_node ノードを復帰させる
pcp_promote_node ノードをマスターに昇格させる V3.1 〜
pcp_stop_pgpool pgpool-IIを停止させる
pcp_recovery_node マスタノードを使ってノードのデータを再同期、ノード起動させる

共通引数

全てのコマンドには共通する引数があります。これは接続するpgpool-IIの情報や認証 情報などです。

ex)
$ pcp_node_count [-d] 10 localhost 9898 postgres hogehoge

第一引数    - タイムアウト値
    秒数でタイムアウト値を指定します。この時間内にpgpool-IIから応
    答がない場合はコネクションを切断して終了します。なお、
    このオプションは 2.1 からは無視するようになっています。
第二引数    - pgpool-IIが稼動しているホスト名
第三引数    - PCPポート番号
第四引数    - PCPユーザ名
第五引数    - PCPパスワード

オプション引数として、-dがあります。-dが指定されるとデバッグ情報を出力します。

PCPユーザ名とパスワードは ./configure 時に --prefix で指定した 'インストールディレクトリ/etc' にある pcp.conf 内に記述されているものを指定します。 pcp.conf ファイルの場所がデフォルト以外の場所にある場合、 pgpool の-F オプションでその位置を指定することができます。 パスワードはコマンドに渡す時点でmd5化されている必要はありません。

コマンド群

全てのコマンドは、実行した結果が標準出力に表示されます。

pcp_node_count

書式:
pcp_node_count  _timeout_  _host_  _port_  _userid_  _passwd_

pgpool-IIの pgpool.conf で定義されたノードの総数を表示します。切り離されているノードの区別はしません。

pcp_node_info

書式:
pcp_node_info  _timeout_  _host_  _port_  _userid_  _passwd_  _nodeid_

pgpool-IIの pgpool.conf で定義されたノードの情報を表示します。出力結果は以下の例の通りです。

ex)
$ pcp_node_info 10 localhost 9898 postgres hogehoge 0
host1 5432 1 1073741823.500000

結果は以下の順の通りです。
1. ノードのホスト名
2. ノードのポート番号
3. ステータス
4. ロードバランスウェイト

ステータスは[0..3]までの数字で表わされます。各数字の意味は:
0 - 初期化時のみに表われる。PCPコマンドで表示されることはない。
1 - ノード稼働中。接続無し
2 - ノード稼働中。接続有り
3 - ノードダウン

ロードバランスウェイトはNormalizeされたフォーマットで出力されます。

定義されていないノードIDを指定するとBackendErrorと表示され、終了コード12で終了します。

pcp_proc_count

書式:
pcp_proc_count  _timeout_  _host_  _port_  _userid_  _passwd_

pgpool-IIの子プロセスのプロセスIDを一覧表示します。複数ある場合は空白文字で区切られます。

pcp_proc_info

書式:
pcp_proc_info  _timeout_  _host_  _port_  _userid_  _passwd_  _processid_

pgpool-IIの子プロセス情報を表示します。出力結果は以下の例の通りです。

ex)
$ pcp_proc_info 10 localhost 9898 postgres hogehoge 3815
postgres_db postgres 1150769932 1150767351 3 0 1 14067 1
postgres_db postgres 1150769932 1150767351 3 0 1 14068 1

結果は以下の順の通りです。
1. 接続しているデータベース名
2. 接続しているユーザ名
3. プロセススタート時刻
4. コネクション作成時刻
5. プロトコルメジャーバージョン
6. プロトコルマイナーバージョン
7. コネクション使用回数
8. PostgreSQLバックエンドプロセスID
9. フロントエンドから接続がある場合は1、そうでなければ0

コネクションがバックエンドに対して張られていない場合、データは表示されません。
コネクション情報が複数ある場合、複数行に1行1コネクション情報で表示されます。
時刻はEPOCHタイムからの秒数で表わされます。

定義されていないプロセスIDを指定するとBackendErrorと表示され、終了コード12で終了します。

pcp_pool_status V3.1 〜

書式:
pcp_pool_status _timeout_  _host_  _port_  _userid_  _passwd_

pgpool.conf のパラメータ設定値を取得します。出力結果は以下の通りです。

$ pcp_pool_status 10 localhost 9898 postgres hogehoge
name : listen_addresses
value: localhost
desc : host name(s) or IP address(es) to listen to

name : port
value: 9999
desc : pgpool accepting port number

name : socket_dir
value: /tmp
desc : pgpool socket directory

name : pcp_port
value: 9898
desc : PCP port # to bind

pcp_systemdb_info

書式:
pcp_systemdb_info  _timeout_  _host_  _port_  _userid_  _passwd_

pgpool-IIのシステムDB情報を表示します。出力結果は以下の通りです。

$ pcp_systemdb_info 10 localhost 9898 postgres hogehoge
localhost 5432 yamaguti '' pgpool_catalog pgpool 3
yamaguti public accounts aid 4 aid bid abalance filler integer integer integer character(84) dist_def_accounts
yamaguti public branches bid 3 bid bbalance filler integer integer character(84) dist_def_branches
yamaguti public tellers bid 4 tid bid tbalance filler integer integer integer character(84) dist_def_tellers

まず一行目にシステムDBの情報が表示されます。結果は以下の順の通りです。

1. ホスト名
2. ポート番号
3. ユーザ名
4. パスワード。空の場合は''で表示されます。
5. スキーマ名
6. データベース名
7. 分散定義関数の数

二行目以降は分散定義が表示されます。複数の定義がある場合は、一つの定義につき
一行表示されます。結果は以下の順の通りです。

1. 分散対象のデータベース名
2. 分散対象のスキーマ名
3. 分散対象のテーブル名
4. 分散キーカラム名
5. 分散対象テーブル中のカラム数
6. カラム名リスト(5.のカラム数分表示されます)
7. カラム型リスト(5.のカラム数分表示されます)
8. 分散定義関数名

システムDBが定義されていない(pgpool-IIモードでない、かつクエリキャッシュがオ
フの)場合に実行すると、BackendErrorと表示され、終了コード12で終了します。

pcp_detach_node

書式:
pcp_detach_node  [-g] _timeout_  _host_  _port_  _userid_  _passwd_  _nodeid_

pgpool-IIのノードを切り離します。

すでにpgpool-IIに接続しているセッションは強制的に切断されます。

-gを指定すると、すべてのクライアントが接続を終了するまでノードを復帰しません。 (ただし、client_idle_limit_in_recovery が -1 あるいは、recovery_timeout が設定されている場合を除く)

pcp_attach_node

書式:
pcp_attach_node  _timeout_  _host_  _port_  _userid_  _passwd_  _nodeid_

pgpool-IIのノードを復帰させます。

pcp_promote_node V3.1 〜

書式:
pcp_promote_node  [-g] _timeout_  _host_  _port_  _userid_  _passwd_  _nodeid_

pgpool-IIのノードをマスターに昇格させます。これは、マスタースレーブモードでストリーミング
レプリケーション構成の場合のみ使用できます。
-gを指定すると、すべてのクライアントが接続を終了するまでノードをマスターに昇格しません。
(ただし、client_idle_limit_in_recovery が -1 あるいは、recovery_timeout が設定されている場合を除く)

pcp_stop_pgpool

書式:
pcp_stop_pgpool  _timeout_  _host_  _port_  _userid_  _passwd_  _mode_

pgpool-IIを指定されたモードでシャットダウンします。指定できるモードは以下の通
りです。

s    - smart モード
f    - fast モード
i    - immediate モード

pgpool-IIが起動していない場合はConnectionErrorと表示され、終了コード8で終了し
ます。

※ 現在は fast モードと immediate シャットダウンの処理に区別はあり
  ません。命令を送った時点でクライアントがいる・いないに関わらず
  シャットダウン処理を即座に行います。

pcp_recovery_node

書式:
pcp_recovery_node  _timeout_  _host_  _port_  _userid_  _passwd_  _nodeid_

pgpool-IIのノードをデータを再同期させた上で復帰させます。

終了ステータス

PCPコマンドは正常に処理を終了した場合、ステータス'0'で終了します。エラーが起 きた場合は以下のステータスにより終了します。

UNKNOWNERR 1不明なエラー
EOFER 2EOFエラー
NOMEMERR 3メモリ不足
READERR 4サーバからのデータ読み込みエラー
WRITEERR 5サーバへのデータ書き込みエラー
TIMEOUTERR 6タイムアウト
INVALERR 7PCPコマンドへの不正なオプション
CONNERR 8サーバ接続エラー
NOCONNERR 9接続が存在しない
SOCKERR 10ソケットエラー
HOSTERR 11ホスト名解決エラー
BACKENDERR 12サーバでのPCP処理エラー。存在しないプロセスIDの情報を取得しようとした場合など
AUTHERR 13認証エラー

内部情報

pgpool-IIバージョン 2.0 以降では、1.x バージョンと比べ大幅な改良が加えられています。 1.x バージョンの情報とは互換性がないので注意してください。

パラレル実行エンジン

pgpool-IIにはパラレル実行エンジンが組み込まれています。

このエンジンは、パラレルモードのときに、各ノードに同じクエリを問い合 わせ、ノードの応答順に結果をフロントエンドに送信するエンジンのことを 指します。

クエリ書き換え

パラレルモードでpgpool-IIが行うクエリ書き換えについて説明します。

パラレルモードでは、クライアントが送信した検索系(SELECT処理)の問い合わせは、 大きく分けて以下の 2 つの処理を行います。

  1. クエリの解析
  2. クエリの書き換え

これら2つの処理について順に説明致します。

クエリの解析

はじめに

クライアントが送信した検索系の問い合わせは、SQLパーサを通してからシステムDBに登録されている情報を もとにクエリ解析を行います。クエリの解析には実行ステータスの遷移で評価しています。

ここで実行ステータスというのは、あるデータの集合が何処で取得または処理できるのか判断するものです。 例えば、pgpool_catalog.dist_defテーブルに登録されているテーブルのデータ集合全体は、 データが分割されているのですべてのノードから取得する必要があります。 逆に、pgpool_catalog.replicate_defテーブルに登録されているテーブルのデータ集合全体は、 すべてのノードから取得するのではなく、いずれかのノード から取得すれば十分です。

ここで実行ステータスというのは、あるデータの集合が何処で取得または処理できるのか判断するものです。 ここですべてのノードで処理する必要がある状態を P 状態、一つのノードで処理する必要がある状態を L 状態として定義します。

ここで実行ステータスというのは、あるデータの集合が何処で取得または処理できるのか判断するものです。 もう一つ、特別な状態として S 状態があります。 これは、すべてのノードから取得した全データに対して処理を行ったときの状態のことを示します。

ここで実行ステータスというのは、あるデータの集合が何処で取得または処理できるのか判断するものです。 例えば、ソート処理です。pgpool_catalog.dist_defテーブルに登録されている テーブルのデータに対するソート処理は、すべてのノードからデータを取得した後に実行する必要があります。

検索系クエリは、以下の処理順に解析され、実行ステータスが遷移していきます。 実行ステータスが遷移していく過程で S 状態となると、以降の処理は必ず S 状態となります。 そして最後のSELECTの最終実行ステータスの状態により、何処のDBで処理されるかが決定します。

  1. UNION、EXTRACT、INTERCECTが利用されているかどうか
  2. FROM 句の実行ステータス
  3. TARGETLIST による実行ステータスの変化
  4. WHERE 句 にる実行ステータスの変化
  5. GROUP BY 句による実行ステータスの変化
  6. HAVING 句による実行ステータスの変化
  7. ORDER BY 句による実行ステータスの変化
  8. LIMIT OFFSET 述語に実行ステータスの変化
  9. SELECTの最終実行ステータスの取得

SELECTの最終実行ステータスと処理される場所との関係は、以下の通りです。

実行ステータス処理される場所
Lいずれかのノードに問い合わせを行う
Pすべてのノード同じ問い合わせを行い、パラレル実行エンジンを通してクライアントに返却
SシステムDBで処理を行った後にクライアントに返却

またサブクエリに対しても上記のルールが適応されます。 以下の単純なクエリでは、p1-tableがシステムDBのpgpool_catalog.dist_defテーブルに登録されている場合、 つまりデータの分割が 行われている場合には、サブクエリの最終実行ステータスが P となり、 その結果サブクエリの呼び出し元である SELECT の実行ステータスも P となります。

SELECT * FROM (SELECT * FROM P1-table) as P2-table;

次に具体的に実行ステータスがどのように遷移するのか説明します。 まず2. From句の実行ステータス から説明します。

FROM 句の実行ステータス

検索系クエリ(SELECT)は FROM 句によりデータの集合を定義します。 FROM句から構成せれるデータ集合は P 状態, L 状態、または S 状態を取ります。 FROM句に指定しているテーブルが一つの場合には、単純にテーブルの実行ステータスが FROM句から構成されるデータ集合全体の実行ステータスとなります。 FROM句に複数のテーブル、又はサブクエリがある場合 には、結合方法によって以下のように実行ステータスが決定します。

結合方式 LEFT OUTER JOIN RIGHT OUTER JOIN FULL OUTER JOIN その他
左\右 P L S P L S P L S P L S
P S P S S S S S S S S P S
L S L S P L S S L S P L S
S S S S S S S S S S S S S

以下の例では、P1-tableが P 状態のテーブルでL1-table,L2-tableが L 状態のテーブルだとします。 すると上記の表により、P1-table (左)とL1-table (右) が結合し P 状態となり、 さらに P 状態と L 状態のL2-tableが結合してFROM句の実行ステータスは P 状態となります。

SELECT * FROM P1-table,L1-table,L2-table;

TARGETLIST と WHERE句の実行ステータス

基本的なクエリでは、FROM 句と同じ実行ステータスを継承します。 しかし、TARGETLIST と WHERE句の実行ステータスは、以下の場合に変化します。

  1. サブクエリがある場合
  2. FROM句が P 状態の場合、かつ、TARGETLISTに集約関数、DISTINCTがある場合
  3. FROM句で定義したテーブル(データ集合)に存在しないカラムが使われている場合

サブクエリの最終実行ステータスが P 状態、または、S 状態の場合には、 TARGETLIST、WHERE句の実行ステータスは、S 状態となります。 下記の例では、サブクエリで使われているテーブルが、P 状態の場合には、 サブクエリの最終実行ステータスはP 状態となります。 そのため L1-tableの実行ステータスに依存せずに、WHERE句の実行ステータスは S状態となり、 このクエリの実行場所はシステムDBとなります。

SELECT * FROM L1-table WHERE L1-table.column IN (SELECT * FROM P1-table);

FROM 句が P 状態の場合、かつ、TARGETLISTに集約関数がある場合は、 データを取得後に集計する必要があるため、S状態に遷移します。 また、特定の条件の下では、集約関数による最適化が行われます。

FROM句で定義したテーブル、サブクエリには存在しないカラムがWHERE句に使われている場合があります。 これは以下のような相関サブクエリ内で発生します。

SELECT * FROM L1-table WHERE L1-table.col1 IN (SELECT * FROM P1-table WHERE P1-table.col = L1-table.col1);

上記のサブクエリに使われている L1-table.col1は、L1-tableを外部参照しています。 この場合にサブクエリのWHERE句の実行ステータスは S 状態となります。

GROUP BY 句、HAVING 句、ORDER BY 句、LIMIT OFFSET 述語の実行ステータス

WHERE句の実行ステータスが P 状態の場合に、GROUP BY , HAVING 句、ORDER BY 句、 LIMIT OFFSET 述語があるとS状態に遷移します。 GROUP BY句が存在しないクエリはWHERE句の実行ステータスを継承します。 また、HAVING句が無い場合にはGROUP BY 句の実行ステータスを継承します。 ORDER BY 句、LIMIT OFFSET 述語も同様です。

UNION、EXTRACT、INTERSECTが使われている場合

UNION、EXTRAT、INTERSECTが使っているクエリは左側のSELECT文と右側のSELECT文の最終実行ステータスに依存します。 左側と右側のSELECT文の最終実行ステータスが共に L 状態の時には、L 状態となります。

また、左側と右側のSELECT文の最終実行ステータスが共に P 状態、かつUNION ALLの場合には P 状態となります。 その他の組み合わせの場合には、S状態となります。

SELECTの最終実行ステータスの取得

実行ステータスがすべて L 状態の場合にはL状態、すべて P 状態の場合には、P 状態となります。 それ以外は、S 状態となります。

L 状態の場合には、pgpool.confのloadbalance_modeがtrueの場合には負荷分散され、 それ以外の場合にはMASTERに問い合わせを行います。

また、P 状態の場合には、パラレル実行エンジンを使って並列処理が行われます。 S 状態の場合には、次のフェーズであるクエリ書き換えを行います。

クエリ書き換え

クエリの解析フェーズで取得した実行ステータスを使ってクエリの書き換えを行います。 例として P 状態の P1-table と L 状態の L1-table を使ったクエリで説明します・

SELECT P1-table.col, L1-table.col FROM P1-table,L1-table where P1-table.col = L1-table.col order by P1-table.col;

このクエリでは ORDER BY 句があるため S 状態となり、FROM句、WHERE句、TARGETLISTは P 状態となります。 このようなクエリでは以下のように書き換えられます。

SELECT P1-table.col, L1-table.col FROM
   dblink(select pool_parallel(SELECT P1-table.col, L1-table.col FROM P1-table,L1-table where P1-table.col = L1-table.col))
      order by P1-table.col;

ここでdblinkはpgpool-IIに問い合わせを送信します。 また、pool_parallelは引数のクエリをパラレル実行エンジンをにわたす関数です。 なお、上記はあくまでイメージであり実際に実行可能なクエリではありません。

上記の例のように、FROM句、WHERE句、TARGETLISTがすべて P 状態の場合には、 FROM句、WHERE句、TARGETLISTをまとめて並列処理を行います。

次の例を見てみます。

SELECT L1-table.col FROM L1-table WHERE L1-table.col % 2 = 0 AND L1-table.col IN (SELECT P1-table FROM P1-table) ;

この例では、FROM 句は L 状態、TARGETLISTも L 状態、WHERE句は P 状態のサブクエリを持っているため S 状態となります。 これは以下のように書き換えが行われます。

SELECT L1-table.col FROM dblink(SELECT loadbalance(SELECT L1-table.col FROM L1-table WHERE L1-table.col % 2 = 0 AND TRUE))
    WHERE
        L1-table.col %2 = 0 AND
      L1-table.col IN
      (
          SELECT P1-Table FROM
          dblink(select pool_parallel(SELECT P1-table FROM P1-table))
      ) ;

ここで、pool_loadbalanceはクエリをいずれかのノードに送信する関数です。

集約によるクエリ書き換え

集計を行うクエリ(集約関数、GROUP BY )は各ノードに計算させ、システムDBで再集計を行うことにより、 システムDBの負荷を減らしパフォーマンスも向上します。

まず、最初にpgpool-IIが実際に行うクエリの書き換えを見てみます。

FROM 句が P 状態で count(*) を使ったクエリは、以下のように書き換えが行われます。

select count(*) from P1-table;

-> クエリ書き換え

SELECT
    sum(pool_c$1) as count
FROM
    dblink(select pool_parallel('select count(*) from  P1-table'))
                AS pool_$1g (pool_c$1 bigint);

各ノードでcount(*) を計算した後に、システムDBで集計(sum)をすることによ り、目的が達成できます。

上記のようなクエリ書き換えが行われる条件は以下の場合です。

  1. FROM 句がP 状態
  2. ターゲットリストに集約関数(count, sum, min, max,avgのみ対応),GROUP BYに指定したカラムが使われている
  3. WHERE 句がP 状態
  4. HAVING 句 に使われている集約関数(count, sum, min, max,avgのみ対応), FROM句で定義されているカラム,GROUP BYに指定したカラムのみ使われている。
例)
 select P1-table.col,L1-table.col,count(*),avg(P1-table.col) from P1-table,L1-table wehre P1-table.col %2 = 0 group by P1-table.col,L1-table.coli having count(*) < 100

パラレルモードの注意事項

パラレルモードでは、クエリの解析の際にカラム名とタイプが必要になります。 そのため、サブクエリのTARGETLISTに式、関数を使っている場合には別名と型名をキャストでつける必要があります。 式、関数に型のキャストがない場合には、text型として処理されますので注意してください。

なお、集約関数の場合でかつ集約によるクエリ書き換えが行われる場合には、countはbigint型、sumはnumeric型となります。 min,maxの場合には、引数が日付型の場合には日付型として計算され、それ以外はnumericとして計算されます。 avgはsum/countとして処理されます。

パラレルモードのパフォーマンスについて

SELECTの最終実行ステータスとパフォーマンスのおおよその目安は以下のとおりです。

実行ステータスパフォーマンス
Lパラレルクエリを利用しないのでpgpool-IIのオーバーヘッドを除き、単体ノードとの性能劣化はない
P並列処理を行うので高速、特にシーケンシャルスキャンの場合には効果がでる。また、データを分割することでテーブルサイズ(/1台)が小さくなることによりキャッシュに乗りやすくなる
S集約によるクエリ書き換えが行われると高速

リリースノート

3.2.13 (namameboshi) 2016/02/05

概要

このバージョンは 3.2.12 に対するバグ修正リリースです。

バグ修正

3.2.12 (namameboshi) 2015/07/24

概要

このバージョンは 3.2.11 に対するバグ修正リリースです。

バグ修正

3.2.11 (namameboshi) 2015/04/08

概要

このバージョンは 3.2.10 に対するバグ修正リリースです。

バグ修正

3.2.10 (namameboshi) 2015/02/05

概要

このバージョンは 3.2.9 に対するバグ修正リリースです。

バグ修正

3.2.9 (namameboshi) 2014/09/05

概要

このバージョンは 3.2.8 に対するバグ修正リリースです。

バグ修正

3.2.8 (namameboshi) 2014/03/24

概要

このバージョンは 3.2.7 に対するバグ修正リリースです。

バグ修正

3.2.7 (namameboshi) 2013/12/06

概要

このバージョンは 3.2.6 に対するバグ修正リリースです。

バグ修正

3.2.6 (namameboshi) 2013/09/06

概要

このバージョンは 3.2.5 に対するバグ修正リリースです。

バグ修正

3.2.5 (namameboshi) 2013/07/10

概要

このバージョンは 3.2.4 に対するバグ修正リリースです。

バグ修正

3.2.4 (namameboshi) 2013/04/26

概要

このバージョンは 3.2.3 に対するバグ修正リリースです。

バグ修正

3.2.3 (namameboshi) 2013/02/18

概要

pgpool-II 3.2.2 に対するバグ修正リリースです。 おもに、3.2.2 のヘルスチェックに関する致命的な問題を修正するものです。

以下の条件がすべて満たされたとき、フェイルオーバ発生時に pgpool のメインプロセスが消滅し、 pgpool-II へのクライアントの接続がすべてハングします。 また、その状態から復帰するには、pgpool の子プロセスを手動で kill し、pgpool-II を 再起動するしかありませんでした。

バグ修正

3.2.2 (namameboshi) 2013/02/08

概要

このバージョンは 3.2.1 に対するバグ修正リリースです。

バグ修正

3.2.1 (namameboshi) 2012/10/12

概要

このバージョンは 3.2.0 に対するバグ修正リリースです。

バグ修正

3.2.0 (namameboshi) 2012/08/03

概要

このバージョンは 3.2 系列の最初の版で、3.1 系からの「メジャーバージョンアップ」にあたります。

互換性のない変更

新機能

改良

バグ修正


3.1.16 (hatsuiboshi) 2016/02/05

概要

このバージョンは 3.1.15 に対するバグ修正リリースです。

バグ修正

3.1.15 (hatsuiboshi) 2015/07/24

概要

このバージョンは 3.1.14 に対するバグ修正リリースです。

バグ修正

3.1.14 (hatsuiboshi) 2015/04/08

概要

このバージョンは 3.1.13 に対するバグ修正リリースです。

バグ修正

3.1.13 (hatsuiboshi) 2015/02/05

概要

このバージョンは 3.1.12 に対するバグ修正リリースです。

バグ修正

3.1.12 (hatsuiboshi) 2014/09/05

概要

このバージョンは 3.1.11 に対するバグ修正リリースです。

バグ修正

3.1.11 (hatsuiboshi) 2014/03/24

概要

このバージョンは 3.1.10 に対するバグ修正リリースです。

バグ修正

3.1.10 (hatsuiboshi) 2013/12/06

概要

このバージョンは 3.1.9 に対するバグ修正リリースです。

バグ修正