Postgres – PG_Pool2 Sharding Cache

Não vou entrar na discussão se o pgbouncer ou o pg_pool2 é isso ou aquilo, melhor ou pior, cada um tem suas qualidades e cada um sabe onde aperta o calo.

A ideia desse post é mostrar que é possível montar uma estrutura de shard de cache para o pg_pool2 para poder ter balanceamento do pool e conseguir alguma consistência do cache ganhar proveito com isso.

Começando pelo básico… O pg_pool2 tem uma configuração de cache, ele pode usar um serviço próprio ou o memcached (com tanta opção por aí eles continuam batendo nisso). Ele faz um controle até que bom do cache, invalida se alguma tabela sofre DML, não faz cache se vc escolher algum schema ou tabela específica, no final ele é bem honesto não garante 100% mas tenta entregar alguma coisa.

Qual seria a vantagem desse cache? se sua aplicação é mais antiga, você não tem como alterar o fonte ou seus devs são preguiçosos e não entendem o porque de usar um cache você consegue fazer isso de forma precária no meio do caminho, diminuindo a carga de consultas repetitivas contra seu banco de dados.

Existem outras formas de resolver? Até que sim, mas nesse post só vai ter essa.

Como vamos trabalhar com uma configuração de dois #poolers de conexão, cada #pooler vai executar dois serviços do #memcached.

O serviço na porta padrão 11211 vai trabalhar como um proxy de conexão enquanto o serviço executando na porta 11212 vai ser o serviço que vai realmente hospedar a chave valor.

Como o serviço do #pgpool é responsável por criar, consultar e apagar as chaves ele precisa ser capaz de invalidar uma chave devido a uma operação de DML/DDL que passe por ele, se cada pool tiver seu próprio #memcached um não sabe que o outro existe e não tem como invalidar uma possível chave que possa gerar inconsistência.

O serviço de #proxy do #memcached que vamos usar é o do próprio #memcached
https://docs.memcached.org/features/proxy/examples/

mas precisamos ajustar o arquivo de configuração para executar a subida do serviço em uma porta diferente da porta padrão, neste caso vamos fazer a configuração para usar a porta 11212.

arquivo de configuração do memcached:

# memcached default config file
# 2003 - Jay Bonci <jaybonci@debian.org>
# This configuration file is read by the start-memcached script provided as
# part of the Debian GNU/Linux distribution.

# Run memcached as a daemon. This command is implied, and is not needed for the
# daemon to run. See the README.Debian that comes with this package for more
# information.
-d
# Log memcached's output to /var/log/memcached
logfile /var/log/memcached.log

# Be verbose
-v

# Be even more verbose (print client commands as well)
-vv

# Start with a cap of 64 megs of memory. It's reasonable, and the daemon default
# Note that the daemon will grow to this size, but does not start out holding this much
# memory
#-m 64
-m 12288
# Default connection port is 11211
-p 11212

# Run the daemon as root. The start-memcached will default to running as root if no
# -u command is present in this config file
-u memcache

# Specify which IP address to listen on. The default is to listen on all IP addresses
# This parameter is one of the only security measures that memcached has, so make sure
# it's listening on a firewalled interface.
#-l 127.0.0.1
-l 0.0.0.0
# Limit the number of simultaneous incoming connections. The daemon default is 1024
# -c 1024

# Lock down all paged memory. Consult with the README and homepage before you do this
# -k

# Return error when memory is exhausted (rather than removing items)
# -M

# Maximize core file limit
# -r

# Use a pidfile
-P /var/run/memcached/memcached.pid

agora para o ajuste de configuração de proxy, vamos fazer o seguinte:

instalar dependências

apt-get install gcc make libevent-dev

baixar a versão compilável

wget https://memcached.org/latest

copiar, remover a versão baixada que ficou com um nome estranho e descompactar

cp latest memcached-1.6.39.tar.gz
rm latest
tar xzvf memcached-1.6.39.tar.gz

acessar o diretório e configurar a nova versão

cd memcached-1.6.39.tar.gz
./configure --enable-proxy

executar o make, make test e make install (esse processo demora)

make
make test
make install

confirmar que foi habilitado o proxy

memcached --help | grep proxy

criar um arquivo mc1proxy.lua com o seguinte conteúdo

pools{
    main = {
        backends = {
            "127.0.0.1:11212",
            "OUTRO_IP:11212",
        }
    }
}


routes{
    default = route_direct{
        child = "main"
    }
}

**Esse OUTRO_IP é o IP usado no outro nó do instance group do #pgbouncer

iniciar os serviços do #memcached nos 2 ou mais nós, na porta 11212

Baixar o protocolo de roteamento no diretório do #memcached

wget https://raw.githubusercontent.com/memcached/memcached-proxylibs/main/lib/routelib/routelib.lua

iniciar o serviço para ver se tudo funciona

memcached -o proxy_config=routelib,proxy_arg=mc1proxy.lua -p 11211 -u root

até esse momento os serviços devem estar rodando.
para testar executar telnet no IP do servidor do pgbouncer na porta 11211

telnet IP_BOUNCER 11211

a tela deve ficar escura, executar o comando

watch proxyevents

caso alguma coisa não esteja funcionando ele vai começar a colocar na tela as mensagens de erro
para parar pressione CTRL + ]

Então, basicamente, o seu NLB vai fazer sua aplicação acessar um dos pools, esse pool vai acessar o endereço local na porta padrão do memcached que é o proxy e quando ele fizer cache de alguma consulta ele vai fazer o shard desse cache em algum memcached.

Bonus 1

O script abaixo é para ser usado na GCP, ele deve ser colocado na secret para ser carregado na maquina caso você use Instance Groups, para ter flexibilidade em adicionar ou remover maquinas do pool.

A ideia dele é ser executado de forma cíclica a cada X minutos ou segundos, ele vai identificar se existe maquina nova no pool de maquinas do Instance Group, adicionar, remover ou não fazer nada no arquivo Lua do proxy e recarregar o serviço caso precise.

https://github.com/bigleka/gcp/blob/main/gcp_memcached_balancer.sh

GCP – Copiar flags entre instâncias

Para quem já trabalhou com o GCP CloudSQL sabe a dor de cabeça que é não ter uma forma fácil de gerenciar as flags das instâncias ou uma forma fácil de copiar as flags de uma instância para outra.

Parece que eles gostam muito de dificultar uma administração que deveria ser simples.

Bom, no link abaixo eu montei um outro python que carrega a lista de projetos que você tem acesso, lista as instâncias e as flags, ai você pode escolher quais vão ser aplicadas na outra instância e até editá-las antes de aplicar.

Trabalho em progresso:

Ainda estou tentando listar quais as flags que são obrigatórias de ter reboot, então, por enquanto, assuma que todas vão causar algum tipo de reboot no destino (mesmo que não causem).

https://github.com/bigleka/gcp/blob/main/gcp_copy_cloudsql_flags.py

Eu sou muito fã de linha de comando, mas como as pessoas gostam de interface gráfica, esse python usa o tkinter para montar uma tela zoada para você ser mais feliz.

Basicamente, deixei todas as dependências que precisam ser instaladas na parte comentada do código.

GCP – Executa script em várias instâncias PG

AAAhhh o saudoso SSMS tem uma feature inigualável que é o “Registered Servers“, atende a necessidade de forma incrível.

As outras ferramentas de administração de banco que tem por ai como DBeaver, DataGrip, PGAdmin, etc., tentam ser generalistas e acabam deixando de ter esse tipo de feature.

Como esses, longos e longos dias, estou administrando e migrando vários ambientes Postgres na GCP, montei um script em python que usa o streamlit para fazer mais ou menos o que o “Registered Servers” faz, claro que não com toda a glória do SSMS, mas ainda estou trabalhando nisso.

o código encontra-se no meu repositório do GIT.

https://github.com/bigleka/gcp/blob/main/prototipo_streamlit_cloudsql.py

Ele funciona da seguinte forma:

Usando o arquivo .json, criado através do gcloud, com os dados da sua credencial para usar a API da GCP e listar os projetos e instâncias de bancos de cada projeto que você tem direito de acesso.

Ai tem um botão para carregar as bases de dados de cada instância, não fiz tudo de uma vez porque sobrecarrega o streamlit.

Ai usando uma credencia de banco, não a credencial do IAM (pq depende de um monte de configuração que pode ou não estar ajustada na instância) conseguimos executar em paralelo o mesmo script em várias instâncias nos bancos selecionados.

Problemas conhecidos:

  • Ainda estou trabalhando em ajustar a forma de operação para sessão para conseguir executar scripts que precisam de operação de sessão.
  • Estou vendo o problema dele fechar o grupo do projeto quando seleciono qualquer coisa mesmo tendo selecionado anteriormente alguma coisa, isso não é bem um problema, só é chato.
  • Ajuste já adicionar o status das execuções assim que elas acabarem na barra da esquerda.

Em testes:

  • autenticação web
  • salvar resultados em csv
  • rodar em docker

Ordem da chave primária

A ideia desses 2 scripts é fazer uma simples análise e sugerir uma possível melhoria na ordem da chave primária de uma tabela específica.

Estes scripts não são para serem seguidos a ferro e fogo, existem outros fatores para serem considerados na ordem de uma PK, mas para quem não tem nada, e quer ter pelo menos uma ideia para onde ir montei eles como procedure para o SQL e como função para o Postgresql.

Versão SQL Server:

ALTER PROCEDURE usp_SugerirNovaOrdemChavePrimaria
    @SchemaName NVARCHAR(128),
    @TableName NVARCHAR(128)
AS
BEGIN
	SET ARITHABORT OFF 
	SET ANSI_WARNINGS OFF
    DECLARE @ColumnName NVARCHAR(128);
    DECLARE @Sql NVARCHAR(MAX) = '';
    DECLARE @OrderSuggestions NVARCHAR(MAX) = '';
    DECLARE @DynamicSQL NVARCHAR(MAX);
    DECLARE @Densidade FLOAT;
    DECLARE @OrderTable TABLE (ColumnName NVARCHAR(128), Densidade FLOAT);
    DECLARE @CurrentOrder NVARCHAR(MAX) = '';

    -- Cursor para iterar sobre as colunas da chave primária
    DECLARE ColumnCursor CURSOR FOR
        SELECT COL_NAME(ic.object_id, ic.column_id) 
        FROM sys.indexes AS i 
        INNER JOIN sys.index_columns AS ic ON i.object_id = ic.object_id AND i.index_id = ic.index_id 
        WHERE i.is_primary_key = 1 
        AND OBJECT_NAME(ic.object_id) = @TableName;

    OPEN ColumnCursor;
    FETCH NEXT FROM ColumnCursor INTO @ColumnName;

    WHILE @@FETCH_STATUS = 0
    BEGIN
        -- Constrói e executa a consulta SQL dinâmica para calcular a densidade para cada coluna
        SET @DynamicSQL = 'SELECT @DensidadeOUT = (COUNT(DISTINCT ' + QUOTENAME(@ColumnName) + ') * 1.0 / COUNT(*)) FROM ' + QUOTENAME(@SchemaName) + '.' + QUOTENAME(@TableName);
        EXEC sp_executesql @DynamicSQL, N'@DensidadeOUT FLOAT OUTPUT', @Densidade OUTPUT;

        -- Adiciona os resultados em uma tabela temporária
        INSERT INTO @OrderTable (ColumnName, Densidade) VALUES (@ColumnName, @Densidade);

        -- Constrói a ordem atual
        SET @CurrentOrder += @ColumnName + ', ';

        FETCH NEXT FROM ColumnCursor INTO @ColumnName;
    END

    CLOSE ColumnCursor;
    DEALLOCATE ColumnCursor;

    -- Remove a última vírgula e espaço da ordem atual
    IF LEN(@CurrentOrder) > 0
    BEGIN
        SET @CurrentOrder = LEFT(@CurrentOrder, LEN(@CurrentOrder) - 1);
    END

    -- Constrói a sugestão de ordem com base na densidade
    SELECT @OrderSuggestions += ColumnName + ', '
    FROM @OrderTable
    ORDER BY Densidade ASC, ColumnName;

    -- Remove a última vírgula e espaço
    IF LEN(@OrderSuggestions) > 0
    BEGIN
        SET @OrderSuggestions = LEFT(@OrderSuggestions, LEN(@OrderSuggestions) - 1);
    END

    -- Compara a ordem atual com a sugerida
    IF @CurrentOrder = @OrderSuggestions
    BEGIN
        SELECT @TableName as [Object], 'A ordem atual já é a melhor.' AS SuggestedOrder;
    END
    ELSE
    BEGIN
        -- Retorna a sugestão de ordem
        SELECT @TableName as [Object], @OrderSuggestions AS SuggestedOrder;
    END
END

Versão para Postgresql:

CREATE OR REPLACE FUNCTION mc1_sugerir_nova_ordem_chave_primaria(schema_name text, nome_tabela text)
RETURNS text AS $$
DECLARE
    coluna_atual record;
    ordem_sugerida text := '';
    ordem_atual text := '';
    query text;
BEGIN
    -- Prepara a query para obter a ordem atual das colunas da chave primária
    FOR coluna_atual IN
        SELECT kcu.column_name
        FROM information_schema.table_constraints AS tc
        JOIN information_schema.key_column_usage AS kcu
            ON tc.constraint_name = kcu.constraint_name
            AND tc.table_schema = kcu.table_schema
        WHERE tc.constraint_type = 'PRIMARY KEY'
            AND tc.table_name = nome_tabela
            AND tc.table_schema = schema_name
        ORDER BY kcu.ordinal_position
    LOOP
        ordem_atual := ordem_atual || coluna_atual.column_name || ', ';
    END LOOP;

    -- Remove a última vírgula e espaço da ordem atual
    IF LENGTH(ordem_atual) > 0 THEN
        ordem_atual := substr(ordem_atual, 1, LENGTH(ordem_atual) - 2);
    END IF;

    -- Prepara a query para calcular a densidade das colunas da chave primária
    query := format($f$
        SELECT 
            kcu.column_name,
            (COUNT(DISTINCT %I) * 1.0 / COUNT(*)) AS densidade
        FROM 
            information_schema.table_constraints AS tc
        JOIN 
            information_schema.key_column_usage AS kcu
            ON tc.constraint_name = kcu.constraint_name
            AND tc.table_schema = kcu.table_schema
        JOIN 
            %I.%I AS t
            ON true
        WHERE 
            tc.constraint_type = 'PRIMARY KEY'
            AND tc.table_name = %L
            AND tc.table_schema = %L
        GROUP BY 
            kcu.column_name
        ORDER BY 
            densidade DESC, kcu.column_name
    $f$, 'column_name', schema_name, nome_tabela, nome_tabela, schema_name);

    -- Executa a consulta e processa os resultados
    FOR coluna_atual IN EXECUTE query
    LOOP
        ordem_sugerida := ordem_sugerida || coluna_atual.column_name || ', ';
    END LOOP;

    -- Remove a última vírgula e espaço
    IF LENGTH(ordem_sugerida) > 0 THEN
        ordem_sugerida := substr(ordem_sugerida, 1, LENGTH(ordem_sugerida) - 2);
    END IF;

    -- Compara a ordem atual com a sugerida
    IF ordem_atual = ordem_sugerida THEN
        RETURN 'A ordem atual já é a melhor.';
    ELSE
        RETURN ordem_sugerida;
    END IF;
END;
$$ LANGUAGE plpgsql;