Utilizando a matriz de gram no SVM

Dominando a Matriz de Gram para Otimização em Support Vector Machines

O tópico 1.4.6.1.2. Using the Gram matrix representa uma abordagem computacionalmente eficiente para implementação de kernels personalizados no Scikit-Learn. Esta técnica permite pré-computar similaridades entre amostras, otimizando significativamente o tempo de treinamento.

O Conceito Fundamental da Matriz de Gram

Primeiramente, a Gram matrix é uma matriz que armazena todos os produtos internos entre pares de amostras no espaço de características. Em machine learning, ela é definida como \(G_{ij} = K(x_i, x_j)\), onde K é a função kernel.

Estrutura Matemática da Matriz

Certamente, a matriz possui propriedades específicas. Para um conjunto de dados com n amostras, a Gram matrix é uma matriz n × n simétrica onde cada elemento representa a similaridade entre duas amostras:

\(G = \begin{bmatrix} K(x_1, x_1) & K(x_1, x_2) & \cdots & K(x_1, x_n) \\ K(x_2, x_1) & K(x_2, x_2) & \cdots & K(x_2, x_n) \\ \vdots & \vdots & \ddots & \vdots \\ K(x_n, x_1) & K(x_n, x_2) & \cdots & K(x_n, x_n) \end{bmatrix}\)

Implementação Prática com Scikit-Learn

Primordialmente, vamos explorar como utilizar a Gram matrix diretamente no SVM. Conquanto pareça complexo, a implementação é bastante direta:

import numpy as np
from sklearn import svm
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics.pairwise import rbf_kernel

# Gerando dados de exemplo
X, y = make_classification(n_samples=200, n_features=4, n_classes=2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Pré-computando a Gram matrix para o conjunto de treinamento
gram_matrix_train = rbf_kernel(X_train, X_train, gamma=0.1)

# Utilizando a Gram matrix pré-computada
classificador = svm.SVC(kernel='precomputed')
classificador.fit(gram_matrix_train, y_train)

# Para predição, precisamos computar a Gram matrix entre teste e treino
gram_matrix_test = rbf_kernel(X_test, X_train, gamma=0.1)
predicoes = classificador.predict(gram_matrix_test)

acuracia = accuracy_score(y_test, predicoes)
print(f"Acurácia com Gram matrix pré-computada: {acuracia:.4f}")

import numpy as np

from sklearn import svm

from sklearn.datasets import make_classification

from sklearn.model_selection import train_test_split

from sklearn.metrics import accuracy_score

from sklearn.metrics.pairwise import rbf_kernel

# Gerando dados de exemplo

X, y = make_classification(n_samples=200, n_features=4, n_classes=2, random_state=42)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Pré-computando a Gram matrix para o conjunto de treinamento

gram_matrix_train = rbf_kernel(X_train, X_train, gamma=0.1)

# Utilizando a Gram matrix pré-computada

classificador = svm.SVC(kernel='precomputed')

classificador.fit(gram_matrix_train, y_train)

# Para predição, precisamos computar a Gram matrix entre teste e treino

gram_matrix_test = rbf_kernel(X_test, X_train, gamma=0.1)

predicoes = classificador.predict(gram_matrix_test)

acuracia = accuracy_score(y_test, predicoes)

print(f"Acurácia com Gram matrix pré-computada: {acuracia:.4f}")

Vantagens de Performance

Embora a abordagem exija cuidado adicional, decerto oferece benefícios significativos. Portanto, considere estas vantagens:

Redução de computações redundantes durante o treinamento
Otimização para kernels computacionalmente custosos
Possibilidade de usar kernels personalizados complexos
Reutilização da matriz para múltiplos experimentos

Casos de Uso Específicos

Atualmente, a Gram matrix é aplicada em diversos cenários avançados. Aliás, vejamos implementações especializadas:

Gram Matrix com Kernel Personalizado

Enquanto kernels pré-definidos são úteis, igualmente podemos criar matrizes personalizadas:

def computar_gram_matrix_personalizada(X, Y=None, gamma=0.1, alpha=0.5):
    """
    Computa Gram matrix com kernel personalizado combinando linear e RBF
    """
    if Y is None:
        Y = X
    
    # Componente linear
    linear_component = np.dot(X, Y.T)
    
    # Componente RBF
    X_norm = np.sum(X**2, axis=1)
    Y_norm = np.sum(Y**2, axis=1)
    rbf_component = np.exp(-gamma * (X_norm[:, None] + Y_norm[None, :] - 2 * np.dot(X, Y.T)))
    
    # Combinação ponderada
    gram_matrix = alpha * linear_component + (1 - alpha) * rbf_component
    return gram_matrix

# Utilizando Gram matrix personalizada
gram_personalizada = computar_gram_matrix_personalizada(X_train)
classificador_personalizado = svm.SVC(kernel='precomputed')
classificador_personalizado.fit(gram_personalizada, y_train)

# Predição com matriz de teste
gram_test_personalizada = computar_gram_matrix_personalizada(X_test, X_train)
predicoes_personalizadas = classificador_personalizado.predict(gram_test_personalizada)

def computar_gram_matrix_personalizada(X, Y=None, gamma=0.1, alpha=0.5):

"""

Computa Gram matrix com kernel personalizado combinando linear e RBF

"""

if Y is None:

Y = X

# Componente linear

linear_component = np.dot(X, Y.T)

# Componente RBF

X_norm = np.sum(X**2, axis=1)

Y_norm = np.sum(Y**2, axis=1)

rbf_component = np.exp(-gamma * (X_norm[:, None] + Y_norm[None, :] - 2 * np.dot(X, Y.T)))

# Combinação ponderada

gram_matrix = alpha * linear_component + (1 - alpha) * rbf_component

return gram_matrix

# Utilizando Gram matrix personalizada

gram_personalizada = computar_gram_matrix_personalizada(X_train)

classificador_personalizado = svm.SVC(kernel='precomputed')

classificador_personalizado.fit(gram_personalizada, y_train)

# Predição com matriz de teste

gram_test_personalizada = computar_gram_matrix_personalizada(X_test, X_train)

predicoes_personalizadas = classificador_personalizado.predict(gram_test_personalizada)

Otimização com Cache de Gram Matrix

Surpreendentemente, podemos implementar estratégias de cache para melhor performance:

import joblib
from sklearn.base import BaseEstimator, TransformerMixin

class GramMatrixCached(BaseEstimator, TransformerMixin):
    def __init__(self, kernel_func, cache_dir='gram_cache'):
        self.kernel_func = kernel_func
        self.cache_dir = cache_dir
        self.memory = joblib.Memory(cache_dir, verbose=0)
        self.compute_gram_cached = self.memory.cache(self.kernel_func)
    
    def fit(self, X, y=None):
        self.X_fit_ = X
        return self
    
    def transform(self, X):
        return self.compute_gram_cached(X, self.X_fit_)
    
    def fit_transform(self, X, y=None):
        self.fit(X, y)
        return self.transform(X)

# Utilizando com cache
gram_cached = GramMatrixCached(computar_gram_matrix_personalizada)
gram_matrix_cached = gram_cached.fit_transform(X_train)

classificador_cached = svm.SVC(kernel='precomputed')
classificador_cached.fit(gram_matrix_cached, y_train)

import joblib

from sklearn.base import BaseEstimator, TransformerMixin

class GramMatrixCached(BaseEstimator, TransformerMixin):

def __init__(self, kernel_func, cache_dir='gram_cache'):

self.kernel_func = kernel_func

self.cache_dir = cache_dir

self.memory = joblib.Memory(cache_dir, verbose=0)

self.compute_gram_cached = self.memory.cache(self.kernel_func)

def fit(self, X, y=None):

self.X_fit_ = X

return self

def transform(self, X):

return self.compute_gram_cached(X, self.X_fit_)

def fit_transform(self, X, y=None):

self.fit(X, y)

return self.transform(X)

# Utilizando com cache

gram_cached = GramMatrixCached(computar_gram_matrix_personalizada)

gram_matrix_cached = gram_cached.fit_transform(X_train)

classificador_cached = svm.SVC(kernel='precomputed')

classificador_cached.fit(gram_matrix_cached, y_train)

Considerações de Implementação

Contudo, existem aspectos importantes a considerar. Assim, observe estas recomendações:

A matriz deve ser positive semi-definite para garantir validade matemática
O tamanho da matriz cresce quadraticamente com o número de amostras
É essencial manter consistência nos parâmetros do kernel
Validação cruzada requer cuidado especial com a pré-computação

Validação da Gram Matrix

Inegavelmente, a verificação da qualidade da matriz é crucial. Então, implemente estas validações:

def validar_gram_matrix(gram_matrix):
    """
    Valida propriedades fundamentais da Gram matrix
    """
    resultados = {}
    
    # Verificar simetria
    resultados['simetria'] = np.allclose(gram_matrix, gram_matrix.T)
    
    # Verificar positive semi-definiteness
    autovalores = np.linalg.eigvals(gram_matrix)
    resultados['psd'] = np.all(autovalores >= -1e-10)
    
    # Verificar diagonal não-negativa
    diagonal = np.diag(gram_matrix)
    resultados['diagonal_nao_negativa'] = np.all(diagonal >= 0)
    
    return resultados

# Validando nossa matriz
gram_valida = computar_gram_matrix_personalizada(X_train)
validacao = validar_gram_matrix(gram_valida)
print("Resultados da validação:", validacao)

def validar_gram_matrix(gram_matrix):

"""

Valida propriedades fundamentais da Gram matrix

"""

resultados = {}

# Verificar simetria

resultados['simetria'] = np.allclose(gram_matrix, gram_matrix.T)

# Verificar positive semi-definiteness

autovalores = np.linalg.eigvals(gram_matrix)

resultados['psd'] = np.all(autovalores >= -1e-10)

# Verificar diagonal não-negativa

diagonal = np.diag(gram_matrix)

resultados['diagonal_nao_negativa'] = np.all(diagonal >= 0)

return resultados

# Validando nossa matriz

gram_valida = computar_gram_matrix_personalizada(X_train)

validacao = validar_gram_matrix(gram_valida)

print("Resultados da validação:", validacao)

Integração com Pipeline do Scikit-Learn

Posteriormente à criação da matriz, é importante integrá-la adequadamente. Similarmente a outros componentes, a Gram matrix funciona em pipelines:

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

class GramMatrixTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, kernel_func):
        self.kernel_func = kernel_func
    
    def fit(self, X, y=None):
        self.X_fit_ = X
        return self
    
    def transform(self, X):
        return self.kernel_func(X, self.X_fit_)

# Pipeline completo com Gram matrix
pipeline_gram = Pipeline([
    ('scaler', StandardScaler()),
    ('gram_matrix', GramMatrixTransformer(computar_gram_matrix_personalizada)),
    ('svm', svm.SVC(kernel='precomputed'))
])

# O fit_transform do scaler é aplicado, depois a Gram matrix é computada
pipeline_gram.fit(X_train, y_train)
predicoes_pipeline = pipeline_gram.predict(X_test)

from sklearn.pipeline import Pipeline

from sklearn.preprocessing import StandardScaler

class GramMatrixTransformer(BaseEstimator, TransformerMixin):

def __init__(self, kernel_func):

self.kernel_func = kernel_func

def fit(self, X, y=None):

self.X_fit_ = X

return self

def transform(self, X):

return self.kernel_func(X, self.X_fit_)

# Pipeline completo com Gram matrix

pipeline_gram = Pipeline([

('scaler', StandardScaler()),

('gram_matrix', GramMatrixTransformer(computar_gram_matrix_personalizada)),

('svm', svm.SVC(kernel='precomputed'))

])

# O fit_transform do scaler é aplicado, depois a Gram matrix é computada

pipeline_gram.fit(X_train, y_train)

predicoes_pipeline = pipeline_gram.predict(X_test)

Conclusão e Aplicações Práticas

Enfim, o uso da Gram matrix representa uma técnica avançada com benefícios significativos. Inegavelmente, esta abordagem permite:

Otimização de performance para conjuntos de dados específicos
Implementação de kernels complexos não disponíveis nativamente
Controle granular sobre o processo de computação de similaridade
Integração com outras técnicas de pré-processamento

Afinal, dominar esta técnica abre possibilidades para soluções customizadas em problemas desafiadores. Eventualmente, você encontrará cenários onde apenas a pré-computação da matriz oferece a eficiência necessária.

Portanto, incorpore este conhecimento em seu arsenal de machine learning. Inclusive para problemas onde a computação de kernel representa o gargalo principal de performance.

Indice