Siamese Networks

dois grupos de jogadores
1.1.2 – Classificacao
1.1.2.6 – Redes Neurais – Hibridas/Especificas
1.1.2.6.1 – Siamese Networks
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

comparando em vez de classificando

Redes Siamese são arquiteturas que aprendem a comparar pares de entradas em vez de classificá-las. Elas consistem em duas ou mais redes idênticas que compartilham os mesmos pesos. Primeiramente, cada sub-rede transforma uma entrada em um vetor de características (embedding). Além disso, uma função de similaridade compara esses vetores para produzir uma pontuação final. Por exemplo, verificar se duas fotos mostram a mesma pessoa. Essa abordagem é ideal para tarefas com muitas classes ou classes não vistas durante treinamento.

aprendendo com funções de contraste

O treinamento de redes Siamese utiliza funções de perda baseadas em similaridade. Primeiramente, a perda contrastiva aproxima embeddings de entradas similares e afasta entradas diferentes. Além disso, a perda triplet utiliza âncora, exemplo positivo e negativo para comparação. Por exemplo, em reconhecimento facial, imagens da mesma pessoa ficam próximas no espaço. Diferentes pessoas têm seus embeddings afastados. Esse aprendizado cria espaços de representação semanticamente estruturados. Não há necessidade de redefinir classes quando novos exemplos aparecem.

aplicações em reconhecimento facial e verificação

Redes Siamese são amplamente utilizadas em sistemas de verificação de identidade facial. Primeiramente, sistemas como FaceNet e DeepFace usam arquiteturas Siamese para reconhecimento. Além disso, são ideais para verificação de assinaturas e identificação de objetos raros. Por exemplo, identificar se duas impressões digitais pertencem ao mesmo indivíduo. A arquitetura permite adicionar novas pessoas sem re-treinar todo o modelo. Basta armazenar o embedding da nova pessoa. Essa flexibilidade é essencial para aplicações em larga escala e segurança.

vantagens e legado das redes siamese

Redes Siamese oferecem vantagens únicas para problemas de verificação e one-shot learning. Primeiramente, funcionam bem com poucos exemplos por classe (few-shot learning). Além disso, são robustas a variações e oclusões quando treinadas adequadamente. Por exemplo, reconhecer objetos com apenas um exemplo de referência. A arquitetura influenciou modelos modernos como CLIP e sistemas de recuperação. Para iniciantes, redes Siamese mostram como comparação pode substituir classificação. É uma abordagem elegante para problemas onde classes são muitas ou dinâmicas.

Redes Neurais – Hibridas/Especificas

dois grupos de jogadores
1.1.2 – Classificacao
1.1.2.6 – Redes Neurais – Hibridas/Especificas
1.1.2.6.1 – Siamese Networks
1.1.2.6.2 – Graph Neural Networks – GNN
1.1.2.6.3 – Capsule Networks
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

quando arquiteturas se combinam

Redes neurais híbridas combinam diferentes arquiteturas para aproveitar suas respectivas vantagens. Por exemplo, modelos podem unir CNNs para visão com Transformers para sequências. Primeiramente, cada tipo de arquitetura tem pontos fortes em domínios específicos. Além disso, combinar múltiplas arquiteturas permite resolver problemas multimodais complexos. Por exemplo, legenda de imagens usa CNN para extrair características visuais e Transformer para gerar texto. Essas redes superam abordagens que usam apenas um tipo de arquitetura. Hibridização é tendência crescente em sistemas de IA modernos.

redes multimodais

Modelos multimodais processam e integram informações de diferentes tipos de dados simultaneamente. Primeiramente, CLIP da OpenAI combina visão e texto em um espaço comum. Além disso, modelos como Flamingo e Gato processam imagens, texto e até áudio. Por exemplo, CLIP entende imagens e seus textos descritivos sem treinamento específico. A integração multimodal permite tarefas como busca por imagem usando texto. Esses modelos representam um passo em direção a IA mais geral. São a base de sistemas como geradores de imagem por texto.

redes com memória externa

Redes com memória externa adicionam componentes de armazenamento separados dos parâmetros neurais. Primeiramente, Memory Networks e Neural Turing Machines acessam memória de forma endereçável. Além disso, redes de atenção podem ler e escrever em estruturas de memória externa. Por exemplo, modelos de recuperação aumentada (RAG) buscam conhecimento em bases externas. Isso permite que redes neurais acessem informações além do conhecimento aprendido durante treinamento. Modelos como Retrieval-Augmented Generation (RAG) combinam recuperação e geração. Essas arquiteturas melhoram factualidade e reduzem alucinações em modelos de linguagem.

redes neurais gráficas (gnn)

Graph Neural Networks (GNNs) processam dados estruturados em forma de grafos. Diferente de imagens ou texto, grafos têm conexões irregulares entre elementos. Primeiramente, GNNs propagam informações entre nós vizinhos através de mensagens. Além disso, são ideais para moléculas, redes sociais e sistemas de recomendação. Por exemplo, prever propriedades de moléculas usando sua estrutura atômica. GNNs capturam dependências que arquiteturas tradicionais não conseguem modelar. São essenciais para química computacional, redes de conhecimento e análise de grafos.