SIFT (Scale-Invariant Feature Transform)

1.1.2.4.1 – Extração de Caracteristicas (Feature Extraction)
1.1.2.4.1.1 – Descritores Manuais (Engineered Features)
1.1.2.4.1.1.1 – SIFT (Scale-Invariant Feature Transform)
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

O SIFT é um algoritmo robusto para extração de características locais. Ele foi desenvolvido por David Lowe no início dos anos 2000. Primeiramente, o SIFT detecta pontos de interesse invariantes à escala. Em seguida, ele calcula descritores locais para cada ponto. Estes descritores são invariantes à rotação e à mudança de iluminação. Consequentemente, o SIFT é muito usado em casamento de imagens. Por exemplo, ele permite costurar fotos em um panorama. O algoritmo também é útil para reconhecimento de objetos em diferentes vistas. Portanto, o SIFT é uma ferramenta fundamental em visão computacional.

construção do espaço-escala (scale-space)

Primeiramente, o SIFT constrói um espaço-escala da imagem. Ele utiliza o filtro Gaussiano para suavizar a imagem. Varia-se o parâmetro σ (desvio padrão) sucessivamente. As imagens suavizadas são organizadas em oitavas (octaves). Cada oitava reduz a resolução pela metade. Por exemplo, a primeira oitava tem a resolução original. A segunda oitava é subamostrada pela metade. Este processo simula diferentes distâncias de visualização. A diferença de Gaussianas (DoG) é então calculada. Ela aproxima o Laplaciano da Gaussiana (LoG). Os extremos (máximos e mínimos) da DoG indicam candidatos a pontos-chave.

localização precisa e eliminação de bordas

Após detectar candidatos, o SIFT refina suas localizações. Ele utiliza uma expansão em série de Taylor da DoG. Este ajuste alcança precisão subpixel. Pontos com baixo contraste são descartados. Uma expansão de Taylor de segunda ordem é utilizada. Além disso, o algoritmo elimina respostas de bordas indesejadas. Uma borda tem alta curvatura em uma direção. Na direção perpendicular, a curvatura é baixa. O SIFT usa a matriz Hessiana para medir estas curvaturas. Ele calcula o traço e o determinante da Hessiana. Pontos com alta razão entre os autovalores são removidos. Portanto, apenas cantos e manchas (blobs) estáveis permanecem.

atribuição de orientação e geração do descritor

Cada ponto-chave recebe uma orientação dominante. O SIFT calcula a magnitude e a direção do gradiente local. Um histograma de 36 bins acumula as orientações dos gradientes. O pico do histograma define a orientação principal do ponto. Em seguida, o algoritmo gera o descritor propriamente dito. Uma região de 16×16 pixels ao redor do ponto é selecionada. Esta região é dividida em 16 sub-regiões de 4×4 pixels. Cada sub-região gera um histograma de 8 direções. O resultado é um vetor de 128 números reais (16×8). Finalmente, o vetor é normalizado para garantir invariância à iluminação. Este descritor final é único e robusto.

Descritores Manuais (Engineered Features)

programador
1.1.2.4.1 – Extração de Caracteristicas (Feature Extraction)
1.1.2.4.1.1 – Descritores Manuais (Engineered Features)
1.1.2.4.1.1.1 – SIFT (Scale-Invariant Feature Transform)
1.1.2.4.1.1.2 – MSER (Maximally Stable Extremal Regions)
1.1.2.4.1.1.3 – Harris-Stephens Corner Detector
LEGENDA
Principal
Ramo
Metodo
Problemas
Modelo
Arquitetura

Primeiramente, descritores manuais são características projetadas por especialistas humanos. Diferentemente do aprendizado profundo, elas não surgem automaticamente. O engenheiro define quais atributos da imagem importam. Por exemplo, bordas, cantos ou texturas servem como atributos. Estes atributos então se convertem em vetores numéricos. Consequentemente, um classificador simples pode utilizá-los. A grande vantagem reside na interpretabilidade e no controle total. Contudo, projetar bons descritores exige profundo conhecimento do domínio. Portanto, eles funcionam melhor em problemas bem compreendidos e controlados.

detectores de ponto de interesse (harris, sift, mser)

Detectores de ponto de interesse localizam características únicas na imagem. O detector de cantos Harris-Stephens representa um método clássico. Ele identifica regiões com mudança intensa em todas as direções. Por outro lado, o SIFT (Scale-Invariant Feature Transform) oferece mais robustez. Ele detecta pontos invariantes à escala e à rotação. O SIFT também gera descritores locais altamente discriminantes. O MSER (Maximally Stable Extremal Regions) detecta regiões do tipo blob. Ele se destaca para encontrar áreas com propriedades de intensidade consistentes. Por exemplo, usamos SIFT para casar imagens de um panorama. Estes descritores aparecem frequentemente em sistemas de tracking visual.

descritores de forma (fourier, momentos invariantes)

Descritores de forma capturam a geometria do contorno ou da região. Os descritores de Fourier representam o contorno como uma série de senos e cossenos. Poucos coeficientes de Fourier descrevem formas complexas de forma eficiente. Os momentos invariantes de Hu oferecem outra ferramenta poderosa. Eles mantêm invariância à translação, rotação e escala. Por exemplo, estes momentos diferenciam um triângulo de um quadrado. O número de Euler representa um descritor topológico simples. Ele conta componentes conectados menos os buracos. Portanto, a escolha do descritor depende da forma de interesse. Ambos se mostram úteis em inspeção industrial e reconhecimento de caracteres.

descritores de textura (glcm, histogramas de gradientes)

A textura descreve a variação espacial dos níveis de cinza. A matriz de co-ocorrência (GLCM) representa um descritor estatístico clássico. Ela conta quantas vezes pares de intensidades ocorrem juntos. A partir da GLCM, calculamos contraste, homogeneidade e energia. O HOG (Histogram of Oriented Gradients) representa outro descritor famoso. Ele conta a ocorrência de orientações de gradiente em regiões locais. Por exemplo, o HOG se destaca na detecção de pedestres. Descritores de textura são amplamente usados em imagens de sensoriamento remoto. Eles ajudam a diferenciar floresta de área urbana. Consequentemente, a análise de textura desempenha papel fundamental na medicina e na agricultura de precisão.