Nos últimos anos, a aprendizagem profunda alterou o campo da visão computacional, permitindo que os computadores percebam e descubram informações visuais em níveis incomuns. A atuação das Redes Neurais Convolucionais (CNNs) teve um impacto crucial nessa mudança, com alguns projetos inovadores liderando o caminho. Duas das estruturas mais influentes da CNN são AlexNet e GoogleNet (InceptionNet). Os dois modelos contribuíram para a progressão das tarefas de classificação de imagens, mas contrastam em suas estruturas e princípios de design. Neste artigo, mergulharemos nas diferenças críticas entre AlexNet e GoogleNet, explorando suas estruturas, decisões de design e execução.
Principais diferenças entre AlexNet e GoogleNet
Recurso | Alex Net | GoogleNet (InceptionV3) |
---|---|---|
Ano de lançamento/introdução | 2012 | 2014 |
Número de camadas no modelo | 8 (5 Convolução, 3 FC) | 159 (Incluindo Auxiliar) |
Arquitetura | Sequencial | Multifilial (Início) |
Tamanho da convolução | Filtros maiores (11x11, 5x5) | Filtros menores (1x1, 3x3, 5x5) |
Agrupando camadas | Agrupamento máximo | Pool máximo e médio |
Função de ativação | retomar | ReLU e outras variações |
Normalização de Resposta Local (LRN) | Usado | Não usado |
Módulos iniciais | Não usado | Usado com muitas filiais múltiplas |
Eficiência Computacional | Moderado | Mais alto |
Complexidade do modelo | Baixo | Alto |
Precisão principal (ImageNet) | 0,571 | 0,739 |
O que é AlexNet?
AlexNet é uma notável arquitetura de rede neural convolucional (CNN) criada por Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton. Ele foi introduzido em 2012 e fez um progresso crítico no ImageNet Large Scope Visual Recognition Challenge (ILSVRC), superando essencialmente diferentes metodologias. AlexNet foi a principal CNN a mostrar a viabilidade do aprendizado profundo para tarefas de ordenação de imagens, denotando um momento decisivo no campo da visão computacional.
1. Arquitetura
Lançado em 2012, AlexNet foi líder da CNN que venceu o ImageNet Large Scope Visual Recognition Challenge (ILSVRC) com margem crítica para erros. Compreende cinco camadas convolucionais seguidas por três camadas completamente associadas. A utilização da atuação ReLU (Redressed Direct Unit) e da padronização da reação local (LRN) aumentou sua prosperidade. AlexNet também apresentou a ideia de envolver GPUs na preparação, o que acelerou totalmente o desenvolvimento da experiência.
2. Profundidade da rede:
códigos de cores java
Com oito camadas (cinco convolucionais e três completamente associadas), AlexNet foi visto como profundo na hora de sua apresentação. No entanto, em contraste com os designs atuais, é geralmente superficial, restringindo a sua capacidade de captar elementos e exemplos incompreensíveis em conjuntos de dados extremamente complexos.
3. Produtividade Computacional:
Embora a apresentação da AlexNet sobre a preparação da GPU tenha acelerado a experiência educacional, ela ainda era computacionalmente dispendiosa devido às suas camadas mais profundas e completamente associadas e à utilização restrita da paralelização.
4. Sobreajuste:
Devido ao seu design moderadamente superficial e ao grande número de limites, o AlexNet estava mais inclinado ao overfitting, especialmente em conjuntos de dados mais modestos. Estratégias como o abandono escolar foram posteriormente utilizadas para moderar este problema.
5. Treinamento:
Para treinar AlexNet, os criadores utilizaram o conjunto de dados ImageNet, que contém mais de 1.000.000 de imagens nomeadas de 1.000 classificações. Eles utilizaram queda angular estocástica (SGD) com energia como cálculo de melhoria. Durante o treinamento, métodos de expansão de informações, como edição e inversão arbitrárias, foram aplicados para expandir o tamanho do conjunto de dados de treinamento e desenvolver ainda mais a generalização.
O sistema de treinamento foi solicitado computacionalmente, e a utilização de GPUs pela AlexNet para igual manuseio acabou sendo essencial. O treinamento do AlexNet em uma estrutura de GPU dupla exigiu cerca de sete dias, o que foi uma melhoria crítica em comparação com os tempos habituais de treinamento baseados em processador de computador.
6. Resultados:
Na rivalidade ImageNet 2012, AlexNet alcançou uma notável taxa de erros entre os 5 primeiros de cerca de 15,3%, superando outras metodologias de forma esmagadora.
O resultado do AlexNet iniciou uma onda de interesse em aprendizagem profunda e CNNs, provocando uma mudança na concentração da área local de visão computacional em direção a redes neurais mais complicadas e profundas.
7. Configuração da camada convolucional:
As camadas convolucionais no AlexNet são organizadas em uma sucessão básica, com camadas periódicas de max-pooling para redução da resolução. Esta clara engenharia foi importante naquele momento, mas restringiu a capacidade da organização de captar elementos progressistas complexos.
8. Diminuição da dimensionalidade:
AlexNet envolve camadas de pooling máximo para redução da resolução, diminuindo os componentes espaciais dos mapas de elementos. Isso ajuda a diminuir o peso computacional e a controlar o overfitting.
9. Tamanho e complexidade do modelo:
Embora AlexNet fosse visto como profundo naquele ponto, é um pouco mais modesto e menos complicado em comparação com designs posteriores. Essa franqueza tornou tudo mais óbvio e prático.
10. Utilização de Classificadores Assistentes:
Para resolver o problema dos ângulos de evaporação durante a preparação, AlexNet apresentou a ideia de classificadores auxiliares. Esses classificadores extras foram unidos às camadas moderadas e deram sinais de ângulo às camadas anteriores durante a retropropagação.
11. Impacto na Direção da Pesquisa:
O resultado do AlexNet denotou uma enorme mudança no campo de visão do PC. Isso incitou os cientistas a investigar a capacidade de aprendizagem profunda para diferentes tarefas relacionadas a imagens, estimulando o rápido desenvolvimento de designs de CNN mais desenvolvidos.
O que é o Google Net?
GoogleNet, também chamado de Inception v1, é uma arquitetura CNN criada pelo grupo Google Brain, especialmente por Christian Szegedy, Wei Liu e outros. Foi introduzido em 2014 e ganhou o ILSVRC com precisão e produtividade computacional ainda mais desenvolvidas. A arquitetura do GoogleNet é descrita por seu design profundo, que compreende 22 camadas, tornando-o uma das primeiras CNNs “excepcionalmente profundas”.
1. Arquitetura
GoogleNet (Inception v1): Apresentado em 2014, o GoogleNet é essencial para o grupo Inception de CNNs. É conhecido por seu design profundo envolvendo 22 camadas (módulos iniciais). O desenvolvimento vital do GoogleNet é o módulo inicial, que considera convoluções iguais de vários tamanhos de canal dentro de uma camada semelhante. Isso diminuiu a complexidade computacional e, ao mesmo tempo, manteve a precisão, tornando o GoogleNet mais eficaz do que o AlexNet.
2. Profundidade da rede:
Os módulos iniciais do GoogleNet são considerados um design essencialmente mais profundo, sem expandir as despesas computacionais. Com 22 camadas, o GoogleNet foi uma das principais CNNs a mostrar os benefícios da profundidade expandida da rede, estimulando maior exatidão e poder.
3. Produtividade Computacional:
Os módulos iniciais do GoogleNet são considerados um uso mais produtivo de ativos computacionais. Ao utilizar convoluções iguais dentro de cada bloco inicial, o GoogleNet reduziu o número de limites e cálculos, tornando-o mais acessível para aplicativos contínuos e transmissão em dispositivos baseados em recursos.
4. Sobreajuste:
O design profundo, porém eficaz, do GoogleNet essencialmente reduziu o overfitting, permitindo que ele funcionasse melhor em conjuntos de dados mais modestos e em situações de aprendizagem dinâmicas.
5. Treinamento:
O treinamento do GoogleNet também aprofunda o uso do conjunto de dados ImageNet, e procedimentos semelhantes de aumento de dados foram utilizados para atualizar a generalização. Seja como for, devido à sua arquitetura mais profunda, o GoogleNet exigiu mais recursos computacionais do que o AlexNet durante o treinamento.
O desenvolvimento dos módulos iniciais permitiu ao GoogleNet encontrar algum tipo de harmonia entre profundidade e eficácia computacional. As convoluções iguais dentro de cada bloco inicial diminuíram completamente o número de cálculos e limites, tornando o treinamento mais viável e eficaz.
6. Resultados:
O GoogleNet alcançou um ótimo ritmo de erros entre os 5 primeiros, de cerca de 6,67% no concurso ImageNet 2014, superando a apresentação do AlexNet.
A arquitetura profunda, porém proficiente, do GoogleNet exibiu a capacidade de redes neurais mais profundas, ao mesmo tempo em que acompanhava a viabilidade computacional, tornando-o mais atraente para aplicações reais.
7. Configuração da camada convolucional:
O GoogleNet apresentou a ideia de módulos iniciais, que compreendem inúmeras camadas convolucionais iguais de vários tamanhos de canal. Este plano permite que o GoogleNet capture destaques em diferentes escalas e, em conjunto, trabalha na capacidade da organização de remover elementos significativos de diferentes graus de deliberação.
8. Diminuição da dimensionalidade:
Apesar do pool máximo padrão, o GoogleNet utiliza métodos de redução de dimensionalidade, como convoluções 1x1. Essas convoluções mais modestas são menos escalonadas computacionalmente e ajudam a diminuir o número de elementos, ao mesmo tempo que protegem os dados fundamentais.
9. Tamanho e complexidade do modelo:
Os módulos de origem do GoogleNet trazem um design mais profundo com fundamentalmente mais camadas e limites. Essa complexidade, ao mesmo tempo que oferece precisão ainda mais desenvolvida, também pode tornar a organização mais testes para preparar e calibrar.
10. Utilização de Classificadores Assistentes:
O GoogleNet refinou a ideia de classificadores assistentes incorporando-os aos módulos de iniciação. Esses classificadores assistentes avançam na preparação de camadas mais profundas e melhoram o fluxo angular, contribuindo para uma preparação mais estável e eficaz.
11. Impacto na Direção da Pesquisa:
Os módulos iniciais do GoogleNet apresentaram a possibilidade de extração eficaz de componentes em diversas escalas. Essa ideia impactou o plano de projetos resultantes, capacitando os analistas a se concentrarem no avanço da profundidade da organização e da produtividade computacional, ao mesmo tempo em que acompanhavam ou desenvolviam ainda mais a precisão.
Conclusão
Tanto o AlexNet quanto o GoogleNet afetam de forma duradoura o campo da visão computacional e do aprendizado profundo. AlexNet exibiu a capacidade das CNNs para tarefas de reconhecimento de imagem e preparação para progressões futuras. Mais uma vez, o GoogleNet apresentou a ideia de módulos de origem, tornando-os prontos para estruturas CNN mais eficazes e profundas.
Embora AlexNet e GoogleNet tenham seus recursos especiais, o campo do aprendizado profundo se desenvolveu fundamentalmente desde suas apresentações. Os projetos atuais, como ResNet, DenseNet e EfficientNet, também ultrapassaram os limites de exatidão, produtividade e generalização. À medida que os analistas continuam a melhorar e a expandir estes modelos essenciais, o destino da visão computacional mantém um compromisso consideravelmente mais notável e perspectivas adicionais intrigantes.