Regressão Linear e Regressão Logística são os dois famosos algoritmos de aprendizado de máquina que se enquadram na técnica de aprendizado supervisionado. Como ambos os algoritmos são de natureza supervisionada, esses algoritmos usam um conjunto de dados rotulado para fazer as previsões. Mas a principal diferença entre eles é como estão sendo usados. A Regressão Linear é usada para resolver problemas de Regressão enquanto a Regressão Logística é usada para resolver problemas de Classificação. A descrição de ambos os algoritmos é fornecida abaixo junto com a tabela de diferenças.
Regressão linear:
- A regressão linear é um dos algoritmos de aprendizado de máquina mais simples que vem na técnica de aprendizado supervisionado e é usado para resolver problemas de regressão.
- É usado para prever a variável dependente contínua com a ajuda de variáveis independentes.
- O objetivo da regressão linear é encontrar a linha de melhor ajuste que possa prever com precisão a saída para a variável dependente contínua.
- Se uma única variável independente for usada para previsão, ela será chamada de Regressão Linear Simples e se houver mais de duas variáveis independentes, essa regressão será chamada de Regressão Linear Múltipla.
- Ao encontrar a linha de melhor ajuste, o algoritmo estabelece a relação entre a variável dependente e a variável independente. E a relação deve ser de natureza linear.
- A saída para a regressão linear deve ser apenas os valores contínuos como preço, idade, salário, etc. A relação entre a variável dependente e a variável independente pode ser mostrada na imagem abaixo:
Na imagem acima, a variável dependente está no eixo Y (salário) e a variável independente está no eixo x (experiência). A linha de regressão pode ser escrita como:
y= a<sub>0</sub>+a<sub>1</sub>x+ ε
Onde um0e um1são os coeficientes e ε é o termo de erro.
Regressão Logística:
- A regressão logística é um dos algoritmos de aprendizado de máquina mais populares que se enquadram nas técnicas de aprendizado supervisionado.
- Pode ser usado tanto para problemas de classificação quanto para problemas de regressão, mas é usado principalmente para problemas de classificação.
- A regressão logística é usada para prever a variável dependente categórica com a ajuda de variáveis independentes.
- A saída do problema de regressão logística pode estar apenas entre 0 e 1.
- A regressão logística pode ser usada quando as probabilidades entre duas classes são necessárias. Por exemplo, se vai chover hoje ou não, 0 ou 1, verdadeiro ou falso, etc.
- A regressão logística é baseada no conceito de estimativa de Máxima Verossimilhança. De acordo com esta estimativa, os dados observados deveriam ser os mais prováveis.
- Na regressão logística, passamos a soma ponderada dos insumos por meio de uma função de ativação que pode mapear valores entre 0 e 1. Essa função de ativação é conhecida como função sigmóide e a curva obtida é chamada de curva sigmóide ou curva S. Considere a imagem abaixo:
- A equação para regressão logística é:
Diferença entre regressão linear e regressão logística:
Regressão linear | Regressão Logística |
---|---|
A regressão linear é usada para prever a variável dependente contínua usando um determinado conjunto de variáveis independentes. | A regressão logística é usada para prever a variável dependente categórica usando um determinado conjunto de variáveis independentes. |
A regressão linear é usada para resolver problemas de regressão. | A regressão logística é usada para resolver problemas de classificação. |
Na regressão linear, prevemos o valor de variáveis contínuas. | Na regressão logística, prevemos os valores das variáveis categóricas. |
Na regressão linear, encontramos a linha de melhor ajuste, pela qual podemos prever facilmente o resultado. | Na Regressão Logística, encontramos a curva S pela qual podemos classificar as amostras. |
O método de estimativa de mínimos quadrados é usado para estimativa de precisão. | O método de estimativa de máxima verossimilhança é usado para estimativa de precisão. |
A saída para Regressão Linear deve ser um valor contínuo, como preço, idade, etc. | A saída da Regressão Logística deve ser um valor categórico como 0 ou 1, Sim ou Não, etc. |
Na regressão linear, é necessário que a relação entre a variável dependente e a variável independente seja linear. | Na regressão logística, não é necessário ter a relação linear entre a variável dependente e a independente. |
Na regressão linear pode haver colinearidade entre as variáveis independentes. | Na regressão logística não deve haver colinearidade entre a variável independente. |