Verschil tussen lineaire regressie en logistische regressie

De grootste verschil tussen lineaire regressie en logistische regressie is dat het lineaire regressie wordt gebruikt om een ​​continue waarde te voorspellen, terwijl de logistische regressie wordt gebruikt om een ​​discrete waarde te voorspellen.

Machine-leersystemen kunnen toekomstige resultaten voorspellen op basis van training van eerdere inputs. Er zijn twee hoofdtypen van machine learning: supervised learning en unsupervised learning. Regressie en classificatie vallen onder gesuperviseerd leren, terwijl clustering valt onder onbewaakt leren. Begeleide leeralgoritmen gebruiken gelabelde gegevens om de dataset te trainen. Lineaire regressie en logistische regressie zijn twee soorten gesuperviseerde leeralgoritmen. Lineaire regressie wordt gebruikt wanneer de afhankelijke variabele continu is en het model lineair is. Logistische regressie wordt gebruikt wanneer de afhankelijke variabele discreet is en het model niet-lineair is.

Key Areas Covered

1. Wat is lineaire regressie
     - Definitie, functionaliteit
2. Wat is logistische regressie
     - Definitie, functionaliteit
3. Verschil tussen lineaire regressie en logistische regressie
     - Vergelijking van belangrijke verschillen

Sleutelbegrippen

Lineaire regressie, logistische regressie, machinaal leren

Wat is lineaire regressie

Lineaire regressie vindt de relatie tussen onafhankelijke en afhankelijke variabelen. Beiden zijn aangrenzend. De onafhankelijke variabele is de variabele die niet wordt gewijzigd door de andere variabelen. Het wordt aangeduid met x. Er kunnen ook meerdere onafhankelijke variabelen zijn zoals x1, x2, x3, enz. Afhankelijke veranderlijke veranderingen volgens de onafhankelijke variabele, en wordt aangegeven door y.

Als er één onafhankelijke variabele is, is de regressievergelijking als volgt.

y = b0 + b1x

Neem bijvoorbeeld aan dat x regen representeert en y de gewasopbrengst.

Figuur 1: Lineaire regressie

De dataset ziet er als volgt uit. Vervolgens wordt een regel geselecteerd die de meeste gegevenspunten dekt. Deze lijn vertegenwoordigt de voorspelde waarden.

Afbeelding 2: afstand tussen de werkelijke gegevenspunten en de voorspelde waarden

Vervolgens wordt de afstand van elk gegevenspunt tot de lijn gevonden zoals weergegeven in de bovenstaande grafiek. Dit is de afstand tussen de werkelijke waarde en de voorspelde waarde. Deze afstand wordt ook wel de fout of resten genoemd. De best passende regel moet de minste som kwadraten fouten bevatten. Wanneer nieuwe regenvalwaarde wordt gegeven (x), is het mogelijk om de overeenkomstige oogstopbrengst (y) te vinden met behulp van deze lijn.  

In de echte wereld kunnen er meerdere onafhankelijke variabelen zijn (x1, x2, x3 ...). Dit wordt meervoudige lineaire regressie genoemd. De meervoudige lineaire regressievergelijking is als volgt.

Wat is logistische regressie

Logistische regressie kan worden gebruikt om twee klassen te classificeren. Het is ook bekend als binaire classificatie.  Controleren of een e-mail spam is of niet voorspellen of een klant een product zal kopen of niet, voorspellen of het mogelijk is om een ​​promotie te krijgen of niet zijn enkele andere voorbeelden van logistische regressie.

Figuur 3: Logistische regressie

Stel dat het aantal uren dat een student per dag heeft gestudeerd, de onafhankelijke variabele is. Afhankelijk daarvan wordt de kans op het slagen voor een examen berekend. De waarde 0,5 beschouwd als de drempelwaarde. Wanneer het nieuwe aantal uren wordt gegeven, is het mogelijk om de overeenkomstige kans te vinden om het examen met deze grafiek te halen. Als de kans groter is dan 0,5, wordt deze als 1 of geslaagd beschouwd. Als de kans kleiner is dan 0,5, wordt deze als 0 beschouwd of mislukt.

Het toepassen van de lineaire regressievergelijking op de sigmoid-functie geeft de logistische regressievergelijking.

De sigmoid-functie is    

Een ander belangrijk punt om op te merken is dat logistische regressie alleen van toepassing is om 2 klassen te classificeren. Het wordt niet gebruikt voor classificatie van meerdere klassen.

Verschil tussen lineaire regressie en logistische regressie

Definitie

Lineaire regressie is een lineaire benadering die de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen modelleert. Logistische regressie daarentegen is een statistisch model dat de waarschijnlijkheid voorspelt van een uitkomst die slechts twee waarden kan hebben.

Gebruik

Terwijl lineaire regressie wordt gebruikt om regressieproblemen op te lossen, wordt logistische regressie gebruikt om classificatieproblemen op te lossen (binaire classificatie).

Methodologie

Lineaire regressie schat de afhankelijke variabele wanneer er een verandering is in de onafhankelijke variabele. Logistische regressie berekent de mogelijkheid dat een gebeurtenis plaatsvindt. Dit is een belangrijk verschil tussen lineaire regressie en logistische regressie.

Outputwaarde

Ook is bij lineaire regressie de uitvoerwaarde continu. In logistische regressie is de uitvoerwaarde discreet.

Model

Hoewel lineaire regressie een rechte lijn gebruikt, gebruikt logistische regressie een S-curve of sigmoid-functie. Dit is een ander belangrijk verschil tussen lineaire regressie en logistische regressie.

Voorbeelden

Het voorspellen van het BBP van een land, het voorspellen van de productprijs, het voorspellen van de verkoopprijs van het huis, scorevoorspelling zijn enkele voorbeelden van lineaire regressie. Voorspellen of een e-mail spam is of niet, voorspellen of de creditcardtransactie al dan niet fraude is, voorspellen of een klant een lening zal krijgen of niet, zijn enkele voorbeelden van logistische regressie.

Conclusie

Het verschil tussen lineaire regressie en logistische regressie is dat lineaire regressie wordt gebruikt om een ​​continue waarde te voorspellen, terwijl logistische regressie wordt gebruikt om een ​​discrete waarde te voorspellen. Kort gezegd wordt lineaire regressie gebruikt voor regressie, terwijl logistische regressie wordt gebruikt voor classificatie.

Referentie:

1. Lineaire regressieanalyse | Lineaire regressie in Python | Algoritmen voor machinaal leren | Simplilearn, 26 maart 2018, hier beschikbaar.
2. Logistische regressie | Logistische regressie in Python | Algoritmen voor machinaal leren | Simplilearn, 22 maart 2018, hier beschikbaar.

Afbeelding met dank aan:

1. "Lineaire regressie" door Sewaqu - Eigen werk, publiek domein) via Commons Wikimedia
2. "Restanten voor lineaire regressie fit" door Thomas.haslwanter - Eigen werk (CC BY-SA 3.0) via Commons Wikimedia
3. "Logistieke curve" door Qef (talk) - helemaal opnieuw gemaakt met gnuplot (Public Domain) via Commons Wikimedia