Gecontroleerd leren en onbewaakt leren zijn twee kernbegrippen van machinaal leren. Begeleide leren is een machine-leertaak van het leren van een functie die een ingang toewijst aan een uitvoer op basis van de voorbeeld invoer-uitvoerparen. Niet-gesuperviseerd leren is de taak Machine Learning om een functie af te leiden om verborgen structuur te beschrijven uit niet-gelabelde gegevens. De belangrijk verschil tussen bewaakt en onbewaakt machine learning is dat onder toezicht leren maakt gebruik van gelabelde gegevens, terwijl bij onbewaakt leren niet-gelabelde gegevens worden gebruikt.
Machinaal leren is een vakgebied in de informatica dat een computersysteem de mogelijkheid biedt om van gegevens te leren zonder expliciet te worden geprogrammeerd. Hiermee kunnen de gegevens worden geanalyseerd en patronen daarin worden voorspeld. Er zijn veel toepassingen van machine learning. Sommigen van hen zijn gezichtsherkenning, gebaarherkenning en spraakherkenning. Er zijn verschillende algoritmen gerelateerd aan machine learning. Sommigen van hen zijn regressie, classificatie en clustering. De meest voorkomende programmeertalen voor het ontwikkelen van op machine learning gebaseerde applicaties zijn R en Python. Andere talen zoals Java, C ++ en Matlab kunnen ook worden gebruikt.
1. Overzicht en belangrijkste verschil
2. Wat is begeleide leren
3. Wat is onbewaakt leren
4. Overeenkomsten tussen gecontroleerd en niet-gecontroleerd machine-leren
5. Vergelijking zij aan zij - Gecontroleerd versus niet-gecontroleerd machine-leren in tabelvorm
6. Samenvatting
In op machine learning gebaseerde systemen werkt het model volgens een algoritme. Bij gesuperviseerd leren staat het model onder toezicht. Ten eerste is het nodig om het model te trainen. Met de opgedane kennis kan het antwoorden voorspellen voor de toekomstige instanties. Het model wordt getraind met behulp van een gelabelde dataset. Wanneer uit het monster gegevens worden gegeven aan het systeem, kan het het resultaat voorspellen. Hierna volgt een klein fragment uit de populaire IRIS-dataset.
Volgens de bovenstaande tabel worden de Sepal-lengte, de Sepal-breedte, Patellengte, Patel-breedte en Soort de attributen genoemd. De kolommen staan bekend als functies. Eén rij bevat gegevens voor alle kenmerken. Daarom wordt een rij een observatie genoemd. De gegevens kunnen numeriek of categorisch zijn. Het model krijgt de waarnemingen met de overeenkomstige soortnaam als invoer. Wanneer een nieuwe waarneming wordt gegeven, moet het model voorspellen tot welk soort soort het behoort.
Bij gesuperviseerd leren zijn er algoritmen voor classificatie en regressie. Classificatie is het proces van classificatie van de gelabelde gegevens. Het model creëerde grenzen die de gegevenscategorieën scheidden. Wanneer er nieuwe gegevens aan het model worden verstrekt, kan deze categoriseren op basis van de plaats waar het punt bestaat. De K-Nearest Neighbours (KNN) is een classificatiemodel. Afhankelijk van de k-waarde, wordt de categorie bepaald. Als k bijvoorbeeld 5 is, als een bepaald gegevenspunt bijna acht gegevenspunten in categorie A en zes gegevenspunten in categorie B is, wordt het gegevenspunt geclassificeerd als A.
De regressie is het proces van het voorspellen van de trend van de vorige gegevens om de uitkomst van de nieuwe gegevens te voorspellen. In regressie kan de uitvoer bestaan uit een of meer continue variabelen. Voorspelling wordt gedaan met behulp van een regel die de meeste gegevenspunten dekt. Het eenvoudigste regressiemodel is een lineaire regressie. Het is snel en vereist geen afstemmingsparameters zoals in KNN. Als de gegevens een parabolische trend vertonen, is het lineaire regressiemodel niet geschikt.
Dat zijn enkele voorbeelden van gesuperviseerde leeralgoritmen. Over het algemeen zijn de resultaten die worden gegenereerd door gesuperviseerde leermethoden nauwkeuriger en betrouwbaarder omdat de invoergegevens algemeen bekend en gelabeld zijn. Daarom moet de machine alleen de verborgen patronen analyseren.
Bij onbewaakt leren wordt het model niet bewaakt. Het model werkt alleen, om de uitkomsten te voorspellen. Het maakt gebruik van algoritmen voor het leren van machines om conclusies te trekken over niet-gelabelde gegevens. Over het algemeen zijn de unsupervised leeralgoritmen moeilijker dan bewaakte leeralgoritmen omdat er weinig informatie is. Clustering is een vorm van onbewaakt leren. Het kan worden gebruikt om de onbekende gegevens te groeperen met behulp van algoritmen. De k-gemiddelde en dichtheid-gebaseerde clustering zijn twee clusteringalgoritmen.
k-mean algoritme, plaatst k centraal voor elke cluster. Vervolgens wordt elk gegevenspunt toegewezen aan het dichtstbijzijnde centroïde. Euclidische afstand wordt gebruikt om de afstand van het datapunt tot het zwaartepunt te berekenen. De datapunten worden ingedeeld in groepen. De posities voor k centroïden worden opnieuw berekend. De nieuwe zwaartepuntpositie wordt bepaald door het gemiddelde van alle punten in de groep. Opnieuw wordt elk gegevenspunt toegewezen aan het dichtstbijzijnde centroïde. Dit proces wordt herhaald totdat de centroïden niet meer veranderen. k-mean is een algoritme voor snelle clustering, maar er is geen gespecificeerde initialisatie van clusteringpunten. Er is ook een grote variatie aan clustermodellen gebaseerd op initialisatie van clusterpunten.
Een ander clusteralgoritme is Op dichtheid gebaseerde clustering. Het is ook bekend als Density Based Spatial Clustering Applications met ruis. Het werkt door een cluster te definiëren als de maximale reeks met dichtheid verbonden punten. Dit zijn twee parameters die worden gebruikt voor clustering op basis van dichtheid. Ze zijn eps (epsilon) en minimum aantal punten. De Ɛ is de maximale straal van de buurt. De minimale punten zijn het minimumaantal punten in de buurt Ɛ om een cluster te definiëren. Dat zijn enkele voorbeelden van clustering die hoort bij onbewaakt leren.
Over het algemeen zijn de resultaten die worden gegenereerd met behulp van niet-gesuperviseerde leeralgoritmen niet veel nauwkeurig en betrouwbaar omdat de machine de invoergegevens moet definiëren en labelen voordat de verborgen patronen en functies worden bepaald.
Supervised versus Unsupervised Machine Learning | |
Begeleid leren is de Machine Learning-taak van het leren van een functie die een input toewijst aan een output op basis van voorbeeld input-output-paren. | Niet-gesuperviseerd leren is de taak Machine Learning om een functie af te leiden om de verborgen structuur van niet-gelabelde gegevens te beschrijven. |
Belangrijkste functionaliteit | |
Bij gesuperviseerd leren voorspelt het model de uitkomst op basis van de gelabelde invoergegevens. | Bij onbewaakt leren voorspelt het model de uitkomst zonder gelabelde gegevens door de patronen op zichzelf te identificeren. |
Nauwkeurigheid van de resultaten | |
De resultaten die worden gegenereerd door gesuperviseerde leermethoden zijn nauwkeuriger en betrouwbaarder. | De resultaten van niet-gesuperviseerde leermethoden zijn niet veel nauwkeurig en betrouwbaar. |
Hoofdalgoritmen | |
Er zijn algoritmen voor regressie en classificatie bij gesuperviseerd leren. | Er zijn algoritmen voor clustering bij onbewaakt leren. |
Begeleid leren en niet-gesuperviseerd leren zijn twee soorten machinaal leren. Begeleid leren is de Machine Learning-taak van het leren van een functie die een input toewijst aan een output op basis van voorbeeld input-output-paren. Niet-gesuperviseerd leren is de taak Machine Learning om een functie af te leiden om de verborgen structuur van niet-gelabelde gegevens te beschrijven. Het verschil tussen gesuperviseerd en onbewaakt machine learning is dat onder supervised learning gelabelde data gebruikt wordt terwijl unsupervised leaning gebruik maakt van niet-gelabelde data.
1.TheBigDataUniversity. Machine Learning - Supervised versus Unsupervised Learning, Cognitive Class, 13 maart 2017. Beschikbaar Hier
2. "Unsupervised Learning." Wikipedia, Wikimedia Foundation, 20 maart 2018. Beschikbaar Hier
3. "Begeleid leren." Wikipedia, Wikimedia Foundation, 15 maart 2018. Beschikbaar Hier
1.'2729781 'door GDJ (Public Domain) via pixabay