Learning i Machine Learning (Maskininlärning)
Människan har en fantastisk förmåga att skapa enkla representationer av komplicerad information. Vi lär oss genom våra sinnen (syn, hörsel, smak osv) som har en förmåga att skapa användbara representationer av alla sinnesintrycken. Om vi betraktar ett foto på en skog så kan vi omedelbart avgöra att det är en skog; vi behöver inte analysera exakt vilken färg det är på träden eller hur bladen ser ut. Vår hjärna extraherar, ur bilden, den information som behövs för att avgöra om det är en skog eller inte. På samma sätt kan vi avgöra om det finns en cykel på fotot. Hjärnan kommer leta efter två runda (hjulen) saker som sitter på en triangelformad struktur (cykelramen). Du kommer leta efter de strukturer som är typiska för en cykel: hjul, ram, sadel, styre. Dessa komponenter är representationer av det större sammanhanget: cykeln.
Principen för machine learning, och i synnerhet deep learning, är precis samma, nämligen att försöka hitta representationer i data. I de allra flesta fall använder man träningsdata (se tidigare) där det finns en önskad klassificering. Ett exempel följer:
Du vill skapa mjukvara som kan särskilja hundar från katter på foton. För denna uppgiften har du samlat in 5000 foton varav ungefär hälften utgörs av foton på hundar. Alla foton är bedömda/klassificerade (av en människa) som “hund” eller “katt”. Datorn kommer att få analysera alla foton för att försöka hitta representationer som är unika för hund respektive katt.
Fundamentet för artificiell intelligens, och därmed deep learning, är att hitta bra representationer av data. För att en dator skall skapa representationer så måste den transformera (omforma) data. Syftet med transformationen är att destillera informationen, vilket innebär att brus tas bort och värdefull information fokuseras och förstärks. Med deep learning brukar data transformeras I flera steg och för varje transformation försöker datorn skapa informativa representationer av innehållet. När tillräckligt många transformationer gjorts så har datorn lärt sig vilka representationer som är typiska för katt respektive hund.
En bra representation karaktäriseras av att två saker: (1) den innehåller värdefull information och (2) den går att återskapa. På fotot med cykeln är de runda strukturerna (hjulen) mycket informativa och det är viktigt att hitta dessa. Vidare är det viktigt att hitta hjulen varje gång de finns på fotot, oavsett cykelns omgivning, färger och var på fotot cykeln är placerad.
Med machine learning kan man hitta representationer automatiskt. Med hjälp av olika algoritmer letar man efter användbara transformationer. Representationerna hittas med hjälp av tämligen primitiva matematiska operationer. Dessa operationer kan exempelvis innebära att maskinen filtrera bort alla värden som är större än X, eller ändrar alla koordinater på ett visst sätt (exempel följer i Figur 1 & 2). Även om transformationerna är enkla så visar det sig att de kan bli extremt effektiva om maskinen får rätt återkoppling (feedback). Faktum är att om maskinen får rätt återkoppling på sina transformationer så kan de användas för att lösa mycket komplexa uppgifter, såsom översätta text, köra bilar, tolka bilder osv.
Återkoppling – feedback
Låt oss säga att vi har 5000 foton på hundar och katter. Vår målsättning är att skapa ett program som kan avgöra om det är en hund eller en katt på fotot. Till vår hjälp har vi en machine learning algoritm som kan hitta nya representationer i data. Maskinen transformerar data och försöker hitta representationer som är typiska för katter respektive hundar. Maskinen testar dessa representationer genom att försöka gissa vilket djur fotot visar. Eftersom maskinen har facit (rätt svar) så kan den bedöma huruvida gissningen var bra eller dålig. Detta är ett avgörande steg i all machine learning. Maskinen lär sig nämligen genom att utvärdera hur bra dens gissningar är och skillnaden mellan maskinens gissning och rätt svar beräknas med en så kallad lossfunktion (eng. Loss function). Skillnaden mellan gissningen och rätt svar beräknas som loss score. Maskinen återkopplar loss score till en så kallad optimerare, som kan justera transformationen och syftet med justeringen är att åstadkomma en transformation som minskar loss score. Ju mindre loss score är, desto närmare är gissningen det rätta svaret. På så vis kan machine learning vägledas till att hitta representationer som kan fastställa vad som finns på fotot.