DeepMinds Go-playing AI har ikke brug for menneskelig hjælp til at slå os længere

Virksomhedens seneste AlphaGo AI lærte overmenneskelige færdigheder ved at spille sig igen og igen

AlphaGo Zero er sandsynligvis verdens bedste Go-spiller, men det kunne gøre meget mere.



dette er fint meme
Sam Byford

Googles AI-datterselskab DeepMind har afsløret den nyeste version af sin Go-playing-software, AlphaGo Zero. Det nye program er en betydeligt bedre spiller end den version, der slog spillets verdensmester tidligere på året, men vigtigere er det også helt selvlært. DeepMind siger, at dette betyder, at virksomheden er et skridt tættere på at skabe algoritmer til generelle formål, der intelligent kan tackle nogle af de hårdeste problemer inden for videnskab, fra design af nye lægemidler til mere præcis modellering af virkningerne af klimaændringer.



Den originale AlphaGo demonstrerede overmenneskelig Go-playing-evne, men havde brug for ekspertisen hos menneskelige spillere for at komme derhen. Det brugte nemlig et datasæt på mere end 100.000 Go-spil som udgangspunkt for sin egen viden. Til sammenligning er AlphaGo Zero kun programmeret med Go's grundlæggende regler. Alt andet lærte det fra bunden. Som beskrevet i apapir offentliggjort iNaturi dag, Zero udviklede sine Go-færdigheder ved at konkurrere mod sig selv. Det startede med tilfældige træk på tavlen, men hver gang det vandt, opdaterede Zero sit eget system og spillede sig selv igen. Og igen. Millioner af gange.

Vi har fjernet begrænsningerne for menneskelig viden.

Efter tre dages selvspil var Zero stærk nok til at besejre den version af sig selv, der slog den 18-gangige verdensmester Lee Se-dol og vandt let - 100 spil til ingen. Efter 40 dage havde den en vinderrate på 90 procent mod den mest avancerede version af den originale AlphaGo-software. DeepMind siger, at dette gør det uden tvivl til den stærkeste Go-spiller i historien.



Ved ikke at bruge menneskelige data - ved ikke at bruge menneskelig ekspertise på nogen måde - har vi faktisk fjernet begrænsningerne for menneskelig viden, sagde AlphaGo Zeros førende programmerer, David Silver, på en pressekonference. Det er derfor i stand til selv at skabe viden ud fra de første principper; fra en tom skifer [...] Dette gør det muligt at være meget kraftigere end tidligere versioner.

Silver forklarede, at da Zero spillede sig selv, genopdagede det Go-strategier udviklet af mennesker gennem årtusinder. Det begyndte at spille meget naivt som en menneskelig begynder, [men] over tid spillede det spil, der var svære at skelne fra menneskelige fagfolk, sagde han. Programmet ramte en række velkendte mønstre og variationer under selvspil, inden de udviklede aldrig før set strategier. Det fandt disse menneskelige bevægelser, det prøvede dem, og i sidste ende fandt det noget, det foretrækker, sagde han. Som med tidligere versioner af AlphaGo håber DeepMind, at Zero vil fungere som en inspiration for professionelle menneskelige spillere, hvilket tyder på nye træk og strategier, som de kan indarbejde i deres spil.

Ud over at være en bedre spiller har Zero også andre vigtige fordele i forhold til tidligere versioner. For det første har den brug for meget mindre computerkraft, der kører på kun fire TPU'er (specialiserede AI-processorer bygget af Google), mens tidligere versioner brugte 48. Dette, siger Silver, giver mulighed for et mere fleksibelt system, der kan forbedres med mindre besvær, hvilket, i slutningen af ​​dagen er det, der virkelig betyder noget, hvis vi vil gøre fremskridt. Og for det andet, fordi Zero er selvlært, viser det, at vi kan udvikle banebrydende algoritmer uden at være afhængige af stabler med data.



For eksperter på området er denne udvikling en stor del af, hvad der gør denne nye forskning spændende. Det skyldes, at de tilbageviser en vedvarende kritik af moderne AI: at meget af dets nylige gevinster hovedsagelig kommer fra billig computerkraft og massive datasæt. Skeptikere i marken som pioner Geoffrey Hinton antyder, at maskinindlæring er lidt af enone-trick pony. At stable data og beregne hjælper med at levere nye funktioner, men det nuværende tempo på fremskridt er uholdbart. DeepMinds seneste forskning giver noget af en tilbagevisning ved at demonstrere, at der er store forbedringer, der skal gøres, simpelthen ved at fokusere på algoritmer.

Dette arbejde viser, at en kombination af eksisterende teknikker kan gå noget længere end de fleste mennesker i marken har troet, selvom teknikkerne i sig selv ikke er fundamentalt nye, fortæller Ilya Sutskever, forskningsdirektør ved det Elon Musk-støttede OpenAI-institut.Randen. Men i sidste ende er det der betyder noget, at forskere fortsætter med at fremme marken, og det er mindre vigtigt, hvis dette mål opnås ved at udvikle radikalt nye teknikker eller ved at anvende eksisterende teknikker på kloge og uventede måder.

Professionel

En tidligere version af AlphaGo skabte overskrifter, da den slog Go-mester Lee Se-dol i 2016. Den version lærte af mennesker, hvordan man spiller.

Foto: Google / Getty Images

I tilfælde af AlphaGo Zero er det, der er særlig smart, at fjerne ethvert behov for menneskelig ekspertise i systemet. Satinder Singh, en datalogiprofessor, der skrev en ledsagende artikel om DeepMinds forskning iNatur, roser virksomhedens arbejde som elegant og udpeger disse aspekter.

Fortæller SinghRandenat det er en betydelig sejr inden for forstærkningslæring - en gren af ​​AI, hvor programmer lærer ved at opnå belønninger for at nå bestemte mål, men ikke får nogen vejledning i, hvordan man kommer dertil. Dette er et mindre modent arbejdsområde end overvåget læring (hvor programmer fodres med mærkede data og lærer af det), men det har potentielt større belønninger. Jo mere en maskine kan lære sig selv uden menneskelig vejledning, jo bedre, siger Singh.

I løbet af de sidste fem, seks år er forstærkningslæring kommet fra den akademiske verden for at få langt mere bred indflydelse i den store verden, og DeepMind kan tage noget af æren for det, siger Singh. Det faktum, at de var i stand til at opbygge en bedre Go-spiller her med en størrelsesorden mindre data, beregning og tid ved hjælp af bare lige forstærkningslæring - det er en ret stor præstation. Og fordi forstærkningslæring er et så stort stykke AI, er det generelt et stort skridt fremad.

moto g spil

Hvad er applikationerne til denne slags algoritmer? Ifølge DeepMind-medstifter Demis Hassabis kan de give samfundet noget, der ligner en tænkemotor til videnskabelig forskning. Meget af AlphaGo-teamet bevæger sig nu over på andre projekter for at prøve at anvende denne teknologi på andre domæner, sagde Hassabis på en pressekonference.

DeepMind håber AlphaGo Zero vil blive brugt som en motor til videnskabelig opdagelse

Hassabis forklarer, at du kan tænke på AlphaGo som i det væsentlige en meget god maskine til at søge gennem komplicerede data. I tilfælde af nul består disse data af mulige bevægelser i et spil Go. Men fordi Zero ikke var programmeret til at forstå Go specifikt, kunne det omprogrammeres til at opdage information inden for andre områder: lægemiddelopdagelse, proteinfoldning, kvantekemi, partikelfysik og materialedesign.

Hassabis antyder, at en efterkommer af AlphaGo Zero kunne bruges til at søge efter enstuetemperatur superleder- et hypotetisk stof, der tillader elektrisk strøm at strømme med nul tabt energi, hvilket muliggør utroligt effektive kraftsystemer. (Superledere eksisterer, men de fungerer kun i øjeblikket ved ekstremt kolde temperaturer.) Som det gjorde med Go, ville algoritmen starte med at kombinere forskellige input (i dette tilfælde den atomare sammensætning af forskellige materialer og deres tilknyttede kvaliteter), indtil den opdagede noget mennesker havde savnet.

DeepMind-medstifter Demis Hassabis siger, at hans virksomheds mål er at løse intelligens.

Foto af Sam Byford / The Verge

Måske er der en stuetemperatur superleder ude og omkring. Jeg plejede at drømme om det, da jeg var barn og kiggede gennem mine fysikbøger, siger Hassabais. Men der er bare så mange kombinationer af materialer, at det er svært at vide, om [sådan noget findes].

edge internet

Selvfølgelig ville dette være meget mere kompliceret end blot at pege AlphaGo Zero på Wikipedia-siden for kemi og fysik og sige have det. På trods af sin kompleksitet er Go, som alle brætspil, relativt let for computere at forstå. Reglerne er endelige, der er intet element af held, ingen skjult information, og - vigtigst af alt - forskere har adgang til en perfekt simulering af spillet. Dette betyder, at en AI kan køre millioner af tests og være sikker på, at den ikke mangler noget. At finde andre felter, der opfylder disse kriterier, begrænser anvendeligheden af ​​Zero's intelligens. DeepMind har ikke skabt en magisk tænkemaskine.

Disse forbehold til side, den forskning, der offentliggøres i dag, får DeepMind bare lidt tættere på at løse den første halvdel af sin to-i-kind-todelt missionserklæring. Første del: løse intelligens; del to: brug den til at gøre verden til et bedre sted. Vi forsøger at opbygge generelle algoritmer, og dette er kun et skridt mod det, men det er et spændende skridt, siger Hassabis.