Porno: du ved det, når du ser det, men kan en computer?

Det er sværere at træne en kunstig intelligens til at genkende nøgenhed, end du tror

Del afReal-World AI-problemet

Tidligt i sidste måned meddelte Tumblr, at det ville forbyde porno. Da den nye indholdspolitik trådte i kraft omkring to uger senere, den 17. december, var det straks indlysende, at der ville være problemer. Så snart det blev implementeret, havde AI-systemet Tumblr valgt at overvåge sin første bølge af moderering begyndte fejlagtigtflagning af uskyldige stillingerpå tværs af webstedets455,4 millioner blogs og 168,2 milliarder indlæg: vaser, hekse, fisk og alt imellem.



Selvom det ikke er klart, hvilket automatiseret filter Tumblr brugte, eller om det havde oprettet sit eget - virksomheden reagerede ikke på en anmodning om kommentar til denne historie - er det tydeligt, at det sociale netværk var blevet fanget fladt i både dets politikker og dens teknologi. Webstedet erinkonsekvent holdningom kvindelig præsenterende brystvorter og kunstnerisk nøgenhed er for eksempel kontekstspecifikke beslutninger, der viser, at Tumblr ikke engang er sikker på, hvad den vil forbyde fra sin platform. Hvordan definerer et privat firma, hvad det anser for uanstændigt?



ok amor app

Det er i første omgang svært at blokere risqué-indhold, fordi det er svært nok at beslutte, hvad det skaler. Definition af uanstændighed er en bjørnefælde, der dateres tilbage til omkring 1896, da USA først vedtog love, der regulerer uanstændighed. I 1964'erneJacobellis mod Ohio, en retssag om, hvorvidt Ohio kunne forbyde visning af en berømt Louis Malle-film, producerede Højesteret, hvad der sandsynligvis er den mest berømte linje om hardcore pornografi i dag: Jeg skal ikke i dag forsøge yderligere at definere de slags materiale, jeg forstår at blive omfavnet inden for den stenografiske beskrivelse; og måske kunne jeg aldrig få det til på en forståelig måde, sagde retfærdighed Potter Stewart i sin fælles udtalelse. Men jeg ved det, når jeg ser det, og den film, der er involveret i denne sag, er ikke det.

Hvordan definerer et privat firma, hvad det anser for uanstændigt?

Maskinindlæringsalgoritmer har det samme problem. Det er en, som Brian DeLorge, administrerende direktør for Picnix, et firma, der sælger tilpasset AI-teknologi, forsøger at løse. Et af deres produkter, Iris, er en applikation på klientsiden beregnet specielt til at opdage pornografi for at hjælpe folk, som DeLorge siger, som ikke vil have porno i deres liv. Han påpegede mig, at det andet problem er, at porno kan være så mange forskellige ting - og billeder, der ikke er porno, deler funktioner med billeder, der er. Et billede af en fest på stranden kunne blive blokeret, ikke fordi det viser mere hud end et fotografi af et kontor, men fordi det er grænselinje. Derfor er det meget vanskeligt at uddanne en billedgenkendelsesalgoritme til at være en bred sølvkugle af en løsning, siger DeLorge. Virkelig når definitionen bliver hård for mennesker, er det da maskinindlæring også har problemer. Hvis folk ikke kan være enige om hvad der er eller ikke er porno, kan en computer nogensinde håbe at lære forskellen?



For at lære en AI, hvordan man opdager porno, er det første, du skal gøre, at fodre det porno. Masser af masser af porno. Hvor får de det? En af de ting, folk gør, er at de bare downloader en masse ting fra Pornhub, XVideos, siger Dan Shapiro, medstifter og CTO afLemay.ai, en opstart, der opretter AI-filtre til sine kunder. Det er et af de slags juridiske gråzoner, hvor det f.eks. Tilhører dig, hvis du træner i andres indhold?

Når du har fået et træningsdatasæt fra dit yndlingspornoside, er det næste trin at rive alle rammerne ud af de videoer, der ikke eksplicit er porno, for at sikre, at de rammer, du bruger, ikke er som en fyr, der holder en pizzaboks. Platforme betaler folk steder for det meste uden for USA for at mærke dette indhold;det er ofte lavtlønnet og gentaget, og det er den samme slags arbejde, som du udfører hver gang du gennemfører en CAPTCHA. De vil bare gå igennem og gå som 'dette erdet herslags porno, '' dette eratslags porno. ’Du kan filtrere den lidt ned, bare fordi porno allerede har så mange gode tags, siger han. Uddannelse går ofte bedre, når du bruger et stort datasæt, der er repræsentativt for de ting, du specifikt ikke vil se, hvilket ikke kun er eksplicitte fotos.

Meget tid, du filtrerer ikke bare efter porno, du filtrerer efter ting, der ligger ved siden af ​​porno, siger Shapiro. Ligesom disse falske profiler, som folk sætter op, er som et billede af en pige og derefter et telefonnummer at ringe til. Her henviser han til sexarbejdere, der leder efter klienter, men det kan let være alt andet, der er tvivlsomt lovligt. Det er ikke porno, men det er ting, du ikke vil have på din platform, ikke? En god automatiseret moderator trænes i millioner - hvis ikke titusinder af millioner - af eksplicitte stykker indhold, hvilket betyder, at en hel del menneskelig indsats er gået ind i modellen.



Dette er meget analogt med, hvordan et barn og en voksen er forskellige, siger Matt Zeiler, administrerende direktør og grundlægger af Clarifai, en computervisionsstart, der foretager denne form for billedfiltrering for erhvervskunder. Jeg kan sige det rigtigt - vi havde lige et barn for et par måneder siden. De ved ikke noget om verden, alt er nyt. Du skal vise babyen / algoritmenså megetfor at de kan lære noget. Du har brug for millioner af millioner af eksempler, men en voksen - nu hvor vi har opbygget så meget sammenhæng om verden og forstår, hvordan den fungerer - kan vi lære noget nyt med blot et par eksempler, siger han. (At gentage: at træne en AI til at filtrere voksenindhold er som at vise en baby masser af porno.) I dag er AI-filterfirmaerne som Clarifai vokset op. De har en god mængde grundlæggende viden om verden, det vil sige at de ved, hvordan hunde ser ud, hvad katte er, hvad der er og ikke er et træ, og for det meste hvad der er og ikke er nøgenhed. Zeilers firma bruger sine modeller til at træne nye til sine kunder - fordi den oprindelige model har behandlet flere data, har de tilpassede versioner kun brug for nye træningsdata fra klienten for at komme i gang.

At træne en AI til at filtrere voksenindhold er som at vise en baby masser af porno

Alligevel er det svært for en algoritme at få alt rigtigt. Med indhold, der klart er pornografisk, fungerer de rigtig godt; men en klassifikator markerer muligvis forkert en undertøjsannonce som eksplicit, fordi der er mere hud i billedet, end der er i f.eks. et kontor. (Bikini og lingeri er, som Zeiler fortæller mig, vanskelige.) Hvilket betyder, at de mennesker, der laver mærkning, skal fokusere på disse kanttilfælde i deres arbejde og prioritere, hvad modellen har svært ved at kategorisere. En af de sværeste?

Anime porno, siger Zeiler. Den første version af vores nøgenhedsdetektor blev ikke uddannet i nogen tegneseriepornografi. Meget af tiden ville AI mislykkes, fordi den ikke genkendte hentai for, hvad det var. Og så når vi først arbejdede for den kunde, fik vi en masse af deres data inkorporeret i modellen, og det forbedrer nøjagtigheden på tegneserierne drastisk, samtidig med at nøjagtigheden bevares på et rigtigt foto, siger Zeiler. Du ved ikke, hvad dine brugere vil gøre.

antivirus-app Windows-telefon

Teknologien, der bruges til at snuse porno, kan også bruges til at opdage andre ting. Teknologien bag systemerne er bemærkelsesværdig fleksibel. Det er større end anime-bryster. Perspektiv fra Alfabetets puslespil - tidligere Google Ideas, firmaets moonshot-producent - er i vid udstrækning brugt som en automatiseret kommentormoderator for aviser. Dan Keyserling, kommunikationschef for Jigsaw, fortalte mig, at før Perspective,New York Timeshavde kun åbne kommentarer på omkring 10 procent af deres stykker, fordi der er en grænse for, hvor meget deres menneskelige moderatorer kunne behandle på en dag. Han hævder, at Jigsaw's produkt har tilladt, at antallet tredobles. Softwaren fungerer på samme måde som billedklassifikatorerne, bortset fra at den sorterer efter toksicitet - som de definerer som sandsynligheden for, at nogen vil efterlade en samtale baseret på en kommentar - i stedet for nøgenhed. (Toksicitet er lige så vanskelig at identificere i tekstkommentarersom pornografi er i billeder.) Facebook bruger den samme slags automatiseret filtrering til at identificere selvmordsindlæg og indhold relateret tilterrorisme, og det har forsøgt at bruge teknologien til at få øje på falske nyheder på sin massive platform.

Det hele afhænger stadig af, at menneskeligt tilsyn fungerer; vi er bedre med tvetydighed og kræsne kontekst. Zeiler fortæller mig, at han ikke tror, ​​at hans produkt har sat nogen ud af arbejde. Det er beregnet til at løse skalaens problem, som han siger det, på internettet. En bryllupsblog Clarifai plejede at arbejde med brugte sit produkt til at automatisere indholdsmoderering, og de menneskelige redaktører, der tidligere havde haft ansvaret for at godkende billeder, blev flyttet til at arbejde på mere kvalitative taggingopgaver. Det er ikke for at undervurdere de reelle menneskelige omkostninger ved automatisering: folk er nødt til at træne AI'erne og sortere gennem indhold og mærke det, så kunstig intelligens kan skelne, hvad der er og ikke er relevantkan forårsage PTSD. At se nogle af de værste billeder og videoer, som mennesker kan komme med, er et brutalt job.

Dette er dog fremtiden for moderering: individuelle, hyldeløsninger, der leveres af virksomheder, der gør det til hele deres forretning at træne stadig bedre klassifikatorer på flere og flere data. På samme måde som Stripe og Square tilbyder færdige betalingsløsninger til virksomheder, der ikke ønsker at behandle dem internt, og Amazon Web Services (AWS) har etableret sig som det sted, hvor websteder hostes, opstart som Zeilers Clarifai, DeLorge's Picnix, og Shapiros Lemay.ai kæmper for at være one-stop-løsningen på indholdsmoderering online. Clarifai har allerede softwareudviklingssæt til iOS og Android, og Zeiler siger, at de arbejder på at få deres produkt til at køre på Internettet af Things-tilsluttede enheder (tænk sikkerhedskameraer), men virkelig, han mener på hver enhed, der enten har en AI- optimeret chip eller bare har nok behandlingsressourcer.

horisont nul daggry frosne vildmarker
Det hele afhænger stadig af, at menneskeligt tilsyn fungerer

Dan Shapiro fra Lemay.ai er håbefuld. Som med enhver teknologi er den endnu ikke færdig med at blive opfundet, siger han. Så jeg synes ikke, det er super rimeligt at gå ud, ja, jeg er utilfreds med en implementering for et firma. Jeg gætter på, at vi giver op og går hjem. Men vil de nogensinde være gode nok til at handle virkelig autonomt uden menneskeligt tilsyn? Det er mørkere. Der er [ikke] en lille person i en boks, der filtrerer hvert billede, siger han. Du har brug for træningsdata hvor som helst, hvilket betyder, at der altid vil være et menneskeligt element involveret. Det er en god ting, fordi det modererer mennesker.

Zeiler mener derimod, at der vil være en dag, hvor kunstig intelligens vil moderere alt alene. Til sidst vil den nødvendige mængde menneskelig indgriben enten være næsten intet eller intet for at moderere nøgenhed, siger han. Og jeg tror, ​​at en masse menneskelig indsats vil skifte til ting, som AI ikke kan gøre i dag, som ræsonnement på højt niveau, og, du ved, selvbevidsthed, sådan noget, som mennesker har.

At anerkende porno er en del af det. At identificere det er en relativt triviel opgave for mennesker, men det er meget sværere at træne en algoritme til at genkende nuance. At finde ud af tærsklen for, hvornår et filter markerer et billede som pornografisk eller ikke pornografisk, er også svært og matematisk styret. Funktionen kaldes præcision-tilbagekaldelseskurve, og den beskriver forholdet mellem, hvad filteret returnerer som relevant, men et menneske vælger dets følsomhed.

Pointen med en kunstig intelligens, som Alison Adam udtrykte det i sin bog fra 1998 Kunstig viden: Køn og tænkemaskinen , er at modellere et eller andet aspekt af menneskelig intelligens, hvad enten det er at lære, bevæge sig rundt og interagere i rummet, ræsonnere eller bruge sprog. Kunstig intelligens er et ufuldstændigt spejl af, hvordan vi ser verden på samme måde, som porno er en afspejling af, hvad der sker mellem mennesker, når de er alene sammen: der er en slags sandhed i den, og det er ikke hele billedet.