AI lærer å jukse på Q * bert på en måte som ingen mennesker har gjort før

En AI har klart å jukse med det beste menneskeheten har å tilby etter å ha oppdaget en utnyttelse i det klassiske arkadespillet Q * bert og kjørt med det.

Mens tidligere iterasjoner av AI ville spille Q * bert riktig, oppdager det på et tidspunkt i sin læring av hvordan spillet fungerer, en utnyttelse som lar det samle vanvittige poeng. Naturligvis, som en hvilken som helst poengjaktende spiller, gjentar den prosessen slik at den kan øke poengsummen på den mest effektive måten.

Du kan se AI arbeide seg rundt plattformer i videoen nedenfor. Først ser det ut som om det hopper uten mål mellom plattformene. I stedet for å se spillet gå videre til neste runde, blir Q * bert sittende fast i en løkke der alle plattformene begynner å blinke - det er her AI kan deretter gå på en score-vanvidd og samle enorme poeng.

LES NESTE: En av de mest kontroversielle spillplatene er endelig blitt diskreditert

hvordan du slår på personlig hotspot

Hvordan AI vant Q * bert-krigen

Han slo rekorden om tittelen hele tiden, og AI fikk en umulig høy poengsum takket være utviklingsstrategi-algoritmeprogrammering. Evolusjonsstrategier (ES) skiller seg fra den vanlige forsterkningslæringen (RL) som tradisjonell AI bruker, da den blir sett på som mer skalerbar på grunn av generasjonslæring.

Hver læringssløyfe blir referert til som en generasjon og den fortsetter sin oppgave til en angitt betingelse er oppfylt (i dette tilfellet en høy score). For hver påfølgende generasjon absorberer AI kunnskapen fra den forrige generasjonen og er derfor bedre til å oppnå det samme målet og overgå det. Fortsett, og du vil ende opp med en AI som er helt uovertruffen i sin oppgave. Det var akkurat det som skjedde her med Q * bert-poengsummen.

Skissert i avisen , publisert forrige uke av forskere ved universitetet i Freiburg, Tyskland, ser det ut til at feilen ikke var en kjent mengde. Faktisk, selv om de ikke er så overrasket over å finne feilen, er det interessant å se hvordan AI deretter gikk videre og lærte å utnytte den hver gang den spilte for å maksimere poengpotensialet.

LES NESTE: Denne kunstige intelligensen har lært å mestre Super Mario Bros

For å finne feilen måtte agenten først lære å fullføre det første nivået - dette ble ikke gjort med en gang, men ved å bruke mange små forbedringer, forklarte forskerne til Registeret . Vi mistenker at en av avløsningsløsningene på et tidspunkt under opplæringen møtte feilen og fikk en mye bedre poengsum sammenlignet med søsknene, som igjen økte sitt bidrag til oppdateringen - vekten var den høyeste i det vektede gjennomsnittet. Dette sakte flyttet løsningen inn i rommet der flere og flere avkom begynte å møte den samme feilen.

Vi kjenner ikke de nøyaktige forholdene der feilen vises; det er mulig at det bare vises hvis agenten følger et mønster som virker suboptimalt, [for eksempel når agenten kaster bort tid, eller til og med mister et liv]. Hvis det var tilfelle, ville det være ekstremt vanskelig for standard RL å finne feilen: Hvis du bruker trinnvise belønninger, lærer du strategier som raskt gir litt belønning, i stedet for læringsstrategier som ikke gir mange belønninger på en stund og så plutselig vinne stort.

Se relatert Dragster-mester Todd Rogers har nettopp mistet kronen etter 35 år Denne kunstige intelligensen har lært å mestre Super Mario Bros 1-2 i 17 dager Se denne AI lære å kjøre i GTA V på Twitch

Til tross for botens fantastiske resultater sier forskerne imidlertid ikke at dette er en sak for å forkjempe ES-læring over RL. Faktisk har begge systemene sine egne problemer, og en kombinasjon av de to blir i stor grad sett på som det beste alternativet fremover.

Den samme ES-metoden på andre Atari-spill førte ikke til nær de samme positive resultatene. På den annen side er RL ansvarlig for å knuse rekorder til venstre, høyre og sentrum, inkludert å slå verdens beste GO-spiller. ES har fortsatt sin egen plass i ting skjønt, og det er faktisk hvordan Nvidia utfører mye av sin AI-trening på grunn av at det krever mer beregningskraft, men å oppnå bedre resultater over lengre tid.

Uansett hvilken vei som vil bli fremtiden for AI-utvikling, er i det minste denne bot-juksingen ikke så ille som denne nå vanæret videospill verdensmester .

**AI lærer å jukse på Q * bert på en måte som ingen mennesker har gjort før**

Hvordan AI vant Q * bert-krigen

Interessante Artikler

Hvordan låse opp LeapFrog Epic

Hva er en SRT-fil?

Redaksjonens

Slik legger du til unntak for Windows Defender i Windows 10

Slik legger du til en ekskludering i Windows Defender i Windows 10 ved hjelp av Windows Defender Security Center-appen (Windows Defender Virus Protection).

Hvordan konvertere WAV til MP3

WAV-lydfilen har overlegen lydkvalitet. Nøyaktigheten og bevaringsfunksjonene til dette formatet er fortsatt overlegne MP3-filer. Når det er sagt, kan du sjelden høre forskjellene hvis du ikke bruker avansert lydutstyr. Og

Dell Inspiron One 19 Desktop Touch anmeldelse

Takket være Windows 7 er en ny alt-i-ett-PC uten berøringsgrensesnitt en sjelden ting i disse dager, og alle de store våpnene dykker inn. Dell er den siste som gir sortimentet et sårt tiltrengt preg.

Eizo ColorEdge CG318-4K anmeldelse - til 4K og utover

Eizo gjør ikke ting halvdeler. Mens andre produsenter prøvde å piske sine 4K-skjermer gjennom produksjonslinjen, arbeidet Eizos ingeniører stille for å skape sin visjon om den ultimate 4K-skjermen: resultatet er

Aktiver gammel klassisk volumkontroll i Windows 10

Slik kan du bytte mellom den nye og den gamle volumkontrollen i Windows 10 med en enkel registerjustering.

Enterprise Mode Unlocker for IE 11 i Windows 8.1 Update 1

Slik kobler du sammen Bose Soundlink

Hvis du har problemer med å pare eller koble en Bose Soundlink til telefonen, følg disse instruksjonene.