Forskere avslører at Meta Llama 3.1 AI-modellen krenker opphavsrett - den kan huske 42 prosent av den første Harry Potter-boken

Av: Anry Sergeev | i dag, 11:19
AI-evolusjon: hvordan collager endrer landskapet for kunstig intelligens Collage. Kilde: DALL-E

Nylig viste en studie fra Stanford, Cornell og West Virginia University at Meta Llama 3.1 (70B), utgitt i juli 2024, bevisst har memorert 42% av den første Harry Potter-boken slik at den kan gjengi avsnitt på 50 tokens med en sannsynlighet på over 50%. Med andre ord, modellen husker ikke bare handlingen - den kan gjengi hele tekstbiter hvis den får den første setningen. Til sammenligning husket den gamle modellen bare 4,4%.

Hva skjedde

En gruppe forskere sjekket hvor mye den nye Llama "holdt seg" til bøker. Det viste seg at hvis teksten er veldig populær (som Harry Potter eller Hobbiten), kan AI gjenta store tekstbiter. Imidlertid vekket mindre kjente bøker (for eksempel Sandman Slim) ikke mye entusiasme: modellen husket mindre enn 1% av dem.

Vitenskapsfolk brukte en spesiell metode som viser hvor selvsikker modellen er i hvert påfølgende ord - og denne selvtilliten var så høy at det ble klart at den definitivt hadde sett det før.

Hvordan ble dette målt

De brukte metoden for å analysere sannsynlighetene for påfølgende tokens: hvis modellen reproduserer følgende etter å ha substituert de første 50 tokens fra avsnittet, ble det ansett som et tegn på memorisering

Hvorfor er dette viktig

  • Fordi bøker er underlagt opphavsrett, og AI ikke bare bør gjengi dem som en skriver.
  • Hvis den kan gjenta Harry Potter fra hukommelsen, vil det være lett å generere hele bøker som ser ut som en kopi, men med et nytt navn i fremtiden.
  • Dette er ikke lenger læring, det er Ctrl+C og Ctrl+V, og advokatene gikk umiddelbart inn i "aha, du har blitt tatt!" modus.

Hvorfor skjedde dette?

Fordi Meta trente denne modellen på 15 billioner ord, noe som er mye. Kanskje treningen inkluderte ikke bare bøker, men også forum, fansider og anmeldelser med sitater - jo oftere en tekst dukket opp i datasettet, jo oftere påvirket den modellen.

Og hva nå?

Hvis advokater beviser at AI reproduserer tekster nesten ordrett, kan det bety store problemer for Meta. Spesielt fordi modellen deres er åpen og alle kan sjekke den. Lukkede språkmodeller (OpenAI, Anthropic og Google) kan også ha lignende problemer, men det er mye vanskeligere å bevise. Dette gjør det vanskeligere for Meta å forsvare seg på grunnlag av rimelig bruk - en domstol kan vurdere hukommelse som bevis for at modellen lager et derivat fra en stor del av tekstene. Det vil også være vanskelig å si at dette bare er "ingenting mer enn mønstre".

Ironisk nok kan åpenheten som Llamas skapere er stolte av nå spille mot dem.

Det vil si, denne språkmodellen kan nå bringe Meta reelle rettssaker, fordi den har "skrapet" tekster som den ikke skulle ha husket så nøyaktig. På den ene siden kan retten skjerpe kravene til åpne vekter: "fremstill vektene og du vil få beviset mot deg". På den andre siden kan institusjoner og domstoler som verdsetter åpenhet merke seg dette. Meta og andre kan bruke dette som et argument for at åpenhet er en "tjeneste" og "ansvar"

Kilde: understandingai.org