Žiga Avsec iz Google DeepMind za STA: Umetna inteligenca nam omogoča zaobjeti kompleksnost genoma

pogovarjal se je Natan Vitežnik

Ljubljana, 21. oktobra - Žiga Avsec je vodja raziskovalne skupine za genomiko pri Google DeepMind, Googlovem oddelku za razvoj umetne inteligence. Za STA je spregovoril o svojem delu v okviru Google DeepMind-a, raziskovanju genoma, kot tudi drugih področjih, kjer sistemi umetne inteligence pomagajo pri napredovanju znanosti.

Kaj vas na področju umetne inteligence osebno najbolj navdušuje, kaj najbolj nestrpno pričakujete?

Umetno inteligenco bi razdelil na dva tipa, ena je bolj podobna človeškim lastnostim, taki so recimo veliki jezikovni modeli, na drugi strani pa imamo bolj specialne modele. Od večjih modelov lahko pričakujemo, da nam bodo pomagali vsak dan, recimo pri interpretaciji literature in tako naprej. Pri bolj specialnih modelih pa me navdušuje to, da bomo lahko z njihovo pomočjo velike količine podatkov, ki jih bodo prihodnji eksperimenti ustvarili, prevedli v nekaj zelo uporabnega in s tem pomagali k napredku znanosti.

V okviru skupine, ki jo vodite pri Googlevem podjetju DeepMind, se ukvarjate z razumevanjem človeškega genoma. Katera področja znanja in izobrazbe so potrebna za vaše delo? Je vaša skupina zelo interdisciplinarna?

Ja, naša skupina je zelo interdisciplinarna, ker moramo v prvi fazi razumeti biologijo problema, kar zahteva določena znanja, potem moramo razumeti kakšni eksperimenti so bili uporabljeni za merjenje procesov, kako se podatki obdelajo, kako naučiti modele in na koncu, kako to skomunicirati s širšo znanstveno publiko. Srečo imamo, da lahko delamo s strokovnjaki z različnih področij, od inženirjev, ki pišejo programe za obdelavo podatkov, izkušenih statistikov, ki analizirajo te podatke, ekspertov s področja biologije, pa do strokovnjakov na področju strojnega učenja in umetne inteligence, ki znajo te modele dobro naučiti ali optimizirati za uporabo na računskih pospeševalnikih. Tako da je naše delo zelo interdisciplinarno in to ga dela še posebej zanimivega.

Kako velika je skupina, ki jo vodite?

(Smeh, op. a.) Ne smem povedat, lahko pa povem, da imamo v Google DeepMindu projekte v različnih fazah, od recimo projektov, ki imajo samo dva človeka, do projektov na katerih dela 20 ljudi ali več, kot je bil AlphaFold. Tako da imamo projekte v različnih stopnjah zrelosti in velikosti.

Ljubljana.
Pogovor z znanstvenikom Žigom Avsecem, zaposlenim v Googlovem podjetju DeepMind, kjer se ukvarja z razvojem umetne inteligence za reševanje težjih znanstvenih problemov v biologiji.
Foto: Božidar Kolar/STA

Zakaj so sistemi umetne inteligence primerni za raziskovanje genoma? Kakšno prednost prinašajo raziskovalcem?

Genetski zapis je jezik, ki ga je evolucija tekom milijard let sprogramirala za milijone različnih živalskih vrst, in ta jezik poganja življenje na Zemlji. A spisan je bil z zelo naključnim procesom evolucije, tekom katerega se dogajajo mutacije in naravna selekcija. To pa pomeni, da je ta koda relativno kompleksna.

Genom si lahko predstavljate kot tekst, v katerem se skrivajo stavki s kombinacijo besed, ki imajo nek pomen, a ga je zelo težko izluščiti s tradicionalnimi algoritmi. Zaradi kompleksnosti je namreč število kombinacij in nians zelo visoko. Umetna inteligenca nam omogoča, da poskušamo te kompleksne lastnosti genoma zaobjeti z modelom naučenim iz velike količine podatkov.

S katerimi tehnikami pa se primerjate oziroma "tekmujete" v krepitvi učinkovitosti raziskovanja genoma?

Težko bi rekel, da tekmujemo, bolj bi rekel, da dopolnjujemo dosedanje tehnike. Z algoritmi umetne inteligence lahko poskušamo modelirati res kompleksne stvari v biologiji, vendar pa je njihova interpretacija bolj zahtevna. Bolj klasični statistični algoritmi pa vnaprej predpostavijo nek bolj enostaven model na podlagi obstoječega znanja in jih je lažje interpretirati. V kolikor je problem zelo kompleksen ali naše znanje pomanjkljivo, so ti statistični modeli pogosto preveč enostavni, da bi ujeli celotno bistvo modeliranega sistema.

Kaj bi izpostavili kot dosežek v dosedanjem delu skupine, česa se nadejate v prihodnje?

Naš cilj v abstraktnem smislu je boljše razumevanje genoma oziroma doseči velike napredke na področju znanosti. Eden izmed modelov, ki smo ga razvili, se imenuje Enformer. Kot vhodni podatek vzame dolgo DNK sekvenco - dvesto tisoč baznih parov - in napove različne lastnosti te sekvence, kot so denimo, kateri del sekvence je dosegljiv v različnih celičnih tipih ali pa kateri geni se izražajo v različnih celičnih tipih. Ta model nam potem denimo omogoča preučevanje vpliva mutacij na te procese. Vemo denimo, da bodo mutacije, ki so v nekodirajočem delu genoma, povzročile bolezen s spremembo izražanja gena - povzročijo, da se ta gen ne izraža.

Upamo, da bodo modele kot je Enformer ljudje lahko med drugim uporabljali za interpretacijo mutacij, pa tudi za preučevanje evolucije kot take. Kot pomemben dosežek bi izpostavil tudi napovedni model AlphaMissense, več o katerem pa malce kasneje.

Torej bi lahko rekli, da tehniko istočasno razvijate ter tudi uporabljate, aplicirate?

Da. Običajno najprej določimo neko metriko uspeha, torej, kaj hočemo, da ta model napove. Pri strojnem učenju ponavadi želimo, da model natančno napoveduje podatke iz informacij, ki jih je prej še nikoli ni videl. Že v začetku moramo razmišljati, kako in za kakšne namene bodo ljudje ta model uporabljali. Tekom projekta nato spremljamo natančnost tega napovedovanja. V Google DeepMindu ponavadi stremimo k velikim korakom v napredku in pogosto dalj časa izboljšujemo model preden ga dejansko apliciramo. Ko smo zadovoljni z natančnostjo, ta model apliciramo na relevantna področja ali probleme.

Na primer, pri projektu AlphaFold je zelo velika ekipa delala več let preden so dosegli zadostno natančnost. Nato pa so uporabili ta model za napoved novih struktur in te strukture delili s širšo javnostjo in znanstveno skupnostjo. Ta je nato te strukture uporabila za razne aplikacije.

S koliko in katerimi programskimi jeziki operirate v okviru skupine?

Dandanes imamo srečo, da so ta orodja zelo dobra in nam omogočajo, da našo kodo pišemo na višjem nivoju. Veliko kode pišemo v Pythonu, ki je kot jezik bolj počasen. Je kar nekaj nivojev odmaknjen od kode, ki se poganja na pospeševalnikih, ampak nam compilerji - žal, ne vem slovenske besede za compiler - omogočajo, da optimiziramo to kodo, napisano v Pythonu, da se potem hitro poganja na pospeševalnikih kot so grafične kartice ali Tensor procesne enote. Tako da ja, večino dela opravljamo v Pythonu in uporabljamo sisteme kot je TensorFlow ali pa JAX, ki nam omogočajo izvajati matrične operacije in jih potem optimizirajo za pospeševalnike.

Ljubljana.
Pogovor z znanstvenikom Žigom Avsecem, zaposlenim v Googlovem podjetju DeepMind, kjer se ukvarja z razvojem umetne inteligence za reševanje težjih znanstvenih problemov v biologiji.
Foto: Božidar Kolar/STA

Kot ste že omenili, Google DeepMind združuje različne projekte in skupine - kako poteka interna komunikacija, izmenjava znanja in izkušenj med vami? Koliko je prenosljivega znanja?

V nekaterih projektih se da neposredno uporabiti neko tehnologijo za drug projekt. Tak projekt je bil AlphaTensor, ki je uporabil AlphaZero algoritem. Za druge projekte, kot je AlphaFold, pa lahko uporabijo samo določene komponente modelov, kot je denimo Transformer. Prednost dela pri Google DeepMindu je v tem, da lahko ljudi, ki so se s temi modeli srečevali, vprašamo po trikih za učenje teh modelov, morebitnih težavah... Tako da, tudi če uporabnost ni neposredna, še vedno lahko uporabimo določena znanja. Ob tem je pomembno poudariti, da ko neko tehnologijo apliciramo na nekaj novega, kot je AlphaFold ali pa pri nas genomika, je še vseeno potrebnega veliko dela, da stvar dobro deluje. Ljudje pogosto mislijo, da lahko kar vzamemo nek model in ga apliciramo drugje, a redkokdaj to res tako enostavno deluje.

Ali tekom dela naletite tudi na kakšne etične dileme in kako jih razrešujete?

Na etična vprašanja naletimo in se z njimi tudi aktivno spopadamo, ker moramo biti pri našem delu zelo odgovorni. Pravzaprav je razprava o teh vprašanjih integrirana v sam proces raziskovanja.

Super je, da imamo na Google DeepMindu res vrhunsko ekipo za etična vprašanja, ki nas lahko kontaktira in obratno med različnimi fazami projekta. Na začetku, ko je govora o različnih podatkih ali pa še tehtamo smiselnost tega, kar delamo, na koncu pa recimo, ko se odločamo, kako bomo ta model delili s širšo javnostjo. AlphaFold je dober primer tega, ko so zelo podrobno debatirali, kako se bo ta model delil s širšo javnostjo. Pripeljali so tudi zunanje strokovnjake s tega področja, da so podali svoje mnenje o tem, ali naj bodo vsi te strukture odprte vsem ali ne.

Vedno pogledamo tudi, kakšne so možnosti uporabe našega dela za dobre in slabe namene in ali lahko naredimo kaj, da bi preprečili slabe uporabe teh modelov. Tako da ja, naletimo na etična vprašanja in se z njimi aktivno spopadamo.

AlphaFold ste že večkrat omenili. Poznamo ga kot sistem, ki je zmožen predvidevati strukture beljakovin na podlagi njihove sekvence aminokislin. Zakaj je sposobnost napovedovanja struktur beljakovin pomembna?

Beljakovine oziroma proteini so osnovni gradniki celic, ki imajo zelo pomembno vlogo. Ker struktura proteinov določa njihovo funkcijo, je znanstvenikom v strukturni biologiji, ki preučujejo funkcijo teh proteinov, zelo pomembno, da to strukturo poznajo.

To strukturo se eksperimentalno določa s kristalografijo in krio-elektronsko mikroskopijo. A ta proces določanja struktur je počasen, traja lahko več let in je drag. Z modelom, kot je AlphaFold, pa lahko dobimo primerljivo natančno strukturo veliko hitreje, recimo v nekaj minutah.

Kako pa je s prenosom teh ugotovitev v npr. medicinsko in farmacevtsko prakso?

Te strukture so zelo uporabne, kar lahko pove že število uporabnikov podatkovne baze AlphaFold database. Mislim, da jo uporablja več kot milijon uporabnikov oziroma znanstvenikov, četrtina izmed njih raziskuje na področju bolezni. Ob tem bi poudaril, da je treba na te strukture gledati kot na neko orodje oziroma dodatno informacijo, ki znanstvenikom pomaga, da pridejo do svojih odgovorov.

Za nekatere probleme je to zadnji kamenček v mozaiku, za druge pa bo potrebno še veliko eksperimentalnega dela, da se bo ta mozaik sestavil. Ljudje so te strukture uporabili za vse od odkrivanja zdravila za malarijo, za raziskovanje odpornosti na antibiotike, pa do odkrivanja genov, ki so vključeni v bolezni - imajo kar široko aplikacijo.

Leži v tem tudi potencial za pomoč pri razvoju zdravil, ki so zaradi nizke stopnje profitabilnosti relativno zapostavljena?

Ja, ena izmed prvih kolaboracij, ki jih je Google DeepMind sklenil, je bila z iniciativo DNDi - Drugs for neglected diseases initiative (neprofitna raziskovalna organizacija za razvoj novih zdravil za zapostavljene bolezni, op. a.). Ker te organizacije nimajo toliko finančnih sredstev, da bi beljakovinske strukture določale po običajni poti, jim model AlphaFold omogoča, da preskočijo to fazo in odkrivajo zdravila za bolezni, v katere drugi ne vlagajo.

Ljubljana.
Pogovor z znanstvenikom Žigom Avsecem, zaposlenim v Googlovem podjetju DeepMind, kjer se ukvarja z razvojem umetne inteligence za reševanje težjih znanstvenih problemov v biologiji.
Foto: Božidar Kolar/STA

Med pomembnimi dosežki vaše skupine ste izpostavili napovedni model AlphaMissense, ki temelji na AlphaFold, o katerem ste nedavno kot vodja širše skupine objavili tudi prispevek v ugledni publikaciji Science. Gre za orodje s katerim lahko raziskovalci preučujejo učinke genskih mutacij, ki spremenijo zaporedje aminokislin proteinov, in njihov potencial za povzročitev bolezni. Katere vrzeli v znanju s tem zapolnjujete in zakaj je to pomembno v medicini?

Izmed 71 milijonov možnih mutacij genoma, ki z eno črko razlike v DNK spremenijo eno amino kislino v proteinu, je bilo do sedaj klinično določenih in klasificiranih kot patogenih ali neškodljivih samo 0,1 odstotka mutacij. Napovedni modeli kot so AlphaMissense lahko napovejo veliko večino. Na primer, AlphaMissense je za 89 odstotkov možnih mutacij napovedal ali so potencialno patogene ali neškodljive s približno 90-odstotno natančnostjo.

Te napovedi lahko pomagajo kliničnim genetikom najti tisto eno mutacijo, ki je povzročila redko dedno bolezen, izmed mnogo drugih neškodljivih mutacij. Odkriti vzrok pa lahko prispeva k izbiri prave terapije ali pa doprinese k razvoju zdravil.

Kaj so glavne razlike med AlphaMissense in AlphaFold s tehničnega in metodološkega vidika? Je bila modifikacija oziroma razvoj zahteven proces?

Modelu AlphaFold smo dodali nekaj dodatnih parametrov za interpretacijo mutacij in dodaten "output" za napovedovanje patogenosti. Parametre tega modela smo nato malenkost prilagodili, tako da je model še vedno dobro napovedoval proteinske strukture, vendar je hkrati začel dobro razlikovati tudi med pogostimi mutacijami v človeški ali primatski populaciji (te so tretirane kot neškodljive) in mutacijami, ki jih doslej še nismo izmerili v človeški populaciji (te so tretirane kot patogene).

Ta razvoj je bil do neke mere zahteven - po eni strani smo lahko začeli z odličnim modelom za napovedovanje struktur, kar nam je zelo olajšalo delo, po drugi strani pa je bilo tekom procesa potrebno narediti veliko izboljšav, da so napovedi postale natančne.

Lahko za zaključek navedete še kakšnega izmed primerov aplikacije modelov z globokim učenjem za reševanje problemov v znanstvenem raziskovanju, ki ga izvajate v okviru Google DeepMind?

Pri večini problemov, ki jih rešujemo, uporabljamo globoko učenje. Matematikom lahko umetna inteligenca pomaga odkriti neke vzorce oziroma povezave med kompleksnimi strukturami, ki jih je težko opaziti s prostim očesom. Tudi v kvantni kemiji lahko uporabljamo te modele. Kolegi denimo poskušajo iz molekule napovedati energijo in opisati porazdelitev elektronov in s tem na nek način reševati Schrödingerjevo enačbo.

Ena aplikacija je tudi, kako kontrolirati plazmo v fuzijskem reaktorju. V reaktorju je potrebno natančno kontrolirati magnete, ki zadržujejo plazmo, v kateri nastane fuzijska reakcija. Še ena je denimo napovedovanja vremena nekaj ur vnaprej. Tako da je kar fascinantno videti vse te napredke v znanosti.

nvi/lu
© STA, 2023