Раз­рыв меж­ду гене­ра­ци­ей дан­ных и их прак­ти­че­ским исполь­зо­ва­ни­ем дол­гое вре­мя оста­вал­ся одним из глав­ных барье­ров на пути пер­со­на­ли­зи­ро­ван­ной меди­ци­ны и уско­рен­ных био­тех­но­ло­ги­че­ских иссле­до­ва­ний. Новая облач­ная плат­фор­ма GenomeAI инте­гри­ру­ет в еди­ный интер­фейс весь тех­но­ло­ги­че­ский цикл: от пер­вич­ной обра­бот­ки сиг­на­лов секве­на­то­ра (пер­вич­ный ана­лиз) до срав­не­ния с рефе­ренс­ны­ми гено­ма­ми, иден­ти­фи­ка­ции мута­ций, в том чис­ле ассо­ци­и­ро­ван­ных с онко­ло­ги­че­ски­ми забо­ле­ва­ни­я­ми, и их интер­пре­та­ции (вто­рич­ный и тре­тич­ный анализ).

Миро­вой рынок био­ин­фор­ма­ти­че­ских реше­ний демон­стри­ру­ет устой­чи­вую дина­ми­ку. Одна­ко этот рынок отли­ча­ет­ся высо­кой сте­пе­нью фраг­мен­та­ции. Боль­шин­ство доступ­ных инстру­мен­тов пред­став­ля­ют собой узко­спе­ци­а­ли­зи­ро­ван­ные про­грамм­ные про­дук­ты, сфо­ку­си­ро­ван­ные на реше­нии одной кон­крет­ной зада­чи: вырав­ни­ва­нии про­чте­ний, вари­а­ци­он­ном ана­ли­зе, пред­ска­за­нии пато­ген­но­сти и так далее.

Подоб­ная раз­дроб­лен­ность созда­ет зна­чи­тель­ные опе­ра­ци­он­ные слож­но­сти для иссле­до­ва­те­лей. Им при­хо­дит­ся вруч­ную инте­гри­ро­вать раз­но­род­ные про­грам­мы, что тре­бу­ет не толь­ко глу­бо­ких пред­мет­ных зна­ний в био­ло­гии, но и ком­пе­тен­ций в обла­сти IT. Про­цесс настрой­ки вычис­ли­тель­но­го кон­вей­е­ра может зани­мать неде­ли, обра­бот­ка геном­ных дан­ных предъ­яв­ля­ет экс­тре­маль­ные тре­бо­ва­ния к инфра­струк­ту­ре: один чело­ве­че­ский геном в сыром виде может зани­мать до 200 ГБ дис­ко­во­го про­стран­ства, а его ана­лиз — потре­бо­вать тысяч ядер­но-часов вычис­ле­ний. Основ­ная слож­ность для совре­мен­ных лабо­ра­то­рий заклю­ча­ет­ся не в отсут­ствии инстру­мен­тов как тако­вых, а в их сла­бой инте­гра­ции и высо­кой ресурсоемкости.

Архитектура единого решения

Как рабо­та­ет GenomeAI

Плат­фор­ма GenomeAI, раз­ра­бо­тан­ная маги­стран­та­ми цен­тра искус­ствен­но­го интел­лек­та AI Talent Hub ИТМО, архи­тек­тур­но реша­ет про­бле­му фраг­мен­та­ции за счет созда­ния уни­фи­ци­ро­ван­ной про­грамм­ной сре­ды. Поль­зо­ва­тель, будь то гене­тик или врач-лабо­рант, полу­ча­ет доступ к веб-интер­фей­су, через кото­рый может загру­зить дан­ные секве­ни­ро­ва­ния и запу­стить любой из пред­уста­нов­лен­ных ана­ли­ти­че­ских конвейеров.

Систе­ма авто­ма­ти­че­ски мас­шта­би­ру­ет необ­хо­ди­мые вычис­ли­тель­ные ресур­сы в облач­ной сре­де, выпол­ня­ет все эта­пы ана­ли­за после­до­ва­тель­но и выда­ет гото­вый струк­ту­ри­ро­ван­ный отчет. Это поз­во­ля­ет сосре­до­то­чить­ся на интер­пре­та­ции био­ло­ги­че­ских резуль­та­тов, а не на пре­одо­ле­нии тех­ни­че­ских барье­ров. Важ­ной состав­ля­ю­щей плат­фор­мы явля­ет­ся исполь­зо­ва­ние алго­рит­мов машин­но­го обу­че­ния для повы­ше­ния точ­но­сти анно­та­ции выяв­лен­ных гене­ти­че­ских вари­ан­тов и пред­ска­за­ния их кли­ни­че­ской значимости.

Платформа для геномного анализа

Безопасность данных

Как неотъ­ем­ле­мый ком­по­нент архитектуры

В усло­ви­ях роста кибе­ру­гроз и уже­сто­че­ния регу­ля­тор­ных норм без­опас­ность обра­бот­ки геном­ной инфор­ма­ции выхо­дит на пер­вый план. Геном­ные дан­ные явля­ют­ся пер­со­наль­ны­ми дан­ны­ми выс­шей кате­го­рии чув­стви­тель­но­сти, и их утеч­ка может иметь серьез­ные последствия.

Раз­ра­бот­чи­ки GenomeAI заяви­ли о реа­ли­за­ции мно­го­уров­не­вой систе­мы защи­ты, архи­тек­ту­ра кото­рой заим­ству­ет луч­шие прак­ти­ки финан­со­во­го сек­то­ра. Она вклю­ча­ет в себя сквоз­ное шиф­ро­ва­ние дан­ных как при пере­да­че по защи­щен­ным про­то­ко­лам (TLS 1.3 и выше), так и при хра­не­нии. Доступ к инфор­ма­ции реа­ли­зо­ван по прин­ци­пу наи­мень­ших при­ви­ле­гий, а все опе­ра­ции поль­зо­ва­те­лей под­ле­жат обя­за­тель­но­му ауди­ту. Преду­смот­ре­на воз­мож­ность рабо­ты в пол­но­стью изо­ли­ро­ван­ных сетях, без обя­за­тель­но­го исхо­дя­ще­го интернет-соединения.

Пред­став­ле­ние плат­фор­мы GenomeAI явля­ет­ся пока­за­тель­ным при­ме­ром транс­фе­ра уни­вер­си­тет­ских тех­но­ло­гий в реаль­ный сек­тор эко­но­ми­ки. Раз­ра­бот­ка реша­ет акту­аль­ную про­бле­му инте­гра­ции раз­роз­нен­ных эта­пов геном­но­го ана­ли­за, пред­ла­гая рын­ку уни­фи­ци­ро­ван­ное и мас­шта­би­ру­е­мое реше­ние. Успех про­ек­та будет зави­сеть от кор­рект­ной ком­мер­че­ской стра­те­гии, ори­ен­ти­ро­ван­ной на раз­лич­ные сег­мен­ты заказ­чи­ков, и спо­соб­но­сти коман­ды соот­вет­ство­вать стро­гим тре­бо­ва­ни­ям меди­цин­ско­го регу­ля­то­рин­га. В слу­чае успе­ха про­ект может стать зна­чи­мым эле­мен­том фор­ми­ру­ю­щей­ся эко­си­сте­мы рос­сий­ских био­тех­но­ло­ги­че­ских и меди­цин­ских технологий.

Похожие посты