Информације

Да ли су МХЦ протеини најполиморфнији људски протеини познати?

Да ли су МХЦ протеини најполиморфнији људски протеини познати?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Постоји параграф под насловом „МХЦ протеини су најполиморфнији познати људски протеини“ у „Молекуларној биологији ћелије“ Албертса ет ал. 6тх ед. 2014.

Али неко ми је недавно рекао да то није случај да правим пример скупа гена који помажу да се идентификују особе у судској медицини. (Нисам се сетио гена.) Је ли истина?

Да ли су МХЦ протеини најполиморфнији људски протеини познати?


Да. Постоји много МХЦ (МХЦ код људи се зове ХЛА) гена. Класични локуси - класа И А, Б и Ц, и класа ИИ ДП, ДК и ДР - су најполиморфнији.

Ево табеле из чланка из 2002. која јасно показује број полиморфизама. То није такмичење.

Вреди да нагласим да су ти бројеви веома застарели. ИПД-ИМГТ/ХЛА може пружити пуну листу познатих ХЛА алела, али тачни бројеви су у десетине хиљада:


Особа са којом сте разговарали вероватно је мислила на секвенце зване микросателити. Ово су мали региони који су полиморфни и прилично варијабилни између појединаца, а коришћење већег броја њих заједно може бити корисно за генетско узимање отисака прстију, али сваки појединачни микросателит неће бити тако полиморфан као ХЛА класе И А, на пример.


Границе у имунологији

Повезаност уредника и рецензената је најновија наведена на њиховим Лооп истраживачким профилима и можда неће одражавати њихову ситуацију у време прегледа.


  • Преузмите чланак
    • Преузмите ПДФ
    • РеадЦубе
    • ЕПУБ
    • КСМЛ (НЛМ)
    • Допунски
      Материјал
    • ЕндНоте
    • Референтни менаџер
    • Једноставна ТЕКСТ датотека
    • БибТек


    ПОДЕЛИ

    Да ли су МХЦ протеини најполиморфнији људски протеини познати? - Биологија

    (= главни комплекс хистокомпатибилности (МХЦ))
    Вратите се на страницу за претрагу
    Ако знате за неке термине који су изостављени из овог појмовника и за које сматрате да би било корисно да их укључите, пошаљите детаље редакцији на ГенСцрипт-у.

    МХЦ
    Скраћеница од главног комплекса хистокомпатибилности.
    микроба
    [Гк. микрос, мали + биос, живот] .

    МХЦ протеини класе И формирају функционални рецептор на већини ћелија тела са језгром.
    Постоје 3 главна и 3 мала МХЦ гени класе И у ХЛА:
    ХЛА-А
    ХЛА-Б
    ХЛА-Ц
    мањи гени су ХЛА-Е, ХЛА-Ф и ХЛА-Г
    β2-микроглобулин се везује за главне и мање генске подјединице да би произвео хетеродимер.

    Погледајте главни комплекс хистокомпатибилности.
    мицел Липидни агрегати са површинским слојем жучних соли. Фаза у варењу липида у танком цреву.

    рецептори на некомпатибилном донору се сматрају „не-себи“ и имуни систем их одбија.
    Ако се крв мајке и фетуса помеша, меморијске ћелије које препознају Рх антиген могу се формирати касно у првој трудноћи.

    молекули, који се налазе на скоро свим ћелијама тела са језгром, везују пептиде изведене из страних антигена који су синтетизовани унутар ћелије.

    антигена, потенцијалне вакцине у крвном стадијуму могу да циљају специфичне површинске антигене инфициране прстеном (РЕСА) који се експримирају на површини инфицираних еритроцита.

    Х-2 комплекс: Главни комплекс хистокомпатибилности (

    открио је 1937. Петер Горер.
    Петља за укосницу: Петља нуклеинске киселине формирана формирањем дуплекса унутар једног ланца (који се такође назива петља стабла). Ако се деси у ПЦР прајмеру, неће функционисати.

    Адаптивни имунитет: збирни израз за дуготрајан и специфичан одговор лимфоцита на антигене. Захтева

    , рецепторе Т-ћелија (ТЦР) и имуноглобулине (Иг) као и ензиме са активношћу рекомбиназе (за реаранжмане на локусима ТЦР и Иг гена).

    -комплекс антигена, ТЦ ћелије ослобађају протеин перфорин, који формира поре у плазма мембрани циљне ћелије, што узрокује да јони и вода теку у циљну ћелију, чинећи је ширењем и на крају лизирањем.

    Обрада антигена класе ИИ у развоју Б ћелија". Интернатионал Ревиевс оф Иммунологи. 19 (2-3): 139-55. дои:10.3109/08830180009088502. ПМИД 10763706.
    ^ Кехри МР, Ходгкин ПД (1994). „Активација Б-ћелија помоћу помоћних Т-ћелијских мембрана“. Цритицал Ревиевс ин Иммунологи. 14 (3-4): 221-38. дои:10.

    Ако је вирусна инфекција у току, онда ће макрофаги и друге имуне ћелије доћи у контакт са вирусом и приказати вирусне антигене на својој ћелијској површини са

    2 молекула се називају ћелије које представљају антиген.

    Све ћелије тела производе површинске протеине зване класа И

    протеин. Т Ц ћелија са одговарајућим рецептором ће препознати абнормалну ћелију.

    Један случај овог феномена јавља се на локусима у главном комплексу хистокомпатибилности (

    ) при чему су неки људски алели много ближи повезани са неким алелима шимпанзе него са другим људским алелима (слика 7).

    Класа ИИ су генски локуси који су високо полиморфни, што значи да је мала вероватноћа да ће било које две особе делити исти скуп МХЦИИ локуса. Стога је користан начин да се утврди колико су две особе блиско повезане.

    Први је позитивна селекција која потврђује да ли Т-ћелија има рецепторе способне да препознају

    молекуле који ће представљати антигене. Друга је негативна селекција, која уклања Т-ћелије које нападају телесна ткива и резидентну флору јер реагују на антигене из ових ћелија.

    Хумани ХЛА гени (еквивалентно

    гени код мишева) имају много алела, и ниједна два појединца немају идентичне алеле на свим генским локусима. Шта од следећег је последица ове генетске разноликости?
    А.
    Максимизира врсте патогена који се могу препознати и елиминисати имунолошким одговором унутар популације.

    главни комплекс хистокомпатибилности (

    је део главног имуногенског комплекса.

    главни комплекс хистокомпатибилности (

    маркери покрећу одговоре Т-ћелија који могу довести до одбацивања трансплантираних ткива и органа.
    Малпигијев тубул .

    Када макрофаг поједе бактерије, протеини (антигени) из бактерија се разлажу на кратке пептидне ланце и ти пептиди се затим „приказују“ на површини макрофага везани за посебне молекуле тзв.

    ИИ (за главни комплекс хистокомпатибилности класе ИИ).

    Површински имуноглобулин (препознавање Аг)
    Имуноглобулин Фц рецептор
    Главни комплекс хистокомпатибилности класе ИИ (

    Х-2 комплекс. Главни комплекс хистокомпатибилности (

    ) миша, који се налази на хромозому 17.
    Хаплоид. Ћелија или организам који садржи скуп хромозома који се обично налази у гаметама.

    Научници са Медицинске школе Харвард кренули су да истраже који фактори утичу на активност моћног генског комплекса познатог као хумани леукоцитни антиген (ХЛА). Већ неко време је познато да специфичне варијанте ХЛА гена код људи и главни комплекси хистокомпатибилности (

    Овај ген је први пут описан за Т- и Б-ћелијске лозе (Бехренс ет ал, 1994). Ген кодира протеин повезан са ендоплазматским ретикулумом и укључен је у испоруку пептида у

    молекуле класе И (Снидер ет ал, 1997). ИХЦ подржава РНАсек податке, показујући ЕР-позитивност у лимфоцитима.

    Хистокомпатибилан Односи се на генетско стање у којем ћелије две животиње могу бити унакрсно пресађене без имунолошког одбацивања. Супротно од хистоинкомпатибилног. Хистокомпатибилност је контролисана претежно генима у главном комплексу хистокомпатибилности или


    Пептиди који самоизвештавају осветљавају жлеб МХЦ

    Синтетички олигопептиди хемијски модификовани флуорофорима осетљивим на околину омогућавају визуализацију везивања пептида за молекуле МХЦ у реалном времену. Ова технологија ће проширити наше разумевање презентације антигена и омогућити визуелизацију везивања флуоресцентног пептида за широк спектар рецептора у живим ћелијама.

    Молекули главног комплекса хистокомпатибилности (МХЦ) представљају олигопептидне пептидне антигене из имуногених протеина да би активирали одговоре Т-ћелија. Критични аспект презентације антигена је везивање пептида за МХЦ молекуле. Само ∼ 1% пептида довољне дужине је у стању да се веже за било који МХЦ генски производ класе И или класе ИИ. Иако постоје бројне методе за квантитативно одређивање везивања пептида за МХЦ молекуле, ниједна не открива везивање у реалном времену - до сада, тј. У овом броју од Природна хемијска биологија, Венкатраман ет ал. 1 извештава да након везивања за људски молекул МХЦ класе ИИ ДР1, пептиди модификовани флуорофорима осетљивим на околину показују велико повећање флуоресценције, повећани Стоксов помак у емисији и продужен животни век флуоресценције, што се све може искористити за праћење везивања пептида у стварном животу. време.


    22. марта 2021. године

    Од многих збуњујућих питања која окружују САРС ЦоВ-2, мистериозни нови патоген који је убио око 2,6 милиона људи широм света, можда је најупорније ово: зашто се чини да болест погађа на тако насумичан начин, понекад поштедећи 100 година стара баба, док убија здраве младиће и девојке у најбољим годинама?

    Нова студија Карен Андерсон, Абхисхек Сингхарои-а и њихових колега на Институту за биодизајн на Државном универзитету у Аризони може понудити неке пробне трагове. Њихово истраживање истражује МХЦ-И, критичну протеинску компоненту људског адаптивног имуног система.

    Истраживање сугерише да одређене варијанте облика МХЦ-И могу помоћи у заштити тела, стимулишући јак имуни одговор, док други могу оставити особу подложном вирусном нападу, тешкој болести и евентуално смрти.

    „Импликација наших налаза је да капацитет за успостављање снажног и разноликог одговора Т ћелија на САРС-ЦоВ-2 може бити важан за ограничавање озбиљности болести“, каже Андерсон. "Кључ овог рада је коришћење структуре протеина за предвиђање индивидуалног капацитета везивања МХЦ-И пептида."

    Ћелијска полиција

    Људи, као и сви кичмењаци, носе МХЦ-И молекуле у свим ћелијама са језгром. Централна улога МХЦ-И је да помогне телу да очисти инфекције од вируса и других патогена. То ради тако што сакупља фрагменте вируса, преноси их на површину ћелије и представља имуним агенсима познатим као ЦД8+ Т ћелије, које непрестано патролирају телом.

    МХЦ-И је, међутим, полиморфни молекул, што значи да се јавља у широком спектру облика, који се значајно разликују по својој способности да вежу вирусне фрагменте и представе их на испитивање од стране Т ћелија. У зависности од тога које су МХЦ-И варијанте или алели присутне, тело може успоставити успешан имуни одговор на САРС ЦоВ-2, или можда неће успети, остављајући тело рањивим.

    У новом истраживању које се појављује у часопису Целл Репортс Медицине, Андерсон, Сингхарои и њихове колеге описују софистицирани алгоритам познат као ЕнсемблеМХЦ, дизајниран да предвиди који МХЦ-И алели су најбољи у везивању вирусних фрагмената и представљању их Т ћелијама. Они такође идентификују 108 вирусних пептида изведених из структурних протеина САРС ЦоВ-2, за које се верује да су моћни стимулатори имунолошког одговора.

    „Ово је један од првих примера молекуларне епидемиологије са порастом САРС-ЦоВ2“, каже Сингарој. Скалирање од молекуларних својстава до својстава популације, које је развио (први аутор) Ериц Вилсон је прилично ново.“

    Вилсон је истраживач на Институту за биодизајн и Школи молекуларних наука АСУ.

    Распон ефеката

    Истраживање испитује 52 уобичајена алела МХЦ-И и проналази значајне разлике у њиховој способности да вежу вирусне фрагменте изведене из пуног генома САРС ЦоВ-2, као и фрагменте изведене из кључне подскупине структурних компоненти за које се верује да су најважнији вирусни протеини за стварајући снажне имуне одговоре. Ови есенцијални протеини помажу вирусу да састави 4 критичне структуре и познати су као протеини С (шиљак), Н (нуклеокапсид), М (мембрана) и Е (коверта).

    ЦД8+ Т ћелије су у стању да препознају пристајање региона на овим структурним протеинима, познатим као епитопи. Када ове патролирајуће имуне ћелије наиђу на С, Н, М и Е протеине, обично циљају на заражену ћелију ради уништења.

    Када су истраживачи упоредили податке о ЦОВИД-19 из 23 земље, открили су да су стопе смртности од болести блиско повезане са дистрибуцијом МХЦ-И варијанти. Конкретно, популације богате алелима МХЦ-И рангиране као јака везива фрагмената пептида САРС ЦоВ-2 показале су смањену стопу смрти од ЦОВИД-19, што сугерише да ови повољни алели МХЦ-И стварају снажан имуни одговор када се сусрећу са новим коронавирусом.

    Рад има важне импликације за праћење рањивости на ЦОВИД-19 и код појединаца и код популације, а такође може помоћи истраживачима да пронађу битне делове патогена САРС ЦоВ-2 који најбоље стимулишу имуни одговор, критичну компоненту у будућим вакцинама.

    Одбрамбене мере

    МХЦ-И молекуле генерише МХЦ ген, који је најполиморфнији део целокупног људског генома. Познато је да МХЦ кодира преко 160 протеина различитих функција, од којих је половина директно укључена у имуне одговоре. Огромна разноликост МХЦ-И протеина обезбеђује телу моћан одбрамбени систем раног упозорења, способан да веже широк спектар фрагмената патогена и фино подеси имуни одговор. Богата разноликост МХЦ-И молекула такође отежава страном освајачу, попут вируса, да тајно надмудри све потенцијалне везујуће молекуле.

    ЦД8+ Т ћелије које спроводе свој надзор имају невероватну способност да разликују себе од не-ја. Ако се Т ћелијама не свиђа оно што виде, када молекули МХЦ-И који представљају антиген покажу фрагменте које су стекли, ЦД8+ Т ћелије ће прекинути инфицирану ћелију.

    Претходна истраживања су показала да чак и мале варијације аминокиселина у саставу МХЦ-И могу имати дубоке ефекте. С једне стране, неки облици МХЦ-И могу промовисати инфламаторне и аутоимуне болести, као што су Грејвсова болест, псоријаза, реуматоидни артритис или мултипла склероза, у којима се здрава ткива препознају као страно. С друге стране, варијанте МХЦ-И могу бити структурно неопремљене да вежу одговарајуће фрагменте вируса или другог патогена и не успеју да изазову имуни одговор. Из тог разлога, МХЦ генотип се сматра критичном детерминантом исхода пацијената након низа вирусних инфекција.

    МХЦ-И такође игра важну улогу у случајевима трансплантације ткива, као што сугерише његово пуно име — главни комплекс хистокомпатибилности. Ако донирано ткиво није компатибилно са примаоцем, молекули МХЦ-И представљају фрагменте ткива донора, који се препознају као страно и нападају Т ћелије, што је феномен познат као одбацивање графт-домаћина, други облик аутоимуности.

    Пратећи траг заштите

    У тренутној студији, истраживачи су испитали 52 уобичајена алела протеина МХЦ-И, користећи прилагођени алгоритам познат као ЕнсемблеМХЦ да предвиде њихове афинитете везивања за фрагменте протеина САРС ЦоВ-2. Сакупљена су два скупа података, први, који мери афинитет везивања сваког алела за комплетан репертоар протеина у геному САРС ЦоВ-2. Други скуп података испитује афинитете везивања сваког алела само за С, Н, М и Е структурне вирусне пептидне кандидате.

    Истраживачи су затим извукли огромну банку података протеинских алела, упарујући преваленцију 52 алела у студији са 23 округа. Свака земља је добила оцену за целу популацију, која комбинује капацитет везивања МХЦ-И са фреквенцијама алела МХЦ-И.

    Пронађена је убедљива корелација између земаља са нижим стопама морталитета током периода студије од јануара до априла 2020. и високог процента алела у целој популацији које је ЕнсемблеМХЦ идентификовао као јаке везујуће молекуле за САРС ЦоВ-2 протеине.

    Даље, када су упоређени само они алели који показују висок афинитет везивања за С, Н, М и Е протеине, повезаност између ниске смртности од ЦОВИД-19 и овог скупа повољних МХЦ-И алела била је најјача, што опет сугерише да је структурна структура вируса протеини су најефикаснији у стварању имунолошког одговора.

    Налази сугеришу да пацијенти који имају алеле МХЦ-И способне да се ангажују са САРС-ЦоВ-2 структурним протеинским пептидима могу стимулисати појачан одговор ЦД8+ Т ћелија, са побољшаним исходима након инфекције и нижим морталитетом.

    Снажна техника описана у новој студији даље открива суптилну везу МХЦ-И алела и имунолошког одговора и помоћи ће истраживачима да одреде најважније имуногене вирусне фрагменте из САРС ЦоВ-2, помажући будући развој вакцине. Комбиновање таквих информација са клиничким подацима о пацијентима и генетским профилима може помоћи да се идентификују они који су под највећим ризиком за ову још увек неухватљиву болест.


    Методе

    Ћелијска култура и ХЛА типизација

    Ову студију је одобрио Цомите д’Етхикуе де ла Рецхерцхе де л’Хопитал Маисоннеуве-Росемонт и сви субјекти су дали писмени информисани пристанак. Пошто су потребни узорци свеже крви за тестове цитотоксичности, одлучили смо да генеришемо нове Б-ЛЦЛ-ове од доступних донатора, уместо да проучавамо високо окарактерисане Б-ЛЦЛ-ове из Центре д'Етуде ду Полиморпхисме Хумаин. ПБМЦ су изоловани из узорака крви две беле и сестре беле расе које нису близанци идентичне ХЛА (54 и 56 година). Б-ЛЦЛ су изведени из ПБМЦ са Фицолл-Пакуе Плус (Амерсхам) праћено ЕБВ инфекцијом као што је описано 58 . Десет милиона ПБМЦ у 2,5 мл комплетног медијума РПМИ-10 инкубирано је са 1 мл ЕБВ (сој Б95-8) суспензије добијене од добављача (АТЦЦ ВР-1492) током 2 х у воденом купатилу на 37 °Ц. Комплетан РПМИ-10 који садржи 1 μмл -1 циклоспорина А (Сигма-Алдрицх) је додат у ћелијску суспензију до укупне запремине од 10 мл) и инкубиран 3-5 недеља у влажној 37 °Ц, 5% ЦО2 инкубатор. У болници Маисоннеуве-Росемонт урађена је ХЛА генотипизација високе резолуције. Два брата и сестре су ХЛА-А*03:01,*29:02 Б*08:01,*44:03 Ц*07:01,*16:01 ДРБ1*03:01,*07:01.

    Екстракција РНК и припрема библиотека транскриптома

    Укупна РНК је изолована из 5 милиона Б-ЛЦЛ користећи РНеаси мини кит укључујући третман ДНазом И (Киаген) према упутствима произвођача. Укупна РНК је квантификована помоћу НаноДроп 2000 (Тхермо Сциентифиц), а квалитет РНК је процењен помоћу 2100 Биоанализер (Агилент Тецхнологиес). Библиотеке транскриптома су генерисане од 1 μг укупне РНК помоћу ТруСек РНА комплета за припрему узорка в2 (Иллумина) према протоколу произвођача. Укратко, поли-А месинџер РНК је пречишћен коришћењем поли-Т олиго-везаних магнетних перли коришћењем два круга пречишћавања. Током другог елуирања поли-А РНК, РНК је фрагментирана и припремљена за синтезу цДНК. Реверзна транскрипција првог ланца је изведена коришћењем насумичних прајмера и СуперСцрипт ИИ (Инвитроген). Урађена је друга рунда реверзне транскрипције да би се створила дволанчана цДНК, која је затим пречишћена коришћењем Агенцоурт АМпуре КСП ПЦР система за пречишћавање (Бецкман Цоултер). Завршна поправка фрагментоване цДНК, аденилација 3′ крајева и лигација адаптера су завршени према протоколу произвођача. Обогаћивање ДНК фрагмената који садрже адаптерске молекуле на оба краја обављено је коришћењем 15 циклуса ПЦР амплификације и коктела Иллумина ПЦР мешавине и прајмера.

    Екстракција ДНК и хватање егзома

    Геномска ДНК је екстрахована из 5 милиона Б-ЛЦЛ-ова коришћењем ПуреЛинк Геномиц ДНК Мини Кит (Инвитроген) према упутствима произвођача. ДНК је квантификован и квалитет процењен коришћењем НаноДроп 2000 (Тхермо Сциентифиц). Геномске библиотеке су конструисане од 1 μг геномске ДНК коришћењем ТруСек ДНК комплета за припрему узорка (в2) (Иллумина) према протоколу произвођача. Користили смо 500 нг ДНК-Сек библиотека за обогаћивање егзома засновано на хибридној селекцији са ТруСек комплетом за обогаћивање егзома (Иллумина) према упутствима произвођача.

    Секвенцирање и мапирање целог транскриптома и егзома

    Секвенцирање упареног краја (2 × 100 бп) изведено је коришћењем Иллумина ХиСек2000 машине која користи ТруСек в3 хемију. Две РНА-Сек или четири егзомичне библиотеке су секвенциониране по траци (осам трака по слајду). Густина кластера била је циљана на око 600–800 к кластера мм -1 (реф. 2). Филтер квалитета чедности Иллумина коришћен је да би се уклонила очитавања ниског квалитета. Чедност основног позива је однос интензитета највећег сигнала подељен збиром два највећа сигнала. Читања су прошла овај филтер ако више од једног основног позива у првих 25 циклуса није имало чедност &лт0.6. Више од 96% читања је прошло овај филтер (Допунски подаци 1). Подаци о секвенци су мапирани у људски референтни геном (хг19) коришћењем Цасава 1.8.1 и софтвера за мапирање Еланд в2е (Иллумина). Прво, *.бцл датотеке су конвертоване у компресоване ФАСТК датотеке, након чега је уследило демултиплексирање одвојених мултиплексираних секвенци које су покренуте по индексу. Појединачна читања су усклађена са људским референтним геномом коришћењем методе вишесеменског и размака. Поравнање више семена функционише тако што се прво семе од 32 базе и узастопно семе посебно поравнају. Поравнање са празнинама проширује свако поравнање кандидата на пуну дужину читања и дозвољава празнине до 10 база. Примењени су следећи критеријуми: (и) читање садржи најмање једно семе које се поклапа са највише два неслагања без празнина и (ии) празнине су дозвољене за цело очитавање, све док исправљају најмање пет неподударања низводно. За свако поравнање кандидата израчунат је резултат вероватноће, који је заснован на вредностима квалитета базног секвенцирања и позицијама неслагања. Резултат поравнања очитавања, који је изражен на Пхред скали, израчунат је из резултата вероватноће поравнања кандидата. Најбоље поравнање за дато очитавање одговарало је усклађивању кандидата са највећим резултатом вероватноће и задржано је ако је резултат поравнања премашио праг. Читана поравнања су додатно филтрирана ако су садржавала суседне догађаје уметања/брисања или ако су биле присутне аномалије упареног краја. Очитавања која су мапирана на две или више локација нису укључена у даље анализе. За библиотеке упареног краја екома, израчуната су најбоља поравнања за сваку половину пара и упоређена да би се пронашла најбоља поравнања за упарено читање према процењеној дистрибуцији величине уметака. У случају РНА-сек библиотека, извршено је додатно поравнање према спојевима спојева и загађивачима (митохондријална и рибосомална РНК). Пресликавање секвенци на загађиваче је одбачено, док је јединствено мапирање очитавања на спојеве спојева задржано и конвертовано назад у координате генома.

    Квантификација експресије транскрипта

    Користили смо две методе да проценимо и упоредимо експресију транскрипта између испитаника. У првој методи, софтвер Цасава 1.8.1 (Иллумина) је коришћен за процену нивоа експресије гена или ексона (РНА-сек) мерених као очитавање по килобазама модела егзона на милион мапираних читања користећи следећу формулу: ген или егзон РПКМ= 10 9 × Цб/Нб × Л, где је Цб број база које падају на обележје, Нб је укупан број пресликаних база и Л је дужина обележја у основним паровима. Такође смо користили ДЕСек пакет 59, који је заснован на сировим бројевима, да упоредимо експресију транскрипта. Ниво експресије транскрипта није узет у обзир у СНП позивању.

    Идентификација СНП-ова и бројање читања

    Варијанта позива, индел детекција и бројање читања урађени су помоћу софтвера Цасава 1.8.1 (Иллумина). Читања су поново усклађена око индела кандидата да би се побољшао квалитет варијантних позива и сажетака покривености сајта. Појединачни основни позиви су даље филтрирани на основу густине неслагања или двосмислености, а преостали основни позиви су коришћени за предвиђање генотипова локације. Цасава је такође коришћен за добијање свих СНП-ова уочених између референтног генома (ГРЦх37.п2, НЦБИ) и секвенцираних транскриптома и егзома наших субјеката. СНП-ови и индел позиви у близини центромера и унутар региона са великим бројем копија су уклоњени. За сваки позвани СНП, Цасава израчунава највероватнији генотип (мак_гт) и а П-вредност која изражава вероватноћу највероватнијег генотипа (Кмак_гт). Тхе П-вредност је оцена квалитета која мери вероватноћу да је база погрешно позвана и да је коришћена за филтрирање СНП-ова ниског квалитета (погледајте „У силикону-генерисани протеоми и одељак персонализованих база података). Задржани су СНП-ови секвенцирани са најмање 5 × покривености. Ове информације (.ткт датотеке) су учитане у интерни Питхон модул, пиГено 19, за даљу обраду.

    У силикону-генерисани протеоми и персонализоване базе података

    Користили смо различите интерне скрипте које се ослањају на пиГено за проналажење, рашчлањивање и обраду података. Интегрисали смо податке секвенцирања егзома у податке секвенцирања транскриптома. За сваки СНП пронађен секвенцирањем транскриптома, задржали смо највероватнији генотип ако П-вредност (Кмак_гт) је била ≥20, што одговара стопи грешке од 1% (виша оцена квалитета указује на мању вероватноћу грешке). Ако је СНП такође био покривен секвенцирањем егзома, укључили смо не само највероватнији генотип који је пронашао РНА-сек, већ и све базе које су заједничке са секвенцирањем егзома. Такође смо укључили генотипове СНП-а који су пронађени само секвенцирањем егзома и који су имали а П-вредност ≥20. Коначно, укључили смо све базе СНП-ова које се називају секвенцирањем транскриптома и егзома, без обзира на П-вредност. Задржани генотипови свих СНП-а су затим интегрисани у референтни геном (ГРЦх37.п2, фаста фајл) на њиховој десној позицији да би се конструисао „персонализовани геном“ за сваког субјекта. Ови персонализовани геноми су коришћени за екстракцију свих транскрипата пријављених у сету гена Енсембл (ГРЦх37.65, гтф фајл) за све хромозоме осим за И хромозом и митохондријалну ДНК. Ови транскрипти су тада ин силицо преведене у протеине користећи оквир читања специфициран у Енсембл генском скупу. С обзиром да велика већина МИП-ова има максималну дужину од 11 аминокиселина, успоставили смо прозор од 21 аминокиселине усредсређен на сваки хетерозиготни нс-СНП. Када је прозор садржавао више од једног СНП-а, преводили смо ин силицо све могуће комбинације и укључио их у персонализоване базе података (слика 1б). Коначно, саставили смо све производе за превођење у две базе података брзих датотека (по једну за сваког субјекта) које су коришћене за идентификацију МИП-ова (погледајте одељак „МС/МС секвенцирање и груписање пептида“). Обе добијене базе података имале су сличну величину, у смислу броја резидуа (36.007.210 у субјекту 1 и 36.010.026 у субјекту 2) и броју уноса (95.806 у субјекту 1 и 95.687 у субјекту 2). Штавише, њихова величина је упоредива са величином референтне УниПрот базе података која се користи (43,384,120 остатака и 75,530 уноса).

    МС/МС секвенцирање и груписање пептида

    На основу наших претходних студија о репродуктивности МС података у техничким и биолошким репликама 8 , припремили смо четири биолошке реплике од 5 × 10 8 експоненцијално растућих Б-ЛЦЛ од сваког субјекта. МИП-ови су пуштени благим третманом киселином, десаљени на ХЛБ кертриџу од 30 цц, филтрирани са мембраном за одсецање од 3.000 Да и раздвојени на седам фракција хроматографијом измене катјона коришћењем офф-лине 1.100 серије бинарног ЛЦ система (Агилент Тецхнологиес) као што је претходно описано. 8,9 . Фракције које садрже МИП су ресуспендоване у 0,2% мравље киселине и анализиране помоћу ЛЦ–МС/МС помоћу Ексигент ЛЦ система спојеног на ЛТК-Орбитрап ЕЛИТЕ масени спектрометар (Тхермо Елецтрон). Пептиди су одвојени на прилагођеном Ц18 колона обрнуте фазе (150 μм и.д. Кс 100 мм, Јупитер Протео 4 μм, Пхеноменек) користећи брзину протока од 600 нл мин-1 и линеарни градијент од 3–60% воденог АЦН (0,2% мравље киселине) за 120 мин. Пуни масени спектри су добијени помоћу Орбитрап анализатора који је радио при резолуцији од 30.000 (на м/з 400). Калибрација масе користила је унутрашњу закључану масу (протонирана (Си (ЦХ3)2о))6 м/з 445.120029) и тачност мерења масе пептида била је унутар 5 п.п.м. МС/МС спектри су добијени при колизионој дисоцијацији веће енергије са нормализованом енергијом судара од 35%. До шест јона прекурсора је акумулирано до циљне вредности од 50.000 са максималним временом убризгавања од 300 мс и фрагменти јони су пребачени у анализатор Орбитрап који ради при резолуцији од 15.000 на м/з 400.

    Масени спектри су анализирани коришћењем Ксцалибур софтвера, а листе пикова су генерисане коришћењем Масцот дестиллер Версион 2.3.2 (хттп://ввв.матриксциенце.цом). Претраживање базе података обављено је према бази података УниПрот Хуман (43,384,120 остатака, објављено 2. априла 2013), база података специфичних за субјекте 1 и 2 (34,976,580 и 34,990,381 остатака, респективно, види „у силикону-одељак генерисаних протеома и персонализованих база података) и базе података ЕБВ_Б95.8 (40.946 остатака), користећи Масцот (верзија 2.3.2, Матрик Сциенце). Да бисмо израчунали ФДР, извршили смо претрагу маскота у односу на спојену базу података о циљевима/мамцима користећи људске УниПрот или базе података специфичних за предмет. Мета представља предњу секвенцу, а мамац њене реверзне парњаке. Толеранције масе за прекурсоре и фрагменте јона су постављене на 5 п.п.м. и 0,02 Да, респективно. Претрага је вршена без ензимске специфичности са варијабилним модификацијама за цистенилацију, фосфорилацију (Сер, Тхр и Тир), оксидацију (Мет) и деамидацију (Асн, Глн). Датотеке необрађених података су конвертоване у пептидне мапе које садрже м/з вредности, стање наелектрисања, време задржавања и интензитет за све детектоване јоне изнад прага од 8.000 бројева коришћењем интерног софтвера (Протеопрофиле) 9 . Мапе пептида које одговарају свим идентификованим пептидним јонима су поређане заједно како би се ускладила њихова заступљеност у скуповима узорака и репликама. МС/МС спектри МИП-ова откривених искључиво код једног субјекта валидирани су ручно.

    Идентификација МИП-ова

    Идентификација МИП-а је заснована на четири критеријума: (и) канонска дужина МИП-а од 8-11 аминокиселина, (ии) предвиђени афинитет МХЦ-везивања дат НетМХЦцонс алгоритмом 43, (иии) Масцот резултат, који одражава квалитет додељивање пептида, и (ив) ФДР, који указује на пропорцију варалице (лажне) у односу на циљну (истиниту) идентификацију. Прво смо проценили корелацију између ових параметара. Пронашли смо јаку корелацију (0,88) између вредности ФДР &лт60% и вредности афинитета за везивање МХЦ ≤1,750 нМ за све 8-11-мере (додатна слика 1). Заиста, удео пептида са афинитетом везивања за МХЦ ≤1,750 нМ расте како се ФДР смањује (допунска слика 2а). Ова корелација је била специфична за МИП, пошто није пронађена корелација за насумичне пептиде (додатне слике 1 и 2б). Ови резултати показују да ниске вредности ФДР дозвољавају обогаћивање пептида високог афинитета (афинитет везивања за МХЦ ≤1,750 нМ), а тиме и МИП-ова. Међутим, недостатак употребе строгог ниског ФДР-а као главног филтера је то што се укупан број идентификација значајно смањује (додатна слика 2а), као и удео малих пептида (8-9-мер) идентификованих (додатна слика 2ц). ). Сходно томе, релативни удео пептида пронађених у мети у односу на мамце смањио се са повећањем дужине пептида 60, у складу са идејом да кратки пептиди као што су МИП генерално захтевају више Масцот резултате да би постигли низак ФДР. Штавише, јони тандемских МС фрагмента МИП-а су мање предвидљиви и равномерно распоређени од оних триптичних пептида што додатно компликује њихово додељивање претраживачима база података као што је Масцот. Да бисмо поставили прикладнији праг Масцот скора за високопропусну МИП детекцију, проценили смо однос између Масцот резултата и предвиђеног афинитета везивања за све 8-11-мер пептиде идентификоване са ФДР≤5% (слика 1ц). Then, we calculated the number of MIPs identified with all combinations of Mascot score and predicted binding affinity. We found that the highest number of MIP identifications was obtained by combining a Mascot score ≥21 and an MHC-binding affinity ≤1,250 nM at a 5% FDR (Fig. 1c).

    MS/MS validation of a subset of MIPs

    Polymorphic and non-polymorphic MIPs exclusively detected in one of the two subjects (Table 1 and Supplementary Data 3) were synthesized by Bio Basic Inc. and JPT peptide technologies. Subsequently, 500 fmols of each peptide were injected in the LTQ-Orbitrap ELITE mass spectrometer using the same parameters as those used to analyse the biological samples.

    Ns-SNPs found in MIP-coding regions in the population

    For each MIP, we retrieved the coordinates of the peptide-coding DNA region. These coordinates were then used to extract both the corresponding reference sequence and all non-synonymous validated SNPs reported by dbSNP (Build 137) for that region. For MIPs deriving from multiple source regions, the number of ns-SNPs reported corresponds to that of the MIP source region possessing the maximal number of ns-SNPs.

    Random peptide sampling

    We constructed a genome-wide index. To do so, we indexed every coding sequences reported in the Ensembl gene set (GRCh37.65), except for those located in the Y chromosome or the mitochondrial DNA, into a segment tree. Next, we kept only the first layer of the tree and removed the gaps between the indexed regions, effectively transforming the tree into a coding DNA sequence list, which was used for the random peptide sampling. For each of the 4,468 identified peptides, a random peptide of the same length and that fell entirely into a single coding DNA sequence, was chosen. Next, for each randomly selected peptide, we counted the number of ns-SNPs reported in dbSNP137 (validated and missense). The distribution was obtained after repeating the sampling of 4,468 random peptides 10,000 times.

    PCR and Sanger sequencing

    PCR amplification of the MiHA-encoding DNA and cDNA regions was performed with the Phusion High-Fidelity PCR kit (New England BioLabs). For each candidate, 1–2 pairs of sequencing primers were designed manually and with the PrimerQuest software (Integrated DNA Technologies, Supplementary Table 1), and were synthesized by Sigma. PCR products were purified with the PureLink Quick Gel Extraction Kit (Invitrogen). Sanger sequencing was performed on candidate DNA and cDNA at the IRIC’s Genomics Platform. Sequencing results were visualized with the Sequencher software v4.7 (Gene Codes Corporation).

    Cytotoxicity assays

    DCs were generated from frozen PBMCs, as previously described 61 . To generate cytotoxic T cells, autologous DCs were irradiated (4,000 cGy), loaded with 2 μM of peptide and cultured for 7 days with freshly thawed autologous PBMCs at a DC:T-cell ratio of 1:10. From day 7, responder T cells were restimulated for seven additional days with irradiated autologous B-LCLs pulsed with the same peptide (B-LCL:T-cell ratio 1:5). Expanding T cells were cultured in RPMI 1,640 (Invitrogen) containing 10% human serum (Sigma-Aldrich) and L -glutamine. IL-2 (50 U ml −1 ) was added for the last 5 days of the culture. Cytotoxicity assays were performed as described 9 , with minor modifications. In brief, B-LCLs were labelled with carboxyfluorescein succinimidyl ester (CFSE Invitrogen), extensively washed, irradiated (4,000 cGy) and then used as targets in cytotoxicity assays. Target cells were plated in 96-well U-bottom plates at 5,000 cells per well. Effector cells were added at different effector-to-target ratios in a final volume of 200 μl per well. Plates were centrifuged and incubated for 18–20 h at 37 °C. Flow cytometry analysis was performed using a LSRII cytometer with a high-throughput sampler device (BD Biosciences). The percentage of specific lysis was calculated as follows: [(number of CFSE + cells remaining after incubation with unpulsed target cells−number of CFSE + cells remaining after incubation with peptide-pulsed target cells)/number of CFSE + cells remaining after incubation with unpulsed target cells] × 100.

    Statistical analysis and data visualization

    The two-tailed Student’s т-test was used to identify differentially expressed MIPs and MiHAs that induced cytotoxicity. The two-tailed Mann–Whitney test was used to compare the MHC-binding affinity of MIPs detected exclusively in one subject. Differentially expressed transcripts were identified with the DESeq package that uses a model based on the negative binomial distribution 59 . The Spearman correlation was used to evaluate the relationship between differences in MIP abundance and differences in MIP-coding gene or exon expression. The genomic location of identified MIPs including MiHAs and the RNA-seq and exome sequencing coverage were visualized with the Circos software 62 . The Integrative Genomics Viewer v2.0 (ref. 63) was used to visualize and inspect regions coding MIPs including MiHAs.


    Structural and dynamic features of MHCII molecules during peptide exchange

    MHCII proteins reach the endosomal compartment preloaded with the class-II associated invariant chain peptide (CLIP) where HLA-DM catalyzes the exchange of CLIP for higher affinity antigens. DM-catalyzed peptide exchange determines the fate of immunogenicity of a number of antigens, however, the underlying molecular principles of peptide exchange are not well understood. We could show by a combination of NMR experiments and molecular simulations/Markov state modeling (with the group of Frank Noé, Freie Universität Berlin) how low populated pMHCII conformations dictate the catalyzed and non-catalyzed peptide exchange reactions and we are further interested in the role of how natural polymorphisms and particular antigens affect the proposed mechanistic model. With respect to this, the interference of small molecules, such as known drugs on MHC-peptide presentation and CD4+ T cell response represents an additional MHCII-related research field in our group.


    What is HLA

    The HLA (human leukocyte antigen) is a form of MHC gene complex present in humans. It consists of around 200 genes located close together on chromosome 6. These genes are expressed on all nucleated cells. The main function of the HLA molecules is to present antigens produced inside the cell on the cell surface in order to be recognized by T cells. Therefore, T cells can recognize foreign antigens upon self-antigens, initiating an acquired immune response. On the other hand, the recognition of antigens by T cells as self allows determining histocompatibility. But, the recognition of self-antigens as non-self by the immune system leads to autoimmune diseases.

    Figure 1: Human Chromosome 6

    However, HLA complex is the most polymorphic loci of the human genome. The two main classes of HLA complex are Class I, which contains HLA-A, HLA-B, and HLA-C genes, and Class II, which contains HLA-D genes. The most polymorphic HLA gene is the HLA-B, which has 425 alleles recognized up to date. Likewise, the HLA-DRB1 gene has 289 recognized alleles, and HLA-A gene has 214 recognized genes. The IPD-IMGT/HLA database contains all the reported and named sequences of HLA alleles up to date. According to the basic genetic principles, children inherit HLA alleles from parents.

    Figure 2: MHC Complex Function

    Furthermore, for successful organ transplantation, the HLA alleles of the donor and the recipient have to be matched to each other. The organs with unmatching or non-self HLA alleles will be rejected from the body by the immune system. Therefore, scientists have developed a number of techniques to type HLA alleles in individuals for various purposes, including organ transplantation, paternity tests to determine the percentage of a child, and to identify carriers of certain hereditary diseases such as cancer, diabetes, lupus, etc.


    Дискусија

    MHC proteins are among the most polymorphic in the human genome, with the International Immunogenetics HLA database currently listing the sequences of more than 1,000 HLA-A and 1,500 HLA-B proteins (34). Experimental binding data, however, are lagging far behind and binding peptides have been reported for fewer than 150 proteins (6). As a result, significant computational efforts have been devoted in recent years to the development of peptide binding prediction methods (see refs. 6 and 7 for recent reviews) but their accuracy still depends, to a great extent, on the availability of a fairly large number of experimental measurements, ideally of unrelated peptides, for either the protein itself (6) or some “closely related” proteins (27). Notably, the most accurate predictors rely on convoluted machine-learning algorithms, thus, on the one hand, attesting to the complex nature of MHC-peptide binding, and, on the other hand, presenting no readily interpretable information to help investigate it.

    Here, we have used special purpose molecular modeling simulations to predict, for a given MHC protein, the sequence of thousands of binding peptides, to each of which is associated an atomically detailed structural model and a predicted intermolecular binding energy. We have demonstrated that a rather simple binding model—a PFM—inferred from these simulations agrees well with available experimental binding data. In addition, the accompanying structural models suggest plausible—and testable—mechanistic explanations for the observed binding preferences, and for divergences in binding specificity between closely related proteins. Predictions can be made for proteins without three-dimensional structures and for proteins with little or no experimental binding data. As a result, these predictions are insensitive to heterogeneities in the available peptide binding datasets, making them well-suited to comparisons of peptide binding between different proteins and across the MHC family.

    Our structure-based approach to binding specificity prediction also has significant limitations. The molecular modeling, although state-of-the-art, is still quite crude: The MHC backbone is held fixed throughout the simulations (the side chains near the peptide can rearrange) the force fields were parameterized for monomeric protein structure prediction and design, and likely could be substantially improved for modeling protein–peptide interactions modeling simulations focused exclusively on binding of 9-mer peptides. As a result of these and other limitations, the specificity predictions and related inferences from these modeling simulations are sometimes inaccurate: Anchor-position preferences are mispredicted in some of the homology-model-based binding profiles, and these mispredictions can have a disastrous effect on binding predictions. The fact that self-template binding predictions for these targets are significantly more accurate illustrates the sensitivity of our binding landscapes to the backbone of the template MHC molecule, and suggests that incorporation of MHC backbone flexibility may lead to substantial improvements in accuracy.

    Notwithstanding these significant limitations, we are optimistic that, given the large community of researchers working to improve molecular modeling force fields and sampling methods, the quality of simulation-derived inferences will continually improve. Indeed, an advantage of a large-scale modeling study such as this one, focused on a family of proteins with extensive experimental structural and binding data, is the ability to highlight current limitations in modeling methods and suggest avenues for improvement. As an example, analysis of an initial underprediction of beta-branched amino acids at the second anchor position (П9) revealed a systematic error in our modeling of rotamer preferences at C-terminal positions fixing this error substantially improved binding prediction for MHC proteins with aliphatic preferences at this position. Understanding the apparent bias toward histidine in many of the structure-based PFMs (Fig. S2) may also reveal specific force field deficiencies, whose correction could further improve performance.

    Our structure-based approach is highly complementary to traditional sequence-based predictors. Although the peptide binding prediction accuracies are on the whole lower, particularly for well-characterized proteins, the atomically detailed models allow the investigation of new aspects of MHC-peptide interactions. We have used these models to investigate the extent and mechanistic basis of pairwise correlations between peptide positions, and are currently examining the role of the peptide backbone conformation in determining specificity profiles. Structural modeling may also shed light on T-cell receptor (TCR) recognition of peptide-MHC complexes, given that the peptide’s structure, as well as its sequence, is being recognized doing so could lead to an improved understanding of T-cell alloreactivity and its role in transplant outcome. By explicitly modeling the TCR-peptide-MHC ternary complex, it may be possible to rationalize and perhaps predict patterns of TCR cross-reactivity to different peptide-MHC complexes. Finally, a physicochemical approach is well suited to modeling MHC interactions with peptides that contain nonnatural or posttranslationally modified amino acids, for which limited binding data currently exists. MHC molecules have been shown to specifically recognize and prefer phosphorylated variants of certain peptides, suggesting a mechanism for immune surveillance of cells with deregulated phosphorylation, a hallmark of malignant transformation (35). As molecular modeling methods continue to improve, we expect that structure-based predictions will play an increasingly important role in the investigation of MHC-peptide interactions.


    Материјали и методе

    MHC Loci and Alleles Included in Analyses

    Five key classical human MHC genes (HLA-A, , , -DRB1, и -DQB1) were analyzed in this study. Alleles at each locus were defined at second field (four-digit) resolution and only alleles annotated as “заједнички” in the CWD catalogue ( Mack et al. 2013) were included in the analyses. The allele annotation “заједнички” in the CWD catalogue does not specifically indicate a high population frequency but more the extent and quality of documentation available for the given allele. This category indicates that there is universal agreement about the identity of this allele because it has been observed in multiple populations and there is sufficient data for robust frequency estimation ( Mack et al. 2013). These criteria resulted in the analysis of 63 alleles for HLA-A, 123 for HLA-B, 40 for HLA-C, 73 for HLA-DRB1, and 21 for HLA-DQB1 ( supplementary table S1 , Supplementary Material online).

    Pathogen Proteins

    Binding prediction analyses were performed on a data set of representative human pathogen proteins. Pathogens were selected from the Gideon database ( Berger 2005) based on the following criteria: a global distribution, a potential for high mortality and/or morbidity, and a significant impact over the course of human history ( Wolfe et al. 2007). The rational for these criteria was that such pathogens are likely to have contributed significantly to human evolution in general and to the evolution of MHC genes in particular. Wolfe et al. (2007) provided a comprehensive list of infectious diseases with the greatest evolutionary and historical significance. From that list, we have taken the majority of pathogens in our data set. However, to assess mortality and morbidity, epidemiological data were also collected from two published reports: the Annual report of the European Centre for Disease Prevention and Control ( European Centre for Disease Prevention and Control 2013) and the WHO Global Health Estimates ( World Health Organization 2016). First, pathogens with the highest current mortality were included. However, not just mortality, but also nonfatal morbidity can be historically and evolutionarily significant. Indeed, morbid pathogens can reduce the fitness of their host in different ways (e.g., by increasing the sterility), thus pathogens considered morbid were also included. Finally, eradicated pathogens known to be important in human history were taken into account. Here, we used protein sequences of present day pathogens to explore signatures of historical selection, even though ancient pathogen strains might have differed slightly in their antigen repertoires. While we do not expect an effect on the general patterns observed here, it might be interesting to explore subtle differences in future work. We further aimed for a balanced representation of different groups of pathogens (i.e., viruses, bacteria, parasites). Based on these criteria, we identified 27 pathogens (10 viruses, 10 bacteria, 7 macroparasites) that were classified into three groups: extracellular, intracellular, and intra-extracellular, based on their primary environment in the human body ( supplementary table S2 , Supplementary Material online). Then, for the selected pathogens, amino acid sequences of 232 pathogen proteins (8.5 ± 5.8 per pathogen) known to be antigenic ( Vita et al. 2015) and/or likely exposed to the host immune system (mostly secreted and surface proteins) ( Rana et al. 2016) were obtained from GenBank (for accession numbers see supplementary table S2 , Supplementary Material online).

    Peptide Binding Prediction Algorithms

    Computational antigen-binding prediction algorithms for MHC molecules were used to determine pathogen peptides potentially bound by the MHC alleles under investigation. Binding prediction was computed for all alleles at each of the five human MHC genes. Furthermore, as prediction analysis are likely to be more accurate for the core of the binding groove, which is known to be nine residues long and contributes the most to the recognition of the antigens, binding prediction was performed considering all possible 9mer pathogen-derived peptides. The data set of 232 representative human pathogen proteins described above resulted in a total of 118,097 unique pathogen-derived 9mer peptides that were analyzed using two different algorithms: NetMHCpan (v2.8) ( Hoof et al. 2009) for the alleles at class I loci (HLA-A, , ) and NetMHCIIpan (v3.0) ( Karosiene et al. 2013) for the alleles at class II loci (HLA-DRB1, -DQB1). For alleles at the two class II loci (HLA-DRB1 и HLA-DQB1), we repeated the binding prediction analysis considering all possible 15mer pathogen-derived peptides. The predicted binding affinity between pathogen peptides and MHC molecule variants (defined in nanomolar IC50, i.e., half maximal inhibitory concentration) are ranked by the respective software, based on comparison with a large pool of naturally occurring peptides, and a rank percentage score (%rank) is assigned to each peptide. To define “bound” peptides, we used the default %rank threshold of 2, which includes weak and strong binders. All analysis were also repeated using another established binding threshold (%rank of 0.5) which includes only strong binders. Алел HLA-A*30:04 was predicted to bind about four times as many peptides as the other 62 HLA-A alleles ( supplementary fig. S2 , Supplementary Material online) and was thus excluded as an outlier from subsequent analysis in order to prevent distortion of results. The binding prediction analyses were performed first on the complete data set of pathogen proteins (н = 232), and then considering proteins within three groups separately: extracellular (н = 58), intracellular (н = 100), and intra-extracellular (н = 75).

    Sequence Divergence

    Allele divergence was computed on the same set of alleles used in the binding prediction analysis reported in supplementary table S1 , Supplementary Material online. Protein sequences of HLA alleles were obtained from IMGT/HLA database ( Robinson et al. 2015). Exons forming the variable region in the peptide binding groove (i.e., exon 2 and 3 for class I alleles and exon 2 for class II alleles) were selected following the annotation obtained from Ensemble database ( Aken et al. 2016). Amino-acid sequence alignments were performed using MUSCLE ( Edgar 2004), and sites containing alignment gaps at the beginning or the end of sequences were removed. Genetic distances between alleles for all possible allele pairs at each locus were determined removing missing sites in pairwise comparisons and using five different pairwise parameters of allele divergence: p-distance ( Henikoff 1996), DayHoff ( Dayhoff et al. 1978), JTT ( Jones et al. 1992), Grantham ( Grantham 1974), and Sandberg ( Sandberg et al. 1998). Pairwise amino acid p-distance, DayHoff and JTT distances were calculated in MEGA 7 ( Kumar et al. 2016). Grantham and Sandberg sequence distances were calculated using a custom Perl script that required two input files: a FASTA file with aligned HLA alleles and a specific amino acid distance matrix. Grantham amino acid distance matrix was constructed from Grantham (1974). Sandberg amino acid distance matrix was calculated based on Euclidian distances between all 20 amino acids, using the Euclidian distance method in R version 3.4.1 ( R Development Core Team 2017) according to the five physicochemical z-descriptors described in Sandberg et al. (1998): z1 (hydorphobicity), z2 (steric bulk), z3 (polarity), z4, and z5 (electronic effects). Our perl script (together with the Grantham amino acid similarity matrix) is freely available for download from SourceForge (https://granthamdist.sourceforge.io/). It can be used for calculation of pairwise Grantham divergence for any set of aligned MHC alleles of any species.

    Allele Frequencies

    Information about HLA allele frequencies in different human populations where obtained from the Allele Frequency Net Database (AFND) ( Gonzalez-Galarza et al. 2015). We considered only populations of European ancestry with large sample sizes and for which frequencies of alleles at second field resolution were available: USA NMDP European Caucasian (Н = 1,242,890), German (Н= 39,689), and Polish (Н= 20,653) populations. Furthermore, as with the analyses above, we focused on alleles defined as “заједнички” in the CWD catalogue, which led to exclusion of some alleles with a frequency <1%. For each population, we first determined the most common alleles (allele frequency >= 5%) and for all the alleles under investigation in a given population, we calculated the average Grantham pairwise divergence to the most common alleles, considering all possible heterozygote genotypes.

    Статистичке анализе

    Correlation Tests

    The Shapiro–Francia test was performed for all the parameters under investigation (i.e., measures of genetic distance, combined number of bound peptides and average Grantham pairwise amino acid divergence to the most common alleles) to explore samples’ distribution. As parameters were not normally distributed and tied ranks could be detected within our data, the nonparametric Kendall correlation was used to test for associations between parameters. When testing the association between sequence divergence and functional divergence, all П values were adjusted for multiple testing using a sequential Bonferroni correction across the number of alleles tested at each locus as well as across the number of different loci tested. When testing the association between the allele’s average divergence and its population frequency, П values were corrected across the number of populations tested. Correlations were performed in R version 3.4.1 ( R Development Core Team 2017).

    Permutation Tests

    To test for significant differences in the strength of correlation between allele divergence and the binding to pathogen group-specific peptides, we performed permutation tests. For this analysis, the set of 232 representative human pathogen proteins were randomly shuffled among the three groups of pathogens, maintaining the same number of proteins as observed in the original data (extracellular н = 57, intracellular н = 100 and intra-extracellular н = 75). For each group of pathogens, permuted proteins were used to perform binding prediction analyses and compute correlation values between genetic distances and combined number of bound peptides counted for all possible allele pairs for the five HLA genes (analogous to original analysis). Each permutation was run 1,000 times, and the difference between correlation coefficients for intracellular and extracellular proteins for the five HLA genes was recorded. If there was no significant bias for intracellular or extracellular pathogens, on average this difference should be zero. The distribution of permuted differences was then used to infer the significance of our initial observations using a one-tailed test with a 0.05 cut-off.

    Artificial Proteins

    Four sets of artificial proteins were created and analyzed to test for potential differentiation of the amino acid composition (AAC) among the three groups of pathogens. The first set of artificial proteins was created by randomly shuffling amino acids within each pathogen protein by using the Shuffle Protein program ( Stothard 2000), thus maintaining the AAC of each protein intact. Three more sets of artificial proteins were created in R version 3.4.1 ( R Development Core Team 2017) by assembling random amino acids while maintaining several features as they occurred within each of the three pathogen groups used in the initial test (i.e., the number of proteins, the average length of sequences, the SD of the length and the minimum and maximum length). The second set of artificial proteins was created from random amino acids but maintaining the AAC as it occurred within each group of pathogen proteins. The third set of artificial proteins was created from random amino acids, while maintaining amino acid frequencies as they occur in the whole data set of pathogen proteins. Finally, amino acid composition computed from UniProtKB/Swiss-Prot data bank ( Gasteiger et al. 2005 Boutet et al. 2016) was used to create the fourth set of artificial proteins.

    Multivariate Analysis of Variance

    Multidimensional scaling is a multivariate statistical technique that can be used to display and summarize a high-dimensional data set in 2D graphical form. The technique was here applied to explore associations between subsets of pathogen proteins and amino acids. A nonparametric, permutational multivariate analysis of variance (PerMANOVA) was used to test for differences in the amino acid composition between pathogen groups. The PerMANOVA, based on a Bray–Curtis dissimilarity distance matrix, was run with 999 permutations to tests for statistical significance. Both procedures are implemented in the vegan package ( Oksanen et al. 2012) in R version 3.4.1 ( R Development Core Team 2017).

    Comparison of Average Amino Acid Compositions

    Comparison of mean amino acid compositions between the two groups of pathogen proteins (extracellular and intracellular) were performed using one-way analysis of variance all П values were adjusted for multiple testing using Bonferroni correction across the number of amino acids tested.


    Погледајте видео: Za roditelje - Proteini i da li ima opasnosti kod upotrebe? (Август 2022).