Информације

ХапМап 3 фазни хаплотип

ХапМап 3 фазни хаплотип



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Морам да добијем ХапМап 3 фазне податке о хаплотиповима. Где могу да га нађем?

Заправо су ми потребни ови подаци за одређене популације и одређени ген. Који је најлакши начин да пронађете податке?

Надам се да ћу наћи одговор. Хвала вам!


Ево ФТП адресе. Унутра ћете пронаћи фасциклу пхасе_3. За остала питања погледајте ову страницу (линк до ХелпДеска је на дну странице).


Међународни пројекат ХапМап

Разјашњење целокупног људског генома омогућило је наш тренутни напор да развијемо мапу хаплотипа људског генома. Мапа хаплотипа или "ХапМап" је алатка која омогућава истраживачима да пронађу гене и генетске варијације које утичу на здравље и болест.

ДНК секвенца било које две особе је 99,5 одсто идентична. Варијације, међутим, могу у великој мери утицати на ризик од болести код појединца. Места у ДНК секвенци где се појединци разликују по једној бази ДНК називају се полиморфизми једног нуклеотида (СНП). Скупови оближњих СНП-ова на истом хромозому се наслеђују у блоковима. Овај образац СНП-а на блоку је хаплотип. Блокови могу садржати велики број СНП-ова, али неколико СНП-ова је довољно да јединствено идентификују хаплотипове у блоку. ХапМап је мапа ових блокова хаплотипова, а специфични СНП-ови који идентификују хаплотипове називају се СНП-ови ознака.

ХапМап је вредан смањењем броја СНП-ова потребних за испитивање целокупног генома ради повезивања са фенотипом са 10 милиона СНП-а који постоје на отприлике 500.000 СНП-ова. Ово чини приступ скенирања генома за проналажење региона са генима који утичу на болести много ефикаснијим и свеобухватнијим, јер се труд не губи на куцање више СНП-а него што је потребно и могу се укључити сви региони генома.

Поред употребе у проучавању генетских асоцијација са болешћу, ХапМап је моћан ресурс за проучавање генетских фактора који доприносе варијацијама у одговору на факторе животне средине, у осетљивости на инфекцију, као и у ефикасности и штетним одговорима на лекове и вакцине. Све такве студије су засноване на очекивању да постоје веће фреквенције генетских компоненти које доприносе у групи људи са болешћу или одређеним одговором на лек, вакцину, патоген или фактор животне средине него у групи сличних људи без болести. или одговор. Користећи само ознаку СНП, истраживачи су у стању да пронађу регионе хромозома који имају различите дистрибуције хаплотипова у две групе људи, оних са болешћу или одговором и оних без. Сваки регион се затим детаљније проучава како би се открило које варијанте у којима гени у региону доприносе болести или одговору, што доводи до ефикаснијих интервенција. Ово такође омогућава развој тестова за предвиђање који лекови или вакцине би били најефикаснији код појединаца са одређеним генотиповима за гене који утичу на метаболизам лекова.

Интернатионал ХапМап информације, пројектни догађаји и извештаји

ХапМап Информатион
    [хапмап.нцби.нлм.них.гов]
    Веб сајт за партнерство ХапМап пројекта научника и финансијских агенција из Канаде, Кине, Јапана, Нигерије, Уједињеног Краљевства и Сједињених Држава
    [хапмап.нцби.нлм.них.гов]

  • Саопштење за вести пројекта ХапМап: Међународни конзорцијум покреће пројекат мапирања генетичких варијација 29. октобар 2002.
Догађаји

    Веб пренос за туторијал од 27. октобра 2005: Како користити ХапМап податке.
      [хапмап.нцби.нлм.них.гов]
      Материјали подршке за двочасовни водич о ефикасном коришћењу ХапМапа. Укључује увод у ХапМап, коришћење ХапМап-а за студије асоцијација, одабир СНП ознака, побољшање анализа коришћењем чипова са унапред одабраним СНП-овима и водич за ХапМап веб странице.
    Извештаји са састанака

    Међународни ХапМап пројектни радови

    Међународни ХапМап консторцијум. Мапа друге генерације људских хаплотипа са преко 3,1 милиона СНП-ова. Природа, 449:851-862. 2007. [пун текст]

    Међународни ХапМап консторцијум. Додатне информације за: другу генерацију људске мапе хаплотипа од преко 3,1 милиона СНП-ова. Природа, 449:1-38. 2007. [пун текст]

    Детекција и карактеризација позитивне селекције у људској популацији у целом геному. Природа, 449:913-919. 2007. [пун текст]

    Међународни ХапМап конзорцијум. Мапа хаплотипа људског генома. Природа, 437: 1229-1320. 2005. [пун текст]

    Међународни ХапМап конзорцијум. Међународни пројекат ХапМап. Природа, 426: 789-796. 2003. [пун текст]

    Међународни ХапМап конзорцијум. Интегрисање етике и науке у међународни ХапМап пројекат. Природна генетика, 5: 467-475. 2004. [пун текст]

    Тхориссон, Г.А., Смитх А.В., Крисхнан Л., анд Стеин, Л.Д. Интернет страница Међународног пројекта ХапМап. Геноме Ресеарцх, 15:1592-1593. 2005. [ПубМед] [Истраживање генома]

    Интернатионал ХапМап Пројецт Релатед Паперс

    Цларк, А.Г., Хубисз, М.Ј., Бустаманте Ц.Д., Виллиамсон, С.Х., и Ниелсен, Р. Пристрасност утврђивања у студијама полиморфизма на нивоу људског генома. Геноме Ресеарцх, 15:1496-1502. 2005. [ПубМед]

    Голдстеин, ДБ, и Цаваллери, Г.Л. Геномика: Разумевање људске разноликости. Природа, 437:1241-1242. 2005. [пун текст] [натуре.цом]

    Хиндс, Д.А., Стуве, Л.Л., Нилсен, Г.Б., Халперин, Е., Ескин, Е., Баллингер, Д.Г., Фразер, К.А., и Цок, Д.Р. Целокупни обрасци генома уобичајене варијације ДНК у три људске популације. Наука, 307:1072-1079. 2005. [ПубМед]

    Миерс, С., Боттоло, Л., Фрееман, Ц., МцВеан, Г., анд Доннелли, П. Мапа фине скале стопа рекомбинације и жаришта у људском геному. Наука, 310:321-324. 2005. [ПубМед]


    Броад Институте

    Ово је нацрт издања 1 за генотипизацију СНП-а у целом геному и циљано секвенцирање у узорцима ДНК из различитих људских популација (понекад се називају узорци „ХапМап 3“).

    Ово издање садржи следеће податке:

    • Подаци о СНП генотипу генерисани из 1115 узорака, прикупљених коришћењем две платформе: Иллумина Хуман1М (од стране Веллцоме Труст Сангер института) и Аффиметрик СНП 6.0 (од Института Броад). Подаци са две платформе су спојени за ово издање.
    • Подаци о поновном секвенцирању заснованом на ПЦР-у (од стране Баилор Цоллеге оф Медицине Центра за секвенцирање људског генома) у десет региона од 100 кб (који се заједно називају „ЕНЦОДЕ 3“) у 712 узорака.

    Пошто је ово нацрт издања, молимо вас да редовно проверавате овај сајт за ажурирања и нова издања.

    Институције за производњу података

    Агенције за финансирање

    ХапМап 3 узорци

    Колекција узорака ХапМап 3 обухвата 1.301 узорак (укључујући оригиналних 270 узорака коришћених у Фази И и ИИ Међународног ХапМап пројекта) из 11 популација, наведених у наставку абецедним редом према њиховим ознакама од 3 слова. За више информација о овим узорцима кликните овде.

    етикета узорак популације број узорака
    АСВ Афричко порекло на југозападу САД 90
    ЦЕУ Становници Јуте са северним и западноевропским пореклом из ЦЕПХ колекције 180
    ЦХБ Хан Кинези у Пекингу, Кина 90
    ЦХД Кинези у Метрополитан Денверу, Колорадо 100
    ГИХ Индијанци Гуџарати у Хјустону, Тексас 100
    ЈПТ Јапанци у Токију, Јапан 91
    ЛВК Лухиа у Вебуиеу, Кенија 100
    МЕКС Мексичко порекло у Лос Анђелесу, Калифорнија 90
    МКК Масаи у Кињави, Кенија 180
    ТСИ Тоскани у Италији 100
    ИРИ Јоруба у Ибадану, Нигерија 180

    ЕНЦОДЕ 3 Регионс

    Пет од десет ЕНЦОДЕ 3 региона се преклапају са ХапМап-ЕНЦОДЕ регионима, а осталих пет су региони изабрани насумично из ЕНЦОДЕ циљних региона (искључујући 10 ХапМап-ЕНЦОДЕ региона). Сви ЕНЦОДЕ 3 региони су величине 100 кб и центрирани су унутар сваког одговарајућег ЕНЦОДЕ региона. Више о пројекту ЕНЦОДЕ прочитајте овде.

    регион хромозома координате (НЦБИ буилд 36) статус
    ЕНм010 7 27,124,046-27,224,045 ХапМап-ЕНЦОДЕ
    ЕНр321 8 119,082,221-119,182,220 ХапМап-ЕНЦОДЕ
    ЕНр232 9 130,925,123-131,025,122 ХапМап-ЕНЦОДЕ
    ЕНр123 12 38,826,477-38,926,476 ХапМап-ЕНЦОДЕ
    ЕНр213 18 23,919,232-24,019,231 ХапМап-ЕНЦОДЕ
    ЕНр331 2 220,185,590-220,285,589 Нова
    ЕНр221 5 56,071,007-56,171,006 Нова
    ЕНр233 15 41,720,089-41,820,088 Нова
    ЕНр313 16 61,033,950-61,133,949 Нова
    ЕНр133 21 39,444,467-39,544,466 Нова

    Садржај података овог издања

    етикета број узорака број КЦ+ СНП-ова број полиморфних КЦ+ СНП-ова
    АСВ 71 1632186 1536247
    ЦЕУ 162 1634020 1403896
    ЦХБ 82 1637672 1311113
    ЦХД 70 1619203 1270600
    ГИХ 83 1631060 1391578
    ЈПТ 82 1637610 1272736
    ЛВК 83 1631688 1507520
    МЕКС 71 1614892 1430334
    МКК 171 1621427 1525239
    ТСИ 77 1629957 1393925
    ИРИ 163 1634666 1484416
    консензус 1115 1525445 1490422

    етикета број узорака
    АСВ 55
    ЦЕУ 119
    ЦХБ 90
    ЦХД 30
    ГИХ 60
    ЈПТ 91
    ЛВК 60
    МЕКС 27
    МКК 0
    ТСИ 60
    ИРИ 120
    укупно 712

    Контрола квалитета за ово издање

    Подударност генотипизације између две платформе била је 0,9931 (израчуната преко 249889 СНП-ова који се преклапају). Подаци са две платформе су спојени помоћу ПЛИНК-а (--мерге-моде 1), задржавајући само позиве генотипова ако постоји консензус између позива генотипова који не недостају (то јест, спојени генотип је подешен да недостаје ако две платформе дају различите, не -пропуштени позиви).

    Контрола квалитета на индивидуалном нивоу обављена је одвојено од стране две локације. У овом издању су задржане само особе са подацима о генотипу на обе платформе. Следећи критеријуми су коришћени за задржавање СНП-ова у КЦ+ скуповима података:

    • Харди-Веинберг п&гт0,000001 (по популацији)
    • нестанак &лт0,05 (по популацији)
    • &лт3 Менделове грешке (по популацији се односи само на ИРИ, ЦЕУ, АСВ, МЕКС, МКК)
    • СНП мора имати рсИД и мапу на јединствену геномску локацију

    Скуп података „консензуса“ садржи податке за 1115 појединаца (558 мушкараца, 557 жена, 924 оснивача и 191 неоснивача), задржавајући само СНП-ове који су прошли КЦ у свим популацијама (укупна стопа позива је 0,998). „Консензусни|полиморфни“ скуп података има уклоњена 35023 мономорфна СНП-а (преко целог скупа података).

    У свим генотипским фајловима, алели су изражени као да се налазе на (+/фвд) ланцу НЦБИ буилд 36.

    Позиви варијанти засновани на секвенци су генерисани постављањем плочица са ПЦР сетовима прајмера распоређених на удаљености од приближно 800 база у оквиру ЕНЦОДЕ 3 региона. Након филтрирања читања ниског квалитета, подаци су анализирани помоћу СНП детектора верзије 3, за откривање полиморфног места и позивање индивидуалног генотипа. Затим су примењени различити КЦ филтери. Конкретно, филтрирали смо ПЦР ампликоне са превише СНП-ова и СНП-ове са нескладним позивима алела у вишеструким ампликонима. Такође смо филтрирали СНП-ове са малом потпуношћу у узорцима, или са превише конфликтних позива генотипова у два различита низа.

    У КЦ+ скупу података, филтрирали смо узорке са малом потпуношћу и филтрирали СНП-ове са ниском стопом позива у свакој популацији (&лт80%), а не у ХВЕ (п&лт0,001). У скупу података КЦ+, укупна стопа лажних позитивних резултата је

    3,2%, на основу ограниченог броја тестова валидације.

    Упозорења у овом издању

    • У овом издању недостају Иллумина СНП-ови који су А/Т или Ц/Г због проблема са насуканошћу.
    • У овом издању недостају Иллумина СНП-ови који су митохондријски (пошто немају рсИД-ове).
    • Можда постоји неколико преосталих СНП-ова (Иллумина) у овом издању који су још увек на (-/рев) нити НЦБИ верзије 36, али они нису А/Т или Ц/Г СНП-ови, тако да је лако идентификовати низводно.

    Све варијанте позива још нису потврђене: процењујемо да тренутно постоји стопа лажно позитивних

    12% међу свим позивима, са нешто вишом стопом (

    14%) ако се узме у обзир само једночлана особа. Додатна валидација је у току. ПЦР секвенцирање додатних узорака (МКК) је такође у току.

    Како преузети ово издање

      - архив података КЦ+ полиморфног генотипа по популацији, форматиран као ПЛИНК ПЕД и МАП датотеке [833 МБ] - ПЕД датотека података КЦ+ полиморфног генотипа (консензус) [738 МБ] - МАП датотека података КЦ+ полиморфног генотипа (консензус) [11 МБ ] - породични (педигре) односи и ознаке популације за 1.301 узорак ХапМап 3 [37 КБ] - листа од 270 узорака коришћених у фази И и ИИ Међународног пројекта ХапМап [2 КБ]

    Да бисте приступили ЕНЦОДЕ ИИИ ПЦР подацима поновног секвенцирања, посетите БЦМ-ХГСЦ јавну фтп локацију на фтп://фтп.хгсц.бцм.тмц.еду/пуб/дата/Енцоде или преузмите овде:

      - РЕАДМЕ датотека [3 КБ] - листа секвенцираних 712 неповезаних узорака [61 КБ] - генотипови 10.076 СНП локација према 712 узорака [641 КБ] - КЦ+ генотипови 6.223 СНП локација према 692 узорка [9 МБ]

    Планови анализе

    У наставку су наведени планови анализе које тренутно спроводимо:

    • Процена фреквенције СНП алела
    • Диференцијација становништва
    • Анализа неравнотеже везе
    • СНП означавање
    • Ефикасност импутације
    • Геномске локације људских ЦНВ
    • Генотипови за ЦНВ
    • Популационе генетичке особине ЦНВ (учесталости алела, диференцијација популације, итд.)
    • Стопа мутације (учесталост де ново ЦНВ) и потенцијални мутациони механизми
    • Својства неравнотеже везе ЦНВ-а
    • Означавање и импутација ЦНВ-а
    • Сигнали селекције око ЦНВ-а
    • Асоцијација СНП и ЦНВ са фенотиповима експресије

    Политика објављивања података

    Објављивање података пре објављивања из великих научних пројеката који генеришу ресурсе било је предмет састанка одржаног јануара 2003. године, састанка „Форт Лодердејл“. Изјава о политици НХГРИ заснована на исходу састанка налази се на веб страници НХГРИ (хттп://ввв.геноме.гов/10506537).

    Препоруке састанка у Форт Лодердејлу односе се на улоге и одговорности произвођача података, корисника података и финансијера „пројеката ресурса заједнице“, са циљем успостављања и одржавања одговарајуће равнотеже између интереса корисника података у брзом приступу подацима и потребе произвођача података да добију признање за свој рад. Закључак присутних на састанку је био да је неопходно одговорно коришћење података како би се обезбедило да првокласни произвођачи података наставе да учествују у оваквим пројектима и производе и брзо пуштају вредне скупове података великих размера. „Одговорно коришћење“ је дефинисано као омогућавање произвођачима података да имају прилику да објаве почетне глобалне анализе података, као што је артикулисано на почетку пројекта. То ће такође осигурати да генерисани подаци буду у потпуности описани.


    Проналажење и прегледање области од интереса

    Прегледач генома на веб локацији ХапМап омогућава приступ малим и средњим регионима генома за ову врсту интерактивног истраживања. Овај основни протокол описује како да почнете да користите претраживач генома.

    1. Користећи било који савремени веб претраживач, идите на ввв.хапмап.орг.

    2. Кликните на везу „Прегледај податке о пројекту“ у одељку „Подаци о пројекту“ на почетној страници хапмап.орг.

    Ово ће вас одвести до претраживача генома заснованог на ГБровсе пакету (Фиг. 1).

    Почетна страница приказана када почнете да користите претраживач ХапМап генома по први пут. У зависности од подешавања језика вашег рачунара, ова страница може да се појави на једном од неколико језика, иако овај одељак претпоставља енглески. Страници се такође може приступити директно на хттп://ввв.хапмап.орг/цги-перл/гбровсе/.

    3. Пронађите поље за претрагу „Ландмарк ор Регион“ и унесите термин за претрагу.

    Било који од следећих типова термина за претрагу ће радити:

    Име хромозома (нпр. „Цхр19“)

    Хромозомска позиција у формату Цхромосоме:старт..стоп (нпр. „Цхр10:25000..300000“)

    Назив СНП-а који користи његово дбСНП „рс“ име (нпр. „рс6870660“)

    Ген који користи свој приступни број НЦБИ РефСек (нпр. „НМ 153254“)

    Ген који користи своје уобичајено име (нпр. „БРЦА2“)

    Хромозомска трака (нпр. "5к31")

    4. Након што унесете један од ових оријентира, притисните дугме „Тражи“ (или притисните „Ентер“).

    Ово ће вратити страницу која приказује регион који окружује тражену функцију (Слика 2). Ако се више функција подудара, страница ће приказати графички резиме, укључујући геномску локацију, свих могућих карактеристика и затражити од вас да одаберете једну.

    Претраживач генома ХапМап који приказује тражену функцију.

    На врху враћене странице налази се одељак „Преглед“ који приказује цитогенетску мапу изабраног хромозома. Црвени оквир означава део хромозома који се види.

    Испод овога је преглед региона, који приказује 2 Мб око региона од интереса. Опет, црвена кутија означава део хромозома.

    Испод овога је одељак „Детаљи“ који има хоризонталне траке које приказују различите врсте података. Подразумевано, само мали број геномских трагова се у почетку приказује за регион. Две најкорисније стазе су „генотипизовани СНПс“ који пружа информације о позицији, алелима и фреквенцијама алела сваког СНП-а које карактерише ХапМап пројекат, и траг гена Ентрез, који показује позиције и структуре кодирања људских протеина гене.

    Доступне су бројне додатне информације, које посебно могу помоћи у разумевању и дизајну студија асоцијација. Доступан је велики број анализа изведених из ХапМап података, као и спољних извора података (Табела 1). Нарочито су вредни пажње бројни трагови који се односе на структурне варијације у геному, као и везе до базе података Реацтоме (хттп://ввв.реацтоме.орг Вастрик и др. 2007), курирани извор кључних путева и реакција у људској биологији.

    Подразумевано, претраживач генома иде на најновије издање ХапМап података. Претходна издања су доступна преко овог интерфејса, а различита издања се могу изабрати у менију „Извор података“.

    5. Користите контроле на врху странице да скролујете лево, десно или да промените увећање региона. Кликните било где на „Преглед“, „Регион“ или на скалу на врху одељка „Детаљи“ да бисте центрирали приказ на овој позицији.

    Генотипизована СНП стаза мења свој изглед на начин који одговара размери слике:

    При малим увећањима, генотипизовани СНП се појављују као једнакострани троуглови. Ове боје се могу прилагодити одабиром ставке „Хигхлигхт СНП Пропертиес“ у менију „Извештаји и анализа“.

    При већим увећањима, генотипизовани СНП се мењају да би приказали алеле повезане са СНП. Алел приказан плавом бојом је алел присутан у референтној геномској секвенци на тој локацији, а црвени алел је други алел присутан у СНП.

    Када се још више увећају, генотипизовани СНП прате промене да би приказали кружне графиконе који представљају фреквенцију алела за сваку генотипизовану популацију. Плави клин кружног графикона означава учесталост алела који се појављује у референтној секвенци генома. Црвени клин је фреквенција алтернативног алела. Приказ тортног графикона пружа истраживачу могућност да лако разликује СНП-ове који су високо полиморфни у све четири ХапМап популације и, према томе, вероватније је да ће бити полиморфни иу другим популацијама. Алтернативно, истраживач може да идентификује СНП-ове који су полиморфнији у једној популацији и стога су погодни као маркери у генетским екранима специфичним за популацију.

    6. Кликните на глиф за појединачни СНП да бисте видели страницу засновану на тексту са детаљним бројем генотипа и алела, као и информацијама о тесту.

    Ово истраживачу пружа информације потребне за генерисање теста за СНП, укључујући леве и десне бочне секвенце потребне за креирање ПЦР прајмера.

    и. Кликните на хипертекстуалну везу до дбСНП (хттп://ввв.нцби.нлм.них.гов/СНП Вхеелер ет ал.2007) за више информација о томе како је СНП први пут откривен и било које друге популацијске генетске информације које могу постојати за њега ван ХапМап пројекта.

    ии. Кликните на везу до Енсембл (хттп://ввв.енсембл.орг Хуббард ет ал. 2007) да бисте дошли до места где се може испитати структурни утицај СНП-а на секвенцу кодирања, места спајања и друге карактеристике оближњих гена.

    Преглед обима неравнотеже везе (ЛД)

    Када истраживач дизајнира студију за откривање везе између уобичајене алелне варијације гена и болести од интереса, знање о обиму ЛД у региону је од суштинског значаја за смањење броја СНП-а који треба да се генотипизирају широм региона. Ако постоји висок ЛД у региону, онда само неколико СНП-ова треба да буде генотипизовано јер ће њихова веза са другим СНП-овима у региону служити као заменици за генотипове не-карактеристичних СНП-а. Насупрот томе, регион са ниским ЛД ће морати да се више узоркује јер ће алелно стање генотипованог СНП-а бити лош предиктор стања негенотипованих СНП-а. Одређивање образаца ЛД у популацијама које карактерише ХапМап пројекат био је један од главних циљева овог пројекта. Међународни ХапМап пројекат је унапред израчунао обрасце ЛД међу генотипизованим СНП. Подаци се могу преузети на велико са веб локације ХапМап или интерактивно прегледати помоћу претраживача генома ХапМап. Последњи метод омогућава истраживачима да виде обрасце ЛД у контексту са дистрибуцијом гена од интереса.

    7. Да бисте видели доступне ЛД податке унапред израчунате из ХапМап генотипова, идите до региона од интереса (погледајте кораке 1-4).

    8. Изаберите додатак „Аннотате ЛД плот“ из менија „Извештаји и анализа“.

    9. Кликните на дугме „Конфигуриши“ да бисте отворили страницу са конфигурацијом која ће вам омогућити да прилагодите својства екрана по свом укусу.

    Кључни параметри на овој страници су ХапМап популације које треба приказати, коју меру ЛД користити (избор Д′, р 2 или дневник квота [ЛОД]), да ли троугла дијаграма треба да буде оријентисана са врхом окренутим нагоре или надоле, шема боја и да ли величина кутије на дијаграму треба да буде пропорционална геномском растојању између маркера или уједначене величине (видети Слика 3).

    Конфигурациона страница претраживача ХапМап генома омогућава кориснику да прилагоди бројне стилске карактеристике приказа података.

    Традиционалне Д′ и р 2 метрике одражавају степен ЛД у пару између два СНП-а, али се разликују по својој осетљивости и специфичности на различитим скалама величине. Видети Муеллер (2004) за дискусију о практичној примени ових мерења. ЛОД метрика која се користи у приказу веб странице ХапМап описана је у Дали ет ал. (2001).

    10. Кликните на дугме „Конфигуриши“ да бисте се вратили на главни екран, који ће сада приказати један троугао за сваку изабрану популацију (погледајте слику 4).

    Претраживач генома ХапМап који приказује троугласту графику ЛД вредности за више популација. Приказан је типичан регион ЛД који показује „закрпе“ високог ЛД раздвојеног релативно добро дефинисаним границама ниске ЛД. Дијаграм троугла је конструисан повезивањем сваког пара СНП-а дуж линија под углом од 45° у односу на хоризонталну линију колосека. Боја дијаманта на месту где се секу два СНП-а указује на количину ЛД, интензивније боје указују на већи ЛД. Сиви дијамант означава да подаци недостају.

    У регионима са много генотипизованих СНП-ова, ЛД додатак значајно повећава време потребно да се веб страница учита. Можете да искључите ЛД екран у било ком тренутку тако што ћете поништити избор одговарајућег поља за потврду у одељку „Трагови“ претраживача. Подешавања ЛД додатка се чувају у колачићу претраживача, тако да нема потребе да посећујете страницу са конфигурацијом сваки пут када се додатак укључи.

    Одабир и преглед таг-СНП-ова

    таг-СНП-ови су смањени скуп СНП-ова који хватају већи део ЛД-а у регионима и могу се користити у студијама асоцијације да би се смањио број СНП-ова потребних за откривање повезаности засноване на ЛД-у између особине од интереса и региона генома. За мале регионе, могуће је ручно одабрати таг-СНП користећи графичке и нумеричке приказе ЛД генерисаних изнад, али за најбоље резултате препоручује се да истраживач користи алгоритам који бира таг-СНП формално максимизирајући број повезани СНП-ови ухваћени скупом ознака. Не постоји један скуп таг-СНП-ова који ће задовољити различите захтеве сваког дизајна студије асоцијације. Истраживачи ће можда желети да изаберу СНП-ове који добро функционишу са одређеним системом генотипизације (нпр. они који су укључени у одређени „СНП чип”) и можда ће бити вољни да прихвате различите компромисе између цене генотипизације испитиване популације и снаге асоцијација коју могу открити. Из тог разлога, веб локација ХапМап не нуди статички скуп унапред изабраних таг-СНП-ова, већ уместо тога нуди истраживачима алат за интерактивно бирање таг-СНП-ова на основу критеријума које је дао корисник. таг-СНП листе се генеришу из алгоритама у програму Таггер (хттп://ввв.броад.мит.еду/мпг/таггер/ де Баккер и др. 2005).

    11. Идите до региона од интереса (погледајте кораке 1-4).

    12. У менију „Извештаји и анализа“ изаберите опцију „Обележи таг СНП Пицкер“.

    13. Притисните “Конфигуриши” да изаберете жељене опције за избор таг-СНП-а (погледајте слику 5).

    Претраживач генома ХапМап графички приказује таг-СНП, као и фазне хаплотипове.

    Избор популације и алгоритма

    Отпремање листе СНП ИД-ова који ће бити укључени у скуп таг-СНП-ова

    Отпремање листе СНП ИД-ова које треба искључити из скупа таг-СНП-ова

    Учитавање листе резултата дизајна (приоритета) за сваки СНП

    Одабир граничних вредности за минималну прихватљиву вредност ЛД и фреквенцију алела за СНП који ће бити укључени у скуп

    14. Кликните на дугме „Конфигуриши“ да бисте покренули анализу и вратили се на главни екран.

    Резултати се приказују на новој функцији (погледајте Слика 5).

    Као и код горњег ЛД екрана (корак 10), подешавања се чувају у колачићу претраживача, а пратећа трака се може искључити када није потребна.

    Преглед фазних хаплотипова

    Истраживач би можда желео да повеже таг-СНП скуп одабран алгоритмом за бирање ознаке-СНП са основном структуром хаплотипа региона. Један од начина да се то уради је да се истовремено укључе и ЛД и таг-СНП стазе у пару (кораци 7-10 и 11-14, респективно). Алтернатива је, међутим, да активирате стазу која приказује саме фазне хаплотипове. Подаци о фазном хаплотипу описани у овом одељку су генерисани од стране Међународног конзорцијума пројекта ХапМап користећи програм ПХАСЕ верзија 2.1 (Степхенс и Доннелли 2003). Током фаза, сваки алел у генотипу се додељује једном или другом родитељском хромозому, користећи алгоритам максималне вероватноће који користи информације о трио (лозници) у групама популације ХапМап, или, ако информације о трио нису доступне, прилагођавањем података модел који минимизира број подразумеваних историјских укрштања у популацији. Фазни хаплотипови су приказани као графика у којој је сваки хромозом појединаца узоркованих пројектом представљен као линија висине један пиксел, а сваки СНП алел је произвољно обојен плавом или жутом бојом. Регион високог ЛД ће се појавити као регион у коме постоје дуги низови СНП-ова који деле алеле у више хромозома, што указује да међу њима постоји мало рекомбинације. Регион ниске ЛД ће се појавити као област у којој су стазе краће и фрагментарније.

    15. Идите до региона од интереса (погледајте кораке 1-4).

    16. Изаберите „Аннотате Пхасед Хаплотипе Дисплаи“ из менија „Извештаји и анализа“.

    17. Притисните „Конфигуриши“ да бисте подесили опције за приказ хаплотипа.

    Опције вам дају могућност да изаберете популацију за коју ћете приказати информације о хаплотипу.

    18. Након одабира жељене популације, кликните на дугме „Конфигуриши“ да бисте се вратили на главни екран. За сваку изабрану популацију ће се појавити нова трака са карактеристикама. Сваки траг приказује хаплотипове за ту популацију користећи двобојну шему описану изнад (види слику 5).

    Редослед хромозома је одређен методологијом брзог хијерархијског груписања, која поставља хромозоме који деле сличне хаплотипове заједно.

    Предност овог дисплеја у односу на парни ЛД „троугаони дисплеј“ је у томе што је компактнији и стога погоднији за приказ великих региона. Ово олакшава корелацију положаја дугих заједничких хаплотипова са СНП-овима које бира бирач ознака-СНП. Недостатак овог приказа је у томе што скрива велики део фине структуре ЛД у региону, посебно, јак ЛД међу СНП-овима који нису суседни један другом.

    19. Да бисте добили детаљне фазне генотипове, кликните на траг жељене популације.

    Ово ће вас одвести на страницу која пружа информације о хаплотипу у облику табеле. Сваки ред табеле је појединачни хромозом, а свака колона је појединачни СНП. Позадина сваког уноса табеле је постављена на боју која одговара оној која се види у графичкој стази.


    Резултати

    Мерење генетске удаљености на МХЦ са СНП-нивоом ФСТ

    Између 25 Мб и 35 Мб на хромозому 6, укупно 1.607 СНП-ова било је присутно у нашим подацима који се састоје од осам јапанских популација и четири популације ХапМап и СГВП. Генетска удаљеност између сваког пара од ових 12 популација мерена је просечним нивоом СНП-а ФСТ вредности у ових 1.607 СНП-ова. Између осам јапанских популација, Окинава се издвојила као најизразитија популација, показујући минимални ФСТ од 0,6% са Ехимеом и максималним ФСТ од 1,0% са Фукуоком, Шиманеом и Токијем (додатна табела 1). Преосталих седам јапанских популација било је релативно хомогеније, са генетским растојањем реда од 0,1% до 0,3%, последња цифра је примећена у поређењу парова популација који су углавном укључивали Ехиме. Генетске удаљености израчунате из истих 1.607 СНП-а између северног и јужног Кине (ЦХБ, ЦХС) и између северних и јужних Индијанаца (ГИХ, ИНС) коришћене су за мерење удаљености уочене у јапанској популацији. Удаљеност између ЦХБ и ЦХС је била 0,4%, док је удаљеност између ГИХ и ИНС била 0,5%, што сугерише да је становништво копненог Јапана било хомогеније од Хан Кинеза из Северне и Јужне Кине у МХЦ региону, док се Окинава више разликовала од остатак популације копненог Јапана него случај генетских разлика између Индијанаца Гуџаратија и Тамила.

    Главне компоненте анализе структуре становништва

    У прелиминарном ПЦА од 1.833 узорка са подацима широм генома у 240.332 уобичајена СНП-а у осам јапанских и четири бенцхмаркинг популације, било је очигледно да су се две јужноазијске популације (ГИХ, ИНС) значајно разликовале од популација источне Азије (ЦХБ, ЦХС, ЈПТ, седам јапанских популација), иако је такође било јасно да постоје три генетска подкластера која одговарају узорцима Окинаве, Хан Кинеза и Јапана са копна (слика 2А). Узорци Окинаве су се јасно разликовали од узорака Хан Кине и копненог Јапана на начин који није указивао на то да су узорци Окинаве помешани између копнених Јапанаца и Хан Кинеза (слика 2А,Б), пошто су узорци Окинаве пронађени у супротан спектар од Хан Кинеза у одговарајућим главним компонентама. Ово је у доброј сагласности са бројним налазима у историји људских популација у Јапанском архипелагу, то јест, модел двојне структуре популација јапанског архипелага 40 . У ПЦА од 1.285 копнених Јапанаца, међутим, није било доказа о било каквим уочљивим подструктурама између седам популација у анализи података из генома (Слика 2Ц).

    Анализе главне компоненте на нивоу субјекта са подацима СНП у целом геному.

    Биплотови су приказани за прве две осе варијација из три различите анализе главних компоненти (ПЦА) од 240,332 СНП-а који су присутни у целом геному у осам јапанских популација и четири бенцхмаркинг популације из источне и јужне Азије. Урађена су три различита ПЦА (А) свих 12 популација (Б) само осам јапанских и две хан кинеске популације и (Ц) само седам популација из континенталног Јапана. Сваки круг представља појединца из одређене популације и додељује му се јединствена боја за ту популацију која је представљена у легенди на доњем десном панелу.

    Такође смо извршили низ ПЦА на нивоу популације користећи К × К матрице удаљености (К представља број популација) конструисаних од 1.607 СНП у региону од 10 Мб на хромозому 6 (види Материјали и методе за детаље). Ово је ефективно представљало генетску удаљеност користећи ФСТ метрику за квантификацију обима разлика у учесталости алела између парова популација. Ове анализе су на сличан начин разликовале Јужне Азијате и Хан Кинезе од јапанских узорака (Слика 3А, Б), као и узорке Окинаве из узорака копненог Јапана (Слика 3Б), али изгледа да пружају већу резолуцију генетским разликама унутар седам копнених јапанских популација где се чинило да се Ехиме и Схимане разликују од преосталих пет популација (слика 3Ц). Ова запажања су била изузетно у складу са оним што смо видели за податке о целом геному, посебно када смо сумирали запажања на слици 2 тако што смо усредњавали координате главне компоненте на нивоу узорка у свакој популацији да бисмо добили једну координату на нивоу популације за ту популацију (додатна слика 1). Да бисмо даље истражили уочену разлику између Ехиме и Схимане и преостале популације копненог Јапана, спојили смо ФСТ вредности израчунате за 1.607 СНП-ова у свим могућим паровима од седам популација копненог Јапана да би се произвео укупни ФСТ дистрибуција. Идентификовањем ФСТ вредности у првих 1%, приметили смо да постоји значајна прекомерна заступљеност парова популације који укључују Ехиме (ПБином = 0,0011) и Шимане (ПБином = 1,38 × 10 −15 ). Разлика између Ехиме и Схимане и остатка јапанских узорака уочена је на сличан начин у ПЦА заснованим на хаплотипу код шест ХЛА гена (додатна слика 2). Приметно је да су генетске разлике у седам популација копненог Јапана биле израженије у регионима гена класе ИИ (ХЛА-ДР, -ДК и –ДП) него у регионима гена класе И (ХЛА-А, -Б и -Ц) (додатни Слика 2).

    Анализе главних компоненти на нивоу популације са СНП-овима у МХЦ-у.

    Биплотови су приказани за прве две осе варијација из сопствених декомпозиција матрица удаљености које су израчунате из просечног ФСТ вредности између парова популација у 1.607 СНП-ова пронађених у интервалу између 25Мб и 35Мб хромозома 6 у осам јапанских популација и четири популације за бенцхмаркинг из источне и јужне Азије. Урађене су три различите анализе, укључујући (А) свих 12 популација (Б) само осам јапанских и две хан кинеске популације и (Ц) само седам популација из континенталног Јапана. Сваки круг представља одређену популацију и обојен је истом јединственом бојом за ту популацију као што је представљено у легенди на слици 2.

    Разлике хаплотипова међу популацијама

    Хаплотипови за 1.607 СНП-а су добијени фазама генотипских података за 12 популација са БЕАГЛЕ-ом. Ово нам је омогућило да испитамо дистрибуцију главних хаплотипова на сваком од шест ХЛА гена у свакој од ових популација (Табела 1). Дефиниција за главне хаплотипове је прилично произвољна. У нашој студији, за ХЛА-А, ХЛА-Б, ХЛА-Ц, ХЛА-ДР, дефинисали смо главни хаплотип као популацијску учесталост од најмање 10% у било којој од 12 популација. Док, за ХЛА-ДК и ХЛА-ДП, дефинисали смо главни хаплотип као популацијску учесталост од најмање 6% у било којој од 12 популација. Ово је због великог броја хаплотипова пронађених у већем скупу СНП-ова на ХЛА-ДК и ХЛА-ДП.

    Није изненађујуће да су постојали хаплотипови специфични за предаке који су пронађени само у Јужној Азији или у Источним Азијатима, а већина главних хаплотипова у Јапану била је подељена међу различитим јапанским популацијама, осим што су се учесталости хаплотипа у одређеној мери разликовале међу популацијама (Сл. 4, допунске слике 3–7). На пример, у случају ХЛА-Б, иако је било 373 различита хаплотипа из 74 СНП-а на овом локусу, било је само осам главних хаплотипова у 12 популација. Пет од осам главних хаплотипова је одсутно у јужноазијским популацијама (Х1, Х2, Х3, Х4, Х7), док Х8 није пронађен ни у једној од осам јапанских популација (слика 4А). Чинило се да је један од хаплотипова (Х3) јединствен за јапанску популацију и приметили смо да је учесталост Х4 варирала од 1,7% на Окинави до 14,2% у Фукуоки и Шиманеу (слика 4Б). Међутим, треба напоменути да је већина главних хаплотипова пронађених у ХЛА генима била присутна у свим јапанским популацијама и била је заједничка са осталим источним и/или јужноазијским популацијама коришћеним за бенцхмаркинг (слика 5).

    Дистрибуција главних хаплотипова на ХЛА-Б.

    Дистрибуција главних хаплотипова пронађених у осам јапанских популација и четири референтне популације из источне и јужне Азије на ХЛА-Б, где су илустроване фреквенције (А) у дијаграмима према очекиваним географским локацијама, које одговарају пореклу дотичне популације (Б) у тракастим графиконима да би се назначили проценти за сваки од главних хаплотипова у 12 популација. Осам главних хаплотипова је примећено на ХЛА-Б, од 373 јединствена хаплотипа формирана од 74 СНП-а. Дистрибуција главних хаплотипова у сваком од дијаграма не указује на укупан збир учесталости хаплотипова, пошто ознака „остали“ није укључена. Мапа фигуре је креирана коришћењем Р пакета „мапе” 50 и „мапдата” 51 у софтверу Р 52.

    Дистрибуција главних хаплотипова у три главне групе предака.

    Осам јапанских популација и четири референтне популације из источне и јужне Азије категорисане су у три главне групе предака, које одговарају Јапанцима, јужноазијским Индијцима и источноазијским Кинезима. Главни хаплотипови уочени у шест ХЛА гена су представљени у Веновом дијаграму да би се илустровало да ли су присутни у свакој групи предака, дефинисаној као да показују фреквенцију различиту од нуле у најмање једној од популација у групи предака.

    Како је наша анализа разноликости хаплотипова разматрала међусобно различите хаплотипове који се налазе унутар геномског региона у свакој популацији, корисно је измерити у којој мери се претпоставља да се ови различити хаплотипови разликују.Израчунавањем процента СНП локација које су се разликовале између било која два хаплотипа на локусу, приметили смо да се већина главних хаплотипова пронађених на ХЛА локусима значајно разликују једни од других на нивоу СНП-ова који формирају појединачне хаплотипове, осим на ХЛА-А где су постојала четири главна хаплотипа која су се разликовала само по једном СНП-у (Табела 2). Перформансе импутације у МХЦ региону са различитим референтним панелима.

    Непосредна последица варијација хаплотипа између различитих јапанских популација је утицај на тачност импутације. Ово смо истражили на два начина: прво, да ли се тачност променила када су различити панели за једну популацију коришћени за импутацију података СНП-а за сваку јапанску популацију и друго, да ли се користи комбиновани источноазијски панел, који се састоји од Кинеза, Јапанаца и Малајаца. из јавних база података као што су ХапМап и СГВП, донеће боље перформансе. Различити референтни панели, осим комбинованог панела, намерно су изабрани да буду упоредивих величина како би се избегло збуњивање због величине узорка, како би се омогућило истраживање утицаја разноликости хаплотипова. Такође, да би се избегло претерано уклапање, 19 додатних узорака из сваке јапанске популације (осим ХапМап ЈПТ) коришћено је као циљни подаци за импутацију.

    Приметили смо да је употреба или ХапМап ЈПТ панела или комбинованог источноазијског панела дала маргинално веће стопе неслагања, у поређењу са употребом већине панела за једну популацију (Слика 6, Додатна табела 2). Последњи резултат је био изненађујући јер је комбиновани источноазијски панел био скоро дупло већи од панела са једном популацијом. Када су импутирани панелима са једном популацијом, узорци Ехиме и Окинава дали су најниже стопе неслагања само када су коришћени одговарајући референтни панели специфични за популацију (Допунска табела 2), пружајући још једну линију доказа који подржавају да су се ове две популације више разликовале од друге јапанске популације.

    Учинак импутације у испитиваним популацијама.

    Учинак импутирања узорака унутар сваке од 12 популација истраживања је мерен стопом неслагања, дефинисаном као 1 – р 2, где р 2 одговара корелацији између посматраног генотипа и импутиране дозе алела на 400 СНП-ова који су маскирани од 1.607 СНП-а у МХЦ-у. За сваку од седам јапанских популација (осим ЈПТ), импутација је извршена на 19 додатних узорака који нису били део главне студије и коришћени су за конструисање референтног панела специфичног за популацију. С друге стране, импутација у ЦХБ, ЦХС, ГИХ и ЈПТ је извршена на 19 узорака из истих података о популацији, који су коришћени за конструисање референтног панела и стога су били подложни оверфитингу. Напомене коришћених референтних панела су следеће: ЈПТПанел = ЈПТ ХАП_СГВППанел = комбиновани панел користећи ЦХБ, ЦХС, ЈПТ узорке ФукуокаПанел = Фукуока ЕхимеПанел = Ехиме СхиманеПанел = Схимане АмаПанел = Амагасаки Кита-НагоиаПанелваПанел = То Окија-Пакио = Токио Окинава ЦХБПанел = ЦХБ ЦХСПанел = ЦХС.

    Три друге јапанске популације (Шимане, Амагасаки, Кита-нагоја) су на сличан начин произвеле најниже стопе неслагања када су коришћени одговарајући референтни панели специфични за популацију, иако то није било јединствено за референтне панеле специфичне за популацију, постојао је још најмање један појединачни- панел становништва који је дао еквивалентан ниво стопа неслагања. На пример, најнижа стопа неслагања од 2% примећена је у Схимане-у када су или Схимане панел или Амагасаки панел коришћен као референца. Такође је било очигледно да је употреба референтних панела направљених од Хан Кинеза или Индијаца дала релативно лошије перформансе импутације за јапанске узорке.


    ПОСТАВЉАЊЕ ЛД У ГЕНОМСКИ КОНТЕКСТ

    Док алати на веб локацији ХапМап пружају најсавременији приступ ХапМап подацима и анализама, они нуде само ограничене информације о ширем геномском контексту региона. Да би се у потпуности разумеле биолошке и функционалне последице људске варијације, важно је ставити информације о ЛД и хаплотипу у потпуни геномски контекст. УЦСЦ претраживач људског генома [40] и Енсембл [41] су два кључна алата која су доступна за постизање овог циља и оба сада имају интегрисане ХапМап ЛД податке за визуелизацију заједно са другим геномским информацијама.

    Иако оба алата имају много сличности, сваки садржи различите информације и тумачење података, па се обично исплати консултовати оба гледаоца, макар само за друго мишљење (оба гледаоца пружају реципрочне везе). УЦСЦ претраживач генома има једну велику предност у односу на претраживач генома ХапМап и Енсембл јер омогућава визуализацију ЛД-а у регионима већим од 1 Мб или чак целим хромозомима. Ова робусна ЛД визуализација заиста чини УЦСЦ претраживач изузетним алатом за интегрисану ЛД/геномску визуализацију [42]. Слика 3 приказује регион од 1,5 Мб који садржи ген за лактазу (ЛЦТ). Ово показује јасне разлике у ЛД између ЦЕУ, ИРИ и ЈПТ–ЦХБ популације, такође приказује стопе рекомбинације израчунате из ХапМап података (који добро корелирају са границама ЛД блока) и доказе о позитивној селекцији у различитим етничким групама на основу израчунавања Тајима Д из СНП података о генотипу (погледајте следећи текст за детаље). ЛД и информације о хаплотипу су такође стављене у контекст са познатим генима и очувањем генома кичмењака. Дескриптивне информације за сваки скуп података УЦСЦ могу се доћи притиском на сиво дугме лево од сваке нумере. Доступан је и велики број додатних информација које се могу конфигурисати, али нису овде приказане ради краткоће.

    УЦСЦ претраживач је такође веома ефикасан за детаљну анализу геномског контекста ЛД података. Мало је вероватно да ће узрочни СНП бити тестиран директно у скенирању генома, али може бити у ЛД са маркерима који се тестирају. Користећи излаз ХапМарт упита, релативно је једноставно (нпр. коришћењем Мицрософт Екцел-а) креирати УЦСЦ прилагођени траг података (погледајте УЦСЦ документацију за детаље) на основу СНП-ова који показују доказе ЛД (р 2 &гт 0,5) са придруженим СНП. На слици 4 приказан је пример такве анализе. Учитавањем придружене СНП локације и локација СНП-ова које показују доказе о ЛД-у као прилагођеним стазама, усклађивање са геномским карактеристикама је много лакше него коришћење приказа ЛД блока. Геномске карактеристике и СНП-ови могу се директно ускладити да би се проценило преклапање. Целокупна ДНК секвенца се такође може извести са различитим траговима означеним на секвенци коришћењем везе „ДНК“ на врху претраживача. Осим визуелне инспекције, прилагођене траке креиране за УЦСЦ претраживач такође имају још једну невероватно моћну апликацију—могу се испитивати помоћу УЦСЦ претраживача табела [43**]. Прегледач табеле, коме се приступа преко везе „Табеле“ у главном претраживачу, одличан је алат који ефикасно омогућава кориснику да обавља сложене упите између скупова података, укључујући прилагођене нумере које је учитао корисник. Користећи филтер пресека, на пример, могуће је идентификовати све СНП-ове које је претходно идентификовао ЛД (ваш прилагођени траг) који се преклапају са конзервираним местима везивања фактора транскрипције или познатим промоторским елементима или циљним местима микро РНК, итд. Ова веома флексибилна функционалност чини УЦСЦ Табле претраживач је изузетно моћан алат који се читаоцу топло препоручује.

    Коришћење прилагођених стаза да бисте добили детаљан приказ геномског контекста у УЦСЦ претраживачу генома. Геномска локација придруженог СНП-а близу ЦАРД4 гена. Прилагођени трагови у УЦСЦ претраживачу генома показују локацију СНП-ова који приказују ЛД са знаком р 2 &гт 0,5 праг у контексту напомене генома. Додатни трагови описују познате гене, људске спојене експресиране секвенце (ЕСТ), несплетене ЕСТ, предвиђени регулаторни потенцијал и конзервирана места везивања фактора транскрипције. Информације о ХапМап ЛД у наставку су за појединце ЦЕУ и сугеришу да у овом региону постоје два очувана кластера хаплотипа. Ови кластери су подељени жаришном тачком рекомбинације која је независно идентификована у скуповима података ХапМап и Перлеген.

    Коришћење прилагођених стаза да бисте добили детаљан приказ геномског контекста у УЦСЦ претраживачу генома. Геномска локација придруженог СНП-а близу ЦАРД4 гена. Прилагођени трагови у УЦСЦ претраживачу генома показују локацију СНП-ова који приказују ЛД са знаком р 2 &гт 0,5 праг у контексту напомене генома. Додатни трагови описују познате гене, људске спојене експресиране секвенце (ЕСТ), несплетене ЕСТ, предвиђени регулаторни потенцијал и конзервирана места везивања фактора транскрипције. Информације о ХапМап ЛД у наставку су за појединце ЦЕУ и сугеришу да у овом региону постоје два очувана кластера хаплотипа. Ови кластери су подељени жаришном тачком рекомбинације која је независно идентификована у скуповима података ХапМап и Перлеген.


    Апстрактан

    Одређивање основних хаплотипова индивидуалних људских генома је суштински, али тренутно тежак корак ка потпуном разумевању функције генома. Секвенцирање следеће генерације засновано на фосмидном базену омогућава генерисање хаплоидних ДНК сегмената од 40 кб у целом геному, који се могу рачунати у фазама у континуалне молекуларне хаплотипове помоћу Сингле Индивидуал Хаплотипинг (СИХ). Предложено је много СИХ алгоритама, али је тешко проценити тачност таквих метода због недостатка стварних референтних података. Да бисмо решили овај проблем, генерисали смо податке о фосмидној секвенци целог генома од ХапМап трио детета, НА12878, за које су већ произведени поуздани хаплотипови. Саставили смо хаплотипове користећи осам алгоритама за СИХ и извршили директна поређења њихове тачности, потпуности и ефикасности. Наша поређења показују да хаплотипизација заснована на фосмиду може дати високо прецизне резултате чак и при малој покривености и да је наш СИХ алгоритам, РеФХап, у стању да ефикасно произведе хаплотипове високог квалитета. Проширили смо хаплотипове за НА12878 комбиновањем тренутних хаплотипова са нашим хаплотиповима заснованим на фосмидима, производећи скоро потпуне нове хаплотипове са златним стандардом који садрже скоро 98% хетерозиготних СНП-ова. Ово побољшање укључује значајне фракције СНП-ова повезаних са болестима и ГВА. Интегрисана са другим скуповима молекуларно-биолошких података, ове информације о фази ће унапредити ново поље диплоидне геномике.


    Закључци

    Развили смо ПараХапло 3.0, скуп компјутерских програма, за паралелно израчунавање процене хаплотипа и тачних П вредности у ГВАС-овима заснованим на хаплотиповима. ПараХапло је намењен за употребу у кластерима радних станица који користе Интел МПИ. Користећи ПараХапло, извршили смо процену хаплотипа података о генотиповима ЈПТ и ЦХБ узетих из скупа података ХапМап 3.0 [12].

    Ови резултати показују да када је број процесора довољан, паралелне рачунарске способности ПараХапло-а су 20 пута брже од оних непаралелних програма. Тачни и потпуни генотипови су добијени за више од милион СНП-ова [15], а сада се генотипизира >10.000 особа [21]. Потреба за брзом проценом хаплотипа коришћењем паралелног рачунарства ће постати све важнија како величина података о пројекту настави да се повећава.


    Формати улазних датотека

    Хапловиев тренутно прихвата улазне податке у пет формата, стандардни формат повезивања, потпуно или делимично фазне хаплотипове, депоније података ХапМап пројекта, ПХАСЕ формат и ПЛИНК излазе. Програм такође може аутоматски да преузме поступне ХапМап податке са ХапМап веб локације. Такође узима засебну датотеку са информацијама о позицији маркера, као и неколико помоћних улазних датотека, описаних у наставку. Четири формата су детаљно објашњена у наставку.

    Формат везе

    Подаци о вези треба да буду у формату родовника везе (пре МАКЕПЕД), са колонама породице, појединца, оца, мајке, пола, захваћеног статуса и генотипова. Датотека не би требало да има линију заглавља (тј. први ред треба да буде за првог појединца, а не за називе колона). Имајте на уму да Хапловиев може да тумачи само биалелне маркере са више од два алела (нпр. микросателити) неће исправно радити. Пример линије из такве датотеке може изгледати отприлике овако:

    Јединствени алфанумерички идентификатор за породицу ове особе. Несродни појединци не би требало да деле име у родовнику.

    Алфанумерички идентификатор за ову особу. Требало би да буде јединствен у својој породици (види горе).

    Идентификатор који одговара личном ИД-у оца или "0" ако је отац непознат. Белешка
    да ако је наведен ИД оца, отац се такође мора појавити у датотеци.

    Идентификатор који одговара индивидуалном ИД-у мајке или "0" ако је непозната мајка Имајте на уму да ако је наведен ИД мајке, мајка се такође мора појавити у датотеци.

    Пол појединца (1=МУШКАРАЦ, 2=ЖЕНА).

    Статус наклоности који ће се користити за тестове асоцијације (0=НЕПОЗНАТО, 1=НЕУтицајно,2=ПОТЕЧЕНО).

    Сваки маркер је представљен са две колоне (по један за сваки алел, одвојен размаком) и кодиран или АЦГТ или 1-4 где је: 1=А, 2=Ц, 3=Г, Т=4. 0 у било којој позицији генотипа маркера (као у генотиповима за трећи маркер изнад) указује на податке који недостају.

    Такође је вредно напоменути да се овај формат може користити са подацима који нису засновани на породици. Једноставно користите лажну вредност за име педигреа (1, 2, 3. ) и попуните нуле за ИД оца и мајке. Важно је да „думми“ вредност за пед име буде јединствена за сваког појединца. Статус наклоности се може користити за означавање случајева у односу на контроле (2 и 1, респективно).

    Датотеке такође треба да прате следеће смернице:

    • Породице треба да буду наведене узастопно у фајлу (тј. сви редови са истим ИД-ом педигреа треба да буду суседни)
    • Ако појединац има родитеља различитог од нуле, родитељ треба да буде укључен у датотеку на својој линији.

    Фазни хаплотипови

    Подаци о хаплотипу за Хапловиев-ов унос морају бити форматирани у колонама Породица, Појединац и Генотипови. Требало би да постоје две линије (хромозома) за сваког појединца. Ово је стандардни формат Генехунтеровог ТДТ излаза. Погледајте узорак испод:

    Формат података користи бројеве 1-4 за представљање генотипова, број нула за представљање података који недостају, а слово "х" да представља хетерозиготни алел. То јест, ако је појединац хетерозиготан на локусу, оба алела би требало да буду "х" ако је фаза (који алел пада на који хромозом) неизвесна.

    ХапМап пројектне депоније података

    Подаци из пројекта ХапМап могу се изнети по регионима помоћу интерфејса ГБровсе. Датотека са сачуваним подацима је у формату маркер-пер-лине који се може учитати у Хапловиев-у.

    ГБровсе избацује само једну датотеку, која има један маркер по реду и која укључује породичне односе између ХапМап узорака, као и информације о позицији маркера. Формат датотеке има неколико редова заглавља (који почињу са "#") које Хапловиев анализира. Отворите датотеку тако што ћете изабрати опцију „Бровсе ХапМап Дата“ и изабрати преузету датотеку.

    Ако желите да учитате податке из другог извора у формату ХапМап стила, мораћете да наведете информације о педигреу у заглављу датотеке коју сте креирали. Ово се може урадити креирањем линија следећег формата на врху ваше датотеке:

    Ови подаци су исти као формат педфиле-а о којем је горе дискутовано. Поља су породица, појединац, отац, мајка, пол, погођени статус. Затим бисте заменили НАКСКСКСКС идентификаторе у реду заглавља ХапМап датотеке вашим идентификаторима, подложни два важна ограничења: они морају бити јединствени у целом скупу података, а не само у оквиру породице и морају почети са знаковима НА.

    ХапМап ПХАСЕ Формат

    Подаци у ХапМап ФАЗА формат се може учитати у Хапловиев користећи три одвојене датотеке. Први је датотека са подацима која садржи информације о бинарним алелима. Други је пример датотеке која садржи једну колону појединачних ИД-ова који се користе у скупу података. Трећа је датотека легенде која садржи четири колоне: маркер, позицију, 0 и 1. Само датотека легенде захтева заглавље и користи се за декодирање информација у датотеци података. Ове датотеке се могу учитати као ГЗИП компресоване датотеке користећи поље за потврду „Датотеке су ГЗИП компримоване“ на почетном екрану за учитавање. За више информација о формату ХапМап ПХАСЕ, погледајте читање ХапМап ПХАСЕ.

    ХапМап Довнлоад

    Подаци у ХапМап ФАЗА формат се такође може аутоматски преузети у Хапловиев користећи картицу "ХапМап Довнлоад" на екрану за учитавање навођењем ХапМап издања, хромозома, панела за анализу и почетне и крајње позиције (у кб). Ове опције се такође могу аутоматски попунити упитом у базу података ГенеЦруисер са геном или СНП ИД-ом. Више информација о бази података ГенеЦруисер може се наћи на веб локацији ГенеЦруисер.

    Датотека са информацијама о маркеру

    Датотека са информацијама о маркеру се састоји од две колоне, имена маркера и позиције. Позиције могу бити или апсолутне хромозомске координате или релативне позиције. Могло би изгледати отприлике овако:

    Опциона трећа колона може бити укључена у датотеку са информацијама да бисте направили додатне белешке за одређене СНП-ове. СНП-ови са додатним информацијама су означени зеленом бојом на ЛД дисплеју. На пример, можете приметити да је први СНП варијанта кодирања на следећи начин:

    ПЛИНК формат

    Излазне датотеке из ПЛИНК може се учитати у Хапловиев помоћу картице ПЛИНК на почетном екрану за учитавање. ПЛИНК датотеке морају да садрже заглавље и најмање једно заглавље колоне мора бити насловљено „СНП“ и садржати ИД-ове маркера за резултате у датотеци. ПЛИНК учитавање такође захтева стандардну ПЛИНК мапу или датотеку бинарне мапе која одговара маркерима у излазној датотеци. Датотека мапе може бити три или четири колоне без заглавља (Морганова колона удаљености је опциона). Датотека мапе се такође може уградити у датотеку резултата као првих неколико колона датотеке користећи поље за потврду „Интегрисане информације о мапи“. Можете учитати и датотеке које нису засноване на СНП-у тако што ћете означити поље „Нон-СНП“. Овим датотекама није потребна датотека мапе. Можете изабрати да учитате само један хромозом из датотеке резултата користећи поље за потврду „Учитај само резултате из хромозома“ и бирајући хромозом са падајуће листе. Такође можете да изаберете које колоне желите да учитате из датотеке резултата тако што ћете означити поље за потврду „Изабери колоне“. За много више информација о ПЛИНК излазима, погледајте ПЛИНК веб локацију Схауна Пурцелла.

    Батцх Лоад Филе

    Ознака "-батцх" на командној линији вам омогућава да аутоматски покренете Хапловиев (у режиму ногуи) на неколико датотека. Датотеке за групни унос треба да имају једну датотеку генотипа по реду, заједно са информативном датотеком (по жељи) одвојеном размаком. Имена датотека морају бити у складу са следећим правилима:

    • Имена Пед фајлова морају да се завршавају са ".пед"
    • Фазни називи датотека хаплотипа морају да се завршавају са „.хапс“
    • Називи ХапМап датотека морају да се завршавају на „.хмп“
    • Имена датотека са информацијама морају да се завршавају на „.инфо“

    Следећи пример приказује 2 педфиле (са инфо датотекама) и хапмап датотеку:


    Материјали и методе

    Дијаграм тока процеса од седам корака које ХаплоСхаре користи у откривању и процени ИБД-а са дељењем хаплотипова приказан је на слици 1.

    Корак 1. Израда каталога хаплотипова становништва

    Цео геном сваког контролног субјекта подељен је на регионе ЛД блокова и рекомбинационих жаришта на основу ЛД између СНП-а у здравим контролама, користећи модификацију раније методе [23]. Сматра се да пар СНП-ова има јак или слаб ЛД ако је једнострана горња граница поверења од 95% Д’ >гт0,98 или <лт0,90. Парови између ових вредности се не узимају у обзир. Ако („јаки ЛД“ парови) / („јаки ЛД“ парови + „слаби ЛД“ парови) &гт0,95 у региону, сматра се ЛД блоком. У супротном се третира као жариште рекомбинације и ови СНП-ови ће се разматрати појединачно. Процена ЛД блокова и жаришта почиње од највише 5' СНП у хромозому. Када се идентификује први пар суседних СНП-ова са јаким ЛД, низводни СНП-ови се додају у блок проценом ЛД сваког додавања са свим СНП-овима у региону, све док се дефиниција ЛД блока више не испуњава или док се два суседна СНП-а не испуне одвојено са &гт50 кб. Софтвер ПХАСЕ [24,25] се затим користи за генерисање каталога хаплотипова за сваки унапред дефинисани ЛД блок заједно са фреквенцијама њихове популације.

    Ако контролни подаци нису доступни, ЛД блокови и жаришта рекомбинације се дефинишу из генетских удаљености између СНП маркера добијених из ХапМап-а. Генетска удаљеност мања од 0,001 центиМоргана (цМ) између два суседна СНП-а унутар 10 кб проширује ЛД блок. Ове две методе обично генеришу сличне резултате ЛД блокова и рекомбинационих жаришта (Додатна датотека 1: Слика С1). Фазни подаци из одговарајуће популације у ХапМап-у ће се користити за генерисање каталога хаплотипова у овом случају.

    Корак 2. Фазирање генотипова у случајевима на основу каталога хаплотипова популације

    Генотипови у случајевима у сваком ЛД блоку су фазно подељени у хаплотипове на основу каталога хаплотипова популације. Може се применити неколико сценарија. (А) Само један пар хаплотипова у каталогу може објаснити генотипове у блоку. (Б) Ако је више од једног пара хаплотипова у складу са генотиповима у блоку, сви могући парови хаплотипова ће бити забележени и коришћени у каснијим корацима у идентификацији дељења хаплотипова. (Ц) Генотип се може објаснити само познатим хаплотипом заједно са хаплотипом који не постоји у каталогу. Ниска учесталост популације, која се процењује као

    претпоставља се за неоткривени хаплотип. Ево м је величина узорка контрола које се користе за генерисање каталога хаплотипова и претпоставља се 95% вероватноће да хаплотип буде одсутан у контролама. (Д) Генотипови нису у складу ни са једним од познатих хаплотипова у каталогу. У овом случају се претпостављају грешке у генотипизацији и ЛД блок се неће користити за почетну детекцију дељења хаплотипа. Међутим, то неће спречити проширење заједничког хаплотипа који га садржи.

    Корак 3. Откривање дељења хаплотипова у паровима у случајевима

    Након добијања резултата фаза за све случајеве, парови појединаца се скенирају и упоређују за потенцијално дељење хаплотипа у сваком хромозому. За иницирање подударања користе се само хаплотипови који се деле у ЛД блоку (не СНП-ови у жаришним тачкама рекомбинације). Заједнички регион је проширен у оба смера док га подржавају хаплотипови у ЛД блоковима или СНП-овима у жаришним тачкама, што омогућава потенцијалне грешке у генотипизацији. Грешке генотипизације се толеришу ако 1% или мање СНП-ова у проширеном хаплотипу није у складу са дељењем хаплотипа. Није дозвољена некомпатибилност у првих и последњих 20 СНП-ова проширеног заједничког хаплотипа да би се избегла лажна проширења. Проширени хаплотипови који се деле у паровима дуже од унапред постављене генетске удаљености (као што је 0,5 или 1 цМ како се користи у симулацијама приказаним у овој студији) се бирају и процењују за дељење међу више појединаца.

    Корак 4. Откривање дељења хаплотипова са више узорака

    Хаплотипови које деле парови упоређују се једни са другима да би се идентификовали они који деле бар део проширеног хаплотипа. Они се спајају када се различити парови преклапају барем делимично преко заједничког региона на истом алелу. Проширени хаплотип који дели више појединаца дефинише се као хаплотип који деле најмање две особе у било којој тачки и који садржи основни хаплотип који мора да покрије најмање један ЛД блок и да га деле све особе. Пример овога је илустрован на слици 4. Метод може пропустити појединце који деле део проширеног хаплотипа, али нису испунили праг селекције за дељење у пару са било којим другим узорцима у овој групи. Да би се они укључили у даљу анализу, преостали узорци се скенирају за оне који деле цео хаплотип језгра и имају укупну дужину заједничког хаплотипа која је најмање половина првобитно коришћеног прага (погледајте корак 3 изнад).

    Детекција хаплотипова који носе РЕТ мутацију. Регион мутације РЕТ обухвата 7 Мб у физичкој удаљености, али само 1 цМ у генетској удаљености, која садржи 17 ЛД блокова. Свих 14 случајева деле основни хаплотип састављен од блокова 8 до 11, а остатак региона деле најмање два случаја у било којој тачки. Учесталост заједничких хаплотипова у различитим блоковима варира од мање од 1% до 60% међу кинеском популацијом Хонг Конга.

    Корак 5. Процена односа вероватноће хаплотипа који дели ИБД наспрам случајног дељења

    Већина заједничких хаплотипова из опште популације су кратки и уобичајени, иако физичка дужина може бити лош показатељ [26]. Међутим, очекује се да ће прави хаплотипови недавних оснивача бити дужи и могу садржати више блоковских хаплотипова ниске фреквенције у популацији. Овде уводимо процену вероватноће дељења због ИБД-а или случајно и користимо логаритам њиховог односа да проценимо догађаје дељења хаплотипа.

    Ако је дељење последица случајног случаја, онда би наслеђивање хаплотипова из различитих блокова требало да буде независни догађај, занемарујући слабу ЛД између блокова. Стога се његова вероватноћа може проценити као производ вероватноће наслеђивања хаплотипова у различитим ЛД блоковима. Вероватноћа дељења хаплотипа и у ЛД блоку ј случајним случајем по к ј појединци се означава као П ј, који се, на основу учесталости популације заједничког хаплотипа и броја јединки које деле хаплотип, може проценити као:

    Популациона учесталост хаплотипа и у блоку ј је х ји. Ево к је број појединаца који деле проширени хаплотип, и к ј је број појединаца у к који деле хаплотип и у блоку ј и к јк. ( лево(почетакхфилл 2кхфилл <>хфилл кхфилл енддесно) ) означава број могућих комбинација од к хромозома од укупно 2 к хромозома, и ( <лефт(бегинхфилл 2хфилл <>хфилл 1хфилл енддесно)>^ ) указује да један од два хаплотипа дели сваки од њих к ј појединци. Вероватноћа дељења проширеног хаплотипа насумично је:

    где с је укупан број разматраних појединаца (на пример, величина узорка случајева), и м је укупан број ЛД блокова унутар овог проширеног заједничког хаплотипа. Тако Л(Х о ) представља вероватноћу од к појединци који случајно деле проширени хаплотип, а проширени хаплотип има м ЛД блокови са одговарајућим фреквенцијама хаплотипа х ји. Само блок хаплотипови се узимају у обзир за процену вероватноће.

    Ако се регион дели због наслеђа од недавног заједничког претка, вероватноћа се може проценити као функција процењене старости, н, заједничког хаплотипа (генерација) на основу генетске дужине региона и к, броја појединци који деле проширени хаплотип:

    Тако н × к представља укупан број мејоза у обликовању заједничког проширеног хаплотипа и 0,5 је шанса да се хаплотип наследи у свакој мејози. Пошто различите особе могу да деле различите дужине проширеног хаплотипа, н процењује се просечном генетском дистанцом д г (цМ) заједничког хаплотипа за сваки од к појединци:

    Наслеђени хаплотип од 2 цМ у просеку указује да се око 50 мејоза могло догодити у околном региону, што сугерише дељење заједничког претка пре око 50 генерација. Логаритам омјера вјероватноће дијељења према ИБД и дијељења случајно се тада процјењује као:

    Корак 6. Процена емпиријске нулте дистрибуције коришћењем контрола

    Однос вероватноће може бити надуван због слабог ЛД између блокова хаплотипа. Разлике у покривености генома, посебно на ретким генетским варијантама, могу довести до нетачности. Стога је неопходна корекција на нивоу генома да би се однос вероватноће учинио упоредивим у различитим регионима. Процес Монте Карло симулације се користи за испитивање дистрибуције заједничких хаплотипова у здравим контролама.

    Ако регион дели к појединци међу укупно с онда случајеви с узорци се бирају насумично из укупног скупа контрола. За ове појединце детектује се дељење хаплотипова и односи се вероватноће дељења од стране ИБД-а и дељења случајно израчунавају као што је горе описано. У свакој симулацији, највећи однос вероватноће од свих проширених хаплотипова у целом геному дели к или је евидентирано мање појединаца. Разлог коришћења највећег омјера вјероватноће из сваке итерације за израчунавање нулте дистрибуције у популацији умјесто кориштења оних из свих процијењених проширених хаплотипова је одраз потешкоћа у процјени нулте дистрибуције омјера вјероватноће док се узима питање вишеструког тестирања у обзир. Пошто је веома тешко моделирати ефекат на омјере вјероватноће према старости проширеног хаплотипа и броју појединаца који га дијеле, ово ограничење осигурава да се проширени хаплотипови у случајевима који су новији у историји открију. Овај процес се понавља најмање 1000 пута избором различитих скупова узорака из контрола насумично. Ако су доступни узорци у контролама мањи од 2 с, виртуелни узорци се генеришу у складу са СНП алелом и фреквенцијама блока хаплотипа постојећих узорака, као што је детаљно описано у наставку. Сваки круг симулације користи цео контролни узорак осим проширених хаплотипова који су већ одабрани и снимљени, како би се избегло понављање избора истих хаплотипова међу симулацијама. Ово је приступ који се бави проблемом да контролни узорци често нису довољно велики да омогуће поновљене симулације без одабира истог подскупа појединаца између различитих рунди.

    Ово генерише колекцију екстремних вредности односа вероватноће за дељење хаплотипова из контрола, које прате Гумбелову дистрибуцију, при чему доброта уклапања увек достиже 0,99 или више под Андерсон-Дарлинг тестом обављеним у Матлабу (П &гт0.01, прихвати Х0, што указује да подаци одговарају дистрибуцији). Према томе, ова дистрибуција се третира као емпиријска нулта дистрибуција у целом геному односа вероватноће за дељење хаплотипова у популацији од интереса (приказано као испрекидане криве на слици 2 и додатној датотеци 1: слика С2), из које грешка типа И могу се проценити и одредити прагови на основу површине испод криве на десном репу.

    Ако контролни узорци нису доступни или су мањи од двоструко већи од оних у случајевима, ХаплоСхаре генерише виртуелни скуп контролних података на основу хаплотипова и њихових учесталости популације на основу ХапМап података или обезбеђених контрола. Укратко, за генотипове у блоковима, два хаплотипа су насумично одабрана са вероватноћом пропорционалном учесталости њихове популације. За генотипове у жаришним тачкама рекомбинације, СНП алели се бирају помоћу Марковљевог модела са шансом да буду одабрани пропорционално његовом слабом ЛД према његовом 5' СНП, као што је претходно описано [26]. Ова процедура осигурава да фреквенције хаплотипа у блоку и ЛД за СНП-ове жаришта рекомбинације остају слични онима у оригиналним ХапМап узорцима или ограниченим контролама које су обезбеђене.

    Корак 7. Процена значаја логичких односа вероватноће

    П вредности се дефинишу као вероватноћа прекорачења посматране статистике под нултом хипотезом. Као што је горе поменуто, нулта хипотеза генерисана у овој методи (корак 6) није заснована на свим процењеним проширеним хаплотиповима, већ на најбољим из итерација. Стога, да бисмо избегли забуну, користили смо термин „квази“. П вредност“ уместо „П вредност“ у овој методи. „Квази П вредност“ не одражава директно лажно позитивну стопу методе, већ само процењује значај сваког дељења хаплотипа. Дистрибуција генерисана у кораку 6 је примењена да се пронађе „квази П вредности“ дељења хаплотипа идентификованих међу случајевима. Додатни фајл 1: Табела С10 је демонстрирала начин израчунавања лажно позитивних стопа из одређених квази П вредности.

    Корак 8. Уклањање проширених хаплотипова које деле и случајеви и контроле без значајних разлика у учесталости

    Да би се додатно смањили лажно позитивни налази, значајно заједнички хаплотипови у случајевима се затим упоређују са онима који се деле у контролама како би се пронашли они који се преклапају и на локацији и на алелу, и без значајних разлика у броју појединаца који деле хаплотип. За сваки заједнички хаплотип за који се утврди да је значајан у случајевима, ХаплоСхаре испитује узорке у свим контролама које носе исти хаплотип према следећим критеријумима: (1) постоји потпуно преклапање основног хаплотипа између дељења случајева и контрола (2) узорци у контролама такође деле преко 50% целокупног проширеног хаплотипа који се дели у случајевима и (3) нема значајне разлике у учесталости заједничког хаплотипа између случајева и контрола на основу Хи квадрат теста (П &гт0.05). Хаплотипови заједнички у случајевима као иу тако дефинисаним контролама сматрају се без доказа о повезаности са основном болешћу и уклањају се из налаза.

    Генерисање скупова података за процену ХаплоСхаре и других програма

    За процену ове методологије коришћен је прави скуп података кинеских узорака из Хонг Конга генотипизованих коришћењем Иллумина 610-Куад Беадцхипс-а (&гт2.800 појединаца види Додатну датотеку за детаље о подацима). Подаци су први пут коришћени за процену методе фаза увођења у ХаплоСхаре. Генотипови из једног сета од 1.000 јединки коришћени су за генерисање каталога хаплотипова популације у блоку, а други сет од 1.000 индивидуа је насумично изабран за тестирање процеса фазе. Утврђено је да се око 91% маркера налази у ЛД блоковима, а остатак у жаришним тачкама рекомбинације. Деведесет седам процената блоковских генотипова могло би се објаснити јединственим паром хаплотипова 2,7% је објашњено са више од једног пара хаплотипова, а 0,2% генотипова у блоку могло би се објаснити само једним познатим хаплотипом и непознатим хаплотип. Веома ретко су генотипови у блоку (<лт0,01%) били некомпатибилни ни са једним познатим хаплотипом у овом скупу података, иако ће то зависити од величине коришћеног контролног узорка и стопе грешке платформе за генотипизацију.

    Да би се генерисали нови хаплотипови оснивача, процес мејозе је симулиран као што је претходно описано [27]. У свакој симулацији, један узорак је одабран као „предак“, а неколико узорака као „потомци“ последње генерације. Генотипови одабраних узорака унутар ЛД блокова су распоређени у фазама према горе уведеном каталогу хаплотипова блокова (или коришћењем генотипова чланова породице које је БЕАГЛЕ у фазама, види доле). ЛД између два суседна СНП-а у жаришним тачкама рекомбинације или између ЛД блокова је моделован као што је горе описано. Стога је ЛД и унутар и између блокова узета у обзир у процесу фаза.

    Након фазе, један СНП „предак“ је насумично изабран као „мутација оснивача“. У симулираном процесу мејозе, продужени хаплотип који носи мутацију је скраћен кроз сваки симулирани догађај рекомбинације [27]. Када је одређен опсег хаплотипа који носи „мутацију оснивача“, један од алела на његовој локацији у сваком од „потомака“ последње генерације замењен је хаплотипом оснивача који носи мутацију да би се генерисали генотипови који носе овај хаплотип предака. Овако створени „погођени потомци“ помешани су са другим насумично одабраним појединцима у групи „случаја“ за тестирање ХаплоСхаре и других програма. Додатни фајл 1: Слика С3 приказује корелацију генетске удаљености и старости (генерација) хаплотипова оснивача симулираних у овој студији.

    У овој студији је такође коришћен алтернативни метод генерисања хаплотипова оснивача који је мање сличан алгоритму који користи ХаплоСхаре. Користио је податке од 192 пара сибова генотипизованих коришћењем Иллумина 610-Куад Беадцхип-а. Региони са потенцијално заједничким ИБД између браће и сестара дефинисани су као било који регион већи од 10 цМ у генетској удаљености и садржи мање од 0,1% маркера са потпуном неподударношћу генотипа (дискордантни хомозиготни генотипови). За сваки сиб пар, насумично је одабрано 960 таквих потенцијалних ИБД региона различитих дужина (1, 2, 3, 4 и 5 цМ у генетској удаљености). Фазирање ИБД региона је извршено коришћењем БЕАГЛЕ-а [16]. Хаплотипови који су делили ИБД међу браћом и сестрама су затим коришћени као „хаплотипови оснивача“ у процесу симулације који је горе описан и упоређена је осетљивост ХаплоСхаре-а у откривању хаплотипова оснивача генерисаних помоћу две различите методе.

    Процењена је стопа лажних позитивних резултата и ранг симулираних хаплотипова оснивача међу свим значајним проширеним хаплотиповима који се деле у целом геному. Хиљаду појединаца је насумично одабрано из стварног скупа података кинеских узорака из Хонг Конга као подаци за тестирање у свакој симулацији. У по 100 понављања, две, пет или 10 од 1000 појединаца су убачене са симулираним хаплотипом недавног оснивача од 10 до 50 генерација. Сви заједнички проширени хаплотипови (симулирани и несимулирани) идентификовани од стране ХаплоСхаре на нивоу значаја квази П &лт0,05 су пребројани и рангирани према њиховом квази П вредности. Просечан број идентификованих заједничких хаплотипова и ранг симулираних хаплотипова оснивача коришћени су за процену лажно позитивног откривања. Због ограничења у дизајну, БЕАГЛЕ фастИБД може да користи само симулирано дељење хаплотипова добијених у паровима из ових симулација као тест за лажно позитивне резултате.

    Доступност података

    Програм и подаци који се користе за тестирање програма доступни су на следећим веб локацијама: