Информације

Зашто број мутација по појединцу прати Поиссонову дистрибуцију?

Зашто број мутација по појединцу прати Поиссонову дистрибуцију?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Читао сам ову рецензију. На страни 11, лева колона, први пасус, може се прочитати:

[… ] постоји Поиссонова дистрибуција равнотежног броја мутација по појединцу, ако су ефекти фитнеса мултипликативни.

без даљих објашњења. Другим речима, нека променљива $Кс$ буде број (штетних) мутација пронађених код једне индивидуе (без обзира на то да ли се мутација догодила у гонадама родитеља или је старија у лози). Променљива $Кс$ је Поиссонова дистрибуција.

Зашто је ова изјава тачна? Претпостављам да изјава такође претпоставља да све мутације имају исти ефекат на кондицију, да ли је то тачно?


Поиссонов процес прати ове постулате:

  1. $лимлимитс_{хто0+}фрац{П(Н_х=1)}х=ламбда$
    тј. вероватноћа појаве једног догађаја у веома малом временском интервалу једнака је макроскопској брзини или интензитету ($ламбда,$).
  2. $П(Н_хгекслант2)=о(х)$
    односно вероватноћа појаве више од једног догађаја у инфинитезималном интервалу је у суштини нула.
  3. Догађаји су независни.

Ако узмете у обзир једну индивидуу (ради једноставности претпоставите једну ћелију), онда ће ДНК бити подвргнут мутацијама по одређеној стопи (за коју претпостављамо да је униформна за све локусе). Сада је сваки догађај мутације независан од претходног догађаја и у веома малом временском интервалу шанса за две или више мутација је занемарљива. Узимајући у обзир све ове чињенице и претпоставке, може се рећи да би се мутација у једној ћелији понашала као Поиссонов процес.

Из Поасонових постулата можете извести израз за Поасонову дистрибуцију који описује вероватноћу $к$ броја догађаја у датом временском интервалу, $т$. Дакле, број мутација код појединца за фиксни временски прозор ($т,$) прати Поиссонову дистрибуцију.

$$П(Н=к)=фрац{(ламбда т)^к е^{-ламбда т}}{к!}$$

Извођење Поасонове дистрибуције можете пронаћи из постулата из многих извора. Позвао сам се на ову књигу:

Хогг, Роберт В. и Аллен Т. Цраиг. Увод у математичку статистику. Њујорк: Макмилан, 1978.

УРЕДИТИ

Ефекат штетних мутација, у поменутом одељку повезаног рада говори се о Муллеровом четверцу који описује акумулацију штетних мутација и њихов утицај на популацију (тј. изумирање). Као и сваки догађај мутације, акумулација штетних мутација ће такође пратити Поиссонову дистрибуцију. Муллерова мера само каже да ће изван границе толеранције, штетне мутације изазвати изумирање организама који се асексуално размножавају. Можда ако би свака штетна мутација имала снажан утицај на кондицију, онда би узорковање из популације могло довести до не-Поиссонових процена.


Зато што је последица функционалног облика Поасонове расподеле да су средња вредност и варијанса једнаке. Ако овај услов није испуњен, модел је неадекватан и могу се размотрити алтернативе као што је негативна биномна регресија (ово се назива прекомерна дисперзија). види:

Да бисмо то видели, размотримо број судара за одређену карактеристику пута. Рецимо да овај број прати Пуасонову расподелу са средњом вредношћу $му$. Ова средња вредност је за одређени број пређених км, па хајде да уведемо стопу $ламбда$, рецимо 1 судар по км и укупан број пређених км $Т$. Једна од претпоставки Поиссонове дистрибуције је да стопа остаје константна на укупно пређеном растојању, сходно томе, $му=Т тимес ламбда.$

Делимо број пређених километара на мале $Н$ кратке интервале величине $х$, тако кратке да сваки подинтервал садржи највише један судар. Сада, вероватноћа да видите крах у овом малом интервалу је као бацање новчића. Ову вероватноћу ћемо означити са $п$. Ово је познато као Бернулијева расподела и ми ћемо узети здраво за готово да је варијанса $п пута (1 - п)$. Са друге стране, раније смо сазнали да је стопа $ламбда$ константна, тако да очекујемо да ћемо видети $ламбда тимес х$ догађај у овом подинтервалу, то јест, $п=ламбда тимес х$.

Сада, ако претпоставимо да је вероватноћа да се види крах у овом малом под-интервалу изузетно мала, онда се $1 - п$ приближава 1 (нпр. узмите у обзир $х=тект<1 метар>$). Раније смо сазнали да је варијанса за Бернулијеву дистрибуцију $п тимес (1-п)$ и ако је $п$ изузетно ниска, онда је $п тимес (1-п) симек п=ламбдатимес х.$ Ово је прилично интересантно јер смо управо показали да су и средња вредност и варијанса једнаке $ламбда тимес х$ у овом малом подинтервалу.

Ако проширите овај приступ на $н$ узастопних интервала (као што је бацање новчића $н$ пута), добићете нешто што се зове биномна дистрибуција и у овом случају, средња вредност је $нп$ и варијанса $нп(1-п )симек нп$ када је $п$ мали. Да пређемо на ствар, за $Н$ узастопних интервала величине $х$ са екстремно ниским $п$, средња вредност и варијанса су једнаке.

Сада, у пракси, то обично није случај у опсервационим студијама. Разлог је што у студији не можемо узети у обзир све факторе хетерогености. На пример, средњи број несрећа може се разликовати током дана и ноћи. Ипак, ако бисмо објединили оба без узимања у обзир различитих фактора, маргинална варијанса би могла постати већа од онога што очекујемо. Ово се зове прекомерна дисперзија.


5 одговора 5

Користићу следећу нотацију да будем што је могуће доследнији викију (у случају да желите да идете напред-назад између мог одговора и вики дефиниција за поиссон и експоненцијалну).

$Н_т$: број долазака током временског периода $т$

$Кс_т$: време потребно да стигне још један долазак под претпоставком да је неко стигао у време $т$

По дефиницији, следећи услови су еквивалентни:

Догађај са леве стране обухвата догађај да нико није стигао у временском интервалу $[т,т+к]$ што имплицира да је наш број долазака у време $т+к$ идентичан броју у време $т$ што је догађај са десне стране.

По правилу комплемента имамо и:

Користећи еквивалентност два догађаја која смо описали горе, можемо поново написати горе као:

$П(Кс_т ле к) = 1 - П(Н_ - Н_т = 0)$

Користећи поиссон пмф изнад, где је $ламбда$ просечан број долазака по временској јединици, а $к$ количина временских јединица, поједностављује се на:

Заменивши нашу оригиналну једначину, имамо:

Горе наведено је цдф експоненцијалног пдф-а.

За Поиссонов процес, погоци се дешавају насумично независно од прошлости, али са познатом дугорочном просечном стопом $ламбда$ погодака по временској јединици. Поиссонова дистрибуција би нам омогућила да пронађемо вероватноћу да добијемо одређени број погодака.

Сада, уместо да гледамо број погодака, гледамо случајну променљиву $Л$ (за животни век), време које морате да сачекате на први погодак.

Вероватноћа да је време чекања дуже од дате временске вредности је $П(Л гт т) = П(тект)=фрац<Ламбда^0е^<-Ламбда>><0!>=е^<-ламбда т>$ (према Поасоновој расподели, где је $Ламбда = ламбда т$).

$П(Л ле т) = 1 - е^<-ламбда т>$ (кумулативна функција дистрибуције). Функцију густине можемо добити узимајући извод овога:

За сваку случајну променљиву која има функцију густине као што је ова се каже да је експоненцијално распоређена.

Остали одговори добро објашњавају математику. Мислим да је од помоћи размотрити физички пример. Када размишљам о Поиссоновом процесу, увек се враћам на идеју о аутомобилима који пролазе путем. Ламбда је просечан број аутомобила који прођу у јединици времена, рецимо 60/сат (ламбда = 60). Знамо, међутим, да ће стварни број варирати - неким данима више, неким данима мање. Поиссонова дистрибуција нам омогућава да моделујемо ову варијабилност.

Сада, у просеку 60 аутомобила на сат је једнако просечном проласку једног аутомобила сваког минута. Ипак, опет знамо да ће постојати варијабилност у времену између долазака: понекад више од 1 минута, понекад мање. Експоненцијална дистрибуција нам омогућава да моделујемо ову варијабилност.

Све што је речено, аутомобили који пролазе путем неће увек пратити Поиссонов процес. Ако је, на пример, семафор одмах иза угла, доласци ће бити скупљени уместо стабилних. На отвореном аутопуту, спора приколица за тегљач може задржати дугу колону аутомобила, што ће опет изазвати гомилање. У овим случајевима, Поиссонова дистрибуција може и даље радити у реду током дужих временских периода, али експоненцијална ће лоше успети у моделирању времена доласка.

Имајте на уму и да постоји огромна варијабилност у зависности од доба дана: прометније током путовања на посао много спорије у 3 сата ујутро. Уверите се да ваша ламбда одражава одређени временски период који разматрате.


Методе

Модел

Сматрамо коначну стриктно асексуалну хаплоидну популацију (са константном величином популације Н) који се састоји од 10 субпопулација, од којих свака има Н/10 појединаца и другачија стопа мутација, са свим осталим једнаким. Образложење методе је да се ове подпопулације такмиче за постојање под природном селекцијом и случајним померањем. На крају симулације остаје само једна субпопулација, а остале су изумрле. Стопа мутације преостале популације постаје "фиксна" стопа мутација у тој конкуренцији. Симулирајући процес много пута, можемо дефинисати најчешће фиксну стопу мутација као „оптимални“ степен мутације.

Свакој од десет субпопулација додељена је посебна стопа мутације по геному по генерацији (погледајте параметре). И штетне и корисне мутације се јављају у свакој субпопулацији са фракцијама за корисне и штетне мутације које представљају стр б и стр д (тј. 1- стр б ), редом. Ефекти (коефицијенти селекције) и корисних и штетних мутација су извучени из континуираних дистрибуција вероватноће. Означавамо с б као ефекти корисних мутација (у ком случају фитнес в повећава се за фактор 1+ с б ), док с д представља ефекте штетних мутација (у ком случају фитнес в се смањује за фактор 1- с д )[21].

Претпостављамо да с б прати експоненцијалну расподелу: ф ( с б , λ ) = λ е − λ с б са 1/λ као средњом вредношћу расподеле. Ова претпоставка има добру теоријску подршку из теорије екстремних вредности и широко се користи у моделима популационе генетике [22–24]. Ефекти штетних мутација могу бити сложени и још увек не постоји општа претпоставка о дистрибуцији с д у аналитичким прорачунима, међутим, емпиријска истраживања подржавају гама дистрибуцију са параметром облика мањим од један (друге дистрибуције нису нужно искључене)[25, 26]. У овој студији претпостављамо да с д прати искривљену гама расподелу ф ( с д , α , β ) = с д α − 1 е − с д / β / ( β α Γ ( α ) ) (α≤1). Гама дистрибуција коришћена у нашим симулацијама је скраћена са вредношћу 1,0, што је неопходно да би се избегла негативна кондиција. Поред тога, претпостављамо да су средњи ефекти корисних мутација ( с б ¯ ) много мањи од средњих ефеката штетних ( с д ¯ ), што се чини разумним у већини случајева [27, 28].

Параметерс

У нашим симулацијама, величине фракција и ефекти и корисних и штетних мутација су најважнији квантитативни параметри. Бројне експерименталне студије на микробима бациле су мало светла на ову област и неке процене ових параметара су сажете у табели 1[29–35]. Ови подаци дају најбоље доступне претпоставке параметара коришћених у симулацијама. Један пример дистрибуције ефеката мутације и одговарајуће варијације способности изазване мутацијама које усвајамо приказан је на слици 1. Још један суштински параметар укључен у симулације су стопе мутација које су првобитно додељене десет субпопулација. И логаритамски облик стопе мутације (лг(У)) је отприлике равномерно распоређено између -4 и -1. Поред тога, усвајамо неколико опсега који се састоје од различитих стопа мутација, које су приказане у табели 2, да видимо да ли овај почетни опсег утиче на оптималну стопу мутације.

Један пример дистрибуције ефеката мутације. (А) Ефекти штетних мутација прате гама дистрибуцију са α = 0,6 (параметар облика), β = 0,5 (параметар скале), а средњи ефекти су с ¯ д = 0,3 . (Б) Ефекти корисних мутација прате експоненцијалну дистрибуцију са λ = 100, а средњи ефекти су с ¯ б = 0,01. (Ц) Дистрибуција кондиције се мења и штетним и корисним мутацијама са стр д = 97% и стр б = 3%.

Нумеричке симулације

Током читаве студије, претпостављамо да су генерације дискретне и да се не преклапају. У свакој генерацији, број нових мутација (м) који се појављује код појединца који припада и-тх субпопулација је извучена из Поиссонове расподеле п ( м , У и ) = У и м е − У и и / м ! , где У и је стопа мутације генома и-тх субпопулација. Стопа штетних мутација је тада дата са У и ×стр д а корисна стопа мутација је У и ×стр б . С обзиром да се јавља штетна (или корисна) мутација, фитнес в појединца се смањује (или повећава) за 1- с д (или 1+ с б ), где с д (или с б ) се насумично извлачи из гама (или експоненцијалне) расподеле. Овде претпостављамо да се епистаза не јавља, па све мутације имају независне ефекте на кондицију и делују мултипликативно. Могуће је да појединац може носити више мутација у једној генерацији. У овом случају, кондиција појединца у н-тх генерација (в н ) је функција бројева мутација које појединац носи (м), њихове ефекте мутације (с ј ), и способност његовог родитеља у (н-1)-тх генерација (в н-1 ). Ова функција се може описати као

Потомство се узоркује са понављањем у складу са мултиномијалном дистрибуцијом, пондерираном према способности њиховог родитеља. Свако потомство означавамо јединственим идентификатором за његову конкретну подпопулацију.

Пратимо број јединки сваке подпопулације док не достигне величину популације једне подпопулације Н а величине осталих субпопулација постају нула. У овом тренутку, процес се зауставља и бележи се одговарајућа стопа мутације преостале субпопулације. Поред тога, прати се и број генерација које једно такмичење носи. Покрећемо симулације које варирају и величину популације и ефекте мутације да бисмо проценили како и у којој мери они утичу на резултате такмичења (погледајте Резултати). Неки почетни услови популације су такође опуштени да би се тестирала робусност методе (погледајте Дискусија).


Садржај

Функција масе вероватноће Уреди

За дискретну случајну променљиву Кс се каже да има Поиссонову дистрибуцију, са параметром λ &гт 0 <дисплаистиле ламбда &гт0>, ако има функцију масе вероватноће дату са: [2] : 60

Позитиван реални број λ једнак је очекиваној вредности Кс и такође његовој варијанси [3]

Поиссонова дистрибуција се може применити на системе са великим бројем могућих догађаја, од којих је сваки редак. Број таквих догађаја који се дешавају током фиксног временског интервала је, под правим околностима, случајни број са Поиссоновом дистрибуцијом.

Пример Едит

Поиссонова дистрибуција може бити корисна за моделирање догађаја као што су

  • Број метеорита пречника већег од 1 метра који ударе у Земљу у години
  • Број пацијената који долазе у хитну помоћ у периоду од 22 до 23 часа
  • Број ласерских фотона који ударају у детектор у одређеном временском интервалу

Претпоставке и валидност Едит

Поиссонова дистрибуција је одговарајући модел ако су тачне следеће претпоставке: [4]

  • к је број пута да се догађај деси у интервалу и к може да има вредности 0, 1, 2, .
  • Појава једног догађаја не утиче на вероватноћу да ће се десити други догађај. То јест, догађаји се дешавају независно.
  • Просечна стопа по којој се догађаји дешавају независна је од било које појаве. Ради једноставности, обично се претпоставља да је ово константно, али у пракси може да варира током времена.
  • Уместо тога, два догађаја се не могу десити у потпуно истом тренутку, у сваком веома малом под-интервалу тачно се један догађај или деси или не догоди.

Ако су ови услови тачни, онда је к Поасонова случајна променљива, а дистрибуција к је Поасонова расподела.

Поиссонова расподела је такође граница биномне дистрибуције, за коју је вероватноћа успеха за сваки покушај једнака λ подељеном са бројем покушаја, како се број покушаја приближава бесконачности (погледајте Повезане дистрибуције).

Примери вероватноће за Поасонове дистрибуције Уреди

На одређеној реци, поплаве се у просеку дешавају једном у 100 година. Израчунајте вероватноћу к = 0, 1, 2, 3, 4, 5 или 6 поплава преливања у интервалу од 100 година, под претпоставком да је Поиссонов модел одговарајући.

Пошто је просечна стопа догађаја једна поплава преливања на 100 година, λ = 1

Вероватноћа за 0 до 6 поплава преливања у периоду од 100 година.

Угарте и његове колеге наводе да је просечан број голова на фудбалској утакмици Светског првенства приближно 2,5 и да је Поиссонов модел одговарајући. [5] Пошто је просечна стопа догађаја 2,5 гола по мечу, λ = 2.5.

Вероватноћа од 0 до 7 голова на утакмици.

Догађаји једном у интервалу: посебан случај λ = 1 и к = 0 Уреди

Претпоставимо да астрономи процењују да велики метеорити (изнад одређене величине) ударе у земљу у просеку једном у 100 година (λ = 1 догађај на 100 година), и да број удараца метеорита прати Поиссонову дистрибуцију. Колика је вероватноћа да ће метеорит ударити к = 0 у наредних 100 година?

Под овим претпоставкама, вероватноћа да ниједан велики метеорит не удари у земљу у наредних 100 година је отприлике 0,37. Преосталих 1 − 0,37 = 0,63 је вероватноћа 1, 2, 3 или више великих удара метеорита у наредних 100 година. У примеру изнад, поплава се дешавала једном у 100 година (λ = 1). Вероватноћа да поплаве неће бити преливене за 100 година је, према истом прорачуну, отприлике 0,37.

Генерално, ако се догађај у просеку дешава једном у интервалу (λ = 1), а догађаји прате Поасонову дистрибуцију П(0 догађаја у следећем интервалу) = 0,37 . Додатно, П(тачно један догађај у следећем интервалу) = 0,37, као што је приказано у табели за преливне поплаве.

Примери који крше Поиссонове претпоставке Уреди

Број ученика који стигну у студентску унију по минуту вероватно неће пратити Поиссонову дистрибуцију, јер стопа није константна (ниска стопа током часа, висока стопа између часова) и доласци појединачних ученика нису независни (ученици имају тенденцију да долазе у групама).

Број земљотреса магнитуде 5 годишње у земљи можда неће пратити Поиссонову дистрибуцију ако један велики земљотрес повећава вероватноћу накнадних потреса сличне магнитуде.

Примери у којима је загарантован најмање један догађај нису Поиссонова дистрибуција, али се могу моделовати коришћењем Поасонове дистрибуције скраћене на нулу.

Дистрибуције бројања у којима је број интервала са нултим догађајима већи од предвиђеног Поиссоновим моделом могу се моделовати коришћењем модела са нултим надувавањем.

Дескриптивна статистика Уреди

  • Очекивана вредност и варијанса случајне променљиве дистрибуиране Поиссоном су једнаке λ.
  • Коефицијент варијације је λ − 1 / 2 <дисплаистиле тектстиле ламбда ^<-1/2>>, док је индекс дисперзије 1. [6] : 163
  • Просечна апсолутна девијација око средње вредности је [6] : 163
  • Режим случајне променљиве дистрибуиране Поиссоном са нецелим λ је једнак ⌊ λ ⌋ <дисплаистиле сцриптстиле лфлоор ламбда рфлоор >, што је највећи цео број мањи или једнак λ. Ово се такође пише као флоор(λ). Када је λ позитиван цео број, модови су λ и λ − 1.
  • Сви кумуланти Поиссонове дистрибуције су једнаки очекиваној вредности λ. Тхе нтх факторијални момент Поасонове расподеле је λн .
  • Очекивана вредност Поиссоновог процеса се понекад разлаже на производ од интензитет и изложеност (или уопштеније изражено као интеграл „функције интензитета“ током времена или простора, понекад описано као „изложеност“). [7]

Медиан Едит

Виши тренуци Уреди

Збирке случајних променљивих дистрибуираних Поиссоном Уреди

Остала својства Уреди

  • Поиссонове расподеле су бесконачно дељиве расподеле вероватноће. [14] : 233 [6] : 164
  • Усмерена Куллбацк–Леиблерова дивергенција Поис ⁡ ( λ 0 ) <дисплаистиле операторнаме (ламбда _<0>)> из Поис ⁡ ( λ ) <дисплаистиле операторнаме (ламбда )> је дат помоћу
  • Границе за реп вероватноће Поасонове случајне променљиве Кс ∼ Поис ⁡ ( λ ) <дисплаистиле Кссим операторнаме (ламбда )> може се извести коришћењем Чернофовог везаног аргумента. [15] : 97-98
  • Горња вероватноћа репа се може смањити (за фактор од најмање два) на следећи начин: [16]
  • Неједначине које повезују функцију дистрибуције Поасонове случајне променљиве Кс ∼ Поис ⁡ ( λ ) <дисплаистиле Кссим операторнаме (ламбда )> на стандардну функцију нормалне дистрибуције Φ ( к ) <дисплаистиле Пхи (к)>су следеће: [16]

Поиссон трке Едит

Горња граница се доказује коришћењем стандардне Чернофове границе.

Генерал Едит

  • Ако је Кс 1 ∼ П о и с ( λ 1 ) <дисплаистиле Кс_<1>сим матхрм (ламбда _<1>),> и Кс 2 ∼ П о и с ( λ 2 ) <дисплаистиле Кс_<2>сим матхрм (ламбда _<2>),> су независне, онда разлика И = Кс 1 − Кс 2 <дисплаистиле И=Кс_<1>-Кс_<2>> прати Скеламову дистрибуцију.
  • Ако је Кс 1 ∼ П о и с ( λ 1 ) <дисплаистиле Кс_<1>сим матхрм (ламбда _<1>),> и Кс 2 ∼ П о и с ( λ 2 ) <дисплаистиле Кс_<2>сим матхрм (ламбда _<2>),> су независни, онда је дистрибуција Кс 1 <дисплаистиле Кс_<1>> условљена на Кс 1 + Кс 2 <дисплаистиле Кс_<1>+Кс_<2>> биномна расподела.
  • Ако је Кс ∼ П о и с ( λ ) <дисплаистиле Кссим матхрм (ламбда ),> и дистрибуција И <дисплаистиле И>, условљена Икс = к, је биномна расподела, И ∣ ( Кс = к ) ∼ Б и н о м ( к , п ) <дисплаистиле Имид (Кс=к)сим матхрм (к,п)> , тада дистрибуција И прати Поиссонову расподелу И ∼ П о и с ( λ ⋅ п ) <дисплаистиле Исим матхрм (ламбда цдот п),> . У ствари, ако < И и ><дисплаистиле <>>> , условљено Кс = к, прати мултиномијалну дистрибуцију, < И и >∣ ( Кс = к ) ∼ М у л т и н о м ( к , п и ) <дисплаистиле <>>мид (Кс=к)сим матхрм лево(к,п_десно)> , затим свако И и <дисплаистиле И_> прати независну Поасонову дистрибуцију И и ∼ П о и с ( λ ⋅ п и ), ρ ( И и , И ј ) = 0 <дисплаистиле И_сим матхрм (ламбда цдот п_),рхо (И_,И_)=0> .
  • Поиссонова дистрибуција се може извести као ограничавајући случај биномске дистрибуције јер број покушаја иде у бесконачност, а очекивани број успеха остаје фиксан — види закон ретких догађаја у наставку. Стога се може користити као апроксимација биномске дистрибуције ако н је довољно велика и стр је довољно мала. Постоји правило које каже да је Поиссонова дистрибуција добра апроксимација биномске расподеле ако је н најмање 20 и стр је мањи или једнак 0,05, и одлична апроксимација ако н ≥ 100 и нп ≤ 10. [18]
  • Поасонова дистрибуција је посебан случај дискретне сложене Поасонове дистрибуције (или неповратне Поасонове дистрибуције) са само параметром. [19][20] Дискретна сложена Поасонова расподела може се извести из граничне расподеле униваријантне мултиномске расподеле. То је такође посебан случај сложене Поиссонове дистрибуције.
  • За довољно велике вредности λ (рецимо λ&гт1000), нормална дистрибуција са средњим λ и варијансом λ (стандардна девијација λ <дисплаистиле <скрт <ламбда >>> ) је одлична апроксимација Поасоновој расподели. Ако је λ веће од око 10, онда је нормална расподела добра апроксимација ако се изврши одговарајућа корекција континуитета, тј.ИксИкс), где Икс је ненегативан цео број, замењује се са П(ИксИкс + 0.5).
    : Ако је Кс ∼ П о и с ( λ ) <дисплаистиле Кссим матхрм (ламбда ),> , онда
  • Ако за сваки т &гт 0 број долазака у временском интервалу [0, т] прати Поиссонову расподелу са средњом вредношћу λт, тада су низ времена између долазака независне и идентично распоређене експоненцијалне случајне променљиве које имају средњу вредност 1/λ. [23] : 317–319
  • Функције кумулативне расподеле Поасонове и хи-квадрат расподеле повезане су на следеће начине: [6] : 167

Уређивање Поиссонове апроксимације

Биваријантна Поиссонова дистрибуција Уреди

Ова дистрибуција је проширена на биваријантни случај. [25] Генерирајућа функција за ову дистрибуцију је

Маргиналне дистрибуције су Поиссонове (θ1) и Поиссон (θ2) а коефицијент корелације је ограничен на опсег

Бесплатна Поиссонова дистрибуција Уреди

Ова дефиниција је аналогна једном од начина на који се класична Поасонова расподела добија из (класичног) Поасоновог процеса.

Мера повезана са слободним Поиссоновим законом је дата у [27]

Неке трансформације овог закона Едит

Дајемо вредности неких важних трансформација слободног Поиссоновог закона које се израчунавање може наћи у нпр. у књизи Предавања Комбинаторика слободне вероватноће аутори А. Ница и Р. Спеицхер [28]

Р-трансформација слободног Поиссоновог закона је дата са

Кошијева трансформација (која је негативна Стилтјесове трансформације) је дата са

Процена параметара Уреди

Пошто свако запажање има очекивање λ, значи и вредност узорка. Према томе, процена максималне вероватноће је непристрасна процена λ. Такође је ефикасан процењивач пошто његова варијанса постиже Црамер-Рао доњу границу (ЦРЛБ). [ потребан цитат ] Стога је минимална варијанса непристрасна. Такође се може доказати да је збир (а самим тим и средња вредност узорка пошто је једна-према-један функција збира) потпуна и довољна статистика за λ.

Да бисмо пронашли параметар λ који максимизира функцију вероватноће за Поасонову популацију, можемо користити логаритам функције вероватноће:

Решавање за λ даје стационарну тачку.

Тако λ је просек од ки вредности. Добијање предзнака другог извода од Л на стационарној тачки одредиће какву екстремну вредност λ је.

Вредновање другог извода на стационарној тачки даје:

што је негативно од н пута реципрочну вредност просека ки. Овај израз је негативан када је просек позитиван. Ако је ово задовољено, тада стационарна тачка максимизира функцију вероватноће.

Интервал поверења Уреди

Интервал поверења за средњу вредност Поасонове дистрибуције може се изразити коришћењем односа између кумулативних функција расподеле Поасонове и хи-квадрат расподеле. Сама дистрибуција хи-квадрат је уско повезана са гама дистрибуцијом, и то доводи до алтернативног израза. С обзиром на запажање к из Поиссонове расподеле са средњом μ, интервал поверења за μ са нивоом поверења 1 – α је

где је χ 2 ( п н ) <дисплаистиле цхи ^<2>(пн)> квантилна функција (која одговара доњем делу репа стр) хи-квадрат расподеле са н степени слободе и Ф − 1 ( пн , 1 ) <дисплаистиле Ф^<-1>(пн,1)> је квантилна функција гама дистрибуције са параметром облика н и параметром скале 1. [6] : 176- 178 [30] Овај интервал је „тачан“ у смислу да његова вероватноћа покрића никада није мања од номиналног 1 – α .

Када квантили гама дистрибуције нису доступни, предложена је тачна апроксимација овом тачном интервалу (на основу Вилсон-Хилфертијеве трансформације): [31]

За примену ових формула у истом контексту као горе (дати узорак н измерене вредности ки сваки извучен из Поиссонове дистрибуције са средњом λ), један би поставио

израчунати интервал за μ = нλ, а затим изведите интервал за λ.

Бајесов закључак Уреди

У Бајесовом закључивању, претходни коњугат за параметар брзине λ Поиссонове расподеле је гама расподела. [32] Нека

означавају то λ дистрибуира се према густини гама г параметризована у смислу параметра облика α и параметар инверзне скале β:

Затим, с обзиром на исти узорак од н измерене вредности ки као и раније, и приор Гама(α, β), постериорна расподела је

Постериорна предиктивна дистрибуција за једно додатно посматрање је негативна биномна расподела, [33] : 53 која се понекад назива гама-Поасонова расподела.

Истовремена процена вишеструких Поиссонових средстава Уреди

Примене Поасонове дистрибуције могу се наћи у многим областима укључујући: [36]

    пример: телефонски позиви који стижу у систем. пример: фотони који долазе до телескопа. пример: дистрибуција моларне масе живе полимеризације. [37] пример: број мутација на ланцу ДНК по јединици дужине. пример: клијенти који долазе на шалтер или позивни центар. пример: број губитака или потраживања насталих у датом временском периоду. пример: асимптотски Поиссонов модел сеизмичког ризика за велике земљотресе. [38] пример: број распада у датом временском интервалу у радиоактивном узорку. пример: број фотона емитованих у једном ласерском импулсу. Ово је велика рањивост већине протокола за дистрибуцију квантних кључева познатих као Пхотон Нумбер Сплитинг (ПНС).

Поасонова расподела настаје у вези са Поасоновим процесима. Примјењује се на различите феномене дискретних својстава (односно, оне који се могу догодити 0, 1, 2, 3, . пута током датог временског периода или у датој области) кад год је вјероватноћа да се феномен деси константна у времену или простор. Примери догађаја који се могу моделовати као Поиссонова дистрибуција укључују:

  • Број војника убијених ударцима коња сваке године у сваком корпусу пруске коњице. Овај пример је коришћен у књизи Ладислава Борткијевича (1868–1931). [39] : 23-25
  • Број ћелија квасца који се користе при кувању Гинисовог пива. Овај пример је користио Вилијам Сили Госет (1876–1937). [40][41]
  • Број телефонских позива који стижу у позивни центар у року од једног минута. Овај пример је описао А.К. Ерланг (1878–1929). [42]
  • Интернет саобраћај.
  • Број голова у спорту који укључује два такмичарска тима. [43]
  • Број умрлих годишње у датој старосној групи.
  • Број скокова у цени акције у датом временском интервалу.
  • Под претпоставком хомогености, број приступа веб серверу у минути.
  • Број мутација у датом делу ДНК након одређене количине зрачења.
  • Пропорција ћелија које ће бити инфициране при датој вишеструкости инфекције.
  • Број бактерија у одређеној количини течности. [44]
  • Долазак фотона на коло пиксела при датом осветљењу и током датог временског периода.
  • Гађање летећих бомби В-1 на Лондон током Другог светског рата истражио је Р. Д. Цларке 1946. [45]

Галагер је 1976. показао да бројање простих бројева у кратким интервалима испуњава Поиссонову расподелу [46] под условом да је тачна извесна верзија недоказане претпоставке о простим р-торкама Харди-Литлвуда [47].

Закон ретких догађаја Уреди

У неколико горњих примера – као што је број мутација у датој секвенци ДНК – догађаји који се броје су заправо исходи дискретних испитивања, и прецизније би били моделовани коришћењем биномске дистрибуције, тј.

У таквим случајевима н је веома велика и стр је веома мала (а тако и очекивање нп је средње величине). Тада се расподела може апроксимирати мање гломазном Поиссоновом расподелом [ потребан цитат ]

Ова апроксимација је понекад позната као закон ретких догађаја, [48] : 5 пошто сваки од н појединачни Бернулијеви догађаји се ретко дешавају. The name may be misleading because the total count of success events in a Poisson process need not be rare if the parameter np is not small. For example, the number of telephone calls to a busy switchboard in one hour follows a Poisson distribution with the events appearing frequent to the operator, but they are rare from the point of view of the average member of the population who is very unlikely to make a call to that switchboard in that hour.

Реч law is sometimes used as a synonym of probability distribution, and convergence in law means convergence in distribution. Accordingly, the Poisson distribution is sometimes called the "law of small numbers" because it is the probability distribution of the number of occurrences of an event that happens rarely but has very many opportunities to happen. The Law of Small Numbers is a book by Ladislaus Bortkiewicz about the Poisson distribution, published in 1898. [39] [49]

Poisson point process Edit

The Poisson distribution arises as the number of points of a Poisson point process located in some finite region. More specifically, if Д is some region space, for example Euclidean space Р д , for which |Д|, the area, volume or, more generally, the Lebesgue measure of the region is finite, and if Н(Д) denotes the number of points in Д, then

Poisson regression and negative binomial regression Edit

Poisson regression and negative binomial regression are useful for analyses where the dependent (response) variable is the count (0, 1, 2, . ) of the number of events or occurrences in an interval.

Other applications in science Edit

The correlation of the mean and standard deviation in counting independent discrete occurrences is useful scientifically. By monitoring how the fluctuations vary with the mean signal, one can estimate the contribution of a single occurrence, even if that contribution is too small to be detected directly. For example, the charge е on an electron can be estimated by correlating the magnitude of an electric current with its shot noise. Ако Н electrons pass a point in a given time т on the average, the mean current is I = e N / t since the current fluctuations should be of the order σ I = e N / t =e>/t> (i.e., the standard deviation of the Poisson process), the charge e can be estimated from the ratio t σ I 2 / I ^<2>/I> . [ потребан цитат ]

An everyday example is the graininess that appears as photographs are enlarged the graininess is due to Poisson fluctuations in the number of reduced silver grains, not to the individual grains themselves. By correlating the graininess with the degree of enlargement, one can estimate the contribution of an individual grain (which is otherwise too small to be seen unaided). [ потребан цитат ] Many other molecular applications of Poisson noise have been developed, e.g., estimating the number density of receptor molecules in a cell membrane.

In Causal Set theory the discrete elements of spacetime follow a Poisson distribution in the volume.

The Poisson distribution poses two different tasks for dedicated software libraries: Evaluating the distribution P ( k λ ) , and drawing random numbers according to that distribution.

Evaluating the Poisson distribution Edit

f ( k λ ) = exp ⁡ [ k ln ⁡ λ − λ − ln ⁡ Γ ( k + 1 ) ] ,

which is mathematically equivalent but numerically stable. The natural logarithm of the Gamma function can be obtained using the lgamma function in the C standard library (C99 version) or R, the gammaln function in MATLAB or SciPy, or the log_gamma function in Fortran 2008 and later.

Some computing languages provide built-in functions to evaluate the Poisson distribution, namely

    : function dpois(x, lambda) : function POISSON( x, mean, cumulative) , with a flag to specify the cumulative distribution : univariate Poisson distribution as PoissonDistribution[ λ ] , [50] bivariate Poisson distribution as MultivariatePoissonDistribution[ θ 12 > ,< θ 1 − θ 12 - heta _<12>> , θ 2 − θ 12 - heta _<12>> >] ,. [51]

Random drawing from the Poisson distribution Edit

The less trivial task is to draw random integers from the Poisson distribution with given λ .

Solutions are provided by:

Generating Poisson-distributed random variables Edit

A simple algorithm to generate random Poisson-distributed numbers (pseudo-random number sampling) has been given by Knuth: [52] : 137-138

The complexity is linear in the returned value к, which is λ on average. There are many other algorithms to improve this. Some are given in Ahrens & Dieter, see § References below.

For large values of λ, the value of L = е −λ may be so small that it is hard to represent. This can be solved by a change to the algorithm which uses an additional parameter STEP such that е −STEP does not underflow: [ потребан цитат ]

The choice of STEP depends on the threshold of overflow. For double precision floating point format, the threshold is near е 700 , so 500 shall be a safe STEP.

Other solutions for large values of λ include rejection sampling and using Gaussian approximation.

Inverse transform sampling is simple and efficient for small values of λ, and requires only one uniform random number u per sample. Cumulative probabilities are examined in turn until one exceeds u.

The distribution was first introduced by Siméon Denis Poisson (1781–1840) and published together with his probability theory in his work Recherches sur la probabilité des jugements en matière criminelle et en matière civile(1837). [54] : 205-207 The work theorized about the number of wrongful convictions in a given country by focusing on certain random variables Н that count, among other things, the number of discrete occurrences (sometimes called "events" or "arrivals") that take place during a time-interval of given length. The result had already been given in 1711 by Abraham de Moivre in De Mensura Sortis seu de Probabilitate Eventuum in Ludis a Casu Fortuito Pendentibus . [55] : 219 [56] : 14-15 [57] : 193 [6] : 157 This makes it an example of Stigler's law and it has prompted some authors to argue that the Poisson distribution should bear the name of de Moivre. [58] [59]

In 1860, Simon Newcomb fitted the Poisson distribution to the number of stars found in a unit of space. [60] A further practical application of this distribution was made by Ladislaus Bortkiewicz in 1898 when he was given the task of investigating the number of soldiers in the Prussian army killed accidentally by horse kicks [39] : 23-25 this experiment introduced the Poisson distribution to the field of reliability engineering.


A more realistic model!

Now let’s consider per-capita birth and death rates in the population. This way, if the population is bigger, the total births will increase!

Click on this link to load up the next population modeling demonstration.

In the upper right-hand corner of the screen, click on the “Clone Insight” link at the top and click on the “Clone” button on the following screen (so you can make edits to this model!). If you want, you can change the name of the model by clicking on the whitespace anywhere in your InsightMaker workspace and then clicking the “Edit Info” button on the left-hand context menu.

Your model should look something like this:

Hover your cursor over the two [Flows] (Births and Deaths). Do these equations make sense?

Make sure the initial number of moose is set to 50, the birth rate is set to 0.5, and the death rate is set to 0.4. Now click [Run Simulation]. How would you describe the results?

П: what happens if you set the birth rate equal to the death rate?

П: what happens if you set the birth rate less than the death rate?

One of the most fundamental quantities in population ecology is called the “intrinsic rate of growth”, or р. R is simply the difference between birth and death rate:

П: What is the intrinsic rate of growth for this population (when birth rate is set to 0.5 and the death rate is set to 0.4)?

П: What is the next thing you would like to change to make the model more realistic?


by Joe Felsenstein and Michael Lynch

The blogs of creationists and advocates of ID have been abuzz lately about exciting new work by William Basener and John Sanford. In a peer-reviewed paper at Journal of Mathematical Biology, they have presented a mathematical model of mutation and natural selection in a haploid population, and they find in one realistic case that natural selection is unable to prevent the continual decline of fitness. This is presented as correcting R.A. Fisher’s 1930 “Fundamental Theorem of Natural Selection”, which they argue is the basis for all subsequent theory in population genetics. The blog postings on that will be found here, here, here, here, here, here, and here.

One of us (JF) has argued at The Skeptical Zone that they have misread the literature on population genetics. The theory of mutation and natural selection developed during the 1920s, was relatively fully developed before Fisher’s 1930 book. Fisher’s FTNS has been difficult to understand, and subsequent work has not depended on it. But that still leaves us with the issue of whether the B and S simulations show some startling behavior, with deleterious mutations seemingly unable to be prevented from continually rising in frequency. Let’s take a closer look at their simulations.

Basener and Sanford show equations, mostly mostly taken from a paper by Claus Wilke, for changes in genotype frequencies in a haploid, asexual species experiencing mutation and natural selection. They keep track of the distribution of the values of fitness on a continuous scale time scale. Genotypes at different values of the fitness scale have different birth rates. There is a distribution of fitness effects of mutations, as displacements on the fitness scale. An important detail is that the genotypes are haploid and asexual — they have no recombination, so they do not mate.

After giving the equations for this model, they present runs of a simulation program. In some runs with distributions of mutations that show equal numbers of beneficial and deleterious mutations all goes as expected — the genetic variance in the population rises, and as it does the mean fitness rises more and more. But in their final case, which they argue is more realistic, there are mostly deleterious mutations. The startling outcome in the simulation in that case is there absence of an equilibrium between mutation and selection. Instead the deleterious mutations go to fixation in the population, and the mean fitness of the population steadily declines.

Why does that happen? For deleterious mutations in large populations, we typically see them come to a low equilibrium frequency reflecting a balance between mutation and selection. But they’re not doing that at high mutation rates!

The key is the absence of recombination in these clonally-reproducing haploid organisms. In effect each haploid organism is passed on whole, as if it were a copy of a single gene. So the frequencies of the mutant alleles should reflect the balance between the selection coefficient against the mutant (which is said to be near 0.001 in their simulation) versus the mutation rate. But they have one mutation per generation per haploid individual. Thus the mutation rate is, in effect, 1000 times the selection coefficient against the mutant allele. The selection coefficient of 0.001 means about a 0.1% decline in the frequency of a deleterious allele per generation, which is overwhelmed when one new mutant per individual comes in each generation.

In the usual calculations of the balance between mutation and selection, the mutation rate is smaller than the selection coefficient against the mutant. With (say) 20,000 loci (genes) the mutation rate per locus would be 1/20,000 = 0.00005. That would predict an equilibrium frequency near 0.00005/0.001, or 0.05, at each locus. But if the mutation rate were 1, we predict no equilibrium, but rather that the mutant allele is driven to fixation because the selection is too weak to counteract that large a rate of mutation. So there is really nothing new here. In fact 91 years ago J.B.S. Haldane, in his 1927 paper on the balance between selection and mutation, wrote that “To sum up, if selection acts against mutation, it is ineffective provided that the rate of mutation is greater than the coefficient of selection.”

If Basener and Sanford’s simulation allowed recombination between the genes, the outcome would be very different — there would be an equilibrium gene frequency at each locus, with no tendency of the mutant alleles at the individual loci to rise to fixation.

If selection acted individually at each locus, with growth rates for each haploid genotype being added across loci, a similar result would be expected, even without recombination. But in the Basener/Stanford simulation the fitnesses do not add — instead they generate linkage disequilibrium, in this case negative associations that leave us with selection at the different loci opposing each other. Add in recombination, and there would be a dramatically different, and much more conventional, result.

Technical Oddities

Most readers may want to stop there. We add this section for those more familiar with population genetics theory, simply to point out some mysteries connected with the Basener/Stanford simulations:

1. One odd assumption that they make is that any fitness class that has a frequency below 1 part in a billion gets set to 0. This is not a reasonable way to take genetic drift into account, as all fitness classes are subject to random fluctuations. We imagine such a treatment is a minor issue, relative to the enormous mutation pressure imposed in their study. But someone should check this, which can be done as their Javascript source can be downloaded and then made comprehensible by a Javascript beautifier.

2. The behavior of their iterations in some cases is, well, weird. In the crucial final simulation, the genetic variance of fitness rises, reaches a limit, bounces sharply off it, and from then on decreases. We’re not sure why, and suspect a program bug, which we haven’t noticed. We have found that if we run the simulation for many more generations, such odd bouncings of the mean and variance off of upper and lower limits are ultimately seen. We don’t think that this has much to do with mutation overwhelming selection, though.

3. We note one mistake in the Basener and Sanford work. The organisms’ death rates are 0.1 per time step. That would suggest a generation time of about 10 time steps. But Basener and Stanford take there to be one generation per unit of time. That is incorrect. However the mutation rate and the selection coefficient are still 1 and 0.001 per generation, even if the generations are 10 units of time.

Joe Felsenstein, originally trained as a theoretical population geneticist, is an evolutionary biologist who is Professor Emeritus in the Department of Genome Sciences and the Department of Biology at the University of Washington, Seattle. He is the author of the books “Inferring Phylogenies” and “Theoretical Evolutionary Genetics”. He frequently posts and comments here.

Michael Lynch is the director of the Biodesign Center for Mechanisms of Evolution at Arizona State University, and author of “The Origins of Genome Architecture” and, with Bruce Walsh, of “Genetics and Analysis of Quantitative Traits”. Six of his papers are cited in the Basener/Stanford paper.


Notes on Poisson Distribution and Binomial Distribution

A Binomial Distribution is used to model the probability of the number of successes we can expect from n trials with a probability p. The Poisson Distribution is a special case of the Binomial Distribution as n goes to infinity while the expected number of successes remains fixed. The Poisson is used as an approximation of the Binomial if n is large and p is small.

As with many ideas in statistics, “large” and “small” are up to interpretation. A rule of thumb is the Poisson distribution is a decent approximation of the Binomial if n > 20 and np < 10. Therefore, a coin flip, even for 100 trials, should be modeled as a Binomial because np =50. A call center which gets 1 call every 30 minutes over 120 minutes could be modeled as a Poisson distribution as np = 4. One important distinction is a Binomial occurs for a fixed set of trials (the domain is discrete) while a Poisson occurs over a theoretically infinite number of trials (continuous domain). This is only an approximation remember, all models are wrong, but some are useful!


3 Poisson Regression

No, but seriously, here’s the entire Poisson section on Robert I. Kabacoff’s quickR blog at http://www.statmethods.net/advstats/glm.html:

It’s about cases (i.e., counts) of disease among high school students by number of days after outbreak. Here’s the data, called ‘cases.’ Each time, run the whole chunk at once or it won’t work.

Behold, the Poisson distribution! Notice the mode at one extreme and the tail off to the other side. This is characteristic of Poisson distributions.


Central Limit Theorem with a Skewed Distribution

The Poisson distribution is another probability model that is useful for modeling discrete variables such as the number of events occurring during a given time interval. For example, suppose you typically receive about 4 spam emails per day, but the number varies from day to day. Today you happened to receive 5 spam emails. What is the probability of that happening, given that the typical rate is 4 per day? The Poisson probability is:

The mean for the distribution is μ (the average or typical rate), "X" is the actual number of events that occur ("successes"), and "e" is the constant approximately equal to 2.71828. So, in the example above

Now let's consider another Poisson distribution. with μ=3 and σ=1.73. The distribution is shown in the figure below.

This population is not normally distributed, but the Central Limit Theorem will apply if n &гт 30. In fact, if we take samples of size n=30, we obtain samples distributed as shown in the first graph below with a mean of 3 and standard deviation = 0.32. In contrast, with small samples of n=10, we obtain samples distributed as shown in the lower graph. Note that n=10 does not meet the criterion for the Central Limit Theorem, and the small samples on the right give a distribution that is not quite normal. Also note that the sample standard deviation (also called the "standard error") is larger with smaller samples, because it is obtained by dividing the population standard deviation by the square root of the sample size. Another way of thinking about this is that extreme values will have less impact on the sample mean when the sample size is large.

Content �. All Rights Reserved.
Date last modified: July 24, 2016.
Wayne W. LaMorte, MD, PhD, MPH