2012年6月21日星期四

tools for demographic/phylogenetic study

Formerly, I have recorded two of them in this blog:
1. PSMC, on heterozygosite of individual whole genome sequences,
2. G-PhoCS, on noncoding/non selective region of multiple whole genomes

Now, I collected some more of them:
3. Reconstructing Population Histories from Single Nucleotide Polymorphism Data
generate phylogenetic tree for populations

4. Inferring Species Trees Directly from Biallelic Genetic Markers: Bypassing Gene Trees in a FullCoalescent Analysis


to independent (unlinkedbiallelicmarkers such as well-spaced single nucleotide polymorphismsand we have implemented it in SNAPPa Markov chain Monte Carlo sampler forinferring species treesdivergence datesand population sizes.



We implemented our likelihood algorithm as the core of an MCMCsoftware package SNAPPwhich takes biallelic data (e.g., SNPs or AFLPat multiple loci in a set of species and returns samples from the joint posterior distribution of
  1. species phylogenies,
  2. species divergence times,
  3. effective population sizes at the root and along each branch of the species tree.
    by assumingmarkers are unlinkedSNAPP fails to take into account patterns of linkagedisequilibrium that can provide valuable information about demographicsand genetic relationships.

      we assume that there is no gene flow between populations.



The most widely used methods to infer a species’ demographic history do not take intralocus recombination or recent divergence into accountand some methods take several weeks to convergeHerewe present Jaathaa new composite-likelihood method that does incorporate recent divergence and is also applicable when intralocus recombination rates are highThis new method estimates four demographic parametersThe accuracy of Jaatha is comparable to that of other currently available methodsalthough it is superior under certain conditionsespecially when divergence is very recent.


We introduce an inference method based on the joint frequency spectrum of genetic variants within and between populationsFor candidate models we numerically compute the expected spectrum using a diffusion approximation to the one-locustwo-allele Wright-Fisher processinvolving up to three simultaneous populationsOur approach is a composite likelihood schemesince linkage between neutral loci alters the variance but not the expectation of the frequency spectrumWe thus use bootstraps incorporating linkage to estimate uncertainties for parameters and significance values for hypothesis testsOur method can also incorporate selection on single sitespredicting the joint distribution of selected alleles among populations experiencing a bevy ofevolutionary forcesincluding expansionscontractionsmigrationsand admixture


on whole-genome SNP data set

8.  Demographic history and rare allele sharing among human populations

High-throughput sequencing technology enables population-level surveys ofhuman genomic variationHerewe examine the joint allele frequencydistributions across continental human populations and present an approach forcombining complementary aspects of whole-genomelow-coverage data andtargeted high-coverage dataWe apply this approach to data generated by thepilot phase of the Thousand Genomes Projectincluding whole-genome 2–4×coverage data for 179 samples from HapMap EuropeanAsianand African panelsas well as high-coverage target sequencing of the exons of 800 genes from 697individuals in seven populationsWe use the site frequency spectra obtained fromthese data to infer demographic parameters for an Out-of-Africa model forpopulations of AfricanEuropeanand Asian descent and to predictby ajackknife-based approachthe amount of genetic diversity that will be discoveredas sample sizes are increasedWe predict that the number of discoverednonsynonymous coding variants will reach 100,000 in each population after∼1,000 sequenced chromosomes per populationwhereas ∼2,500 chromosomeswill be needed for the same number of synonymous variantsBeyond this point,the number of segregating sites in the European and Asian panel populations isexpected to overcome that of the African panel because of faster recentpopulation growthOverallwe find that the majority of human genomic variablesites are rare and exhibit little sharing among diverged populationsOur resultsemphasize that replication of disease association for specific rare genetic variantsacross diverged populations must overcome both reduced statistical powerbecause of rarity and higher population divergence.


9. 

没有评论:

发表评论