2012年7月31日星期二

choose computer for NGS analysis

1. http://www.biostars.org/post/show/5664/hardware-needed-to-analyse-microarray-data-with-rbioconductor/


Many analysis procedures are memory hungry, 8GB of RAM is inadequateGo for 64GB or 96GB.
The speed of individual CPU cores is less important than the number of themThus it is far better to buy a configurationwith more and somewhat slower processors than fewer but the fastest ones.
I've done analysis of Affy exon arrays (using XPS). You do not need a monster computer to do this analysisWhat you doneed is a big pile of RAM and adequate hard drive spaceFor exampleyou could buy an ordinary box (e.ga DellPrecision workstation). Buy 16 gigs of ram from NewEggput in two 2-terrabyte hard drivesand load a 64-bit linux suchas UbuntuThis machine would also be perfectly adequate for many ordinary sorts of microarray analysis.
If you find yourselves doing a lot more complex bioinformatics analysis you will need multiple machinesbut at that pointthe best bet is to use someone else's hardware-- either a local compute cluster or cloud machinesHoweverit soundslike you're not there yetand there's no reason to spend $10,000+ on a machine at this point.


2. http://www.biostars.org/post/show/43240/hardware-benchmarking-tasks-for-a-high-performance-bioinformatics-cluster/

3. http://www.biostars.org/post/show/2604/hardware-suitable-for-generic-nextgen-sequencing-processing/


Okay, well then I'll go ahead and throw some info out there in the hopes that it's useful to you.
What I can tell you is that the cluster we share time on has 8-core machines with 16GB of RAM each and they'resufficient for most of our needsWe don't do much assemblybut we do do a ton of other genomic processingrangingfrom mapping short reads all the way up to snp calling and pathway inferenceI also still do a fair amount of arrayprocessing.
Using most cluster management tools, (PBSLSFwhatever), it should be possible to allow a user to reserve more thanone CPU per nodeeffectively giving them up to 16 GB for a process if they reserve the whole nodeYeahthat meanssome lost cyclesbut I don't seem to use it that often - 2GB is still sufficient for most things I runIt'd also be good toset up a handful of machines with a whole lot of RAM - maybe 64GB? That gives users who are doing things likeassembly or loading huge networks into RAM some options.
I more often run into limits on I/OGiving each machine a reasonably sized scratch disc and encouraging your users tomake smart use of it is a good ideaNetwork filesystems can be bogged down really quickly when a few dozen nodesare all reading and writing dataIf you're going to be doing lots of really I/O intensive stuff (and dealing with short reads,you probably will be), it's probably worth looking into faster hard drivesCertainly 7200RPM, if not 10k. Last time I looked15k drives were availablebut not worth it in terms of price/performanceThat may have changed.
I won't get into super-detail on the specs - you'll have to price that out and see where the sweet spot isI also won't tellyou how many nodes to getbecause againthat depends on your fundingI will say that if you're talking a small clusterfor a small labit may make sense to just get 3 or 4 machines with 32 cores and a bunch of RAMand not worry abouttrying to set up a shared filesystemqueueetc - it really can be a headache to maintainIf you'll be supporting a largeruserbasethoughthen you may find a better price point at less CPUs per nodeand have potentially fewer problemswith disk I/O (because you'll have less CPUs per HD).
People who know more about cluster maintenance and hardware than I do, feel free to chime in with additions or corrections.

没有评论:

发表评论