抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

如题,官方已经提供了一个R的版本createGCcontentFile.R ,但是根据代码就能看出这个版本非常占内存了,首先要把基因组整个序列都load入内存中去,每次计算出的矫正数据也是储存dataframe中。为了降低内存占用,也为了提高计算速度,我写了一个julia版本的。代码如下:

Julia读取BAM的库

想要计算Insert size,需要提供一个基因组比对后的文件,sam也好,bam也罢。那么,使用julia语言计算该值的第一步便是了解如何读取和解析BAM文件格式。

julia本身是一门很快速的语言,但是现代计算机往往具有多核心多线程设计,因此,充分发挥硬件,能进一步提高效率

拆分原理

  • 软件的逻辑是首先获取barcode列表。然后采用多线程分别在fastq文件中并行提取对应barcode的reads。

  • WGS的下机数据经常出现在fastq2里。所以程序会从fastq中自动查找是否存在对应barcode。

  • 程序可以自动检测barcode始于开始还是末尾,计算hanming距离,运行1bp的mismatch。

众所周知,计算相关性非常的简单,因为R 语言中有函数cor.test(),该函数可以计算多种方法的相关性检验,返回相关性,Pvalue等检验值,但是这个函数在Julia中并不存在,让Julia作为一门科学计算语言显得并不完美。

前言

自己写的好几种算法企图实现bedtools的功能,虽然julia性能足够好,但都难以在效率上达到bedtools的性能,于是最后只能借助轮子了。

如何安装Julia

有很多方法,其中最简单的就是去各大景象站点下载编译好的二进制包,例如

另外,可以使用包管理工具jill下载安装,

基础概念讲解

在RNA-Seq的分析中,我们常用RPKM、FPKM和TPM作为转录组数据定量的表示方法。

它们都是对表达量进行标准化的方法,为何不直接用read数表示,而选标准化呢?

单细胞数据数据量很大,加重了分析的负担,但只要掌握好的方法和工具,就可以无往而不利。今年要说的这个如题,是因为在区分亚类的时候,提取了大类型并调整分辨率重新聚类计算的亚类。针对这种情况,该如何实现呢?

网上很多教程都在讲Y叔的clusterprofile富集分析的教程,但是查阅了官方文档后才知道,这个包真的不仅仅只有这个功能,其他功能也很强大。