XiaoHanys

Julia短小代码批量检测BAM文件的完整性

我们在运行bwa mem比对的时候，由于某些不明的原因会造成程序中断，例如内存超了，IO错误，计算节点崩溃等，然而BAM是否完整很难察觉，最终导致后续流程无法运行。这里，我们通过一段简短的代码来检查BAM文件的完整性，代码如下：

2024-09-20 编程语言

如题，官方已经提供了一个R的版本createGCcontentFile.R ，但是根据代码就能看出这个版本非常占内存了，首先要把基因组整个序列都load入内存中去，每次计算出的矫正数据也是储存dataframe中。为了降低内存占用，也为了提高计算速度，我写了一个julia版本的。代码如下：

2024-09-20 编程语言

想要计算Insert size，需要提供一个基因组比对后的文件，sam也好，bam也罢。那么，使用julia语言计算该值的第一步便是了解如何读取和解析BAM文件格式。

2024-09-20 编程语言

julia本身是一门很快速的语言，但是现代计算机往往具有多核心多线程设计，因此，充分发挥硬件，能进一步提高效率

2024-09-20 编程语言

2024-09-20 编程语言

众所周知，计算相关性非常的简单，因为R 语言中有函数cor.test(),该函数可以计算多种方法的相关性检验，返回相关性，Pvalue等检验值，但是这个函数在Julia中并不存在，让Julia作为一门科学计算语言显得并不完美。

2024-09-20 编程语言

自己写的好几种算法企图实现bedtools的功能，虽然julia性能足够好，但都难以在效率上达到bedtools的性能，于是最后只能借助轮子了。

2024-09-20 编程语言

有很多方法，其中最简单的就是去各大景象站点下载编译好的二进制包，例如

另外，可以使用包管理工具jill下载安装，

2024-09-20 编程语言

在RNA-Seq的分析中，我们常用RPKM、FPKM和TPM作为转录组数据定量的表示方法。

它们都是对表达量进行标准化的方法，为何不直接用read数表示，而选标准化呢?

2024-09-20 生物信息

单细胞数据数据量很大，加重了分析的负担，但只要掌握好的方法和工具，就可以无往而不利。今年要说的这个如题，是因为在区分亚类的时候，提取了大类型并调整分辨率重新聚类计算的亚类。针对这种情况，该如何实现呢？

2024-09-20 生物信息