抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >
使用R语言实现bedtools求交集的功能?

Bedtools作为基因组研究的 “ 瑞士军刀 ”, 功能强大且易于操作,是生信行业不可多得的好软件。通常对bed区间的注释,我们使用其中“ 求交集 ”的功能(bedtools intersect) ,但是有一个很不方便的地方,我们通常要生成对应的bed文件,再注释完成后还需要用R语言等读入才能继续分析,所以整合度不是很好,本文希望提供R语言的思路来解决该问题。

再说转录组数据标准化(TPM,RPKM,FPKM)

基础概念讲解

在RNA-Seq的分析中,我们常用RPKM、FPKM和TPM作为转录组数据定量的表示方法。

它们都是对表达量进行标准化的方法,为何不直接用read数表示,而选标准化呢?

python, perl 和julia的性能对比

在生物信息学中经常用到的脚本语言主要是pythonperl,他们被用来处理文本大量统计流程控制等等,其自身也是各有优势。比如说perl天生就为了处理文本而生,但是python确是有名的胶水语言,特别在整合C代码时显示出巨大的优势,其语法简洁易懂,易于维护更让其成为仅次于CJAVA的第三大语言,但其糟糕的性能在处理大量循环时会让人忍不住抓狂。因此,Julia语言应运而生,其控制了python中没必要的动态性,加之使用JIT技术让其能够保有高性能的同时具备简洁的语法。

本教程中,我们的目标是使用第二代和第三代全基因组测序 (WGS) 数据组装细菌基因组。我们将以此为例来探讨WGS数据分析,并探讨测序技术之间的差异。

NART设计用于基于图谱的纳米孔扩增子(实时)分析,例如 16S rRNA 基因。NARTNART(Nanopore Amplicon Real-Time entry)和 NAWF(Nanopore Amplicon snakemake WorkFlow entry)组成。通过基于映射的策略提供从基础调用读取到最终计数矩阵的(实时)端到端解决方案。

LACA是用于长扩增子一致性分析(例如 16S rRNA 基因扩增子分析)的可重复且可扩展的工作流程。它使用用snakemake管理工作流程以及conda来管理环境。

在此工作流程中,介绍了 Qiime2 和 R 中 16S rRNA 基因扩增子数据分析的主要步骤。本教程是为哥本哈根大学食品科学系的 MAC 2023 课程准备的。尽管这些步骤是为 Oxford Nanopore Tech (ONT) 测序设计的,但也在 Ilumina 短读长上进行了测试。

简介

在我们的应用小程序中,我们是前后端分离的。前端页面只负责渲染,而后端需要处理数据。但是如果遇到数据量很大的情况下,我们处理起来就很缓慢,如果我们想通过AJAX的方法追踪后台数据变化的进度,需要用到轮询的方案,这个是非常消耗资源的。这里我们用VueJS和Fastapi的小例子演示前端传递数据,后台用10秒处理数据并实时反应进度给前台的实现。

什么是Vue.js

VueJS是一个渐进式的前端框架,所谓渐进式的意思就是你可以用它快速完成原型创作,然后在此基础上逐步完善。他可以足够简单,也可以足够完善,那么对于新手小白来说,这简直就是福利!

上一篇文章我们写了一个Streamlit的程序来全栈的执行我们的任务,但是我们也看到了它的一个缺点:前端界面非异步,UI定制缺乏灵活性。那么,我们接下来尝试采用前后端分离的方式来完成上次的任务。

输入是两个字符串,输出是对齐后的两个字符串。

简介

使用过pysamsamtools的小伙伴肯定了解 pileup的操作,如果把BAM文件看作表格的话,那么通常我们是按行去解析它的record,进而获得一些信息,例如比对到哪条染色体,比对的开始位置和结束位置等. 另一种情况下,我们想要按照列去循环解析,得到这个列上的具体信息,典型的就是这个列上比对序列的碱基是什么?比对序列的位置是什么?以及是Match or Mismatch or indel 等。那么,该操作就需要引入pileup操作了。

摘要

成对的reads中,read_2的开头包含两份barcode序列,分别长10bp,中间有一段固定长度为15bp的序列分割,例如

1
ATCTATGACATGTTACGTTAACTCCNATCTATCACTTAGCGCTGNCCCTGTCCTCTACACTCCACCCCCTCCCCACCAGACTAAACAACGCCCTTTCCCC

该序列中ATTTATGACAAATCTATCAA为barcode序列。要注意,barcode因为测序的原因存在一定的错配,需要对其有一定的容纳。