0%

aspera下载NCBI数据大概加速一万倍到十万倍emm,好那么我们默认已经装好了aspera…我把.aspera文件夹在根目录下

如果没安装的话,可以用conda,ascp属于工具包aspera-cli,顺带提一下prefetch的安装工具包sra-tools,但在国内基本就不考虑prefetch了。

1
2
3
conda install -y -c hcc aspera-cli
conda install -y -c bioconda sra-tools
which ascp

确认ascp已经添加至环境变量(可在我的博客里搜索export),它在这里

1
~/.aspera/connect/bin/ascp

ascp语法

1
2
ascp -i <asperaweb_id_dsa.openssh with path> -k1 -Tr –l100m 
anonftp@ftp.ncbi.nlm.nih.gov:/<files to transfer> <local destination>
Read more »

希望大家在忙碌中都能有所思考,有所收获,最关键的是,心情要好。


发现生物信息学上很多软件似乎还是用Perl写的,此外当然还有C/C++。试图成为生信算法工程师从入门到放弃.jpg

Perl像C一样强大,像awk、sed等脚本描述语言一样方便,被Perl语言爱好者称之为“一种拥有各种语言功能的梦幻脚本语言”、“Unix中的王牌工具”。

仿佛有被吓到.jpg 其实没有害

Read more »

The article is credited to and written by Zengxiao Ye, who introduced to me this intriguing, innovative and intuitive interpretation of A-D test.

Read more »

决策树(DT)是一种用于分类和回归的非参数监督学习方法。 包含一个根结点、若干个内部结点和若干叶结点。根结点和内部结点代表用于划分的属性测试,叶结点代表决策结果。每个结点包含的样本集合根据属性测试被划分到子结点中,根结点包含样本全集。

基本流程遵循简单直观的分而治之(divide and conquer)策略:选择最优属性,划分,递归进行。

Read more »

嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一优化过程中完成。

给定数据集,其中
简单的线性回归模型优化目标为

当样本特征很多,而样本数较少,容易过拟合,为缓解此问题,引入正则化项,正则化参数

  • 范数正则化,LASSO(Least Absolute Shrinkage and Selection Operator):

  • 范数正则化,岭回归(ridge regression):

范数和范数正则化都有助于降低过拟合风险,前者比后者更容易获得稀疏解,求得有更少的非零分量。

Read more »

Metagenome-wide association studies (MWAS) have enabled the high-resolution investigation of associations between the human microbiome and several complex diseases, including type 2 diabetes, obesity, liver cirrhosis, colorectal cancer and rheumatoid arthritis.

  • the identification of taxa that are more or less abundant, as is the case with taxanomic approaches
  • the identification of microbial functions that are enriched or depleted

goal: inform the prevention, diagnosis and treatment of human disease in the future.

Read more »

对于代数的一个非零表示,若它的唯一子表示为本身,则称其不可约;若它不能被写作两个非零子表示的直和,则称其不可分。显然有不可约蕴含不可分,反之不成立。

1. 令是代数的非零有限维表示,证明它有不可约子表示。但这对无限维表示不一定成立,请举例说明。

证:若不可约取本身即为它的不可约子表示。否则可约,取为其非零的真子表示,于是。后对重复上述讨论,并反复往下可得到一串非零真子表示链,且表示的维数严格递减。则又由于维数为的表示不可约,所以总能找到一个不可约的子表示。
反例可以考虑多项式上的正则表示无限维所以无限维,取的任意子表示。但,其中的真包含关系考虑它们的degree便可知,所以的真子表示,即它的任意子表示可约。Rmk: 事实上,的任意非零元在模作用下生成的表示都与同构。

Weyl代数:

q-Weyl代数:

2. 命题:Weyl代数的基为

证:首先证明可以张成。注意到由关系,任意单词可以重排为的左侧的单词的组合,i.e.,任意单词可以被表示为的线性组合。
下证线性无关(基于表示论进行证明)。是一个变元,令(这里只是一个形式符号,因为根据后面的作用我们总能提出写成这样的形式,所以可以说实际上)。如下定义上的作用,

可以验证这个作用满足所以是良定义的,且注意经作用后的像依旧落于中。现假设有非平凡线性关系式,那么即有算子

上的作用为0。可以写为

其中。于是

由于为未定元,则

矛盾。Q.E.D

3. 命题:q-Weyl代数的基为

证:首先证明可以张成。由关系式容易有,于是任意单词可以通过这两个关系式化作的线性组合。下证其线性无关。
构造表示为,作用为

则有

且易验证剩余几个关系式,所以这个作用是良定义的。设有非平凡线性组合,并令

算子,其中,则

而同样有作为未定元,考察它的最高次项必须有,矛盾。Q.E.D

代数闭域上的Schur引理:令 over an algebraically closed field 的某个有限维不可约表示,且是一个intertwining算子。那么对于某个(一个scaler算子)。

4. 令是代数闭域上的代数。其中心为与所有元素均交换的元素组成的集合。

(a)证明若的一个不可约有限维表示,那么上的作用为乘上一个scaler ,并且是一个同态。它被称作的中心特征。

证:由于中心中的元素中所有元素交换,所以是一个intertwining算子,又是一个不可约有限维表示,所以由Schur引理可以立刻得出上的作用为乘以一个scaler 。同时由于作用是同态,而,则是一个同态。Q.E.D

rmk:考虑的一个特征向量,它的存在性由是代数闭域保证,它对应的非零特征空间。由,则,所以的非零子表示。(这里说的就是的子表示)由不可约所以。(用一个具体的例子串了一下Schur定理和Schur引理的证明思想)

(b)证明若的一个不可分有限维表示,那么上的作用只有唯一的特征值,且它的值等于的某个不可约子表示作用的scaler值。因此,是一个同态,它同样被称作的中心特征。

证:因为我们知道可以表示为不同特征值对应的广义特征子空间的直和,由不可分,则的一个广义特征子空间构成,i.e., 。这证明了上的作用只有唯一的特征值。后续的命题对于的情况是平凡的。否则是非零有限维表示(见1),知道存在不可约子表示。于是将作用限制在子表示上,则由(a)知道它在上的作用为乘以一个scaler ,i.e., ,不同特征值的特征空间是正交的所以。而是同态即得为同态。Q.E.D

(c)命题(b)中的是否一定是一个scaler算子?

不一定。在(b)证明中若就不是,i.e., 考虑大于1阶的约当块。

5. 四个代数,令是一个-双模,是一个-双模,是一个-双模。证明-双模同构。

证:令满足
-双模,又-双模,所以-双模。
-双模,又-双模。
下证保持模同态。


所以.


所以.
最后只要证其为双射。
,所以,为单射。
,令,为满射。
Q.E.D

是域上的向量空间,并令为一个反对称双线性映射。(等价于

是一个李代数如果满足雅可比恒等式

几个李代数的例子:
1. with (阿贝尔李代数)
2.结合代数 with
3.结合代数的子空间满足对于所有的
4.代数的导子空间,i.e.,线性映射满足莱布尼兹法则

6. 证明对任意结合代数,其导子集,其中满足莱布尼兹法则,关于必为一个李代数。

证:容易验证下述三条成立
1.
2.
3.雅可比恒等式
下只需验证在李括号下是封闭的,也成立,这个把李括号打开算一下就好,是成立的。Q.E.D

Rmk:对于一个结合代数来讲,上面定义的李括号的封闭性是自然成立的,但是非结合代数对应的就是自然的复合运算。这是因为

而若

所以两者相等意味着必有

但这并不一定成立,矛盾。

所以一个代数非结合代数,但却可以关于李括号成立李代数。而对于一个李代数来讲,我们可以取它的泛包络代数使其“延拓”为一个结合代数。我们直接用张量积的方式定义这个泛包络代数。

首先定义张量代数。给定一个向量空间,定义域上的张量代数,乘法运算。观察到的一组基可以定义一个自由代数(一个非交换多项式环)为的一个同构。

下面定义这个泛包络代数。若是一个李代数,其泛包络代数商掉由生成的理想。这个泛包络代数是一个结合代数。
并且我们还可以知道的一件事是,李代数和泛包络代数的表示是一样的。的作用可以用中的元素生成,

是代数的不可约有限维且两两互不同构的表示,。那么同构于,inclusion 是inclusions 的直和,,其中矩阵,行向量线性无关。

7. 的不可约有限维表示,是任意的线性无关向量。那么对任意,存在使得成立。

证:假设不然。考虑表示,映射不是满射,的真子表示,于是它同构于,映射对应于。取,则存在使得。由于,存在非零向量使得。那么

这与的线性无关性矛盾。

Review of alignment and SNP calling algorithms for next-generation sequencing data

2015, J Appl Genetics

  • Bioinformatic tools for next-generation sequencing (NGS) data processing.
  • Two of most significant tasks:
    • alignment to a reference genome -> suffix tries and hash tables. Suffix array-based aligners are memory efficient and work faster than hash-based aligners, but they are less accurate. Hash table algorithms tend to be slower but more sensitive.
    • detection of single nucleotide polymorphisms (SNPs) -> heuristic and probabilistic methods. Due to the computational demands of heuristic methods, probabilistic methods are more commonly used.
Read more »

两个方法:
1.IDE自带的语法检查,但是不同IDE操作不一样,我用的是TeXworks;
2.优雅地转为word,然后用word进行语法检查。

Read more »

SLURM: Simple Linux Utility for Resource Management

a free and open-source job schedular for Linux and Unix-like kernels, used by many of the world’s supercomputers and computer clusters.

Key functions:

  • allocating exclusive and/or non-exclusive access to resources (computer nodes).
  • providing a framework for starting, executing, and monitoring work on a set of allocated nodes.
  • arbitrating contention for resources by managing a queue of pending jobs.
Read more »