0%

Hello, welcome to Hc’s Blog.

朋友你好,你现在访问的是Sisi Huang简单温馨的个人博客。
我会在空时写一些个人习得,便于个人提升以及知识的交流与传播。

缺乏智力深度的庸常生活难以忍受,对深刻抽象的理论产生了由衷的神往。

关于我

Read more »

Mac M1 的兼容性问题还是要多多完善啊……QVQ 打工人着实不容易了。
要干的事情可真真真多呀,我这么愚钝哪里学得了这么多!

现在常用的两种深度学习框架:Tensorflow 和 PyTorch

  • Tensorflow 更偏向于工业界应用
  • PyTorch 更适用于研究

两者在M1上都有兼容问题,总之能折腾出来就行。

Read more »

在执行 hexo -d 的时候,这个报错不陌生吧……

1
Failed to connect to github.com port 443: Timed out

github 连接超时。

曾经在 windows 电脑上,这个办法还挺有用……就是在 git config 上面倒腾来倒腾去……

1
2
git config --global http.proxy http://[github username]:[github passwords]@127.0.0.1:1080
git config --global https.proxy http://[github username]:[github passwords]@127.0.0.1:1080

或者

1
2
git config --global --unset https.proxy
git config --global --unset http.proxy

这个办法非常不稳定,能不能解决都是概率问题……
如今发现,最稳定的方式是配置 github 远程仓库的地址为 ssh 的地址。

查看 ssh 是否成功连接 github

1
2
(base) huangsisi@huangsisis-Air hexo-22 % ssh -T git@github.com
Hi Hc1023! You've successfully authenticated, but GitHub does not provide shell access.

这样子表示是成功连接的,否则需要进行密钥配置。修改博客根目录的配置文件如下,repo 不要用 https 开头的!

1
2
3
4
deploy:
type: git
repo: git@github.com:[USERNAME]/[USERNAME].github.io.git
branch: master

今天是除夕,新年快乐呀!

本文讲述了 blast 从建库到分析的全过程,并包括中间可能会遇到的一些问题和操作。

Step 0: install blast

BLAST 包括:makeblastdb, blastn, blastp, blastx, tblastn, tblastx 等。

1
conda install -c bioconda blast
Program query database alignment level
blastn nucleotide nucleotide nucleotide
blastp peptide peptide peptide
blastx nucleotide peptide peptide
tblastn peptide nucleotide peptide
tblastx nucleotide nucleotide peptide
Read more »

不想学习了,过来写个post。

网页方法

进入下面这个网站,按指示操作。
http://www.ncbi.nlm.nih.gov/sites/batchentrez?

  • 输入AC/GI号,保存为文本文件。
    • 在mac里面可能比较方便的方法是:Textedit ctrl+command+t。但是我好像不怎么用得到,直接终端vi更香的亚子。
  • 选择对应数据库,这里是Nucleotide,传入上面的带有序列号的文本文件,点击Retrieve返回搜索序列记录。
  • 点击Retrieve records for xxx UID(s)
  • Send to - file -fasta

命令行版本

使用NCBI Entrez Direct UNIX E-utilities.
下载安装文件: https://www.ncbi.nlm.nih.gov/books/NBK179288/bin/install-edirect.sh
进行安装

1
source ./install-edirect.sh

它会把一些目录写到.bashrc里面,因此需要

1
source ~/.bashrc

下载序列,例如

1
esearch -db nucleotide -query "NC_030850.1" | efetch -format fasta > NC_030850.1.fasta

即可下载fasta序列。

如果有多个序列要下载,可以写一个小bash脚本。
例如原始的序列号可能由于一些原因是有重复的,可以将其进行一个重的去,举个例子

1
cat xx.csv |cut -d, -f1 |uniq > ./index.txt

然后写个download.sh:用一个循环就可以遍历序列号下载了

1
2
3
4
5
6
for line in {1..26075} 
do
echo $line
seqname=`sed -n ${line}p ./index.txt`
esearch -db nucleotide -query ${seqname} | efetch -format fasta > ${seqname}.fasta
done

批量下载,顾名思义,量有点多,必然要把脚本放到后台运行,然后我就可以出去玩了!

1
nohup bash download.sh &
Read more »

抗原加工(antigen processing):APC 将摄取入胞内的外源性抗原或者胞质内自身产生的内源性抗原降解并加工成一定大小的多肽片段、使抗原肽适合与MHC分子结合、抗原肽-MHC 分子复合物再转运到细胞表面的过程。
抗原提呈(antigen presentation):表达于 APC 表面的抗原肽-MHC分子复合物被T细胞识别,从而将抗原肽提呈给T细胞,诱导T细胞活化的过程。

Read more »

Secure Shell(安全外壳协议,简称SSH)是一种加密的网络传输协议,可在不安全的网络中为网络服务提供安全的传输环境。 SSH通过在网络中建立安全隧道来实现SSH客户端与服务器之间的连接。

Mac(我从windows跑路了)

  • 直接用命令行ssh
1
ssh user@host -p port

主要会有两个麻烦以及个人的处理方式:

  • 多次登陆或者有多个服务器地址 -> SSH key + Mac自带new remote connection
  • 文件传输 -> 使用客户端

创建SSH key

创建SSH key实现‘免密登陆’。
如果已经创建过密钥可以直接使用,则跳过下面这个命令。

1
ssh-keygen -t rsa -b 4096 -C "your_email@domain.com"

默认目录在/home/yourusername/.ssh/id_rsa,会生成id_rsa以及id_rsa.pub

1
ssh-copy-id remote_username@server_ip_address

在此输入登录服务器的密码。

之后只需要在终端ssh user@host可直接登陆。更方便的方式是在Mac上打开terminal以后,左上角shell点击new remote connection在服务器列表新建用户名@服务器ip。设置过密钥配对后,可以直接连接。
这是比较类似于客户端的,不需要反复输入ip和密码,当有多个服务器的时候也方便

使用VScode

在vscode打开terminal:按shift+command+p,输入/选择View: Toggle terminal。可以上面开个脚本编辑代码,下面是终端。

安装Remote SSH插件,存储server id,还可以添加文件夹目录。

文件传输

scp

上传文件

1
scp 文件名 用户名@服务器ip:目标路径

上传文件夹

1
scp -r 文件夹目录 用户名@服务器ip:目标路径

下载文件和文件夹

1
2
scp 用户名@服务器ip:文件路径 目标路径
scp -r 用户名@服务器ip:文件夹目录 目标路径

sftp

同上在shell点击new remote connection
点击sftp

1
put 本地文件路径 远程主机路径

客户端

让传输文件更方便一些,暂时使用FileZilla的破解版。

Windows系统

Read more »

  • Homologous regions are rapidly identified by the fast Fourier transform (FFT)
    • An amino acid sequence is converted to a sequence composed of volume and polarity values of each amino acid residue
  • Simplified scoring system that perform well for reducing CPU time and increasing the accuracy of alignments
    • For sequences having large insertions or extensions as well as distantly related sequences of similar length
  • History
    • Needleman and Wunsch: dynamic programming (DP)
      • The generalization to multiple sequence alignment requires CPU time , where is the number of sequences each with length .
    • Heuristic methods
      • progressive methods and iterative refinement methods
      • combinations of successive two-dimensional DP, taking CPU time
  • Problems
    • The accuracy of resulting alignments is greatly affected by the scoring system -> biologically correct?
    • Cost of CPU time -> homology search programs
Read more »

Learning notes of Chapter 27, Molecular Evolution and Phylogenetics, Computational Biology, MIT course 6.047/6,878

Basics of phylogeny

  • Trees
    • node: a divergence event between two ancestral lineages
      • leaves: present objects
      • root: the common ancester
    • edge: a relationship between two nodes
  • branch length
    • Cladogram: no meaning to branch lengths; only the sequence and topology of the branching matters.
    • Phylogram: branch lengths are directly related to the amount of genetic change.
    • Chronogram (ultrametric tree): branch lengths are directly related to time.
      • The leaves in this tree end on the same vertical line
      • Time and genetic change are not necessarily proportional because evolution rates / mutation rates are not constant.
  • Traits

    • Morphological traits: empirical evaluation of physical traits.
      • advantages: easy to quantify and understand.
      • disadvantages: small set of traits, only build species, easier to be ‘tricked’ by convergent evolution.
    • Sequence traits: genomes
      • advantages: much more data to create gene trees.
      • difficulties: DNA is only built from 4 bases, so back mutations are frequent.
  • homology: a pair of genes are called

    • paralogues: diverged from a duplication event
    • orthologues: diverged from a speciation event

It is hard to extract correct sequences from extinct species due to DNA breaking down over time and contamination from the environment.

  • Methods for tree construction
    • Distance based approaches
      • quantify the amount of mutations to fit the most likely tree according to the pair-wise distance matrix
      • direct algorithm based on some assumptions
    • Character based approaches
      • rely on tree proposal and scoring techniques to perform a heuristic search over the space of trees
Read more »