🧚 Express-Yourself before join the team
Please pick one you're interested in, and send me your solution or attempt.
Tokenization
对于一个文本序列X,现有的tokenization方法(分词方法)有很多种,比如byte-pair encoding、SentencePiece、jieba。以下面3个例子为例,展示不同tokenization方法对于X的不同结果;并用最简单的语言和方式展示不同tokenization方法的逻辑和你的计算过程。
X = "ABCDABCDBCDBCDDABCDEFEFBCDCDEFEF"
X = "面对三体、面对地球文明前所未有的危局,人类组建起庞大的太空舰队。同时行星防御理事会(PDC)利用三体人思维透明的特点,制定了面壁计划。"
X = "Around this time he also began to develop, and has since been considered a founder of, algorithmic complexity theory – often referred to as Kolmogorov complexity theory."
蛋白质序列中的
梯元分布
选定5个物种,将它的所有蛋白序列取出(如果所有序列太多的话,只取一部分,但是总长度需大于1MB)。数据可以从这里查 https://www.uniprot.org/
用梯径计算出你取出的这些序列的梯元,然后画出梯元的数量分布(横坐标是梯元的长度,纵坐标是这些梯元的频率,log-log scale)。
这里面有一些问题需要注意和讨论:1. 找到梯元后,怎么去数它们出现的频率;2. 梯径分析中,每个梯元会对应一个重数,这个重数和频率会有什么关系。
Alumni & Visiting Students
张泽成(生物学)
Daniel Hjerpe(应用数学)
唐绍华(系统分析与集成)
牛晓杰(教育技术学)🏡
蔡雅琪(智能科学与技术)
吴鑫霖(系统科学)
肖辉(系统科学)
汪显意(系统科学)
董佳欣(系统科学)
刘冰宁(数学)
张译方(数学)
朱应俊(统计学)
许卓莹(统计学)
阙林婕(数学)
彭韵茹(大数据&物理学)