ecsLab 复杂系统演化实验室 | 团队

top of page

刘宇

Principal Investigator

刘春秀子

2021级博士

系统分析与集成

彭璐 🏡

2022级博士

系统理论

胡晓俊

2023级硕士

系统理论

王婧

2024级硕士

系统理论

周骏逸

2024级硕士

系统理论

截屏2024-11-06 23.31.51.png

汪依萍

2024级硕士

健康大数据（厦门大学）

截屏2024-11-06 23.32.24.png

翟枫尧

2021级本科

物理

张竞文 🏡

2022级本科

数学与应用数学

蔡沐峰

2022级本科

系统科学

刘靖曦

2022级本科

系统科学

叶佳硕

2022级本科

系统科学

谢潇

2022级本科

物理学（中山大学）

张浩扬

2023级本科

系统科学

马蓝欣

2023级本科

系统科学

Blurry Forest

🧚 Express-Yourself before join the team

Please pick one you're interested in, and send me your solution or attempt.

Tokenization

对于一个文本序列X，现有的tokenization方法（分词方法）有很多种，比如byte-pair encoding、SentencePiece、jieba。以下面3个例子为例，展示不同tokenization方法对于X的不同结果；并用最简单的语言和方式展示不同tokenization方法的逻辑和你的计算过程。

X = "ABCDABCDBCDBCDDABCDEFEFBCDCDEFEF"

X = "面对三体、面对地球文明前所未有的危局，人类组建起庞大的太空舰队。同时行星防御理事会（PDC）利用三体人思维透明的特点，制定了面壁计划。"

X = "Around this time he also began to develop, and has since been considered a founder of, algorithmic complexity theory – often referred to as Kolmogorov complexity theory."

蛋白质序列中的
梯元分布

选定5个物种，将它的所有蛋白序列取出（如果所有序列太多的话，只取一部分，但是总长度需大于1MB）。数据可以从这里查 https://www.uniprot.org/

用梯径计算出你取出的这些序列的梯元，然后画出梯元的数量分布（横坐标是梯元的长度，纵坐标是这些梯元的频率，log-log scale）。

这里面有一些问题需要注意和讨论：1. 找到梯元后，怎么去数它们出现的频率；2. 梯径分析中，每个梯元会对应一个重数，这个重数和频率会有什么关系。

Alumni & Visiting Students

张泽成（生物学）

Daniel Hjerpe（应用数学）

唐绍华（系统分析与集成）

牛晓杰（教育技术学）🏡

蔡雅琪（智能科学与技术）

吴鑫霖（系统科学）

肖辉（系统科学）

汪显意（系统科学）

董佳欣（系统科学）

刘冰宁（数学）

张译方（数学）

朱应俊（统计学）
许卓莹（统计学）
阙林婕（数学）

彭韵茹（大数据&物理学）

陈睿（物理学）

上班味儿 & 下班味儿

bottom of page