一个统计EPUB电子书总字数和转txt文件的小工具
从Z-library上下载的epub电子书有点多了。有时候想要统计这些电子书都有多少字,另外想要简单做一个全局查询功能,节省导入到阅读器软件里去查询的时间。在AI的帮助下,完成了这个工具。
从Z-library上下载的epub电子书有点多了。有时候想要统计这些电子书都有多少字,另外想要简单做一个全局查询功能,节省导入到阅读器软件里去查询的时间。在AI的帮助下,完成了这个工具。
前段时间查文献的时候,偶然看到了一些算法里涉及到了信息论的相关知识。信息论我在几年前通过看书自学过,时间太久有些忘了,正好趁此机会重新复习一下。
参考书籍:机械工业《信息论基础(原书第二版)》(ELEMENTS OF INFORMATION THEORY SECOND EDITION),作者Thomas M. Cover, Joy A. Thomas
五月大抵是个令人伤心的季节——毕业季的离别,520当日的所思所感……
前段时间查文献的时候,偶然看到了一些算法里涉及到了信息论的相关知识。信息论我在几年前通过看书自学过,时间太久有些忘了,正好趁此机会重新复习一下。
参考书籍:机械工业《信息论基础(原书第二版)》(ELEMENTS OF INFORMATION THEORY SECOND EDITION),作者Thomas M. Cover, Joy A. Thomas
第六次生物统计学助教课的备课笔记。
本文为生统助教课备课过程的一些记录,主要涉及差异表达分析、基因富集分析、无监督学习的相关知识点,其中的重点包括差异倍数(Fold change)的计算,以及Fisher精确检验。
如题。
前段时间查文献的时候,偶然看到了一些算法里涉及到了信息论的相关知识。信息论我在几年前通过看书自学过,时间太久有些忘了,正好趁此机会重新复习一下。
参考书籍:机械工业《信息论基础(原书第二版)》(ELEMENTS OF INFORMATION THEORY SECOND EDITION),作者Thomas M. Cover, Joy A. Thomas
如题。先前在朋友的博客中看到了一个利用大模型进行文献调研的研究(参见 《文献pdf改名&AI消化》 )。正好这一阵子有文献调研的需求,于是在此基础上进行了一些更深入的探索。
本文主要分为三个部分:①利用网络爬虫获取PubMed的论文全文内容;②通过prompt工程调用大模型,以json文档的形式返回消化结果;③pandas批量处理保存为Excel表格。下面是探索结果
前段时间查文献的时候,偶然看到了一些算法里涉及到了信息论的相关知识。信息论我在几年前通过看书自学过,时间太久有些忘了,正好趁此机会重新复习一下。
参考书籍:机械工业《信息论基础(原书第二版)》(ELEMENTS OF INFORMATION THEORY SECOND EDITION),作者Thomas M. Cover, Joy A. Thomas
按: 最近这一周,持续性的情绪很低落,感觉到孤独和疲惫。
说不上来情绪低落的原因,但应该不仅仅是因为课题和助教课工作带来的压力。天气闷热而阴沉,亦给人一种感官上的压抑情绪。单曲循环《富士山下》一下午,一些过去的事情又浮上心头,更觉得现在的自己形单影只,空虚而寂寞。
第四次生物统计学助教课的备课笔记。
本文为生统助教课备课过程的一些记录,主要涉及单因素方差分析(one-way ANOVA)、双因素方差分析(two-way ANOVA)的基本概念与计算方法,以及缺失值处理的相关知识点。
前段时间查文献的时候,偶然看到了一些算法里涉及到了信息论的相关知识。信息论我在几年前通过看书自学过,时间太久有些忘了,正好趁此机会重新复习一下。
参考书籍:机械工业《信息论基础(原书第二版)》(ELEMENTS OF INFORMATION THEORY SECOND EDITION),作者Thomas M. Cover, Joy A. Thomas
最近在分析单细胞数据,因此和Seurat包打交道了不少。由于seurat的对象设计太复杂了,遂花了一些时间去学习其数据结构以及属性访问方法,整理为笔记特放置于此,谨供需要的朋友们参考。
前段时间,GPT4.1发布了。在看相关报道的时候,偶然发现除了chatGPT官网以外,Github居然也提供了这些模型的API,并且免费用户可以调用。这下再也不用担心chatGPT偶尔的抽风和莫名其妙的突然降智了。
本文介绍如何使用这个大模型API服务。文章分为两个部分:获取API key,以及通过AI管理工具(如 cherry studio )调用服务。
前段时间查文献的时候,偶然看到了一些算法里涉及到了信息论的相关知识。信息论我在几年前通过看书自学过,时间太久有些忘了,正好趁此机会重新复习一下。
参考书籍:机械工业《信息论基础(原书第二版)》(ELEMENTS OF INFORMATION THEORY SECOND EDITION),作者Thomas M. Cover, Joy A. Thomas
(不知道信息论的知识点有没有人感兴趣;如果有人看的话,我打算连续出几期关于信息论的笔记与知识点整理)
几年前,我在日记中写下过这样一段话:
【按:组会上师姐用来比较数据的概率分布模型时,用到了这两个指标。会后,用DeepSeek查询了一下这两个指标的定义和计算方法,浅浅记录一下,以备未来回顾。】
本文为生统助教课备课过程的一些记录,主要涉及参数估计与统计推断(假设检验)的基本概念、参数检验与非参数检验的流程与相关概率分布模型(本文重点),以及R和python当中的相关函数接口。
一觉醒来,我电脑上的Linux子系统(windows subsystem of Linux)WSL1崩了。
“也许我并不真的分得清友情和爱情,我只是把所有我觉得可以依靠的人,都当成了心理上的父母”——题记。
本文为生统助教课备课过程的一些记录,主要涉及概率分布模型的定义、几种离散概率模型之间的关系,以及R和python当中这些概率模型的接口。
周末,天气久违的晴朗了起来。昨天下午出门去了滨江长跑,期间还误打误撞找到了隐藏在滨江绿地附近的南园公园。
木兰花、桃花、山茶花都开了,煞是好看;出来晒太阳的老人,嬉戏玩耍的孩子,路边驻足唱歌的艺人(似乎是热心游客扮演的?好像那个位置一直在换人),亲密无间的情侣,来来往往,很热闹,很有人间烟火气。心情好了不少。
于是,终于有精力从内耗中走出来,终于有精力去思考一个问题:我是不是在一些重要决策上过于依赖他人了?
Selby, D.A., Sprang, M., Ewald, J. et al. Beyond the black box with biologically informed neural networks. Nat Rev Genet (2025). https://doi.org/10.1038/s41576-025-00826-1
Beyond the black box with biologically informed neural networks
(打破黑箱:基于生物学信息的神经网络)
【按:从去年到现在,断断续续看到了许多篇关于神经网络在生物信息学中应用的论文。在这方面,常常面临一个问题:”模型预测的精确性”与”模型可解释性”的权衡。一种解决思路是先训练模型,然后用机器学习可解释方法去对黑箱模型进行解读;另一种解决思路就是引入生物学信息,构建所谓的Biologically informed deep neural network(如下图,来自P-Net模型的论文)。本文发表于本月初的nature reviews genetics期刊上,在文章中作者总结归纳了后一类模型,并在参考文献部分列出了几篇有代表性的论文。】
C盘空间不够用了,查了一下占用C盘体积比较多的软件,发现vscode赫然在列。于是查了一下清理这一部分占用空间的方法。
在近期工作当作,我需要处理一个蛋白质组学的数据集,于是在数据处理和查询资料的过程中,学习了相关的知识,以及crux的用法。
最近一段时间的生活记录(最新修改于2月23日)。
如题。周末尝试在博客中接入了大模型(qwen-long),这篇文章是一个很好的教程,遂收藏。
PS:原本其实想接入的是DeepSeek,但我发现阿里云百炼平台暂时不支持基于DeepSeek创建AI助手应用,只能用qwen系列的模型。
本文转载自:《在基于 hexo 框架的博客上部署定制化 AI 聊天应用》 。
另外参考 《10分钟在网站上增加一个AI助手》
下午师兄推荐给大家的一个插件。
春节假期忙于各种家庭事务,没太多精力打理博客。前段时间被安利了DeepSeek-R1模型,被模型表现惊艳到了,于是也在空闲时间稍稍探索了一下本地部署的方法。
按:假期临近,由于想要在家里也能查看obsidian的笔记,就去找了一下obsidian多端同步的相关教程,看到知乎上这篇文章写的很好,遂收藏于此。文章中的部分插图,我根据实践情况进行了少量修改。如果想了解更多,也可以点击下面的链接阅读原文。
对了,提前祝大家春节快乐呀!
本文转载自知乎专栏。原文链接: 《使用obsidian与坚果云免费实现win、ipad与安卓三端笔记同步》 - 我不是一个简单的的文章 - 知乎
这两天测试组里的服务器时踩的坑。浅浅记录一下探索过程,以防未来再度踩坑。
这一年多以来的科研工作中,调研了不少机器学习库的相关知识,临近年底,事情不多,感觉正好可以整理一下。由于笔者主要使用python的缘故,这里介绍的函数库以python库居多,但也顺带介绍了一些其他编程语言的机器学习库。
周六进行服务器数据迁移时踩的坑。浅浅记录一下探索过程,以防未来再度踩坑。
论文信息: Hejase, Hussein A et al. “A Deep-Learning Approach for Inference of Selective Sweeps from the Ancestral Recombination Graph.” Molecular biology and evolution vol. 39,1 (2022): msab332. doi:10.1093/molbev/msab332
这周三,所里有团辅活动。
在生态学和临床医学中,有这样几个非常类似的概念很容易混淆:生命表(生态学),存活曲线(生态学),生存分析与生存曲线(临床医学)。这篇文章中我们将辨析一下这些概念,并介绍生态学研究中的矩阵群体模型(Matrix Population Models,MPM),后者是与生命表密切相关的一个数学模型。
「一年被雪,以及其他的——春天的,秋天的,夏天的——什么东西所埋葬后,十二月才进入到它的最后一天。一年过后,我们走在雪野上,含泪想到,又是一年了。但是,雪下的时候,却留下了去年经过雪地时的一行脚印,叫我们知道,他也一样一直从去年走到现在。」
前段时间读到的一篇很喜欢的散文,现在读来依然很感动。收藏在此,以便回顾。
又是一年岁末。似乎又到了写一年一度年终总结的季节。
然而相比于往年,今年的岁末有些过于平静甚至平庸。最近这几周,在忙碌于科研工作与助教课和摆烂于互联网两种状态之间来回切换,实在记不清有什么值得记录的事情。
好在,周末回看了一整年的博客和APP年终报告,突然觉得这一年经历了好多事情。所以这篇博客,就当是一篇年终盘点吧。
我看到岁月如何奔驰,挨过了冬季,就迎来春天
如题。
今天拜读了巩高峰老师数年前的一篇文章 《婚姻这个话题,聊聊就聊聊》 ,结合最近一段时间的见闻和思考,想继续讨论一下婚姻和爱情的话题。
这一部分内容来自第四次助教课的备课笔记与PPT。主要梳理了一代至三代测序技术的原理和应用范畴,以及基于高通量测序的组学技术。