
数字人文门户
2021年4月20日,清华大学110周年校庆来临之际,由清华大学数字人文项目团队创办,清华大学文科处“双高”计划资助,中华书局、中国知网、国学网、中文在线等支持的数字人文门户网站(www.dhlib.cn)正式发布运行。...
AI“九歌”中国古诗词类义句搜奇(简称“九歌类义句搜奇”)由清华大学自然语言处理与社会人文计算实验室研发。整个研发工作在孙茂松教授组织和指导下完成。研发团队成员任务分工如下:核心算法设计及实现(郭志芃、胡锦毅、梁健楠);展示系统实现(刘文长)。团队设计了一种基于深层神经网络模型BERT及针对古诗词特点的改进最长公共子序列匹配相融合的类义句检索算法,可以更好地反映古诗词中的复杂语义,其检索结果也因之更为准确、细致、丰富。此外,团队利用Annoy技术实现了一个以树为数据结构的近似最近邻搜索机制,以最大限度地提高两个稠密向量之间相似度计算的速度;还实现了一个基于倒排索引的最长公共子序列优化机制,以最大限度地提高字符串匹配速度。