新项目助力人工智能更便捷获取维基百科数据

来源：网络作者：日期：2025-10-01 20:20:04

德国维基媒体协会推出新数据库，助力人工智能获取维基百科知识资源

德国维基媒体协会宣布推出一项名为“维基数据嵌入项目”的新数据库，旨在让人工智能模型更便捷地获取维基百科的海量知识资源，该项目由维基媒体德国分部牵头，联合神经搜索公司Jina.AI与IBM旗下实时训练数据公司DataStax共同开展。

“维基数据嵌入项目”的核心是对维基百科及其姊妹平台上的现有数据（包含近1.2亿条条目）应用基于向量的语义搜索技术，这种技术可以帮助计算机理解词汇的含义及词汇间的关联,从而更好地理解和使用维基百科的知识资源。

该项目还新增了对“模型上下文协议”（Model Context Protocol，简称MCP）的支持，MCP是一套帮助人工智能系统与数据源进行交互的标准，结合这一标准后，大型语言模型（LLMs）可通过自然语言查询更轻松地获取相关数据。

此次项目推出的新数据库与“检索增强生成”（Retrieval-Augmented Generation，简称RAG）系统更好地兼容，RAG系统能让人工智能模型调取外部信息，这为开发者提供了机会,使其模型可基于经维基百科编辑审核验证的知识构建。

新数据库对数据的结构化处理还能提供关键的语义上下文，在数据库中查询“科学家”一词，不仅会生成著名核科学家名单及曾任职于贝尔实验室的科学家名单，还会包含“科学家”一词的多语言翻译、经维基媒体审核通过的科学家工作场景图片，以及对“研究者”、“学者”等相关概念的延伸关联。

该数据库可在Toolforge平台上公开访问,维基数据还计划于10月9日为感兴趣的开发者举办一场线上研讨会。

随着人工智能技术的不断发展，对高质量数据源的需求日益迫切，维基百科的数据具有更强的事实导向性，相较于“通用网络爬虫”等数据集,更符合人工智能应用场景的需求。

维基数据人工智能项目经理菲利普·萨德强调，该项目独立于主流人工智能实验室及大型科技公司，旨在推动人工智能技术的开放、协作式发展，服务于所有人，这一项目的推出，将为人工智能领域带来更多可能性,助力人工智能更好地理解和应用维基百科的知识资源。

分类：国内

责任编辑：今题网

文章已关闭评论！