返回

新项目助力人工智能更便捷获取维基百科数据

来源:网络   作者:   日期:2025-10-01 20:20:04  

德国维基媒体协会推出新数据库,助力人工智能获取维基百科知识资源

德国维基媒体协会宣布推出一项名为“维基数据嵌入项目”的新数据库,旨在让人工智能模型更便捷地获取维基百科的海量知识资源,该项目由维基媒体德国分部牵头,联合神经搜索公司Jina.AI与IBM旗下实时训练数据公司DataStax共同开展。

“维基数据嵌入项目”的核心是对维基百科及其姊妹平台上的现有数据(包含近1.2亿条条目)应用基于向量的语义搜索技术,这种技术可以帮助计算机理解词汇的含义及词汇间的关联,从而更好地理解和使用维基百科的知识资源。

新项目助力人工智能更便捷获取维基百科数据

该项目还新增了对“模型上下文协议”(Model Context Protocol,简称MCP)的支持,MCP是一套帮助人工智能系统与数据源进行交互的标准,结合这一标准后,大型语言模型(LLMs)可通过自然语言查询更轻松地获取相关数据。

此次项目推出的新数据库与“检索增强生成”(Retrieval-Augmented Generation,简称RAG)系统更好地兼容,RAG系统能让人工智能模型调取外部信息,这为开发者提供了机会,使其模型可基于经维基百科编辑审核验证的知识构建。

新数据库对数据的结构化处理还能提供关键的语义上下文,在数据库中查询“科学家”一词,不仅会生成著名核科学家名单及曾任职于贝尔实验室的科学家名单,还会包含“科学家”一词的多语言翻译、经维基媒体审核通过的科学家工作场景图片,以及对“研究者”、“学者”等相关概念的延伸关联。

该数据库可在Toolforge平台上公开访问,维基数据还计划于10月9日为感兴趣的开发者举办一场线上研讨会。

随着人工智能技术的不断发展,对高质量数据源的需求日益迫切,维基百科的数据具有更强的事实导向性,相较于“通用网络爬虫”等数据集,更符合人工智能应用场景的需求。

维基数据人工智能项目经理菲利普·萨德强调,该项目独立于主流人工智能实验室及大型科技公司,旨在推动人工智能技术的开放、协作式发展,服务于所有人,这一项目的推出,将为人工智能领域带来更多可能性,助力人工智能更好地理解和应用维基百科的知识资源。

分类:国内
责任编辑:今题网
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。

相关文章:

文章已关闭评论!