新项目助力人工智能更便捷获取维基百科数据
德国维基媒体协会推出新数据库,助力人工智能获取维基百科知识资源
德国维基媒体协会宣布推出一项名为“维基数据嵌入项目”的新数据库,旨在让人工智能模型更便捷地获取维基百科的海量知识资源,该项目由维基媒体德国分部牵头,联合神经搜索公司Jina.AI与IBM旗下实时训练数据公司DataStax共同开展。
“维基数据嵌入项目”的核心是对维基百科及其姊妹平台上的现有数据(包含近1.2亿条条目)应用基于向量的语义搜索技术,这种技术可以帮助计算机理解词汇的含义及词汇间的关联,从而更好地理解和使用维基百科的知识资源。

该项目还新增了对“模型上下文协议”(Model Context Protocol,简称MCP)的支持,MCP是一套帮助人工智能系统与数据源进行交互的标准,结合这一标准后,大型语言模型(LLMs)可通过自然语言查询更轻松地获取相关数据。
此次项目推出的新数据库与“检索增强生成”(Retrieval-Augmented Generation,简称RAG)系统更好地兼容,RAG系统能让人工智能模型调取外部信息,这为开发者提供了机会,使其模型可基于经维基百科编辑审核验证的知识构建。
新数据库对数据的结构化处理还能提供关键的语义上下文,在数据库中查询“科学家”一词,不仅会生成著名核科学家名单及曾任职于贝尔实验室的科学家名单,还会包含“科学家”一词的多语言翻译、经维基媒体审核通过的科学家工作场景图片,以及对“研究者”、“学者”等相关概念的延伸关联。
该数据库可在Toolforge平台上公开访问,维基数据还计划于10月9日为感兴趣的开发者举办一场线上研讨会。
随着人工智能技术的不断发展,对高质量数据源的需求日益迫切,维基百科的数据具有更强的事实导向性,相较于“通用网络爬虫”等数据集,更符合人工智能应用场景的需求。
维基数据人工智能项目经理菲利普·萨德强调,该项目独立于主流人工智能实验室及大型科技公司,旨在推动人工智能技术的开放、协作式发展,服务于所有人,这一项目的推出,将为人工智能领域带来更多可能性,助力人工智能更好地理解和应用维基百科的知识资源。
相关文章:
文章已关闭评论!










