刚刚年满 20 岁的谷歌又一次在搜索领域扩大了自己的狩猎范围。
今日,谷歌推出新的数据集搜索(Dataset Search)产品,希望帮助研究人员、记者和其他用户更轻易地获得这些数据。这一工具还提供以公开标准呈现的数据,从而帮用户清楚地了解这些信息的创建者、数据的收集途径以及数据的用途。此外该工具还支持包括中文在内的多种语言进行搜索。
网上存在海量的研究数据,但是对这些网站进行筛选可能非常耗时,且数据的格式可能不易解析,因此谷歌推出数据集搜索。
图丨谷歌数据集搜索(图源:DT 君)
此前,谷歌在今年 7 月推出的数据集标记架构,能够提取用户搜索结果中的数据,让用户更直观的看到经过可视化处理的结果。新的数据集搜索正是正是基于这一数据集标记架构。
新的谷歌数据集搜索将收录自然科学、社会科学以及其他学科的数据,同时,政府数据以及新闻机构如 ProPublica 的数据也会收录其中。研究人员、记者等任何需要特定主题数据的人都能通过谷歌数据集搜索快速找到他们需要的数据。
另一方面,数据来源是这一搜索项目中的重要部分,谷歌在推出这一搜索功能的同时也为开发人员公布了数据集的标记要求。具体来说,谷歌向数据集所有方提供指南和框架,帮助他们描述其数据特性,以便谷歌和其他搜索引擎能识别并提供给搜索用户。据介绍,这一框架是基于 Schema.org 标准化词汇表实现的。谷歌对数据集的描述包括:数据集的创建者、发布时间、收集方式,使用条款等。而在用户搜索时,谷歌基于已有数据集信息,向用户提供最接近他们搜索关键词的内容。
为了让更多数据所有者愿意参与到这一项目中,Google AI 的计算机科学家 Natasha Noy 表示,这一搜索系统以后可能会变得更复杂,但目前谷歌目前不会对这些搜索结果中的数据集进行收集和分析。
(图源:MIT Technology Review)
全球范围内,政府机构、出版商、研究机构甚至个人维护着数千个开放的数据库,其中包含的数据集超过百万个。
Natasha Noy 曾向外媒表示:“我们的目标是将数万个不同的数据集存储库统一起来,在不改变其位置的情况下将其提供给需要的人。”
目前,已经上线的谷歌数据集搜索还仅是测试版本。随着越来越多数据集供应商标记其数据集,用户在搜索中找到数据集的数量和范围将会不断扩大。同时,研究人员的搜索和使用数据的行为也能为谷歌提供参考,进而不断优化搜索结果。