当前位置: 首页慧源数据大赛赛事新闻和通知 — 正文

慧源数据大赛海量数据

发布时间:2022.11.03 来源: 浏览次数:

详情可点击这里

数据开放办法

大赛提供来自政府、高校、企业的海量高价值数据资源。参赛队伍可先查看大赛样本数据集了解数据情况。

大赛数据按照数据提供方的要求均须申请获取。参赛队伍登录大赛官网,根据提示完成身份验证、提交研究设想、申请数据并提交数据使用协议。大赛组委会将在7-10个工作日内反馈数据申请情况。

数据申请步骤

申请步骤

说明

身份验证

大赛组委会审核参赛团队所有成员的校园一卡通信息,查验在校身份。

提交研究设想

参赛团队提交其研究设想,包括论文选题、研究概述、计划安排和预期应用成果(选填)。

申请数据

参赛团队根据研究需要选择要申请的数据,须确保选择的数据和研究设想相匹配,否则

会影响数据申请的结果。原则上每支参赛队伍有1次申请数据的机会。

提交数据使用协议

参赛团队所有成员均须仔细阅读数据使用协议的各项内容,并在协议上签字。

高校数据

CADAL(大学数字图书馆国际合作计划)全面整合国内高校图书馆、图书情报服务机构、学术研究机构所拥有或生产的各类信息资源及其相关服务,有重点地引进、共享国际相关机构的各类信息资源与服务。对包括书画、建筑工程、篆刻、戏剧、工艺品等在内的多种类型媒体资源进行数字化整合,资源覆盖理、工、农、医、人文、社科等多种学科,提供一站式的个性化知识服务,向参与建设的高等院校、学术机构提供教学科研支撑。CADAL用户行为数据主要包括用户基本信息、资源基本信息和用户行为记录(检索、借阅、浏览),各类数据共计100余个字段。

复旦大学张乐天教授的项目组自2013年开始在全国搜集各种类型的民间社会生活资料,因为书信资料对理解当代中国社会生活、人际关系有着不可忽视的重要性,截止2019年,已经搜集了50多万封个人书信。书信数据以原始一手的信件作为信息来源,保证了数据的完整性和准确性,覆盖了建国以来不同历史阶段的数据,并作了脱敏处理,数据可供不同人文社会学科进行交叉趋势分析等,具有很强的研究和应用价值。大赛开放一位老党员及其相关社会关系往来的书信100余封。

2011年,复旦大学联合复旦光华信息有限公司研发了ERU(电子资源使用统计访问)系统,从网络底层采集用户访问电子资源的信息行为,通过过滤、还原和解析成结构化的数据。大赛提供5个基于ERU系统采集的数据集:2015年复旦大学师生中文电子期刊资源访问行为数据集、2016年复旦大学人文社会科学领域中文电子期刊资源访问行为数据集、2016年复旦大学自然科学领域中文电子期刊资源访问数据集、2017年复旦大学师生中文电子期刊资源访问行为数据集、2018年复旦大学师生中文电子期刊资源访问行为数据集。数据集共有27个字段,具备完整性、准确性和代表性,对于学科研究热点分析、用户行为分析、高校图书馆电子资源需求分析等众多研究方向都具有丰富的应用和研究价值。

高校图书馆业务数据为基础数据层数据,为可机读、格式化的原生数据,主要包括图书外借数据、图书预约数据、读者入馆数据和馆藏数据。高校图书馆业务数据具有数据粒度细(71个字段)、数据量大、覆盖范围广(涵盖7省/市近30所高校图书馆)、时间跨度长(2013-2021年)等特点,对高校图书馆用户阅读行为、文献采购、馆藏调整等研究有重要价值,能够为高校图书馆的建设和发展研究提供数据依据。

大赛开放上海某高校无线网络认证数据和浙江某高校一卡通消费数据。无线网络认证数据共有16个字段,1000万余条数据记录,覆盖自2021年1月至3月的该高校学生校园无线网络接入的认证日志。一卡通消费数据主要包含该高校师生从2020年至2021年在校生活消费共计100多万条数据(已去除敏感信息)。

数据来源于京东读书专业版产品。在某个图书馆推广使用的过程中,读者在线使用数字图书馆进行阅读,每次打开书籍到关闭书籍的书籍信息及阅读时间点和时间长度信息。

复旦大学长三角地区社会变迁调查(Fudan Yangtze River Delta Social Transformation Survey,简称FYRST)是以跟踪1980-1989年(简称80后)出生的一代人为主体,以长三角地区为调查区域,深度了解调查对象和所处社区的过去三十年以及未来的发展变化情况的大型综合调查。研究的范围包括这一代人的家庭、婚姻、就业、迁移、住房、生育、子女教育、父母养老等各个方面。这一研究对分析和了解中国社会在产业(后)工业化、生活城市化、经济全球化、人口老龄化的全方位变迁具有极为重要的意义。大赛开放FYRST2013年上海地区基线调查,包含947个字段,2357条记录,同时提供的还有调查问卷等相关资料。

中国都市青少年发展数据是关于当代都市青少年的发展状况、发展特点与发展趋势的调查数据,尤其关注都市青少年发展的优先领域。大赛开放2014年和2015年的中国都市青少年发展数据。2014年的数据围绕公民素养、教育学习、身心健康、参与融合、就业创业和维权与预防犯罪等六大青少年优先发展领域,取样我国十个大城市近万名青少年。2015年的数据主要涉及北京、上海、广州、重庆、沈阳、武汉、西安、郑州、哈尔滨、昆明10个城市中有关青少年法治素养、传统文化素养、积极心理品质、“久坐”现象、阅读状况、审美教育、创新创业、文明风尚、消费行为、代际关系、国际观、休息权等十二个方面的现实状况。

政府数据

上海市公共数据开放平台现已开放50个数据部门,100个数据开放机构,5506个数据集(其中2326个数据接口),60个数据应用。数据领域包括经济建设、资源环境、教育科技、道路交通、社会发展、公共安全、文化休闲、卫生健康、民生服务、机构团体、城市建设和信用服务等各个方面。

上海市奉贤区农业种植记录清单数据来源于上海市农业农村委农业信息直报系统中农业经营主体申报信息,数据内容主要是经营主体在日常种植、管理、采收农作物时记录的农事信息,包含农业主体基础信息、农事信息、操作农事人员、反馈信息、农事操作开始结束时间等信息,完整记录了上海市农业开展的情况。

《中国互联网学习白皮书》是由教育部教育管理信息中心牵头,联合国内知名大学、具有影响力的专家、研究机构和企业等共同编写的描述中国互联网学习现状及发展趋势的年度报告。“白皮书项目”于2014年正式开展,截至目前已经运行8年,为更深刻、全面地洞察我国教育信息化发展基本趋势、未来走向及行业特征,“白皮书项目”在全国建设了一批示范性数据采集点,发放基础教育互联网学习现状调查问卷,从学生、教师和管理者三个层面获取数据。大赛开放2020年度的基础教育互联网学习现状调查数据。

上海市中小学生相关数据由上海市电化教育观提供,主要有上海市中小学生图书馆借阅数据、中小学生数字图书馆单页阅读记录数据集和第二届学生“好问题”征集评选活动数据。上海市中小学生图书馆借阅数据包含了上海市中小学生利用电子学生证在上海图书馆及各区公共图书馆的借阅信息(外借、续借、归还),共计3000多万条记录,覆盖上海全市各中小学校。中小学生数字图书馆单页阅读记录数据来源于中文在线的数字图书馆产品在试点学校进行推广使用过程中产生的近万条行为数据。第二届学生“好问题”征集评选活动数据主要包括来自上海、浙江、江苏、安徽、福建、辽宁、江西、宁夏、广东、广西等省市3000多名学生提出的问题,共有15个字段,554724条数据记录。

中国流动人口动态监测调查数据(China Migrants Dynamic Survey,简称CMDS),是国家卫生健康委自2009年起一年一度大规模全国性流动人口抽样调查数据,覆盖全国31个省(区、市)和新疆生产建设兵团中流动人口较为集中的流入地。大赛开放2017年和2018年数据,内容涉及流动人口及家庭成员人口基本信息、就业情况、流动及居留意愿、健康与公共服务、社会融合等。

中国专家学者数据主要包括由中国工程院中国工程科技知识中心提供的专家学术资源数据、量子科技中国专利数据和美国NSF资助的科研项目数据。专家学术资源数据集选取清华大学、北京大学、浙江大学、上海交通大学、复旦大学等5所高校各100位专家的中文期刊论文及英文期刊论文,共计161138条记录,覆盖范围从1952年到2020年。量子科技中国专利数据集共抽取了我国2000年至今获得的量子科技有关专利数据。科研项目数据收录了2000年至今美国National Science Foundation (NSF)资助的计算机、信息科学与工程领域的科研项目数据。

企业数据

万方数据知识服务平台期刊文献用户行为日志为万方数据知识服务平台的基础用户行为数据,可机读、可格式化,数据量大,具有近3千万条数据。对学者及高校的学术阅读行为、学科发现、热门领域监控等研究有重要价值。

运营商用户轨迹统计数据集采集于运营商用户手机信令数据(2022年1月-2022年3月)。手机信令数据通过手机用户在基站之间的信息交换来确定用户的空间位置,能相对准确的记录人流的时空轨迹。本数据集可应用于人口流动、交通研究、城市研究等多个领域方面的研究。

自有数据

自有数据,指参赛团队以研究为目的,自行采集、清洗、整理的无版权问题的研究数据。举例说明,以下类型数据可视为自有数据:①为研究微博用户行为而依法收集的微博博文数据;②为研究科研人员数据共享意识,自行设计问卷并收集的调查问卷数据。

参赛团队须在9月29日-10月31日将自有数据上传至慧源科学数据平台,大赛组委会审核发布后方可用于参赛作品。(查看《自有数据提交指南》)上传的自有数据须包括数据集和《数据集基本信息文档》,说明数据采集方法、数据清洗流程、数据字典、数据使用建议等内容。自有数据应遵循慧源上海教育科研数据共享平台数据政策。提交自有数据的参赛团队默认同意将数据用于大赛范围内的共享,供其他参赛团队使用。

⾃有数据(即其他团队⾃⾏采集的研究数据)于2022年11⽉11⽇之后依审核结果发布并开放申请。2022年11⽉11⽇12:00前申请数据的团队,可按需补充申请⾃有数据1次(注:补充申请仅新发布的⾃有数据)。2022年11⽉11⽇12:00后申请数据的团队,有且仅有1次数据申请的机会,请注意在数据平台查看⼤赛数据和⾃有数据相关信息,根据研究设想选择申请。