Image Description
Image Description

下面是结果...

Image Description
Image Description
Image Description
上传于 2019-06-07 admin

该数据集是搜狐的财经类别的历史文章数据,大小为500M,可以选择性使用地来探索金融领域的相关数据,例如文本分类,情感分析等。

Image Description
Image Description
Image Description
上传于 2019-06-07 admin

此数据集是从人民网上收集得来的文章数据,是与经济能源如石油、天然气、核能等相关的数据集。大小为440MB ,可用于训练文本分类模型。

Image Description
Image Description
Image Description
上传于 2019-06-07 admin

这个是著名的时尚网站ellechina.com下的一定时期内的文章及短述数据,可用于做分类、命名实体识别、时尚领域的数据挖掘等。

Image Description
Image Description
Image Description
上传于 2019-06-07 admin

该数据集是搜狐新闻的汽车类别的历史文章数据,大小为2.11G,可以选择性使用地来探索汽车领域的相关数据,例如文本分类,情感分析等。

Image Description
Image Description
Image Description
上传于 2019-06-07 admin

这个数据同样从搜狐2012-2016年数据集中抽取出来,转化成csv文件,并进行了简单的处理,包含了title、content、标签信息。

Image Description
Image Description
Image Description
上传于 2019-06-06 admin

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。

Page 2 out of 3