今日头条新闻题目分类数据

这个是爬取了今日头条几百W文章标题的数据,可以用于CNN文本分类来判断新闻文章的类别,也可以用于贝叶斯多分类模型等,在很多模型下,还是有不错的效果。

Download 收藏 点赞
未设置
未设置
Coming soon...
Coming soon...

数据集格式


该数据主要是 搜狐新闻2012-2016 下的文化类别数据,有详细的标注作者、内容、时间、url等信息。

image.png

代码读取


import pandas as pd
file = "milltart.csv"
df = pd.read_csv(file,index_col=0)
df.head(3)



Image Description