作者:finallyly 出处:博客园 (转载请注明 作者和出处)
前言:
感谢dudu和博客园的支持,我于2010年10月曾在博客园的个人博客中发布了个人整理的汉语新闻分类语料,以及文本分类流程程序。 历时两年收到了广大网友的支持、批评和指正。现在面临毕业,所以对自己硕士阶段的工作进行了部分开源。
文本语料库(包括中英文新闻)的详细说明以及下载地址为:
文本分类程序最新版的详细说明以及下载地址为:
文本分类的中间表达形式VSM模型的详细说明以及下载地址为:
(1)英文语料的VSM模型:
(2)中文语料的VSM模型:
同时也欢迎大家关注 中科院自动化所的其他数据,如有数据需求,欢迎下载,更欢迎留下您宝贵的反馈意见。
关于文本分类程序说明,以及语料说明的博文地址为:
我们还会开源更多的资源和程序,如果您对中文DBLP感兴趣,欢迎关注我的,以及我们在数据堂建立的个人数据专区。专区用于资源共享,博客将会给出相应的算法设计,和代码使用说明。
同时欢迎大家关注