搜狗发布的互联网语料库包含了约1亿互联网页面,是一个非常好的原始语料库,可以拿来对统计语言模型进行训练。但首先我们需要对它进行预处理。可以参考http://blogs.sun.com/yongsun/entry/a_simple_stript_to_extract,我把这个脚本保存为extract.py。
我是在Windows下的cygwin中执行这个脚本的。首先df查看本机硬盘的位置,然后转到文本存放的地方,运行
pythonextract.py content_0 > processed
由于这个脚本在处理文本的时候使用了UTF-8,所以处理过的文本在java中打开时也应该使用同样的编码。
似乎我应该去弄一张unicode编码对应表。
没有评论:
发表评论