An old horse knows the way: 搜狗语料库的预处理

2007年12月8日星期六

搜狗语料库的预处理

搜狗发布的互联网语料库包含了约1亿互联网页面，是一个非常好的原始语料库，可以拿来对统计语言模型进行训练。但首先我们需要对它进行预处理。可以参考http://blogs.sun.com/yongsun/entry/a_simple_stript_to_extract，我把这个脚本保存为extract.py。

我是在Windows下的cygwin中执行这个脚本的。首先df查看本机硬盘的位置，然后转到文本存放的地方，运行

pythonextract.py content_0 > processed

由于这个脚本在处理文本的时候使用了UTF-8，所以处理过的文本在java中打开时也应该使用同样的编码。

似乎我应该去弄一张unicode编码对应表。

没有评论:

订阅：博文评论 (Atom)