我需要1亿个汉语语句做测试,显然我没有能力录入,所以想请人写个程序:
1. 从互联网上自动下载约30万篇文章。实际就是搜索引擎的spider,当然,需要有个界面,供指定要搜索的网站、网址。
2. 去掉网页的无关内容,将文章按逗号、句号、问号切分为语句。有人说,可以用正则表达是解决,也有人说直接用c解决效率更高。
3. 提取文章的标题,送到数据库中。这一步不重要,主要是避免重复下载同一篇文章,也不难。
请人写给多少钱合适?
如果哪位手头有相近的代码,可以帮助改写达到以上要求,不妨报个价。
Hztj2005@yahoo.com.cn
參考答案:不太好说,少则三五百多则两三千