2009年6月9日星期二

[PerlChina] 要做一个定向抓取的引擎,请大家给些建议

各位大侠,我是做无线方面服务器开发的,由于现在项目中很多数据源需要抓取web数据(很多内容提供商都提供不了规范接口),每个项目做一套抓取接口散
落在各个服务器上维护起来非常麻烦。因此,我想做一个抓取引擎,单独安排一个服务器做抓取工作。抓取后的资源录入到数据库,制定统一的规范接口,对外开
放(对外开放的接口用.net的webservice做)。
具体需求有:
1、支持web抓取(主要的),支持soap协议、支持rss协议、支持mysql,sqlserver,oracle等数据库数据获取。
2、支持定时策略
3、可动态配置http头信息
4、可将获取的图片动态缩放成预订规格。

俺是perl新手(非常新),现在只是用perl做单个web接口的抓取,复杂的没做过。大家有什么建议?除wpt之外,其他的模块需要用到啥?有没有
更好的现有资源?
--~--~---------~--~----~------------~-------~--~----~
您收到此信息是由于您订阅了 Google 论坛"PerlChina Mongers 讨论组"论坛。
要在此论坛发帖,请发电子邮件到 perlchina@googlegroups.com
要退订此论坛,请发邮件至 perlchina+unsubscribe@googlegroups.com
更多选项,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问该论坛
-~----------~----~----~----~------~----~------~--~---

没有评论: