> 第一次在这里发帖,大家多多关照!o(∩_∩)o...哈哈!
> 脚本的实现策略比较简单:
> 第一步,先在你要抓取页面的网站,注册一个帐号,并登陆成功后,在IE浏览器的地址栏输入如下js代码:
> document.write(); 回车,得到网站的cookie值;
> 第二步,再将得到的cookie赋值个 LWP::UserAgent 对象
> 第三步,通过 LWP::UserAgent 实现抓取
> 第四步,解析html
>
> 具体实现如下,测试后,有写网站抓取不稳定,意思就是说,获取的数据有时会话过期提示要登录。
> 希望大家指点,如何实现更稳定,或者问题怎么解决?。谢谢。:)
为什么要去手动的得到网站 cookie?
至于会话过期,你可以检测然后再登陆一次。不过一般 cookie/session 够长我还
没有碰到过期的情况。
Qiang(James)
--~--~---------~--~----~------------~-------~--~----~
您收到此信息是由于您订阅了 Google 论坛"PerlChina Mongers 讨论组"论坛。
要在此论坛发帖,请发电子邮件到 perlchina@googlegroups.com
要退订此论坛,请发邮件至 perlchina+unsubscribe@googlegroups.com
更多选项,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问该论坛
-~----------~----~----~----~------~----~------~--~---
没有评论:
发表评论