2009年3月5日星期四

[PerlChina] Re: 原创脚本--抓取需要登录后才能看到的页面

金山糍粑 wrote:
> 第一次在这里发帖,大家多多关照!o(∩_∩)o...哈哈!
> 脚本的实现策略比较简单:
> 第一步,先在你要抓取页面的网站,注册一个帐号,并登陆成功后,在IE浏览器的地址栏输入如下js代码:
> document.write(); 回车,得到网站的cookie值;
> 第二步,再将得到的cookie赋值个 LWP::UserAgent 对象
> 第三步,通过 LWP::UserAgent 实现抓取
> 第四步,解析html
>
> 具体实现如下,测试后,有写网站抓取不稳定,意思就是说,获取的数据有时会话过期提示要登录。
> 希望大家指点,如何实现更稳定,或者问题怎么解决?。谢谢。:)

为什么要去手动的得到网站 cookie?

至于会话过期,你可以检测然后再登陆一次。不过一般 cookie/session 够长我还
没有碰到过期的情况。

Qiang(James)

--~--~---------~--~----~------------~-------~--~----~
您收到此信息是由于您订阅了 Google 论坛"PerlChina Mongers 讨论组"论坛。
要在此论坛发帖,请发电子邮件到 perlchina@googlegroups.com
要退订此论坛,请发邮件至 perlchina+unsubscribe@googlegroups.com
更多选项,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问该论坛
-~----------~----~----~----~------~----~------~--~---

没有评论: