2010年9月25日星期六

Re: [PerlChina] 批量自动搜索的方法

抓取搜索结果?我记得前段时间(上个学期)。抓了很多搜索的结果,取赞助商链接,貌似是改了user
agent,然后没有sleep
On Sat, 25 Sep 2010 16:13:46 +0800, liseen <liseen.wan@gmail.com> wrote:

> google 是不允许爬虫去抓取的, 很容易封掉你
>
> 要加上随机sleep
>
> 2010/9/25 Lin(林兴陆) <i@lxl.cn>
>
>> 我习惯用cURL搞定,快、自由。
>>
>> 2010/9/25 zhihua zheng <zhihua.zheng@gmail.com>:
>> > 有意思, 这个还是比较简单的,
>> >
>> 一般搜索引擎没有反爬虫机制的,因为他们自己也是爬虫,放心吧,只有一些比较行业化的网站才会防这个,不过遇到这种网站,我们下手一般会比较狠,因为他们太浪费我们的时间了,
>> >
>> > 模块嘛, 简单的话可以用LWP 就可以。
>> > 对付狠的可以上,Mechanize。
>> >
>> >
>> >
>> >
>> > 2010/9/24 Weiqiang <lweiqiang@gmail.com>
>> >>
>> >> 如果没有理解错,这是在建搜索引擎吧。
>> >>
>> 现在各大搜索网站应该都有反爬虫机制,爬虫需要伪造Agent信息,而且每次爬信息都要有一定的时间间隔(最好是随机的)。
>> >> 需要根据种子的数量估算一下爬信息需要的时间。
>> >>
>> >>
>> >> 2010/9/24 xuanshi <xuanbonn@googlemail.com>
>> >>>
>> >>> 请教一下各位达人,
>> >>>
>> >>> 小女现有一大型文件, 每一行是一个特定的内容,
>> 在每一行的开始,都有8个数字的ID, 用于区别每一行的信息。
>> >>>
>> 希望有个程序,每次只是把文件中每行的内容放入网页搜索(比如google),返回的结果要再与之前的ID相对应。请问这样的程序需要那些模
>> >>> 块, 命令。 关于程序如何把本地文件跟网页联系起来,又需要什么呢?
>> 大致思路也好
>> >>>
>> >>> 提前感谢了
>> >>>
>> >>> 初学Perl小菜鸟
>> >>>
>> >>> --
>> >>> 您收到此邮件是因为您订阅了 Google 网上论坛的"PerlChina Mongers
>> 讨论组"论坛。
>> >>> 要向此网上论坛发帖,请发送电子邮件至 perlchina@googlegroups.com
>> >>> 要取消订阅此网上论坛,请发送电子邮件至
>> perlchina+unsubscribe@googlegroups.com<perlchina%2Bunsubscribe@googlegroups.com>
>> 。
>> >>> 若有更多问题,请通过
>> http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。
>> >>>
>> >>
>> >> --
>> >> 您收到此邮件是因为您订阅了 Google 网上论坛的"PerlChina Mongers
>> 讨论组"论坛。
>> >> 要向此网上论坛发帖,请发送电子邮件至 perlchina@googlegroups.com
>> >> 要取消订阅此网上论坛,请发送电子邮件至
>> perlchina+unsubscribe@googlegroups.com<perlchina%2Bunsubscribe@googlegroups.com>
>> 。
>> >> 若有更多问题,请通过
>> http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。
>> >
>> > --
>> > 您收到此邮件是因为您订阅了 Google 网上论坛的"PerlChina Mongers
>> 讨论组"论坛。
>> > 要向此网上论坛发帖,请发送电子邮件至 perlchina@googlegroups.com
>> > 要取消订阅此网上论坛,请发送电子邮件至
>> perlchina+unsubscribe@googlegroups.com<perlchina%2Bunsubscribe@googlegroups.com>
>> 。
>> > 若有更多问题,请通过
>> http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。
>> >
>>
>>
>>
>> --
>> /* 110000011101011011010000110010111100001010111101 *\
>> Linxinglu(林兴陆) - Mike Lam
>> Mobile Phone: (+86)13501281365
>> E-Mail: i@lxl.cn
>> QQ: 28888888
>> ICQ: 2876829
>> MSN: Linxinglu@hotmail.com
>> Homepage: http://www.lxl.cn
>> \* 110000011101011011010000110010111100001010111101 */
>>
>> --
>> 您收到此邮件是因为您订阅了 Google 网上论坛的"PerlChina Mongers
>> 讨论组"论坛。
>> 要向此网上论坛发帖,请发送电子邮件至 perlchina@googlegroups.com
>> 要取消订阅此网上论坛,请发送电子邮件至
>> perlchina+unsubscribe@googlegroups.com<perlchina%2Bunsubscribe@googlegroups.com>
>> 。
>> 若有更多问题,请通过 http://groups.google.com/group/perlchina?hl=zh-CN
>> 访问此网上论坛。
>>
>>
>


--
Using Opera's revolutionary email client: http://www.opera.com/mail/

--
您收到此邮件是因为您订阅了 Google 网上论坛的"PerlChina Mongers 讨论组"论坛。
要向此网上论坛发帖,请发送电子邮件至 perlchina@googlegroups.com
要取消订阅此网上论坛,请发送电子邮件至 perlchina+unsubscribe@googlegroups.com
若有更多问题,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。

没有评论: