2009年9月3日星期四

[PerlChina] Re: 我写的总是不对.perl像google首页一样去掉html多余代码的正则怎么写?

sorry , 我不懂html,
 
不过,就regex 来讲,应该是可以做到的,  就是写的复杂些吧
 


 
2009/9/3 Haiyan Lin <linhy0120@gmail.com>
好像有模块可以。刚从一本书上读到的代码。自己还没试过。把“http://www.braingia.org"换成你自己想用的网址试试看。

!/usr/bin/perl -w
use strict;
use HTML::TreeBuilder;
use HTML::FormatText;
use LWP::Simple;
my $webpage = get("http://www.braingia.org/");
my $htmltree = HTML::TreeBuilder->new->parse($webpage);
my $output = HTML::FormatText->new();
print $output->format($htmltree);


----- Original Message -----
From: "蓝天下云层上" <imx365ster@gmail.com>
To: "PerlChina Mongers 讨论组" <perlchina@googlegroups.com>
Sent: Wednesday, September 02, 2009 4:32 PM
Subject: [PerlChina] 我写的总是不对.perl像google首页一样去掉html多余代码的正则怎么写?


> 我写的总是不对.perl像google首页一样去掉html多余代码的正则怎么写?
>
> $msg = <html文件>
>
> $msg =~ s/~>\s+<~//g;
> $msg =~ s/~>\s+\r?\n~//g;
> $msg =~ s/<!--{2,}.*?-{2,}>//g;
> $msg =~ s/<!--\[/!\]*?\[^<>\]*?>//g;
>
> 总是不对,不知道是哪不对?
>
> >
>





--
           Yours Sincerely
                   Zeng Hong

--~--~---------~--~----~------------~-------~--~----~
您收到此信息是由于您订阅了 Google 论坛"PerlChina Mongers 讨论组"论坛。
 要在此论坛发帖,请发电子邮件到 perlchina@googlegroups.com
 要退订此论坛,请发邮件至 perlchina+unsubscribe@googlegroups.com
 更多选项,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问该论坛

-~----------~----~----~----~------~----~------~--~---

没有评论: