2009年1月11日星期日

[PerlChina] Re: 除了HTML::TreeBuilder外,还有其它较好用来分析HTML DOM的模块吗?


以前用过HTML::Parser

但没试过中文内容。

2009/1/12 Beckheng Lam <bi.ken.lam@gmail.com>
最近在使用HTML::TreeBuilder分析某些网页的内容,出现了少少情况。
如果网页中的内容出现一些"意外"的字符,例如:"于权",其中的?号在网页浏览的时候,是一个不能正常显示的字符。
HTML::TreeBuilder在创建tree的时候,将这一段的文字内容,变为UNICODE(\x{}\x{})这样的方式了。
试过decode/encode都不能将这段内容正常还原到GBK编码.

--  Perl乐事 -- http://www.perlersh.org 





--
姜源
Yuan Jiang
http://blog.vetcafe.net

--~--~---------~--~----~------------~-------~--~----~
您收到此信息是由于您订阅了 Google 论坛"PerlChina 论坛"论坛。
 要在此论坛发帖,请发电子邮件到 perlchina@googlegroups.com
 要退订此论坛,请发邮件至 perlchina+unsubscribe@googlegroups.com
 更多选项,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问该论坛

-~----------~----~----~----~------~----~------~--~---

没有评论: