2010年7月29日星期四

Re: [PerlChina] 正则表达的问题和如何抓取网页信息

用 xpath

在 2010年7月29日 下午10:18,xuanshi <xuanbonn@googlemail.com>写道:
Hi all


1,我在做 正则表达时, 我用了如下的语句: if ($KnowEn[$i] =~ /\$Instance/)
                                       {
                                               print $KnowEn[$i] ."\n";
                                       }
系统总是对这个报错。我想知道,是什么原因呢 ? 我现在猜测是:$KnowEn[$i]与循环有关,出了问题,环不下去,还有原文件里有空白的行。




2, 另外,我想从一个网页里,把我需要的信息抓取下来,要从哪里入手呢?比如这个网站:
http://www2.chkd.cnki.net/kns50/Dict/dict_list.aspx?firstLetter=B#
有如下信息,有些是重要的,有些不重要。
1       11-beta-Hydroxysteroid Dehydrogenase Type 1     11-β-羟甾脱氢酶1型    2       0       0       0
2       11-beta-Hydroxysteroid Dehydrogenase Type 2     11-β-羟甾脱氢酶2型    0       0       0       0
3       11-beta-Hydroxysteroid Dehydrogenases   11-β-羟甾脱氢酶类     73      23      12      1
4       4-(3-Butoxy-4-methoxybenzyl)-2-imidazolidinone  4-(3-丁氧基-4-甲氧基苄基)-2-咪唑
啉酮      0       0       0       0
5       4-1BB Ligand    4-1BB配体 80      24      24      0
6       4-Butyrolactone 4-丁内酯   74      16      2       5
7       8-Bromo Cyclic Adenosine Monophosphate  8-溴环腺苷一磷酸       9       1       0       0
8       B-Cell Activating Factor        B-细胞激活因子        96      37      33

--
您收到此邮件是因为您订阅了 Google 网上论坛的“PerlChina Mongers 讨论组”论坛。
要向此网上论坛发帖,请发送电子邮件至 perlchina@googlegroups.com
要取消订阅此网上论坛,请发送电子邮件至 perlchina+unsubscribe@googlegroups.com
若有更多问题,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。




--
Azure.Wang

--
您收到此邮件是因为您订阅了 Google 网上论坛的“PerlChina Mongers 讨论组”论坛。
要向此网上论坛发帖,请发送电子邮件至 perlchina@googlegroups.com。
要取消订阅此网上论坛,请发送电子邮件至 perlchina+unsubscribe@googlegroups.com。
若有更多问题,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。

没有评论: