2010年3月20日星期六

Re: [PerlChina] 用perl提取pdf中的信息

我以前是用pdftotext转成普通文本,注意要装cjk支持,不然全乱,然后自己去处理转出的文本就可以了。要提取文字的话,模块没找到好用的。
至于翻译吗?我觉得条目少用hash,条目多就db。没什么特别要求也就可以了。
不知道能不能帮上忙

2010/3/20 xuanshi <xuanbonn@googlemail.com>
大家好,
   想请教下使用perl有选择的提取pdf文档信息的问题
   我已经使用了CPAN中的模块,现在可以提取相应Pdf文档中信息。但是仍然存在两个问题,第一,中文繁体字符没有办法显示,全都是乱码;第
二,该pdf文档是类似字典的文档,我希望输入一个特殊的字词,比如早上好,可以对应的输出英文翻译。
   不知道大家有没有什么好的建议呢?

--
您收到此邮件是因为您订阅了 Google 网上论坛的“PerlChina Mongers 讨论组”论坛。
要向此网上论坛发帖,请发送电子邮件至 perlchina@googlegroups.com
要取消订阅此网上论坛,请发送电子邮件至 perlchina+unsubscribe@googlegroups.com
若有更多问题,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。


--
您收到此邮件是因为您订阅了 Google 网上论坛的“PerlChina Mongers 讨论组”论坛。
要向此网上论坛发帖,请发送电子邮件至 perlchina@googlegroups.com。
要取消订阅此网上论坛,请发送电子邮件至 perlchina+unsubscribe@googlegroups.com。
若有更多问题,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。

没有评论: