Perl China Blog Spot: Re: [PerlChina] 用perl提取pdf中的信息

2010年3月20日星期六

Re: [PerlChina] 用perl提取pdf中的信息

我以前是用pdftotext转成普通文本，注意要装cjk支持，不然全乱，然后自己去处理转出的文本就可以了。要提取文字的话，模块没找到好用的。
至于翻译吗？我觉得条目少用hash，条目多就db。没什么特别要求也就可以了。
不知道能不能帮上忙

2010/3/20 xuanshi <xuanbonn@googlemail.com>

大家好，
想请教下使用perl有选择的提取pdf文档信息的问题
我已经使用了CPAN中的模块，现在可以提取相应Pdf文档中信息。但是仍然存在两个问题，第一，中文繁体字符没有办法显示，全都是乱码；第
二，该pdf文档是类似字典的文档，我希望输入一个特殊的字词，比如早上好，可以对应的输出英文翻译。
不知道大家有没有什么好的建议呢？

--
您收到此邮件是因为您订阅了 Google 网上论坛的“PerlChina Mongers 讨论组”论坛。
要向此网上论坛发帖，请发送电子邮件至 perlchina@googlegroups.com。
要取消订阅此网上论坛，请发送电子邮件至 perlchina+unsubscribe@googlegroups.com。
若有更多问题，请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。

--
您收到此邮件是因为您订阅了 Google 网上论坛的“PerlChina Mongers 讨论组”论坛。
要向此网上论坛发帖，请发送电子邮件至 perlchina@googlegroups.com。
要取消订阅此网上论坛，请发送电子邮件至 perlchina+unsubscribe@googlegroups.com。
若有更多问题，请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。

没有评论:

发表评论

Perl China Blog Spot

2010年3月20日星期六

Re: [PerlChina] 用perl提取pdf中的信息

没有评论:

订阅

博客归档