Archive for category Perl
作为一个命令行偏执狂…
好久没有更新博客了,这次更新的原因是上次贴的Perl脚本查Google字典因为Google关闭字典服务的关系已经不能再用了。
前段时间接触了一个新东西叫XPath,名字听起来挺酷的,于是拿来又折腾了一个脚本出来。这次查的是有道辞典,没有Google的好用,但因为Google字典已经不再提供服务,目前能找到的Google字典服务都是通过Unofficial API实现的,也不知道能用多久,就先这么凑合着用吧。
上图

这次脚本代码还是主要分两部分,一部分是通过LWP::UserAgent抓网页内容,一部分是用HTML::TreeBuilder::XPath分析网页内容提取需要的数据。
- XPath其实是一门用来在XML文档中查找信息的语言,比较简单的说就是他能用一个路径表达式定位到一个XML文档里面的某个(或某几个)标签。因为XHTML借鉴了XML的结构,所以我们也可以用XPath来定位XHTML网页中的某个特定标签(XPath几乎总是能定位到一个正常网页中的特定标签的)。
- 在原来使用的网页解析模块HTML::TokenParser中,所有网页标签都按出现顺序排列,并且标签之间都是并列的关系。但是没有一个Browser DEV tool会用这种结构给开发者展示网页源代码,即便我们写代码时也不会这样写。所以这样并列的结构其实对开发者来说是不直观的,也使得编码复杂了很多。
- 而在XPath的世界里,网页的结构是树型的,每个标签都是这棵树上的结点或叶子,开发者会发现很容易就能找出一个路径通往我们想要的那个标签。不过如果你有Firebug和FireFinder这两个网页开发辅助插件,你会发现用起XPath来更加得心应手。
直接对比下面一个脚本和上一个脚本中网页分析部分的代码,你就能直观的感受到上面提到这两种方法的差别。XPath的详细介绍和语法,请猛击W3school Read the rest of this entry »
Perl脚本查Google字典
这个Perl脚本其实并不能算我的原创,是师傅Perl帝拿出来分享的。本来拿的是iciba的翻译,我另外改了一个上Google字典拿翻译的版本。
要修改的原因:
1. Google字典的英中字典,有双语解释;
2. Google字典的例句和相关短语这些资源要丰富的多,可以帮助理解单词使用的语境,写英文材料时非常有用;
3. 我习惯用Google字典,我一个G粉。
为什么要用一个脚本查单词?对于命令行控来说,离开当前工作终端,开个网页查单词是很痛苦的事情,他们甚至根本不想让手离开主键盘区!有这样的一个脚本,然后扔进/user/bin/,就不用大费周章的移动手臂了。
这个脚本用LWP::UserAgent抓取网页,HTML::TokeParser解析网页,获取单词的翻译。
脚本实现了一个抓取和解析google字典的类,整体的逻辑在en2chs函数中:
1. 生成网址
2. 用LWP取得结果网页
3. 解析网页
_parse_html找到翻译信息所在的代码块——一个id叫“pr-root”的标签,然后主要的体力活就全都扔给_get_close_mean啦。
要通过html标签来定位自己想要的内容,还真是个蛮累人的事情。但是Chrome的Deveploper Tools让事情简单了很多,实在是让人心神舒畅啊。
Perl中建立一个实例方法的线程
标题有点复杂吧?其实就是新建一个线程,来运行某个对象实例中的特定函数。
一般在Perl中新建一个线程的方法很简单:
- use threads;
- my $th = threads->create( function_ref, parameters );
但是启动一个实例中的函数就不太一样了,因为不能用 \&$object->method 来取得该函数的引用。
因为自己写脚本的时候有用到,于是花了一个下午探索实验。然后发现一个确实可以work的办法:在一个匿名函数中调用该方法。
不过这个做法实在是丑陋,Perl这样灵活的语言,一定可以有更好的办法来解决这种问题。
实验加翻阅Intermediate perl一个下午还是无果,突然Perl帝出现,看了一眼代码后瞬间给出一个非常正规的解决方法。
具体请直接看示例代码:
- package Cat;
- use strict;
- use warnings;
- sub new {
- my $class = shift;
- my $self = {
- hello => 'Miao',
- @_
- };
- return bless $self, $class;
- }
- sub sayhi {
- my $self = shift;
- my $times = shift || 3;
- foreach ( 1 .. $times ) {
- print "$self->{hello}\n";
- sleep 1;
- }
- }
- 1;
- #!/usr/bin/perl
- use strict;
- use warnings;
- use threads;
- use FindBin qw($Bin);
- use lib "$Bin";
- use Cat;
- my $cat = Cat->new( hello => 'meow' );
- # solution 1: works but ugly
- print "\n+++++++ solution 1 +++++++\n";
- my $th1 = threads->create( sub { $cat->sayhi(4); } );
- foreach ( 1 .. 4 ) {
- print "This is main function.\n";
- sleep 1;
- }
- $th1->join;
- # solution 2: more professional
- print "\n+++++++ solution 2 +++++++\n";
- my $th2 = threads->create( \&Cat::sayhi, $cat, 4 );
- foreach ( 1 .. 4 ) {
- print "This is main function.\n";
- sleep 1;
- }
- $th2->join;
- print "\nDemo ends.\n";










