Archive for category Perl

作为一个命令行偏执狂…

好久没有更新博客了,这次更新的原因是上次贴的Perl脚本查Google字典因为Google关闭字典服务的关系已经不能再用了。

前段时间接触了一个新东西叫XPath,名字听起来挺酷的,于是拿来又折腾了一个脚本出来。这次查的是有道辞典,没有Google的好用,但因为Google字典已经不再提供服务,目前能找到的Google字典服务都是通过Unofficial API实现的,也不知道能用多久,就先这么凑合着用吧。

上图
youdao_dict

这次脚本代码还是主要分两部分,一部分是通过LWP::UserAgent抓网页内容,一部分是用HTML::TreeBuilder::XPath分析网页内容提取需要的数据。

  • XPath其实是一门用来在XML文档中查找信息的语言,比较简单的说就是他能用一个路径表达式定位到一个XML文档里面的某个(或某几个)标签。因为XHTML借鉴了XML的结构,所以我们也可以用XPath来定位XHTML网页中的某个特定标签(XPath几乎总是能定位到一个正常网页中的特定标签的)。
  • 在原来使用的网页解析模块HTML::TokenParser中,所有网页标签都按出现顺序排列,并且标签之间都是并列的关系。但是没有一个Browser DEV tool会用这种结构给开发者展示网页源代码,即便我们写代码时也不会这样写。所以这样并列的结构其实对开发者来说是不直观的,也使得编码复杂了很多。
  • 而在XPath的世界里,网页的结构是树型的,每个标签都是这棵树上的结点或叶子,开发者会发现很容易就能找出一个路径通往我们想要的那个标签。不过如果你有Firebug和FireFinder这两个网页开发辅助插件,你会发现用起XPath来更加得心应手。

直接对比下面一个脚本和上一个脚本中网页分析部分的代码,你就能直观的感受到上面提到这两种方法的差别。XPath的详细介绍和语法,请猛击W3school Read the rest of this entry »

, , ,

5 Comments

Perl脚本查Google字典

这个Perl脚本其实并不能算我的原创,是师傅Perl帝拿出来分享的。本来拿的是iciba的翻译,我另外改了一个上Google字典拿翻译的版本。

要修改的原因:
1. Google字典的英中字典,有双语解释;
2. Google字典的例句和相关短语这些资源要丰富的多,可以帮助理解单词使用的语境,写英文材料时非常有用;
3. 我习惯用Google字典,我一个G粉。

先上截图
gdict

为什么要用一个脚本查单词?对于命令行控来说,离开当前工作终端,开个网页查单词是很痛苦的事情,他们甚至根本不想让手离开主键盘区!有这样的一个脚本,然后扔进/user/bin/,就不用大费周章的移动手臂了。

这个脚本用LWP::UserAgent抓取网页,HTML::TokeParser解析网页,获取单词的翻译。

脚本实现了一个抓取和解析google字典的类,整体的逻辑在en2chs函数中:
1. 生成网址
2. 用LWP取得结果网页
3. 解析网页

_parse_html找到翻译信息所在的代码块——一个id叫“pr-root”的标签,然后主要的体力活就全都扔给_get_close_mean啦。

要通过html标签来定位自己想要的内容,还真是个蛮累人的事情。但是Chrome的Deveploper Tools让事情简单了很多,实在是让人心神舒畅啊。

来看代码吧 Read the rest of this entry »

, , ,

7 Comments

Perl中建立一个实例方法的线程

标题有点复杂吧?其实就是新建一个线程,来运行某个对象实例中的特定函数。

一般在Perl中新建一个线程的方法很简单:

  1. use threads;
  2. my $th = threads->create( function_ref, parameters );

但是启动一个实例中的函数就不太一样了,因为不能用 \&$object->method 来取得该函数的引用。

因为自己写脚本的时候有用到,于是花了一个下午探索实验。然后发现一个确实可以work的办法:在一个匿名函数中调用该方法。

不过这个做法实在是丑陋,Perl这样灵活的语言,一定可以有更好的办法来解决这种问题。

实验加翻阅Intermediate perl一个下午还是无果,突然Perl帝出现,看了一眼代码后瞬间给出一个非常正规的解决方法。

具体请直接看示例代码:

下载: cat.pm
  1. package Cat;
  2.  
  3. use strict;
  4. use warnings;
  5.  
  6. sub new {
  7.     my $class = shift;
  8.     my $self = {
  9.         hello => 'Miao',
  10.         @_
  11.     };
  12.     return bless $self, $class;
  13. }
  14.  
  15. sub sayhi {
  16.     my $self = shift;
  17.     my $times = shift || 3;
  18.  
  19.     foreach ( 1 .. $times ) {
  20.         print "$self->{hello}\n";
  21.         sleep 1;
  22.     }
  23. }
  24.  
  25. 1;
下载: sayhi.pl
  1. #!/usr/bin/perl
  2.  
  3. use strict;
  4. use warnings;
  5. use threads;
  6. use FindBin qw($Bin);
  7. use lib "$Bin";
  8. use Cat;
  9.  
  10. my $cat = Cat->new( hello => 'meow' );
  11.  
  12. # solution 1: works but ugly
  13. print "\n+++++++ solution 1 +++++++\n";
  14. my $th1 = threads->create( sub { $cat->sayhi(4); } );
  15.  
  16. foreach ( 1 .. 4 ) {
  17.     print "This is main function.\n";
  18.     sleep 1;
  19. }
  20. $th1->join;
  21.  
  22. # solution 2: more professional
  23. print "\n+++++++ solution 2 +++++++\n";
  24. my $th2 = threads->create( \&Cat::sayhi, $cat, 4 );
  25.  
  26. foreach ( 1 .. 4 ) {
  27.     print "This is main function.\n";
  28.     sleep 1;
  29. }
  30. $th2->join;
  31.  
  32. print "\nDemo ends.\n";

, , ,

No Comments