Monday Jan 19, 2009

一个可以从sina上下载书的小工具

       在sina上看见一本讲述中国历史的书--《中国二十王朝崛起真相解密:帝国崛起》,觉得每一篇的大小比较适合下载到手机上看。于是就打算拷贝下来,但是一细看发现一页一页的用鼠标拖拷,近200页的页数,在加上建文件,有点不靠谱。 稍微花时间研究了一下它的html源文件,发现写一个简单的script就可以完全替代手工劳动。

      主要思路:首先用wget将html页面下载到本地,谢天谢地它的每一本书页数之间的编号是顺序的,所以只需要指定第一页和最后一页的url就好。比如这本帝国崛起,只要通过参数 -f 和 -l 分别指定第一页最后一页,就可以把这其间的所有页都下载到本地。然后过滤出需要的有用内容,去除无用的tag信息,一个个txt文本就生成好了(我用的moto-txt,就认txt的)。

   环境:Solaris.(linux应该也行,只要有wget,不过没有试过)


About

forrest

Search

Archives
« April 2014
SunMonTueWedThuFriSat
  
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
   
       
Today