- 积分
 - 10544 
 - 威望
 - 4074  
 - 金钱
 - 11  
 - 阅读权限
 - 1 
 - 来自
 - Bochum 
 - 在线时间
 - 59 小时 
 
  | 
13#
 
 
发表于 2005-7-20 19:28
 |  只看该作者
 
 
 
  
Google print相关技术以及下载方法 
什么是google print 
 
Google最近增加了新的搜索引擎google print(http://print.google.com/),其中包含相当数量的图书,据说是和多家大型图书馆合作,目标是在10年内建成世界上最大的网络图书馆。但是google的目的并不是给人下载,而是供读者简单检索以向出版商和书店购买该书,因此也没有任何收费项目。其图书目前采取的是图片的方式,大部分图书均包含所有页面。以下整理了相关的技术以及下载方法。 
 
Google print URLs分析以及cookie 
 
http://print.google.com/print?id ... Oye5DzL6ljqxJnZKSAM 
 
这是典型的一页地址 
 
Id是书籍号码,pg是页面编号,pg=10代表第十页。翻到下一页会看到: 
http://print.google.com/print?id ... 79zsywpOiBtzw5TDdxI 
 
除了sig值不同以外(图片编号),多出了lpg,lpg=1代表你是从lpg=10开始看的,google print允许前翻2页,后翻2页。但是并不能通过随便更改lpg值获得更多的浏览页。此外,增加zoom值可以放大图片倍数 
 
另外,如果一本书你看了太多页,你将无法看更多页,其中涉及到goole的cookie,如果不更改cookie,你将只能等待24小时,以使得其失效。相关的google cookie原理可参见http://www.kuro5hin.org/story/2005/3/7/95844/59875,据该文作者说,他通过软件修改cookie等方法可以下载google的整本书。可是没有给出相关软件。 
 
如何看完整本书 
 
一个相当笨却行之有效的方法是在所能达到的最后一页搜寻某单词检索,在结果中找到该页,打开可以继续向下看。亦即: 
 
一开始打开第一页,于是可以达到第三页,在第三页搜寻某单词,检索后返回若干结果,找到第三页,打开,于是可以到达第五页,以此类推。 
 
但是,我们知道,google print可以向前和向后看2页,如果你的搜索足够好,那么你可以这样看,打开3,8,13…………,但是这样的方法比较难以实现。 
 
无论如何这样的方法都太费时费力,不利于批量下载。而且因为上文提到的cookie问题,你将需要若干天才能看完整本书。 
 
保存图片 
 
简单的方法可以到IE的Temporary Internet Files文件夹察看,选择那些来自print.google.com的图像,一般文件头为print?id=(书的ID),根据书ID很容易找到。 
 
另一种方法可以使用火狐浏览器插件实现: 
 
安装firefox; 
用firefox打开网址 
http://ftp.mozilla.org/pub/mozil ... monkey-0.3.3-fx.xpi 
选择信任站点,安装 
重新打开浏览器firefox,打开地址 
http://diveintomark.org/projects/butler/ 
右击链接Download version 0.3 of April 14, 2005,选择install user script 
重新打开浏览器firefox,检索http:// print.google.com/  
打开电子书。右击图片,可以选择保存了。 
 
受限制页 
 
不少书都有受限制页,据说一般是整本书的10%-15%,往往出现在后半部,阅读受限制页需要输入gmail帐号。 
 
移除高亮黄条 
 
一般搜索的短语或者单词会在页面中以高亮黄条标出。实际上采用很简单的方式可以移除,将URL中的q值删除,例如: 
 
Removing the yellow highlighting 
 
This is done most easily by simply removing the q= field from either the page URL or the image URL. An alternative would be to use ImageMagick, for example as follows 
 
或者使用软件去除,比如ImageMagick,如下操作: 
 
convert <inputfile> -stroke white -fill white -draw 'rectangle 555,300 575,600' -fx "y" -despeckle <outputfile> 
 
此法亦可类似移除'Copyrighted Material'字样 |   
 
 
 
 |