自己動手 MOBI 轉 PDF

最近想多背些單詞,擴充下詞彙量,網上兜了一圈發現大家對韋小綠【是什麼自己到網上收下,我就不列出來了,以免引起糾紛】評價很高, 原來想去到書城買本進口原版的看,想來想去那麼厚,雖然很輕但是還是帶起來不方便啊。平時身上都帶着一本M92和一部V9+已經塞滿小包了。於是就邪惡的在網上找了本mobi格式的第二版,打算放在M92裏。PS:現在知道生活在天朝是多麼的幸福吧。 尼瑪,誰知道在M92裏顯示出來有2000多頁,實體書也就500多頁。音標也無法正確顯示,原因是音標都是用圖片拼接的。不知道是不是M92的原因,KINDLE的沒有試過。在網上找轉換工具想把MOBI轉成PDF的,結果音節正常了,但是還是有2000多頁,每頁空白很大,看起來很不爽啊。智能的去掉空白,一般轉化軟件還真做不到。沒辦法只有自己手工的改了。

原理,其實MOBI是個zip包,你可以把後綴改成zip,然後用解壓縮軟件打開,再修改裏面的HTML文件。都是HTML文件了還是有什麼我們不能改的??趕緊動手!

1. 把所有HTML文件裏的把除了BODY標籤裏的保留下來,其他的統統刪掉。

sed -i "1,7d;$d" *.html
sed -i "s/<\/body>//g" *.html

2. 把所有處理完的HTML 內容集中在一個文件裏,這裏因爲文件名特殊,要簡單處理下。

import os
for i in range (0,2005):
    if i == 0 :
        strs = "000"
    elif i > 0 and i < 10:
        strs = "00" + str(i)
    elif i>=10 and i<100:
        strs = "0" + str(i)
    else :
        strs = "" + str(i)
    finalstr = "D:\\test\\1\\xxxxxxxxxxx_" +strs+".html"
    cmds = "cat " + finalstr + " >> d:\\test\\all2 "
    print cmds
    os.system(cmds)


3. 處理音標。 就是把所有的<img>標籤刪掉,注意要避免VI下的貪婪匹配,防止刪掉不該刪的東西。
%s/<img[^>]*\/>//g

4. 微調格式

:%s/. /<br>/g

5. 把生成的文件中頭尾加入在第2步中刪除的BODY 標籤之外的東西。在瀏覽器中打開,拷到WORD中,然後另存爲PDF. 


6. 大功告成。如果大家有好的轉換軟件可以告訴我哈。

查看前後效果對比:

未處理前 2000多頁:


處理後 500多頁:

            


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章