最近想多背些單詞,擴充下詞彙量,網上兜了一圈發現大家對韋小綠【是什麼自己到網上收下,我就不列出來了,以免引起糾紛】評價很高, 原來想去到書城買本進口原版的看,想來想去那麼厚,雖然很輕但是還是帶起來不方便啊。平時身上都帶着一本M92和一部V9+已經塞滿小包了。於是就邪惡的在網上找了本mobi格式的第二版,打算放在M92裏。PS:現在知道生活在天朝是多麼的幸福吧。 尼瑪,誰知道在M92裏顯示出來有2000多頁,實體書也就500多頁。音標也無法正確顯示,原因是音標都是用圖片拼接的。不知道是不是M92的原因,KINDLE的沒有試過。在網上找轉換工具想把MOBI轉成PDF的,結果音節正常了,但是還是有2000多頁,每頁空白很大,看起來很不爽啊。智能的去掉空白,一般轉化軟件還真做不到。沒辦法只有自己手工的改了。
原理,其實MOBI是個zip包,你可以把後綴改成zip,然後用解壓縮軟件打開,再修改裏面的HTML文件。都是HTML文件了還是有什麼我們不能改的??趕緊動手!
1. 把所有HTML文件裏的把除了BODY標籤裏的保留下來,其他的統統刪掉。
sed -i "1,7d;$d" *.html
sed -i "s/<\/body>//g" *.html
2. 把所有處理完的HTML 內容集中在一個文件裏,這裏因爲文件名特殊,要簡單處理下。
import os
for i in range (0,2005):
if i == 0 :
strs = "000"
elif i > 0 and i < 10:
strs = "00" + str(i)
elif i>=10 and i<100:
strs = "0" + str(i)
else :
strs = "" + str(i)
finalstr = "D:\\test\\1\\xxxxxxxxxxx_" +strs+".html"
cmds = "cat " + finalstr + " >> d:\\test\\all2 "
print cmds
os.system(cmds)
%s/<img[^>]*\/>//g
4. 微調格式
:%s/. /<br>/g
5. 把生成的文件中頭尾加入在第2步中刪除的BODY 標籤之外的東西。在瀏覽器中打開,拷到WORD中,然後另存爲PDF.
6. 大功告成。如果大家有好的轉換軟件可以告訴我哈。
查看前後效果對比:
未處理前 2000多頁:
處理後 500多頁: