自己動手 MOBI 轉 PDF

原創

2018-09-03 01:22

最近想多背些單詞，擴充下詞彙量，網上兜了一圈發現大家對韋小綠【是什麼自己到網上收下，我就不列出來了，以免引起糾紛】評價很高，原來想去到書城買本進口原版的看，想來想去那麼厚，雖然很輕但是還是帶起來不方便啊。平時身上都帶着一本M92和一部V9+已經塞滿小包了。於是就邪惡的在網上找了本mobi格式的第二版，打算放在M92裏。PS:現在知道生活在天朝是多麼的幸福吧。尼瑪，誰知道在M92裏顯示出來有2000多頁，實體書也就500多頁。音標也無法正確顯示，原因是音標都是用圖片拼接的。不知道是不是M92的原因，KINDLE的沒有試過。在網上找轉換工具想把MOBI轉成PDF的，結果音節正常了，但是還是有2000多頁，每頁空白很大，看起來很不爽啊。智能的去掉空白，一般轉化軟件還真做不到。沒辦法只有自己手工的改了。

原理，其實MOBI是個zip包，你可以把後綴改成zip，然後用解壓縮軟件打開，再修改裏面的HTML文件。都是HTML文件了還是有什麼我們不能改的？？趕緊動手！

1. 把所有HTML文件裏的把除了BODY標籤裏的保留下來，其他的統統刪掉。

sed -i "1,7d;$d" *.html
sed -i "s/<\/body>//g" *.html

2. 把所有處理完的HTML 內容集中在一個文件裏，這裏因爲文件名特殊，要簡單處理下。

import os
for i in range (0,2005):
    if i == 0 :
        strs = "000"
    elif i > 0 and i < 10:
        strs = "00" + str(i)
    elif i>=10 and i<100:
        strs = "0" + str(i)
    else :
        strs = "" + str(i)
    finalstr = "D:\\test\\1\\xxxxxxxxxxx_" +strs+".html"
    cmds = "cat " + finalstr + " >> d:\\test\\all2 "
    print cmds
    os.system(cmds)

3. 處理音標。就是把所有的<img>標籤刪掉，注意要避免VI下的貪婪匹配，防止刪掉不該刪的東西。

%s/<img[^>]*\/>//g

4. 微調格式

:%s/. /<br>/g

5. 把生成的文件中頭尾加入在第2步中刪除的BODY 標籤之外的東西。在瀏覽器中打開，拷到WORD中，然後另存爲PDF.

6. 大功告成。如果大家有好的轉換軟件可以告訴我哈。

查看前後效果對比：

未處理前 2000多頁：

處理後 500多頁：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

自己動手 MOBI 轉 PDF

記一次 .NET某工業設計軟件崩潰分析

創建 Vue3 項目

TS + Webpack 整合 Jest

分享5款.NET開源免費的Redis客戶端組件庫

安卓手機如何登錄抖音境外版

golang開發 gorilla websocket的使用

面試官：如果不允許線程池丟棄任務，應該選擇哪個拒絕策略？

嵌入式汽車電子學習路線

Mac卸載 Node npm，升級 Node

uni.showModel內容換行

Linux下使用Eclipse開發基於nms板卡的c/c++程序

Fedora9 使用心得

升級Fedora9

linux 中 gcc 的用法及搜索目錄

ITPUB JAVA 專題記錄

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結