RSS icon Home
  • 網頁歸檔的格式選擇 - []

    Feb 5, 2014 23:47 webpage archive format pdf static

    版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
    http://www.blogbus.com/n-br-logs/256102371.html

    以網頁格式呈現的互聯網資源,若要對其歸檔,需要考慮文件格式的問題。這是網絡資源本身的屬性和呈現方式所致,下面將略述一二。
    同傳統文檔一樣,電子文檔也有整理歸檔的需求,並且同樣也有保存方式選擇上的問題。

    字處理程序、平面設計軟件、出版物排版工具、影像處理工具等計算機軟件生成的文件,通常都已經初步達到了充分的歸檔條件,並可遵循一些國際標準進行整理,如將文本或富文本文檔以PDF格式存儲、索引、分類,從而進行歸檔,圖像則以JPEG或PNG格式歸檔,並添加EXIF和IPTC信息,視頻用H.264或MPEG-2格式處理。網頁作為機器之間實時高效傳遞信息的一種形式,具有靈活、變化的特點,因此若要將其歸檔,則先需要賦予其靜態、固定的屬性,然後選用合適的格式和標準來處理。

    這樣看來,以默認的HTML格式對網頁進行歸檔並不合適。不同環境下同一張網頁的渲染結果無法保證完全相同,而HTML格式保存的網頁同時還附有一個文件夾用於保存網頁引用的樣式表、腳本、多媒體等數據,會導致歸檔時的混亂和複雜,此外部分腳本會引起預料之外的内容變化,是歸檔的大忌。基於HTML標準的一些其他格式,如MHTML, SHTML, XHTML, ASP, ASPX, CFM等文件,也不适合直接拿來歸檔,除非歸檔的目的是保存實現這些網頁的源代碼。

    如何將動態的、變化著的網頁轉換為靜態的、固定的表現形式,同時盡量保持網頁原有的設計?一種方法是將網頁保存為圖像。這種方法固然可用,但缺點是原本以文本形式展現的數據現在變成了圖像形式,不利于檢索和搜索,即使使用OCR技術。同時,該方法會導致歸檔操作的空間復襍度猛增,給以後的調用帶來麻煩。另一种方法則是利用字處理軟件或網頁編輯軟件對網頁下載后進行二次修改,並導出為合適的格式。這種方法大大提升了網頁歸檔的時閒復襍度,雖然最終能實現預期目的,但需要經過大量修改,費時費力。同時,該方法會一定程度上破壞網頁原本的設計,遠離了原始形式。第二种方法也應當避免。

    我們不妨考慮使用虛擬打印機將網頁打印成PDF文檔進行歸檔。這種方法克服了前兩种方法的缺點,一定程度上賦予了網頁靜態、固定的屬性,並使用國際通行的文檔標準,可以作為網頁歸檔的一種解決方案。所有主流網頁瀏覽器均提供基本的網頁打印功能,並且均能做一些細節上的設定,如制定是否打印網頁標題、地址、獲取日期等等,有些提供自動適應頁寬的功能,避免内容溢出頁面,有些還支持打印選定區域,從而忽略導航區和廣告等内容,精簡網頁内容,雖然這樣會改變頁面的佈局。對於結構較爲簡單的頁面,如博客、散文、遊記、論壇帖子等,安裝虛擬打印服務(如Microsoft Document Imaging和PDFCreator),使用瀏覽器的打印功能,就能基本上實現網頁的歸檔。

    但有些情況下我們需要處理結構較爲複雜的頁面,包括具有多層標題、豐富鏈接、圖文混排或海量影像的頁面,瀏覽器自帶的打印功能未必能滿足我們的需求,這時就需要安裝專門的瀏覽器擴展以實現目的。以Firefox為例,有專門的打印網頁為PDF的插件,可以根據樣式設定判斷標題層級,並創建有包含關係的書簽列表;可以在PDF裏給文本加上超級鏈接;可以調整頁面縮放、字體大小等排版參數;還可以壓縮圖像、提供元數據或設定密碼,基本上能滿足複雜結構頁面的存檔。

    通過虛擬打印的形式將網頁歸檔,主要適用於通過文本和圖像像讀者傳遞信息和展示内容的網頁。若網頁中信息的傳遞和内容的展現需要依靠動態影像、用戶交互或運行腳本等要求動態屬性的元素參與,則無法將這種動態屬性轉化為靜態。對於。不妨將網頁的動態屬性分爲表面態和深層態兩個層面。凡是兩個物理位置互異的節點之間傳遞的網頁均為深層動態,但正文内容通過靜態形式展現的則具有表面靜態,通過動態形式呈現正文内容的頁面則具有表面動態。只有具有表面靜態的網頁才適合以PDF格式歸檔。

    由此可以看出,儘管虛擬打印和PDF並無法解決所有形式的網頁的歸檔問題,但它可以作為具有表面靜態表現形式的網頁理想的歸檔解決方案。在實際操作中,大部分需要作為網頁來對待的待歸檔對象往往也是表面靜態的:新聞報道、會議摘要、工作報告、論文、隨筆、文學創作、交流討論等文體構成了網頁歸檔的主體。至於使用動態元素的網頁,如使用視頻、音頻和交互式動畫並將其作為主體的網頁,其實更適合作為這些動態元素所對應的信息類型對待。

    當然,如果使用最普通、最傳統的文件和文件夾來整理資料,則這裏的討論基本上沒有任何意義。但隨著資料數量的驟增,使用者必然會轉向專門的檔案編錄和管理系統一起更有傚地利用自己收集得來的資料,在這樣的前提下,這裏的討論就顯得尤其重要了。

    分享到: