GitHub Archive-爲了人類文明永存!

GitHub Archive

Archiving a GitHub repository
官網: https://help.github.com/cn/github/creating-cloning-and-archiving-repositories/archiving-a-github-repository

存檔倉庫:
您可以存檔倉庫,將其設爲對所有用戶只讀,並且指出不再主動維護它。 您也可以取消存檔已經存檔的倉庫。

關於存檔倉庫
在存檔倉庫時,要讓人們知道不再主動維護項目。

在倉庫存檔後,便無法添加或刪除協作者或團隊。 具有倉庫訪問權限的貢獻者只能對項目復刻或標星。

當倉庫存檔後,其議題、拉取請求、代碼、標籤、重要事件、項目、wiki、版本、提交、標記、分支、反應和註解都會變成只讀。 要更改存檔的倉庫,必須先對倉庫取消存檔。

關於 GitHub 存檔計劃
GitHub 存檔計劃 允許第三方合作伙伴使用公共 API 存檔公共倉庫。 這些合作伙伴以不同頻率存檔不同類型的數據,並向公衆提供數據。 GitHub 存檔計劃 還通過持續以各種數據格式和位置存儲多個副本來保護數據,包括設計爲至少持續 1,000 年的超長期存檔。( 更多信息請參閱 GitHub 存檔計劃:https://archiveprogram.github.com/)

您可以選擇退出倉庫的 GitHub 存檔計劃。 更多信息請參閱“選擇加入或退出公共倉庫的 GitHub 存檔計劃”。

github存檔計劃

官網https://archiveprogram.github.com/

Preserving open source software for future generations.
爲後代保留開源軟件

Explore some of the top projects archived in the 2020 Arctic Vault program
探索2020年北極金庫計劃中的一些頂級項目

這裏列了好多github上的知名項目:

dotnet/core
torvalds/linux
python/cpython
bitcoin/bitcoin
rails/rails
docker/machine
openssl/openssl
nodejs/node
Homebrew/brew
php/php-src
twbs/bootstrap
microsoft/TypeScript
apache/hadoop
v8/v8
Alamofire/Alamofire
gatsbyjs/gatsby
fastai/fastai
jimweirich/builder
zeit/next.js
WordPress/WordPress
rust-lang/rust
golang/go
angular/angular
jquery/jquery
ruby/ruby
facebook/react
CocoaPods/CocoaPods
jupyter/notebook
zeromq/libzmq
postgres/postgres
microsoft/MS-DOS
Netflix/chaosmonkey
robbyrussell/oh-my-zsh
xamarin/xunit
grafana/grafana
graphql/graphql-js
github/gh-ost
rspec/rspec
libgit2/libgit2
Many more

The world is powered by open source software.
It is a hidden cornerstone of modern civilization, and the shared heritage of all humanity. The mission of the GitHub Archive Program is to preserve open source software for future generations.

GitHub is partnering with the Long Now Foundation, the Internet Archive, the Software Heritage Foundation, Arctic World Archive, Microsoft Research, the Bodleian Library, and Stanford Libraries to ensure the long-term preservation of the world’s open source software. We will protect this priceless knowledge by storing multiple copies, on an ongoing basis, across various data formats and locations, including a very-long-term archive designed to last at least 1,000 years.

世界是由開源軟件驅動的。

它是現代文明隱藏的基石,是全人類共同的遺產。GitHub存檔程序的任務是爲後代保留開源軟件。

GitHub正與Long Now基金會、Internet Archive、軟件遺產基金會、Arctic World Archive、Microsoft Research、Bodleian圖書館和斯坦福圖書館合作,以確保世界開源軟件的長期保存。我們將通過不斷地跨各種數據格式和位置存儲多個副本來保護這一無價的知識,包括一個設計爲至少可保存1000年的長期存檔。

Why we use multiple forms of storage
As today’s vital code becomes yesterday’s historical curiosity, it may be abandoned, forgotten, or lost. Worse, albeit much less likely, in the case of global catastrophe, we could lose everything stored on modern media in a few generations. Archiving software across multiple organizations and forms of storage will help ensure its long-term preservation: online archivists call this “LOCKSS,” for Lots Of Copies Keeps Stuff Safe.

A worrying amount of the world’s knowledge is currently stored on ephemeral media: hard drives, SSDs, CDs good for a few decades, backup tapes whose notional 30-year lifespans assume strictly controlled heat and humidity. Because (some) hardware can be much longer-lived, there exists a range of possible futures in which working modern computers exist, but their software has largely been lost to bit rot. The GitHub Archive Program will include much longer-term media to address the risk of data loss over time.

爲什麼我們使用多種形式的存儲

當今天的重要代碼成爲昨天的歷史好奇心時,它可能會被拋棄、遺忘或丟失。更糟糕的是,在全球大災難的情況下,我們可能會在幾代人內失去存儲在現代媒體上的一切。跨多個組織和存儲形式的歸檔軟件將有助於確保其長期保存:在線歸檔人員將此稱爲“鎖”,因爲許多副本可以保證數據的安全。

目前,世界上令人擔憂的知識儲存在短暫的媒體上:硬盤、固態硬盤、幾十年的CD、概念上30年壽命的備份磁帶,它們的熱和溼度都受到嚴格控制。因爲(某些)硬件可以使用更長的時間,所以存在着一系列可以工作的現代計算機的未來,但它們的軟件很大程度上已被比特腐爛所丟失。GitHub存檔程序將包括許多長期的介質,以解決隨時間推移數據丟失的風險。

How the future might use our code
Future historians will be able to learn about us from open source projects and metadata. They might regard our age of open source ubiquity, volunteer communities, and Moore’s Law as historically significant. We are already partnering with Stanford Libraries to help archive curated repositories along with the cultural and other context in which they are set, as key elements of wide-ranging historical and social research and analysis.

未來如何使用我們的代碼

未來的歷史學家將能夠從開源項目和元數據中瞭解我們。他們可能認爲我們這個開源無處不在的時代、志願者社區和摩爾定律具有歷史意義。我們已經在與斯坦福大學圖書館合作,幫助歸檔館藏以及它們所處的文化和其他背景,作爲廣泛的歷史和社會研究和分析的關鍵要素。

It is easy to envision a future in which today’s software is seen as a quaint and long-forgotten irrelevancy, until an unexpected need for it arises. Like any backup, the GitHub Archive Program is also intended for currently unforeseeable futures as well.

人們很容易想象一個未來,在這個未來中,今天的軟件被看作是一個古雅而被遺忘已久的無關緊要的東西,直到出現對它的意外需求。與任何備份一樣,GitHub存檔程序也適用於當前不可預見的未來。

代碼歸檔策略

https://archiveprogram.github.com/

一種靈活、持久的代碼歸檔策略

我們採用了一種“pace layers”策略來歸檔代碼,其靈感來源於長期以來的創始人Steward Brand。此方法旨在通過提供一系列存儲解決方案(從實時存儲到長期存儲)最大限度地提高靈活性和耐用性。存檔程序分爲三層:hot, warm, and cold.

Hot:近實時
warm:每月更新至每年
cold:每5年更新一次

github
每次推到GitHub,我們都會將您的Git數據複製到世界各地的多個數據中心。此外,我們將Git數據、問題、拉取請求和所有數據的備份存儲在GitHub的多個位置。所有這些數據都可以通過GitHub API實時獲得。

GH TORRENT
GHTorrent監視GitHub公共事件時間線,歸檔這些事件,並使用BigQuery使它們可查詢。您還可以按小時、天或月下載快照。

GH ARCHIV
GHArchive監視GitHub公共事件時間線,歸檔這些事件,並遞歸地爬網和歸檔其內容和依賴項。這些檔案將每天或每月提供下載。

INTERNET ARCHIVE
互聯網檔案館著名的Wayback機器將抓取GitHub的公共存儲庫,包括新的存儲庫、問題、拉取請求、Wiki等,並將副本存儲在舊金山和其他地方的硬盤上。這些檔案將通過git和https公開。

SOFTWARE HERITAGE FOUNDATION(軟件遺產基金會)
軟件遺產基金會將定期對GitHub進行爬網,並將其公共repo添加到其檔案中,爲其提供公共API訪問。

BODLEIAN LIBRARY(博德萊恩圖書館)
牛津大學博德萊恩圖書館將保留GitHub的10000個最受關注和最依賴的存儲庫作爲複製Piql電影卷,爲北極代碼庫提供冗餘。

ARCTIC WORLD ARCHIVE (北極世界檔案館)
2020年2月2日,GitHub捕獲了每個活動公共存儲庫的快照,保存在GitHub北極代碼庫中。這些數據將存儲在3500英尺的膠捲上,由專門從事長期數據存儲的挪威公司Piql提供和編碼。薄膜技術依賴於聚酯上的鹵化銀。根據國際標準化組織(ISO)的測量,這種介質的使用壽命爲500年;模擬老化試驗表明,Piql薄膜的使用壽命是原來的兩倍。

PROJECT SILICA FROM MICROSOFT RESEARCH(微軟研究公司的二氧化硅項目)
GitHub存檔程序正與微軟的Silica項目合作,通過使用飛秒激光將所有活躍的公共存儲庫寫入石英玻璃盤中,最終將它們存檔超過10000年。

github 北極代碼庫

The GitHub Arctic Code Vault is a data repository preserved in the Arctic World Archive (AWA), a very-long-term archival facility 250 meters deep in the permafrost of an Arctic mountain. The archive is located in a decommissioned coal mine in the Svalbard archipelago, closer to the North Pole than the Arctic Circle. GitHub will capture a snapshot of every active public repository on 02/02/2020 and preserve that data in the Arctic Code Vault.

code
How the cold storage will last 1,000 years
Svalbard is regulated by the international Svalbard Treaty as a demilitarized zone. Home to the world’s northernmost town, it is one of the most remote and geopolitically stable human habitations on Earth.

The AWA is a joint initiative between Norwegian state-owned mining company Store Norske Spitsbergen Kulkompani (SNSK) and very-long-term digital preservation provider Piql AS. AWA is devoted to archival storage in perpetuity. The film reels will be stored in a steel-walled container inside a sealed chamber within a decommissioned coal mine on the remote archipelago of Svalbard. The AWA already preserves historical and cultural data from Italy, Brazil, Norway, the Vatican, and many others.

While Svalbard is affected by climate change, it’s likely to affect only the outermost few meters of permafrost in the foreseeable future. Warming is not expected to threaten the stability of the mine. The mine’s proximity to the famous Global Seed Vault, only a mile away, reinforces Svalbard’s status as a stable, very-long-term archive site for humanity’s collective knowledge.

What’s in the 02/02/2020 snapshot
The 02/02/2020 snapshot archived in the GitHub Arctic Code Vault will sweep up every active public GitHub repository, in addition to significant dormant repos. The snapshot will include every repo with any commits between the announcement at GitHub Universe on November 13th and 02/02/2020, every repo with at least 1 star and any commits from the year before the snapshot (02/03/2019 - 02/02/2020), and every repo with at least 250 stars. The snapshot will consist of the HEAD of the default branch of each repository, minus any binaries larger than 100KB in size—depending on available space, repos with more stars may retain binaries. Each repository will be packaged as a single TAR file. For greater data density and integrity, most of the data will be stored QR-encoded, and compressed. A human-readable index and guide will itemize the location of each repository and explain how to recover the data.

GitHub北極密碼庫是保存在北極世界檔案館(AWA)中的一個數據存儲庫,這是一個非常長期的檔案設施,位於北極山區250米深的永久凍土中。檔案館位於斯瓦爾巴特羣島一座退役煤礦內,比北極圈更靠近北極。GitHub將在2020年2月2日捕獲每個活動公共存儲庫的快照,並將這些數據保存在Arctic代碼庫中。

代碼

cold storage將如何維持1000年

斯瓦爾巴羣島受《斯瓦爾巴羣島國際條約》管制,成爲非軍事區。它是世界上最北部城鎮的所在地,是地球上最偏遠、地緣政治最穩定的人類居住區之一。

AWA是挪威國有礦業公司Store Norske Spitsbergen Kulkompani(SNSK)和非常長期的數字保護提供商Piql AS共同發起的。AWA致力於永久性的檔案存儲。這些膠捲將存放在斯瓦爾巴特羣島一個廢棄煤礦的密封室內的鋼製容器中。AWA已經保存了意大利、巴西、挪威、梵蒂岡和其他許多國家的歷史和文化數據。

雖然斯瓦爾巴受到氣候變化的影響,但在可預見的未來,它很可能隻影響最外層幾米的永久凍土。預計升溫不會威脅礦井的穩定。該礦距離著名的全球種子庫只有一英里之遙,加強了斯瓦爾巴特作爲一個穩定的,非常長期的人類集體知識檔案網站的地位。

2020年2月2日快照中的內容

2020年2月2日歸檔在GitHub Arctic代碼庫中的快照將清除所有活動的公共GitHub存儲庫,以及大量的休眠回購。快照將包括從11月13日在GitHub Universe的公告到2020年2月2日的所有承諾回購,從快照發布前一年(2019年3月2日-2020年2月2日)起的所有承諾回購,以及至少250星的所有承諾回購。快照將由每個存儲庫的默認分支的頭部組成,減去任何大小大於100KB的二進制文件(取決於可用空間),具有更多星型的repo可能保留二進制文件。每個存儲庫都將打包爲一個TAR文件。爲了獲得更大的數據密度和完整性,大多數數據將被存儲爲QR編碼並壓縮。人類可讀的索引和指南將逐項列出每個存儲庫的位置,並解釋如何恢復數據。

如何確保未來可以使用我們的軟件

我們將召集一個GitHub檔案項目諮詢小組,包括人類學、考古學、歷史學、語言學、檔案學、未來主義等方面的專家,就檔案中應包括哪些內容以及如何與繼承人進行最佳溝通向我們提供建議。

一千年是很長的一段時間。像吳哥窟、大津巴布韋和馬丘比丘這樣的古代遺蹟,一千年前還沒有建成。儘管如此,我們可以考慮並計劃在今後1000年中有廣泛的可能性。這個計劃建立在我們今天的最佳想法之上。

檔案的介紹將包括QR解碼、文件格式、字符編碼和其他關鍵元數據的技術指南,以便將原始數據轉換回源代碼供將來的其他人使用。檔案館還將包括一棵技術樹——一個路線圖和羅塞塔石,供未來好奇的人們繼承檔案館的數據。

技術樹概述了存檔和如何使用它,它將作爲軟件開發和計算的快速入門手冊,與存檔的用戶指南捆綁在一起。它將描述如何從原始數據向後工作到源代碼,並提取項目、目錄、文件和數據格式。

受長期以來的《文明手冊》的啓發(包括其中的一些內容),該檔案館還將包括應用開源的信息和指導,以及我們今天如何使用開源的背景,以防未來的讀者需要從頭開始重建技術。就像《旅行者1號》和《旅行者2號》的黃金紀錄一樣,它將有助於向未來傳達我們這個世界的故事。

在人類可以使用現代計算機,但沒有軟件可以運行的未來,檔案館及其技術樹可能是非常有價值的。然而,它的價值更可能是歷史性的,也許可以確保今天的技術不會被一個不經意地認爲無關緊要的明天所丟失,直到我們的軟件被發現意外使用。

github archive計劃 FAQ

官網:https://archiveprogram.github.com/faq/

參考

GitHub Archive分析 - 2015最受矚目的項目們
參考URL: https://segmentfault.com/a/1190000004401498

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章