freebase使用總結

近來公司要從freebase上引用部分數據,所以讓我來處理,分析看看那些數據有幫助,並且怎麼獲取數據。因此花了幾天的時間就耗在此上了。

什麼是freebase?也許聽說過wikipedia的人很多,但聽說過freebase的就不那麼多了。freebase是一個和wikipedia差不多的東西,這樣說可能有點不合適,但此處我的切入點是針對它們之間的結構化數據來說的。它們二者都是提供了大量的結構化數據。大量的數據,數據量的確很大,援引freebase的原話:

Freebase contains at this time of writing more than 10 million topics, more than 3000 types, and more than 30,000 properties. This is not a small database by any measure.

這麼大的數據量,很少有人覺得是少量吧。這麼些的數據,結構化的,並且是免費的(至少現在爲止免費),想必不少人都在打它的主意。

下面就本人這幾天的學習體會,做簡單的記錄,以便將來備忘。

數據模型 ——更確切些應該換 成基本概念纔對(Basic Concepts).組成元素Topics Types Properties Domains IDs

話題(topics)   Corresponding to a Wikipedia article is a Freebase topic.說白了就是一些文章,關於某個方面的話題。

類型(type)  因爲topics太多了,爲了區分開,並且有時候一個話題(topic)屬於多個方面多個學科的交匯,所以必須把它們分開,怎麼分開呢?就通過類型(type),把它們放入不同的類型裏面,查找的時候也方便。要是接觸過RDBS(關係數據庫)的人就知道,這裏的類型和關係數據庫的表差不多

屬性(Properties)  既然說到了關係數據庫的表,那麼此處的屬性就好理解了,就等同於表中的字段,這都是爲了很形象的描述topic的各個方面。

域(Domains)  話題(topic)關通過類型(type)來分配,好像已經很成熟了,但是別忘了這裏涉及到的數據兩很大,涉及到各行各業,領域很廣。因此在type的上面又加了一個域(domain),把各領域給分隔開來。

ID 爲了體現出唯一性,所以從邏輯上引入了ID的概念,比如域的唯一性,體現在域名字段命名的唯一上

所以,現在我們可以得出總的視圖,域包含類型,類型下面是屬性,由各式各樣的屬性組合在一起就得到某個特定的話題

下面摘自freebase的一段話,做最後的總結

•A type is a conceptual container of related properties commonly needed to describe a certain aspect of a topic.
•A topic can be assigned one or more types (the default type being /common/topic)
•As properties are grouped into types, types are grouped into domains.
•Domains, types, and properties are given IDs in a namespace/key hierarchy.
•Common well-known topics are given IDs in the /en namespace, which are human-readable English strings.
•Topics are uniquely identified within Freebase by GUIDs.
•Properties are multi-value by default, and multi-value properties and single-value properties can be queried in the same way.

參考:

http://www.freebase.com/docs/data/basic_concepts , basic concepts

http://www.freebase.com/app/queryeditor   ,queryeditor

http://www.freebase.com/docs/web_services/search , full text search


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章