語料庫

思路:
-語料庫有什麼用,在統計機器學習中的地位,用圖說明
-語料庫的一些基本概念。如熟語料、生語料等。
-有哪些著名的語料庫。人民日報語料庫、WordNet等。
-如何構建語料庫。主要是成本、規範。
一些歷史:
- 1957年,Chomsky的《句法理論》及其以後一系列著作的發表,根本改變了語料庫語言學的發展狀況。質疑了語料的作用,語料庫研究陷入沉寂期。
- 80年以後,隨着統計方法的流行,語料庫語言學復興。1983年,英國Lancaster大學的LOB語料庫,研究英國英語,500篇,每篇2000詞。法國國家科學研究中心與美國芝加哥大學聯合,建成法語語料庫TLF語料庫,2000書面文本,1.5億詞。芬蘭赫爾辛基大學建成歷史英語語料庫(850-1720年),1600萬詞。1988年倫敦大學建成國際英語語料庫ICE。1981年-1991年,480個語料庫項目得到資助。對比之下,1959年-1980年,只有140個語料庫項目。
- 國內語料庫研究歷史。1979年,武漢大學,漢語現代文學作品語料庫,527萬字。1998年,清華大學,1億漢字的語料庫,着重研究歧義切分問題。北京大學計算語言研究所,從1992年開始現代漢語語料庫的多級加工,先後建成2600萬字的1998年《人民日報》標註語料庫、2000萬字漢字1000多萬英語單詞的英漢雙語語料庫,以及8000萬字篇章級別信息科學與技術領域的語料庫。之前的錄入手段全靠手工,現在收集數據很簡單。
- 文本產權(國家知識產權保護空白)、標記產權
- 單語。雙語(機器翻譯)。是否標註?是,熟語料;否,生語料。平衡語料,各個領域或類別或時間或地域的平衡。平行語料庫
- 白菜、白桌子,豬肉、天鵝肉
- 美國LDC 語料庫,定義了漢語某些標準。
- http://www.huaxia.com/zhwh/wszs/2009/01/1294679.html
- 幾個典型的語料庫:
–Brown Corpus 20世紀60年代,Francis和Kucera在Brown大學建立,世界上第一個根據系統性原則採集樣本的標準語料庫,100萬詞規模。
待續

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章