TAG | 中文
YouTube – Yui – Goodbye Days Cantonese version 廣東話(男)
頭先係 forum 見到,唱得麻麻地。
聽到一半,聽到佢唱英文果幾句笑死我。始終 YUI 自己唱先至係王道。
只計翻譯的話都不過不失,要保留原意係好難。
而彈結他技術方面,就留返比你自己聽。
返佢嘅 Video, 原來佢連其他 YUI 的歌都有唱廣東話放上Youtube。
不過早期收音麻麻地,唔係句句都聽得清楚D歌詞。
依幾首聽落都 OK
Yui – Tokyo 中文版
Yui – Understand (中文版)
Yui – “Ready to Love” (中文版)
Yui – “My Generation” (中文版)
其他更多按此
Apache Lucene 是一個以 java 編寫(現在已有 .NET 版本), 具有高效率, 支持全文檢索的開源搜索引擎. 主要功能是對數據作索引及搜索,它與其他工具配合能處理 word, html, pdf, excel 的全文搜尋。
Lucene 提供了一個簡單確強大的應用程式介面,能夠做全文索引和搜尋,在 Java 裡 Lucene 是一個成熟的免費開放原始碼工具;就其本身而論,Lucene是現在並且是這幾年,最受歡迎的免費 java 資訊檢索程式庫。 人們經常提到資訊檢索程式庫,就像是搜尋引擎,但是不應該將資訊檢索程式庫與網搜索引擎相混淆。
Lucene @ wikipedia 有關 Lucene 的簡介,可以讀 車案 chedong 的文章 http://www.chedong.com/tech/lucene.html (簡體中文) 我就先跳過中文分詞的理論,直接深討在現實應用中會一定會發生多國語言的問題。 體、繁體、英文甚至多國語言在同一文件中同時出現 面對正式的,官方的文件和公司內部文件時是沒有問題的。 它們一般都不會把不同語言混合使用,會更多單一語言。 但是,在 Internet 等的公開場合呢?特別是夾在世界各國文化之間的香港。 "中式英文", "英式中文", 簡體、繁體、日文、英文混合也是很常見的現像。 單純的一個 "ChineseAnalyzer/CJKAnalyzer" 根本沒有用。 就算是比較官方的通告也是一樣,例如:公告以三種語言分別寫一次,放在同一文件內,而不是以連結方式轉換語言。 而在非官方場合,最可怕的情況,卻也是最常見的;就是留言版討論區的文化。 你不能事先知道被索引的文件會是甚麼語言的的。 對自動化的程式來說 Unicode 內文所用的語言是一個謎。 你可能想在統計字元或內碼方面著手。但事實上,實作字碼檢查時已經很麻煩了,再加上語言推算就更亂了,更何況我們根本沒有這方面的數據。算你有 google 一樣的海量數據,它經常還是會出錯。 選擇分詞引擎 雖然,你很想看到純英文文件時應用 StandardAnalyzer。體的文件用相應字典,繁體的文件用另一套字典。是,BIG5 也可能寫英文。 GBK 不但可寫英文,也可以寫繁體,甚至日文的。 Unicode 情況下,你甚至可能使用了日文漢字和簡體也不自覺。如果你參考別人的程式,一般都是把會應用到的 StandardAnalyzer 的名字寫死在原始碼/設定檔中,而不是依被讀的文件而自動更換的。 分詞字典應用建立和更新 如果只是單純使用 n-Gram 或 Bi-gram 的話,可能沒有這麻煩。 但根據字典分詞還是十分有吸引力的,它能提昇一定的準確性和減少索引檔的大小。 先說建立字典的方法,幸好兩岸也有人做常用詞的統計。幸苦一點自己找免費的,還是付錢買的也可以。 把它們合併,轉換成一個 "繁簡中文字典" 相對整體來說還是簡單的。 可是更新就是一個問題了~任由它不更新不是不可以,但網絡和語言都是活的。 而且,在更新後,你要重新為舊件建立新的索引,這比甚麼都要麻煩。 在香港,應該應用那一個 Analyzer 當你發覺 StandardAnalyzer 不太支持中文的時候,在 sandbox 中找到了 CJKAnalyzer。 可是事實上它們都是低能兒,寫得太過簡單了(相對 StandardAnalyzer)。 StandardAnalyzer 應該是用 javacc 生成的,自行胡亂改動不是一個好方法。 以前試過應用 StandardTokenizer,而單純在它不支持的中文 Token 組合再進行二次分詞,效果不錯。 這一篇文章其實是在數年前寫下的 Draft,最近整理 My Documents 時發現。反正有空,拿來修改一下之後就貼在這 Blog。
原文:所謂正音與正字
Quote:「正音」的最主要理由,不是要實現某一學派的考據癖好,而是溝通需要標準。
我同意他的講法;盲目追求根不上時代的「正確」,或只識「反對正音」也沒有用。
現在學者們要做的,不是單純推廣正字正音,而是整理一下現時人們所用的字和發音,列舉出另一本類似廣韻的目錄;一套「現代規範字」。才可以有效地加以推廣和應用。
因為無規範而出現問題其實係科技/電腦界上面都不時咁出現;例如:
- Big5 無標準
- MS IE 的規格 和 Firefox 的規格(html,javascript)
- Blog 的 trackback 機制
- 未統一的 J2EE Vendor Specific 功能
- Instant Message 不互通
以上過去(和現在)都會依然因為無規範而直接或間接影響到你和我。就係因為無規範/唔依規範,而令到各有各運作而不能完善地溝通。而以上例子都印証了,開放規格和制定共同規範的重要性。
廣韻是死規格,不更新,不修正,不開放。


