Dennis' Blog of Indiscriminate | I thought what I’d do was, I’d pretend I was one of those deaf-mutes

TAG | 港式

千嬅強調沒看過YUI的MV:「導演叫我做乜就做乜。」而執導《同病相愛》MV的導演天恩否認抄襲,更表示沒有看過YUI的MV。

上次 MGPV 意念被盜, 張懸處境和楊小姐一樣, 但明明事不關己,張懸站出來道歉,收回有關片段,反觀本地歌壇每當出現此類事件,不是唱片公司不作回應掩耳盜鈴,便是一番藉口推卸責任

單從對原創的尊重一方面看,已不難明白為何港台兩地流行音樂質素差如此遠。
Quote:


More :

Dennis 的無差別 Blog » YUI Understand MV 被 楊千嬅 – 同病相愛 MV 照抄~!!!!!!

千嬅情歌 MV 與 YUI 同病相憐 !?

, , , , , , , Hide

Aug/07

8

14歲

今日放榜。睇新聞話,今年有個14歲妹妹去考會考得到 9優。

我第一個反應,唔係覺得佢利害或者天才,而係迷惑。香港地咁細個可以報會考的嗎?9A年年有,幾十歲先至考會考我都知,但第一次聽見原來可以提早報考的。原來,小學係可以跳級,中五唔一定要一定年齡先可以入讀。原來,浪費少D時間係無意義的學習上面。

我印像中的香港教育,係死版,麻木,老化,高師生比, 只求數字,補習文化,無得跳級,做唔少唔係以學生為本的改革同政策。

我沒有對香港教育改觀,而是我了解到,無論世界有幾咁悲哀,希望和例外總會存在的。

, , , , , , , Hide

Jun/07

10

Apache Lucene 中文與英文分詞

Apache Lucene 是一個以 java 編寫(現在已有 .NET 版本), 具有高效率, 支持全文檢索的開源搜索引擎. 主要功能是對數據作索引及搜索,它與其他工具配合能處理 word, html, pdf, excel 的全文搜尋。

Lucene 提供了一個簡單確強大的應用程式介面,能夠做全文索引和搜尋,在 Java 裡 Lucene 是一個成熟的免費開放原始碼工具;就其本身而論,Lucene是現在並且是這幾年,最受歡迎的免費 java 資訊檢索程式庫。 人們經常提到資訊檢索程式庫,就像是搜尋引擎,但是不應該將資訊檢索程式庫與網搜索引擎相混淆。

Lucene @ wikipedia 有關 Lucene 的簡介,可以讀 車案 chedong 的文章 http://www.chedong.com/tech/lucene.html (簡體中文) 我就先跳過中文分詞的理論,直接深討在現實應用中會一定會發生多國語言的問題。 體、繁體、英文甚至多國語言在同一文件中同時出現 面對正式的,官方的文件和公司內部文件時是沒有問題的。 它們一般都不會把不同語言混合使用,會更多單一語言。 但是,在 Internet 等的公開場合呢?特別是夾在世界各國文化之間的香港。 "中式英文", "英式中文", 簡體、繁體、日文、英文混合也是很常見的現像。 單純的一個 "ChineseAnalyzer/CJKAnalyzer" 根本沒有用。 就算是比較官方的通告也是一樣,例如:公告以三種語言分別寫一次,放在同一文件內,而不是以連結方式轉換語言。 而在非官方場合,最可怕的情況,卻也是最常見的;就是留言版討論區的文化。 你不能事先知道被索引的文件會是甚麼語言的的。 對自動化的程式來說 Unicode 內文所用的語言是一個謎。 你可能想在統計字元或內碼方面著手。但事實上,實作字碼檢查時已經很麻煩了,再加上語言推算就更亂了,更何況我們根本沒有這方面的數據。算你有 google 一樣的海量數據,它經常還是會出錯。 選擇分詞引擎 雖然,你很想看到純英文文件時應用 StandardAnalyzer。體的文件用相應字典,繁體的文件用另一套字典。是,BIG5 也可能寫英文。 GBK 不但可寫英文,也可以寫繁體,甚至日文的。 Unicode 情況下,你甚至可能使用了日文漢字和簡體也不自覺。如果你參考別人的程式,一般都是把會應用到的 StandardAnalyzer 的名字寫死在原始碼/設定檔中,而不是依被讀的文件而自動更換的。 分詞字典應用建立和更新 如果只是單純使用 n-Gram 或 Bi-gram 的話,可能沒有這麻煩。 但根據字典分詞還是十分有吸引力的,它能提昇一定的準確性和減少索引檔的大小。 先說建立字典的方法,幸好兩岸也有人做常用詞的統計。幸苦一點自己找免費的,還是付錢買的也可以。 把它們合併,轉換成一個 "繁簡中文字典" 相對整體來說還是簡單的。 可是更新就是一個問題了~任由它不更新不是不可以,但網絡和語言都是活的。 而且,在更新後,你要重新為舊件建立新的索引,這比甚麼都要麻煩。 在香港,應該應用那一個 Analyzer 當你發覺 StandardAnalyzer 不太支持中文的時候,在 sandbox 中找到了 CJKAnalyzer。 可是事實上它們都是低能兒,寫得太過簡單了(相對 StandardAnalyzer)。 StandardAnalyzer 應該是用 javacc 生成的,自行胡亂改動不是一個好方法。 以前試過應用 StandardTokenizer,而單純在它不支持的中文 Token 組合再進行二次分詞,效果不錯。 這一篇文章其實是在數年前寫下的 Draft,最近整理 My Documents 時發現。反正有空,拿來修改一下之後就貼在這 Blog。

, , , , Hide

如何擺脫港式英文的口音 (十六) – 英文由F字學起 – siu82english – Yahoo! BLOG  

另一個98%香港人讀忽略了的音。很多人都不知道 dictation 的 tion 和 revision 的 sion 讀音不同: 其實前者為 unvoiced,後者為 voiced。和第八集談到的兩個 th 音的分別一樣。

, , , , , , , , , , , Hide

<< Latest posts

Theme Design by devolux.org