Ermitejo - エスペラント語日本語翻訳

#HELPO

Ermitejoについて

エス和翻訳ウェブアプリ

"Ermitejo"™(エルミテーヨ)とは、エスペラント語から日本語への機械翻訳を行うシステムの通称です。このサイトのドメイン名および名称としても用いています(本サイトでは、検索エンジンからお越しいただく閲覧者の便のために、「エスペラント」ではなく、(厳密には適当でない)「エスペラント“語”」として表記しています)。

このシステムは、一般的なLAMP(Linux, Apache, MySQL, Perl)によるウェブアプリケーションとしていわゆる「翻訳サイト」のエス和版を提供することを目的に、個人が趣味の範疇で開発を行い、近年中に実証実験を始めようとするものです。

システムの中核部となる翻訳エンジンは車輪の再発明の気がありますが自家製です。近代風のエンジンらしく、構文解析および意味解析にはHPSG(主辞駆動句構造文法)に基づいた実装を指向しています。

構想は1999年に遡りますが、基本計画や設計に取りかかったのは2004年頃で、仕事がデスマったり別の趣味に没頭したりしので、残念ながら、開発は遅々として進んでおりません。システムテスト~アルファサービスが2008年下半期、ベータサービス~本サービスは2009年頃に予定しています。

エス和の機械翻訳サイトは確認した限りでは2007年3月現在では存在しませんが、ニッチ向けのアプリとしてではなく、有名な英和翻訳サイトを凌ぐほどの水準で機械翻訳を実現することが当面の目標です。

或る程度の規則性のあるエスペラント語だからこそ、小さい開発規模で大きな結果を得ることが出来るという利点があります。そのための方策として、巷の翻訳サイトとは異なり、ユーザ辞書の編集・利用に加え、デスクトップアプリケーションの翻訳ソフトでは今や当然となった翻訳メモリ機能の統合も実現する予定(第二版以降=2010年頃)です。無論、(Web 2.0という流行言葉はともあれ、)ユーザデータはWikiの如き共有も行えるようにします。

鬼が笑うどころではない未来の話ですが、そこはそれ、予定は予定ということで……。

なお、エス和の機械翻訳“ソフト”としては、山野敏夫氏が逐語訳機能を提供する「トラちゃん95」というソフトを開発・公開されていますので、こちらも是非ご覧ください。

名前の由来

このシステムの正式名称は"Empiria Racionaliga Metodo por Inteligenta Tradukado el Esperanto en la Japanan inter Ordinaruloj"(エス和知能化翻訳用経験的合理化システム;エンピリーア ラツィオナリーガ メトード ポル インテリゲンタ トラドゥカード エル エスペラント エン ラ ヤパーナン インテル オルディナルーロイ)といい、この頭字語として"Ermitejo"(エルミテーヨ)という通称を命名しています。なお、この正式名称は、逐語訳的には「エスペラント語から日本語への知能化した翻訳を一般人の間で行うための経験主義かつ合理化された手法」と表現出来ます。

英語での正式名称は"Empirical Rationalized Method for Intelligent Translation from Esperanto to the Japanese between Ordinary persons"といいます。

"ermitejo"はエスペラント語の単語で、「庵」(隠者の隠れ家)を意味します。英語では"hermitage"に相当します。フランス語では"ermitage"に相当し、ロシアの国立美術館エルミタージュの命名の由来となっています。

といってもシステム名の元ネタはHERMIT ver1.3にあったりするかも知れず、或いは開発者のハンドル"Gardejo"の類義語から選んだという説もあります。

このサイトについて(記述中)

広告が重い

本サイトのホストはXREAであり、ホスティング契約条件として広告の掲示が義務づけられています。辞書引き機能の第1版のリリースとあわせ、本サイトを本格運用すべく、ホスティング契約を変更(XREA Plusを契約)することによって、広告を取り除きます。

軽さは正義ですので、2007年6月11日付けで契約を変更して(XREA Plusを契約して)、広告を取り除きました。しかし、この事実を以て「本格運用」というには程遠い現状ですので、それはご勘弁ください。目下最大の壁である「構文解析」についての解決は年内でも難しそうです。CKY法自体は簡単ですが、問題は文法規則の準備です。委細はまた別途「開発日誌」ででも述べます。

おかげで随分と読み込みが軽くなりました。固定回線で広帯域(ブロードバンド)の場合でも、他ドメインにお伺いを立てに行く都合上、これまでのように広告が入っていると遅くなりましたが、広告除去後はまさに一瞬で表示されるようになりました。移動体通信でも、例えばWILLCOMのW-ZERO3[es]で256Kbps+Operaによる表示を試みた場合、スタイルシートと見出し画像(pngイメージ)をキャッシュしていて、かつ、ドーマント状態にない場合には、現在最も重いと思われる「辞書引き機能の使用法」(約32KB)も4秒程度で通信(さらに描画で3秒程度必要)されるようになりました。

目次

Aŭtorrajto: © Organizo por Zona Servo per Sinkrona Solvo. Ĉiuj rajtoj estas rezervitaj.
Copyright: © Organization for Zonal Service with Synchronous Solution. All rights reserved.