Netscape1.1Nでの漢字コード認識のバグ(Mac版で確認済)
【判明点】(栗原英夫様@ATR音声翻訳通信研究所からの情報を元に
桃井様@米国セント・クラウド州立大学と筆者が情報を追加
いたしました)
・Default Encodingは機能していなくてauto selectのチェックに関わらず
auto selectになっているようである。
・漢字コードの自動判別にバグがある。自動判別は、htmlの最初からデータ
を読み、最初に(?)判別できた文字で漢字コードを決めているようである。
自動判別に問題があり、次のようなデータの場合、自動判別に失敗し、漢
字が表示できない。
EUCのページ:
次のような場合、EUCと判別できずに文字化けが発生する。
SET A : JISコードで低バイトが60〜6Fの文字
例:「a」〜「o」や「む」〜「わ」や「材」〜「削」など
SET B : JISコードで低バイトが60〜7Eの文字
SET C : JISコードで低バイトが70〜7Eの文字
例:「p」〜「z」や「介」〜「改」など
Bug Killer の条件: Set Aの文字は、「改行」或いは「最低スペース一つ」
が必要。Set Cの文字は、「改行」或いは「スペース一
つ」がなくても、Bug Killerになれる。
上記のBug Killerの条件が満たされる前に、SET Aの文字が現れ、かつ、
その直後に半角の「A」〜「Z」や「a」〜「z」がある場合に自動認識に
失敗し、文字化けが発生する。
例:
日はSET Bの文字。
「a」〜「g」はSET Aの文字
「abcdefg」 や 「日abcdefga」は、OK。
「abcdefga」は、「^[(I#皀筌筌罐茱螢譽軋」のように化ける
【体験する】
「日abcdefga」http://www.etl.go.jp/‾yamana/TEST/euc1.html
「abcdefg」 http://www.etl.go.jp/‾yamana/TEST/euc2.html
「abcdefga」 http://www.etl.go.jp/‾yamana/TEST/euc3.html