Internet Archive Wayback Machine での日本語

Internet ArchiveSunMDを利用するというニュースが発表されました。

Internet Archive Forums: View Post
it is a modular datacenter that sits outside in a shipping container. This
3Petabyte (3 million gigabyte) datacenter will handle the 500 requests
per second

私も過去に何度か使ったことがありましたが日本語のページは全て以下のように文字化けしていた記憶しかありません。

"�r�W�l�X�A�i���X�g"

ですので私は勝手にInternet Archiveはアーカイブする際に間違った文字コード変換をしていると思い込んでいました。このような勘違いは私だけではなかったようです。

http://web.archive.org/web/20041013012904/www.bumpofchicken.com/info.htmlの文... - Yahoo!知恵袋
/www.bumpofchicken.com/以下のサイトは元々charsetでShift_JIS指定していたのに、
アーカイブしているサイトhttp://web.archive.org/はUTF-8だもんで文字化ける。

実際にはページ内容そのものはコード変換なしでアーカイブされていたようで、過去に文字化けしていたページをさきほど見たところ文字化け問題は解消されていました。

以前はこの問題に対処するためのGreasemonkeyスクリプトやProxomitronフィルターが使われていたようですが今は不要になっています。

Internet Archiveでの文字化けを解消するGreasemonkeyスクリプトとオミトロンの設定 | Web scratch
毎回Internet Archiveveのウェイバックマシン (Wayback Machine)を利用するときに
text/html; charset=UTF-8
と勝手に追加してしまうことで、日本のサイトの多くはSJISとかに設定しているので文字化けが発生します。
Comments:

Post a Comment:
  • HTML Syntax: NOT allowed
About

The views expressed on this blog are my own and do not necessarily reflect the views of Oracle.

Search

Archives
« April 2014
SunMonTueWedThuFriSat
  
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
   
       
Today