メインのblogで書くまでもない、個人的なメモ程度のこと。

2009/02/24

郵便番号辞書

旅先でも地名の読みが知りたいときがあって、それを調べるため、
よみがなデータが入っている郵便番号辞書を作成してみた。

郵便局にデータ入りの郵便番号データがあるのでそれをダウンロード。
http://www.post.japanpost.jp/zipcode/dl/kogaki.html

そのままのCSVだとちょっと使いづらいデータなので以下の方のページの変換ソフトを利用し、変換。
kenken_y の部屋 へ ようこそ (PC環境確認・郵便番号CSV作成/検索)

PDIC-CSV形式にするのに編集しなければならないが、使っているEXCELが古くて12万行あるデータが読めない。ので、半分に分割。岐阜県白川村御母衣の下、静岡県との間で分割。

それから、以下の順番になるようにCSVデータを整形していく。(参考:PDICのCSV形式の説明)
見出語=住所,訳語=郵便番号,用例=よみがな,レベル=0,暗記フラグ=0,修正フラグ=0

・住所は都道府県・市・町名で分かれているので、セルの内容を&を使ってつなげる。
・よみがなは半角かなから全角かなに変えて、市と町名をつなげる。
・住所の数字は全角では見づらいので半角に変換してもいいかも。

それを分割先のファイル毎につくって、テキストエディタ等でつなげた。

それをPDICの変換機能でPDIC形式に変換するのだが、見出し語が重複してしまっているのがある。100件以上?
元データを見ると、町名の細かい住所の違いがちゃんとデータに無いものがある。別のセルにあったりする。
自動ではどうも直せなさそうなので手直しして元データを修正。
その後再変換してエラーなしで変換できた。

Windows Mobile デバイスに入れて試してみたのだが、PDICが古く不安定で?、住所を県から順番に入れないと表示されないので、EPWING形式にして圧縮して使うことにした。
全文検索もできるので使い物になりそうな。4MBくらいになった。



郵便局のデータが悪く、自動でできない部分?があるので(できても条件を考えると複雑)、手動でやったが、そのデータが更新されたときに再変換が面倒そう??