URLの自動テーマ化についての検討

引き続きテーマ指向ミニブログのネタ。
いい加減開発Blogとして分けようかなという気もするんだけど、分けちゃうとこっち側Blogのネタが無くなっちまうからな!
テーマ指向ミニブログについては、出来上がったらブログじゃなくてテーマ指向ミニブログ側に開発ネタも移行しようと思うので、それまではここに書いていこうということで。


さて、今日はテーマ指向ミニブログでURLを投稿した場合のあるべき挙動について、検討がてら書いてみる。

URLのテーマ化における問題

一般的に、URLを入力した書き込みをするっていうことは、そのURLについて何か話しているってことで。
この"URL"はテーマに該当するよなと。


もちろん、気をつけないと「こういうサイト見つけたよ」って書き込みもそのURLについて書いてるってことになるので、テーマを掘り下げるためにはちょっと邪魔くさい書き込みもあるかもしれんが、まあ許容しちゃっていい気がする。
ということでURLを自動テーマにしたいと思うんだけど、URLって結構長いんだよね。


理想的にはこういう形がいい。


http://yahoo.co.jp のURLを拾って、Yahoo!というテーマにヒットさせている。
でもURLって普通ポータルサイトのアドレスって例よりも、ニュースサイトのURLとかになる。
つまりこういうのだ。
http://headlines.yahoo.co.jp/hl?a=20121219-00000106-reut-bus_all


これを「Yahoo!」って略すわけにもいかないし、ページタイトルの「三菱自が軽自動車121万台をリコール 国交省が厳重注意 (ロイター) - Yahoo!ニュース」なんてのも長過ぎる。
URL全部ってのもめちゃめちゃ長い。


このURLを自動的にテーマにするとして、そのテーマの名前は一体どうすりゃいいんじゃいというのが問題。

短縮URL

最初に、URLが投稿されたら全部強制的に短縮URLにしちゃえば、ってのがある。
bit.lyはちょっと、、ねぇ、あれなので、goo.gl使うと、http://tsuge.sub.jp/theme/demo/ のURLが http://goo.gl/YCH26 に短縮される。


これでもまだちょっと長いから、テーマとしてこの末尾のYCH26をテーマ扱いにすれば、非常に短くなる。
なる・・が。
これはいくらなんでもわかりにくすぎるよね。
Twitterとかで短縮URLが流行ってるのも気持ち悪くてしょうがねぇんだよな。皆よくクリックできるよなぁ。

ドメインからなんとか頑張る案

わかりにくいのは元の情報が欠損しているからだよなぁという事で、元の情報を多少でも残すんだとしたら、ドメインが考えられる。
でもドメインの仕様って結構くそで、一つのワードで最大63文字までありえるから、どんだけ頑張ってもドメインそのまま使うとやはり長過ぎる。


とすると、ドメインから先頭6文字くらいを引っ張った上で、短縮URLっぽい形にするってのはどうだ。
例えばさっきのtsuge.sub.jpだと、tsuge.YCH26。
このBlogで短縮URLが同じだとしたら、d.hatenYCH26とか。


まあ、多少はわかるけど、yahooのヘッドラインとかheadliYCH26になって意味わからんパターンも十分にある。
わかりやすいかわかりにくいかで言ったら、短縮URLだけよりはわかりやすいってだけでやっぱわかりにくいよねと。

タイトルからなんとか頑張る案

さっきのだと、「三菱自が軽自動車121万台をリコール 国交省が厳重注意 (ロイター) - Yahoo!ニュース」ってのがタイトルだから、「三菱自が軽自動車121万台をリコール」あたりをテーマ名にするパターンならどうだ。
でも、なんか普通のテーマ名とかぶりそうだし、タイトルのつけ方に厳密な仕様ってないから、抽出失敗しそう。


ちゃんとできたら一番綺麗かもしれないけどな。
普通のテーマ名とかぶりそうな問題は、URLから生成したことを示すために!でも先頭につけて、!が先頭についてるテーマ名は普通は生成できないってすればかぶらんで済む。
ただ想定より大分長くなるのでDBは直さないとな・・。

そんなこと言わずにURL全部使おうぜ案

これもDB直さないといけねーんすけど、長くて見づらいって問題はあるにせよユーザへのわかりやすさという意味では一番素直。
http://headlines.yahoo.co.jp/hl?a=20121219-00000106-reut-bus_all について話している発言には、http://headlines.yahoo.co.jp/hl?a=20121219-00000106-reut-bus_all のタグが付くと。


・・長すぎるけどなぁ・・。
タイムラインにこんなくそ長いタグだらけの発言が続いてたら俺ならぶちきれちゃうぜと。

URLの自動テーマ化やめようぜ案

自動じゃないならどうするかっていうと、キーワードの文字数制限を少し長くして、手動で登録できるようにすると。
や、まあこれもありはありなんだけど、なんだかな。

手動テーマ化を補助する"だけ"

最初にURL登録したときはテーマの名前を適当(URL1とか)にして、URLはキーワードに自動登録。
一応、キーワードに自動登録するだけでも十分に自動マッチとしては機能するし、自動マッチさえさせれば発言の集約は出来るから、後でテーマ名は偉い人がつけてくれればいい。


ただ、実は今のDBの作り的には大分厳しい。
後でテーマ名を変えるという行為自体が、結構ね、きついのよ。

表示を工夫しようぜ案

URLは特殊テーマとして扱って、基本的にURLを基に自動生成されたテーマはテーマ一覧に出ない形にするけど、URLをクリックすると特設ページに飛べるっつーのはどうだ。
発言にはURLが載ってるけどテーマタグとしては表示されない、でもそのURLについて話している内容は全部集約出来る。
これもそれなりに、ありかなぁという気はする。


テーマにしないデメリットとしては、テーマの一覧に出てこないとか、扱いが特殊なので別の機構が必要になるとか、いくつかある。

有力案

これ考えながら書いてるけど、最後の表示を工夫しようぜ案が今んとこは一番気にいってるなぁ。
URLに対するコメントサービスってそれなりにあって、はてブなんかもそうだけど、その辺のとマージできるし。
テキストについてははてなキーワードであり、Wikipedia辺りがマージ対象で、URLとテキストはやっぱり別物なんだよね。


単純に実装工数で考えても、どれも重いからそんなに差はないぞと。強いて言えば短縮URLがちょっと楽なくらいか。
まあ、本気でやるとはてブ作る事になって大変になっちゃうから、出来る限りシンプルにまとめたいやね。


今日一回IDやトリップ機能つけて、そのIDまたはトリップの発言一覧見れるページつけて、やっつけだけどキーワード一覧とかテーマ一覧とかも見れるページつけたのをアップから、そろそろこの問題にかかりますかね。