ニコニコ大百科の言葉をPCに覚えさせるとこうなる動画

1.8千文字の記事
  • 1
  • 0pt
掲示板へ

うp主動画内で寄せられたコメント(コメ番900ぐらいまで)に反応するよ。コメ番900ぐらい以降は掲示板で反応しています。

>テキストファイルくれ
大百科の権利ってだいじょうぶなの?グニャラさんに怒られない?そんなわけで今は控えさせてもらってます。(しかも連休中なので実家に帰っててモノが手元にないんですよね。)→権利的にまずそうなので自重させてください。
>長音は「―」→「ー」
ちゃんとダッシュではなく長音記号になっているようです。そう見えるフォントを使っちゃったようです。(あずきフォント)
>結構読みが正しくない記事もあるんだけどなー
5月3日のエア本信仰祭を中止せよ!」とか「我輩はタコである。理由は未だ無い。」とかですね。ニコニコ大百科なら仕方ないね。笑っちゃうし。むしろもっとやれ。変換はあきらめる。
>SoruceForgeリーズ
そんな大それた…。即休眠プロジェクト行きですよ。
(博霊霊夢問題に対して) >これも学習機でいいじゃん
単なる同音異義語だと無視すればはないんですが、気づきにくい誤字だとそのまま使い続ける可性もありそうなので、同音異義語より問題視しています。実際、うp主動画作る段で「博麗霊夢」っていう名前を知ったので、「博霊霊夢」になってるのを動画制作途中まで気づきませんでした。
(博霊霊夢問題に対して) >リダイレクト元と先で、読みが同じ単無視するとか
…! その発想はなかった
(変換結果に対して) >smooooch・∀・を変換させる方がおかしいと思う
ああ、まったくですね。まあ、極端な例ってことで。
>ATOK
>anthyでもできないかなwww
>SKK用の辞書ならかなり使えそう
ほかのIMEでってところまではまだ何も考えてません。
>ATOKRubyスクリプトとか使うのかと
ATOKダイレクトってあるんですね。入した言葉の大百科記事にアクセスする、とかできるんでしょうか。なんかおもしろそうですね。ATOK持ってないけど。
>SocialIME
>SocialIME余裕でした
存在は知っているのですが、ちょっと使ってすぐ止めちゃったです(変換結果がネットに流れるとか聞いてしてしまったです)。情報の生成元が不特定多数のユーザであるという点では同じですが、システムとしてできあがってる点とか対範囲がずっと広いという意味では向こうの方がずっと良さそうに見えますね。
>不必要そうなのは手動で消していくしかないような…
手動は精度は高いんですけどコスト(人的資)もかかりますよね。特にネットの言葉は普通日本語べて流行りりがしいので、継続的なメンテが必要になってしまいます。なので、統計量(記事をタグとして登録している動画数が少ない用は重要でないと見なす)とかルールによるフィルタリング(「の一覧」で終わる言葉は捨てる、など)とか機械で何とかできるとうれしいかなあ、と思ってます。
タグニコニコIME」登録
呂はいいですけど、作ってるのはIMEではないような…。うp主WikipediaWiktionaryに倣って、Nico Nico PediaNictionaryと心の中で呼んでいました。
>三文字@しのほうがいいと思うが
最初は2文字以下にしたのですが、「きょう」が「今日」にならなかったのにイラっときて3文字に広げました。1音節が安でしょうか。
>結果よくなったのか悪くなったのか
変換効率への悪は最小限に、新たな言葉を覚えさせることはある程度できたのかな、と。ただ、これでは主観的な印でしかないので、ちゃんと学術的な段取りをとるなら客観的に評価できる基準が必須になるんでしょうね…
>これつかう?w
うp主が使ってみています。
(誤変換に対して) >項に対するレス数、記事数で下位のものを切り捨てるとかは?
>大百科観覧数とか掲示板投稿数とかで分けられないかな
そのあたりも統計量のひとつになりそうですね。ただ、的確に言葉の重要度を表しているモノなのかは評価基準とあわせて要検討ですね。あと、大百科記事のページビューは表示されないようです。
>これよりRuby興味を持ってしまった
市場の1番うp主が今回使った参考書をロックしておきます。この本の前書きにもありますが、はじめてのプログラムされる方の入門書というよりは他言経験者向けです。

【スポンサーリンク】

  • 1
  • 0pt
記事編集 編集履歴を閲覧

ニコニ広告で宣伝された記事

春日部つむぎ (単) 記事と一緒に動画もおすすめ!
提供: Wu
もっと見る

この記事の掲示板に最近描かれたお絵カキコ

この記事の掲示板に最近投稿されたピコカキコ

ピコカキコがありません

ニコニコ大百科の言葉をPCに覚えさせるとこうなる

46 ななしのよっしん
2009/05/16(土) 00:06:59 ID: WzYDOIEUoF
ああそうだ。辞書の配布さんに一つ要望です。
現在「の一覧」で除外されてますが、一覧の前に「の」が付いてないのが200件ちょい残っている
ので読みに「いちらん」を含んでいて、かつ変換後に「一覧」を含むのを除外にするのでどう
でしょう?
これだとほぼすべての一覧関連が除外できて、巻き添えは「コメントがない動画一覧に現れ
ません」だけになるはずなので。
👍
高評価
0
👎
低評価
0
47 ななしのよっしん
2009/05/16(土) 00:30:04 ID: 507B0BJXdI
> 記事をタグとして登録している動画数が少ない用は重要でないと見なす
これはちょっとマズいと思います。例えば絵師さんの名前とかみたいに大百科独自の単とかあるので。
👍
高評価
0
👎
低評価
0
48 うp主
2009/05/16(土) 08:23:48 ID: S/AFab+Xw/
>>42
>削除ワード情報の共有という感じですか。
やりたい事はわかるのですが、基準が難しいんですよね。
いらないは人によって変りますし…

>>44-45
あまりに長いものは基本的に合成なので
1として登録する意味はあまりないんですよね。
まあ、にもならないので放置しています。

>>43-45
で、全体にですが、うp主はできるだけ人手を使わない範囲で実現する方法に興味があります。すいません。そのあたりを包括的に解決するためにシステム化するしたのがSocialIME、ということなんでしょうね。
👍
高評価
0
👎
低評価
0
49 うp主
2009/05/16(土) 08:27:38 ID: S/AFab+Xw/
>>46
配布者の方への要望は、
配布元の方のエントリに書き込んだほうがよろしいかと。
#うp主はなんとなく /一覧[0-9]*$/ がよさそうな気がしますが。

>>47
そうか、その通りですね。あんまりいい統計量にはならなさそうですね。
👍
高評価
0
👎
低評価
0
50 ななしのよっしん
2009/05/17(日) 22:21:30 ID: WzYDOIEUoF
自分用カスタムフィルターgawkで作って34000件くらいにスリム化してみました。
辞書を上から視で一通チェックするのも軽くやったんですが、作業中にしょっちゅう
ゲシュタルト崩壊起こしますね、これはw
参考までにフィルタの大体の内容を書いておきます。

・「〜」→「~」に変換(S-JISで作業するため)
・UTF16-LE → S-JIS変換時に化けて「?」になるデータを全削除
・よみがな2文字を全削除(これはうp主さんと同じ理由)
・よみがな15文字以上を全削除(長いのは入しないので、試しに適当なとこでバッサリ)
・変換後もよみがなと同じひらがなデータを全削除(自分の変換スタイルでは不要なので)
・「せんきゅうひゃく」「いちがつ」等の日付記事関連を全削除
・「一覧」関連の残りを全削除
(省略しています。全て読むにはこのリンクをクリック!)
👍
高評価
0
👎
低評価
0
51 ななしのよっしん
2009/05/17(日) 23:18:19 ID: jh7uOqQDzE
後に大百科記述方式の変更があったとき
対応しやすいようにリファクタリングしました。

同時にいくつか自己満足レベルですが細かい善を入れました。

一覧」の排除強化
リンク集?\z」の排除
シリーズ\z」シリーズ文字削除
「(放送主)」などの括弧削除
「かっこ○○かっことじ」など読みにかっこが入る括弧削除
有限会社株式会社・(有)・(株)」など削除

これでいったん放置に入ろうと思います。
👍
高評価
0
👎
低評価
0
52 ななしのよっしん
2009/05/18(月) 12:19:20 ID: WzYDOIEUoF
>>51
更新です。データいただきました。

大百科辞書構造的には今の記事名+よみがなを流用なのはかわらないとおもいますが、
グニャラくんが作成中の大百科API開されたらスクレイピングをせずともそちらを
利用すれば必要なデータが取得できるでしょうね。リダイレクト関連も負荷をかけずに
データが取れるようになるって話です。

ところでこの辞書を実際に使ってる人ってどのくらいいるんだろう。
👍
高評価
0
👎
低評価
0
53 ななしのよっしん
2009/05/23(土) 17:01:58 ID: UsYKNyq0jm
辞書ダウンロードさせていただきました
すごい便利だし、いろんな句を変換してみるだけでも面いw
「おきのどくですがぼうけんのしょはきえてしまいました」とかw
👍
高評価
0
👎
低評価
0
54 1
2009/06/11(木) 23:07:10 ID: OG6ZClLmbo
大百科の権利譲渡条項についてグニャラくん(であろう人)のコメント
http://dic.nicovideo.jp/u/530068
> 大百科の悪名高い権利移転条項は(中略)全項コピーするサイトが現れた場合に文句を言える権利を留保しておきたい、というのが意図っす。

グニャラくんくこういうことらしいので、ニコニコ大百科から辞書を作っても即怒られることにはならなさそうです。
企画が始まってすぐにを差すようなレスを書いてすいませんでした。
👍
高評価
0
👎
低評価
0
55 ななしのよっしん
2010/02/05(金) 17:12:49 ID: 4wcvBVusYg
👍
高評価
0
👎
低評価
0