新着情報 テーマカテゴリ 全カテゴリバイオテクノロジー医学・薬学農林水産・食品環境・エネルギー素材機械情報・通信エレクトロニクス航空・宇宙大気・海洋経済・経営・政策・法律土木・建築社会・文化・教育基礎科学 ごあいさつ ご利用にあたり 検索方法 プライバシーポリシー ご意見・ご質問 実例集 見つからない場合は? DUCRホームページへ トップページ geta_logo
print
印刷時に縮小されてしまう場合などにご利用ください。

整理番号 4595   (公開日 2008年07月25日) (カテゴリ 情報・通信経済・経営・政策・法律
テキストデータベースからの用例検索
●内容 組織内から収集したテキストデータに対して、単語や複合的な表現を与えると、それらを含む用例を検索し、統計的に整理して表示する技術を開発した。同時に、検索する単語と類似した意味を持つ(より正確には類似した使い方をされる)単語のリストも表示する。これによって、より絞り込んだ質問や、類似の意味での検索もできる。この技術の特徴は大きな辞書を持つのでなく、Suffix Arrayというデータ構造を利用している点であり、この方法により高速アクセスを実現した。
曖昧な情報から類似する情報の提供を受け絞り込むようなケースで有用な技術であり、適用例としては、大規模組織内における類似製品に関する情報収集や特定領域の知識を有する人材の発掘などが考えられ、企業等における更なる利用拡大を望む。
●研究者
教授 中川 裕志
情報基盤センター 学術情報研究部門
大学院情報学環 先端表現情報学コース
助教 吉田 稔
情報基盤センター 学術情報研究部門
●画像


クリックで拡大

「用例検索システムを東京大学のWebページ全体に適用した例の画面」
東大内部からクロールして収集したWebページに対して、「シンポジウム」で検索した結果。上の窓に「シンポジウム」と類似した意味の単語「ワークショップ」などが表示されている。
(C) 中川裕志、吉田稔
mail
上記内容は、各研究者へのインタビューをもとに東京大学 産学協創推進本部で骨子をまとめたものです。
本件に関する共同研究等のお問い合わせは、左のバナーをクリックしてください。スタッフがお問い合わせをお受けいたします。