テクノロジー(Technologies)

  • トピックモデル:gensimとの比較

    これまで数回に渡ってトピックモデルについて様々な考察を行ってきましたが、今回は鳥居が実装したトピックモデルのライブラリが既存ライブラリ(gensim.ldamodel)よりも高い精度を示したので、この二つの比較について解説していきます。 ...
    鳥居健次郎
    Written by
    鳥居健次郎 (Torii Kenjiro)
    SEEDATA Technologies
  • ナイーブベイズ:Pythonによるスパムフィルタの実装

    ナイーブベイズは文書データの分類に用いられる手法で,単純な理論ながら高いパフォーマンスを誇ることで知られています.このページでは,ナイーブベイズのPythonによる実装方法を解説していきます.

    古川 拓磨
    Written by
    古川 拓磨 (Furukawa Takuma)
    SEEDATA Technologies
  • ナイーブベイズの推論プロセス

    ナイーブベイズ:カテゴリ数が一般の場合の式展開

    ナイーブベイズでは,事後確率を最大化します(MAP推定).事後確率は,尤度と事前確率の積に比例しますから,事後確率を最大化するには,尤度×事前確率を最大化します(ちなみに,事前確率を考慮にいれず,尤度を最大化するのが最尤推定です).尤度は,訓練データから最尤推定した変数から,ナイーブな仮定とイベントモデルの導入により推定します.事前確率は,訓練データからそのまま最尤推定します.最尤推定を補正するのが平滑化(スムージング)です.

    古川 拓磨
    Written by
    古川 拓磨 (Furukawa Takuma)
    SEEDATA Technologies
  • ナイーブベイズ:二項分布・多項分布に基づいたイベントモデル

     ナイーブベイズは文書データの分類に用いられる手法で、単純な理論ながら高いパフォーマンスを誇ることで知られています。SEEDATAでは、現在もアップデートが進むこの手法について独自でアルゴリズムを研究開発を進めており、こ...
    広本拓麻
    Written by
    広本拓麻 (Hiromoto Takuma)
    SEEDATA Technologies
  • トピックモデル:最適なトピック数

    トピックモデルは複数の文書データに共通のトピック群を探す手法で、文章の中で言語的に固定された単語や意味カテゴリではなく、複数の単語の共起性によって創発される潜在的意味を抽出してくれます。 前回までは、トピックモデルにおけるハイパーパラメタ...
    SD/T
    Written by
    SD/T
  • トピックモデル:文書データの粗視化とハイパーパラメタの概念的意味

    トピックモデルは複数の文書データに共通のトピック群を探す手法で、文章の中で言語的に固定された単語や意味カテゴリではなく、複数の単語の共起性によって創発される潜在的意味を抽出してくれます。今回は、トピックモデルの入力となる文書データが粗視化さ...
    SD/T
    Written by
    SD/T
  • トピックモデル:最適なハイパーパラメタとは?

     トピックモデルは複数の文書データに共通のトピック群を探す手法で、文章の中で言語的に固定された単語や意味カテゴリではなく、複数の単語の共起性によって創発される潜在的意味を抽出してくれます。このページではSEEDATA Technologie...
    SD/T
    Written by
    SD/T
  • トピックモデル:平衡状態にあるトピック群のサンプリング

    トピックモデルは複数の文書データに共通のトピック群を探す手法で、文章の中で言語的に固定された単語や意味カテゴリではなく、複数の単語の共起性によって創発される潜在的意味を抽出してくれます。このページではSEEDATA Technologies...
    SD/T
    Written by
    SD/T
  • 【丁寧に理解する機械学習手法一覧: 理論編】第一回 線形回帰と確率的な解釈

    【丁寧に理解する機械学習手法一覧: 理論編】では、データ分析に用いられる機械学習の様々な手法のアルゴリズムについて、数式を中心に丁寧に解説していきます。このページでは、SEEDATA Technologiesの古川が、最もシンプルなアルゴリ...
    SD/T
    Written by
    SD/T
  • トピックモデル:ハイパーパラメタの解釈

    トピックモデルは複数の文書データに共通のトピック群を探す手法で、文章の中で言語的に固定された単語や意味カテゴリではなく、複数の単語の共起性によって創発される潜在的意味を抽出してくれます。このページではSEEDATA Technologies...
    SD/T
    Written by
    SD/T