DXの軸となるデータ資産を作る! 第3回 活用されるAI技術1:商品属性情報の読取・抽出の自動化

第2回では、課題を放置することによる弊害と2つの課題解決アプローチ・その実例を特集しました。第3回・第4回では、AIを使った課題解決で使われるAI技術を2回に分けて特集していきます。

マクニカでは、フルカスタマイズAIサービスCrowdANALYTIXをご提供しており、その一つとして、商品分類・登録を自動化するAIのご提供をしております。
CrowdANALYTIX for Product Master Database(以降CAX PMD)は、商品登録業務を自動化するフルカスタマイズAIソリューションサービスです。機械学習・ディープラーニング・RPAを組み合わせ、商品の分類・属性情報の抽出・商品情報の構造化を高い精度で行います。お客様毎にデータフォーマットや抽出する商品属性、商品カテゴリは異なるため、お客様毎にカスタマイズをしながら個別のソリューション開発を行いご提供しておりますが、以下実際のソリューションの処理プロセスの一部・AI技術をご紹介いたします。

CAX PMDが出来ること

  1. 商品属性情報の読取・抽出
  2. 商品付加情報の推定・分類
  3. 商品属性情報の構造化、加工修正(後処理)

プロセス1:商品属性情報の読取・抽出

商品属性情報の読取・抽出プロセスでは、様々なフォーマットのデータ(Word, Excel, PDF,画像等)から商品属性情報を抽出します。この工程は複数のAIモデルの組み合わせによって処理されます。

まず、データに含まれる情報全般を検出するため、①領域検出AIモデルによる処理を行います。領域検出AIモデルは物体検出AIモデルを組み合わせ、データに含まれる情報を「画像領域」、「テキスト領域」、「ライン領域」、「テーブル(表)データ領域」などに分解し、それぞれの領域を検出します。この工程ではAI-OCRモデル等を利用するケースもあります。それぞれ検出された情報は整理され、次の工程に回されます。

次に、情報の取捨選択及び商品属性情報との紐づけを行うため、②属性分類AIモデルによる処理を行います。属性分類モデルは、画像とテキストで別々のモデルを作成しますが、それぞれ複数のAIモデルを組み合わせて処理を行います。

画像情報は、画像用の属性分類AIモデルによって、画像の種類ごとに属性分類を行います。画像の属性分類AIモデルの組み合わせの一例としては、EfficientNetとResNet等があります。

テキスト情報はテキスト用の属性分類AIモデルと正規表現を組み合わせて処理を行います。テキスト用の属性分類AIモデルは、抽出したテキストを自然言語処理AIモデルによりテキストの関連性を学習し、どの商品属性情報の内容なのかを分類します。テキスト用の属性分類AIモデルは商品属性情報毎に個別に開発します。そのため、モデル開発の手間はかかりますが、高い精度を実現します。テキストの属性分類モデルの組み合わせの一例としては、BERTとLSTM等があります。

次に、③ページレイアウト解析AIモデルによる処理を行い、テキストや画像の商品属性情報を商品毎にグルーピングします。ページレイアウト解析AIモデルは、レイアウト毎に個別に開発され、ページレイアウトに応じて商品と商品属性の紐づけを行います。例えば、テキストの商品属性情報が画像の右側に記載されている場合と画像の下側に記載されている場合は異なるレイアウトとなり、個別のAIモデルを適用する必要がありますが、テキストの商品属性情報がどちらも画像の右側に記載されていて、商品属性情報の組み合わせや並び順が違う場合は同じレイアウトとなり、共通のAIモデルで処理を実施します。

第3回まとめ

第3回特集では、商品属性情報の読取・抽出で使われるAI技術をご紹介しました。第4回では、商品付加情報の推定・分類で使われるAI技術等をご紹介します。

お問い合わせ先

株式会社マクニカ
CrowdANALYTIX 担当