自然言語処理、大規模言語モデルの活用による専門知識・データ収集への対応と化学および材料開発への応用の可能性
★2025年3月5日WEBでオンライン開講。物質・材料研究機構 吉武氏、株式会社TDAI Lab 福馬氏、シュレーディンガー株式会社 石崎氏が、【自然言語処理、大規模言語モデルの活用による専門知識・データ収集への対応と化学および材料開発への応用の可能性】について解説する講座です。
■本講座の注目ポイント
★材料科学分野における言語処理の応用、大規模言語モデルを活用した専門分野におけるQAシステムの開発、ゼロベースで機械学習などを社内展開するために不可欠な研究データの記録や活用について解説!
- 第1部 物質・材料研究機構/MatQ-lab(個人事業主) NIMS特別研究員 / 個人事業主 吉武 道子 氏
- 第2部 株式会社TDAI Lab 代表取締役社長 福馬 智生 氏
- 第3部 シュレーディンガー株式会社 エンタープライズ・インフォマティクス部 / ストラテジック・デプロイメント兼ビジネス開発マネージャー 石崎 貴志 氏
【1名の場合】49,500円(税込、テキスト費用を含む)
2名以上は一人につき、16,500円が加算されます。
定員:30名
※ お申し込み後、受講票と請求書のURLが自動で返信されます。基本的にはこちらで受付完了です。開催前日16:00までに再度最終のご連絡をいたしますので、しばらくお待ちください。請求書と受講票は郵送ではないため必ずダウンロードください。また、同時に送られるWEBセミナー利用規約・マニュアルを必ずご確認ください。
※ セミナー前日夕方16:00までにWEB会議のURL、事前配布資料のパスワードについては、別途メールでご案内いたします。基本的には、事前配布資料はマイページからのダウンロードの流れとなります。なお、事前配布資料については、講師側の作成完了次第のお知らせになりますので、この点、ご理解のほどお願い申し上げます。
※ 請求書の宛名の「株式会社」や「(株)」の「会社名の表記」は、お客様の入力通りになりますので、ご希望の表記で入力をお願いします。
※ お支払いは銀行振込、クレジット決済も可能です。銀行振込でお支払いの場合、開催月の翌月末までにお支払いください。お支払いの際は、社名の前に請求書番号をご入力ください。
※ 領収書のご要望があれば、お申込み時、領収書要にチェックを入れてください。
※ 2名以上でお申し込みをされた場合は、受講票と請求書を代表者様にご連絡します。
※ 当講座では、同一部署の申込者様からのご紹介があれば、何名でもお1人につき16,500円で追加申し込みいただけます (申込者様は正規料金、お2人目以降は16,500円となります)。追加の際は、申し込まれる方が追加の方を取りまとめいただくか、申込時期が異なる場合は紹介者様のお名前を備考欄にお書きくださいますようお願いいたします。
※ なお、ご参加手続きの際、自宅住所やフリーアドレス、個人携帯番号のみで登録された場合は、ご所属確認をさせいただくことがございます。
【本セミナーの主題および状況・本講座の注目ポイント】
■本セミナーの主題および状況(講師より)
★ビッグデータ、AI、機械学習などといった情報処理技術の進展によりマテリアルズインフォマティクス(MI)という形で膨大な数の実験や論文を解析して材料の製造方法を予測することで材料開発の効率を向上させる取り組みが活発化しております。
★自然言語処理や大規模言語モデル(LLM)による報告書からのデータ抽出が実用化に近づいておりますが、Excel方眼紙のような自由なフォーマットからの抽出は正確ではありません。
■注目ポイント
★自然言語処理技術の種類による活用法の違い、材料関連分野の文書の種類による言語処理技術活用の違いとは!?
★大規模言語モデルを活用した専門分野におけるQAシステムの開発とファクトチェックの仕組みを紹介!
★データ活用で先行する製薬研究を参考にゼロベースで機械学習などを社内展開するために不可欠な研究データの記録や活用について説明!
講座担当:牛田孝平
≪こちらの講座は、WEB上での開催のオンライン講座になります≫
【第1講】 材料科学分野における言語処理の応用展望:マテリアルズインフォマティクスの一部として
【時間】 13:00-14:15
【講師】物質・材料研究機構/MatQ-lab(個人事業主) NIMS特別研究員 / 個人事業主 吉武 道子 氏
【講演主旨】
以下のような事柄について、概要を理解していただき、自社で展開する際の参考にしていただく。
材料科学分野で自然言語処理技術を利用してどのようなことができるのか、やりたいことを実現するのにどの種類の技術を用いればよいのか、市販ツールがどのような技術を用いているのか、市販ツールを自社カスタマイズする発注の際に言語モデル的に注意すべき点、今後どのようなことができるようになると期待されるか。
【プログラム】
1.概観
1.1 マテリアルズインフォマティクス
物性値、分子構造、結晶構造、化学構造式、物性名、数式、自然言語
1.2 対象とする文書の種類と特徴
論文、特許、書籍、安全・規制に関わる法的文書、社内文書
1.3 求められる処理の種類と特徴
文書分類、検索(目的文書の抽出)、情報の抽出(文中の特定情報の抽出)
2.言語処理の種類と活用
2.1 統計処理ベース(深層学習を含む)
・TF-IDE、N-gramなど
・単語ベクトル:Word2Vec、Doc2Vec
・BERT:pre-trainingとfine-tuning
・ChatGPTなどの大規模言語生成モデル
2.2 文法ベース
・品詞解析
・構文解析/照応解析
2.3 材料関連分野に特化したモデル
a)様々なモデル
Word2Vec系:Mat2Vec
BERT系:SciBERT、BioBERT、BatteryBERT、MatSciBERT、MatBERT、MaterialBERT
b)モデル利用時の注意点
学習データ、単語辞書、モデル計算(初めからor代入)、学習条件、検証のデータ
c)言語生成AI時代のモデル評価指標
2.4 ChatGPTなどを自社知識や業界知識と組み合わせる
a) RAG(Retrieval-Augmented Generation):検索拡張生成
b) 知識グラフの利用
3.マルチモーダル化
画像などテキストとは種類の異なるデータとテキスト(自然言語)のデータとの組み合わせ
【質疑応答】
【キーワード】
文書の種類・目的別処理、材料特化型モデル、言語生成AIの自社知識適応
【講演のポイント】
最先端の大規模言語モデルの基礎となる様々な技術には、目的によってはそれぞれの技術単体あるいは組み合わせが文書処理に有効な場合がある。時と場合に応じて、材料科学へ応用するのにどの言語処理技術を用いたらよいかがわかる。
【習得できる知識】
・自然言語処理技術の種類による活用法の違い
・材料関連分野の文書の種類による言語処理技術活用の違い
・統計処理(深層学習を含む)言語処理の特徴と活用における注意点
・文法をベースにした言語処理の特徴と活用
・言語生成AIの発展形
【第2講】 大規模言語モデルを活用した専門分野におけるQAシステムの開発とファクトチェックの仕組み(仮題)
【時間】 14:25-15:40
【講師】株式会社TDAI Lab 代表取締役社長 福馬 智生 氏
【講演主旨】
※現在、講師の先生に最新のご講演主旨をご考案いただいております。完成次第、本ページを更新いたします。
【プログラム】
※現在、講師の先生に最新のご講演プログラムをご考案いただいております。完成次第、本ページを更新いたします。
はじめに
1. 背景知識
1.1 どうやって言葉を覚えた?
1.2 さらにAIは進化する
2. 専門知識・最新知識への対応
2.1 知識の外挿
2.1.1 コンテキストを用いた応答の例
3. コンテキスト長さの限界
3.1 再帰的要約(Recursive Summarization)
3.2 検索との組み合わせ
3.3 ツールの紹介
4. ファクトチェック
4.1 Hallucination
4.2 ファクトチェックの仕組み
おわりに
【質疑応答】
【第3講】 自然言語処理、大規模言語モデルによる活用可能なデータの収集に向けた課題と商用パッケージソフトを活用したインフォマティクス基盤構築
【時間】 15:50-17:05
【講師】シュレーディンガー株式会社 エンタープライズ・インフォマティクス部 / ストラテジック・デプロイメント兼ビジネス開発マネージャー 石崎 貴志 氏
【講演主旨】
材料研究では、月報や報告書への文書としての記録が中心で、活用を前提としたデータの記録や蓄積、特に失敗データの記録は少ない。近年、自然言語処理やLLMによる報告書からのデータ抽出が実用化に近づいているが、Excel方眼紙のような自由なフォーマットからの抽出は正確ではない。本講演では、データ活用で先行する製薬研究を参考に、データ記録・蓄積、データ加工、付加価値計算、幅広いユーザによる活用を可能にする仕組みについて解説する。
【プログラム】
1.マテリアルズ・インフォマティクスの現在地
1.1 MI向けソフトウェアの歴史
1.2 企業研究における一般的なMIの課題
1.3 データ駆動型研究
2.データの記録
2.1 登録システム(付番管理)
2.2 電子実験ノート/ELN
2.3 アッセイデータ管理システム
3.データの活用
3.1 研究で生じるデータの種類
3.2 Pythonなどによるデータ処理
3.3 データ計算システム
4.データ駆動型研究の実現のために
4.1 商用パッケージソフトか自社開発か
4.2 製薬研究で使うソフト
4.3 ソフトウェアベンダーの事情
【質疑応答】
【キーワード】
マテリアルズ・インフォマティクス、データ駆動型研究、電子実験ノート、機械学習、データの利活用、研究DX、社内開発
【講演のポイント】
ゼロベースで機械学習などを社内展開するために不可欠な、研究データの記録や活用について、先行する製薬会社での例を説明する。またパッケージソフトを使うメリット・デメリットについて知ることで、自社に適した手段を選択できるようになる。
【習得できる知識】
・研究データの記録のベストプラクティス
・電子実験ノートの概要
・研究データの活用方法
・パッケージソフト導入と自社開発の利点・欠点