台風が立て続けに押し寄せたり、なかなか落ち着かない天候が続いていますね。猛暑だった気温もようやく落ち着いてきましたが、いかがお過ごしでしょうか。
私は変わらず、生成AIを活用した業務に取り組んでいます。
最近では、生成AIとのやり取りにおけるコンテキスト長(トピックごとの対話の合計長)が、20万トークンから100万トークン規模にまで拡大し、活用の幅が大きく広がっています。
その結果、PubMedの論文も数十万件単位で絞り込んでデータベース化し、研究の流れなどを分析できるようになりました。さらに、エージェント化によって、これらの作業を定型的に自動化することも可能になっています。
ただ、現状の生成AIを日本語で使う場合、英語と比べて「燃費」が非常に悪いという課題があります。英語では単語単位で1トークンとカウントされるのに対し、日本語では文字単位でトークンが消費されるため、同じ内容でも4~5倍の速さでトークン数を消費してしまいます。
そのため、日本語で20万トークンのシステムを使ってプログラミングや解析業務を行っていると、すぐに利用制限に近づいてしまい、プロンプトの圧縮などの工夫が必要になります。一方、英語利用者は、同じ制限内でも80万~100万トークン相当のAIを使っている感覚で利用できているわけです。
この「燃費の差」は、実務上も非常に大きな影響を与えていますね。。。

