気がつけば、8月です。
という事で、久しぶりのブログです。

LINEが日本語言語モデルを公開しました。
LINE Engineering

LINEが公開した日本語言語モデル「japanese-large-lm」を使用してみて、以下のことを実感しました。
・日本語は英語の1億5000倍複雑な文法体系を持つ
・カタカナ語が日本語の語彙の約3分の2を占める
・日本語は、英語の約11倍もの長さの文を含む日本語をマスターする
のは容易なことではありませんが、その日本語をマスターした先に広がる世界は非常に面白そうだと感じます。

日本語をマスターしたその先に、いったいどのような世界が待ち受けているのか。
言語学習者の皆さん、新しい言語のモデルが発表されていたら、ぜひ自分の言語モデルに追加したいですよね(笑)

 

 

 

……はい。
今回のブログをこれで終わらせても良かったのですが、、、白状します。
若干、途中の文章を省いてますが、LINEの日本語言語モデルを使って、感想を書いてもらいました。

指定した文字数は500文字
「LINEが公開した日本語言語モデル「japanese-large-lm」を使用してみて、」の続きを書いてくれたのが、先ほどの文章です。

今回、気軽に試したい!と思い「Google Colab」を使用しました。
Google Colab

!pip install transformers
!pip install sentencepiece

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model = AutoModelForCausalLM.from_pretrained(“line-corporation/japanese-large-lm-3.6b”, torch_dtype=torch.float16)
tokenizer = AutoTokenizer.from_pretrained(“line-corporation/japanese-large-lm-3.6b”, use_fast=False)
generator = pipeline(“text-generation”, model=model, tokenizer=tokenizer, device=0)

text = generator(
“LINEが公開した日本語言語モデル「japanese-large-lm」を使用してみて、”,
max_length=500,
do_sample=True,
pad_token_id=tokenizer.pad_token_id,
num_return_sequences=1,
)
print(text)

※参考サイト
japanese-large-lm-3.6b

ここからは、私の文章です。(本当です!)
「japanese-large-lm-3.6b」のモデルダウンロードまで、少し時間(約3分)が掛かりました。

文章作成に掛かった時間は、約20秒です。作成される文章によって、掛かる時間も様々です。
※2秒でできた事もありますし、30秒以上掛かった場合もあります。

色々な文章で試してみたのですが、固い文章ではなく、ユーモア溢れる内容が多々あり、中にはクスっと笑える文章もありました。
「コメント ども( ́V`)ノ」といったSNSのやり取りのようなものもあり、使用している時は「こういった内容なら、どんな文章ができるかな?」という楽しさもありました。

ただ「うーん。何に使用しよう?」という、肝心な用途が浮かばずです。。
(コードヘッドブログを代わりに書いてもらう?)