Chrononglyph

#7382

自動タグの具体的手法

今日の出来事本家ブログ移転計画

4代目ブログ開設にあたってのマストは「機械学習による自動タグ付与」と考えてきましたが、
これもざっくりとした願望をただタスクとして横流ししているだけのように思われ、
具体的にどうやってChatGTPのような生成AI(=LLM)を活用してタグを付与するのか、
お風呂に浸かりながらちょっと考えてみました。


たとえば、2005年のアーカイブには『メテオス』のプレイ日記が大量にあります。
これらは当然「メテオス」というタグを付与してほしい。
記事内検索で「メテオス」という単語があればタグを付与する、という仕組みなら人力でも作れますが、
問題はゲームタイトルに必ずしも言及しているわけではないということです。
『メテオス』という単語は出てこないが、チャレンジモード「ヘブンズドア」については言及しており、
人が読めば明らかに『メテオス』のプレイ日記と分かるものも「メテオス」タグが欲しい。
一方、例えば今日の記事にはこのように「メテオス」という単語は登場しますが、
一例として挙げただけで明らかにプレイ日記ではありません。こういう場合はタグは付与したくない。


ここでまず、「メテオス」と「ヘブンズドア」のような親子関係にあるキーワードを紐付け、
どのキーワードをタグとして採用するかどうかを定義する必要が出てきます。
そしてそれは親子関係それぞれが世間に広く普及しているならともかく、
『メテオス』の例のようにゲームの固有名詞についてLLMが判別するのは困難でしょう。
というわけで、まずこのキーワード間の紐付けについてはある程度人力作業は不可避。
これが要するにタグつけ作業なので、当初想定していた全自動でのタグ付けはそもそも不可能であり、
相当の時間を使って自分が人力でやる必要があるということです。
まあ、各キーワードのざっくりとした分類はAIにもできるかもしれませんが……。


そしてもうひとつ、いま書いているこの記事にはメテオスという単語は出現するものの
『メテオス』のプレイ日記ではないのでタグはつけないと言ったように、
記事の主題を読み取って適切なキーワードを抽出するという作業が必ず発生します。
2014年の3代目移転でいままでタグが存在しなかったアーカイブに人力でタグを付与した際は、
この作業も人力でやりました。読まないと分からないので当時にして3800本の記事をすべて斜め読みしたわけです。
それですら1年以上かかったのに7300本ある現状で同じことができるはずがありません。
これはプログラムに頼らざるを得ないのでどうにか自動化する方法を探したいところ。
LLMでも、記事を食わせてキーワードだけ出力するというのはできる気がします。
ただ、そのためには最低限強化学習の方法を把握する必要はありそう。
ChatGTPのプライベートモードでやるにしろ自前で環境構築するにしろ、ハードルは高そうです。
前者は課金が必要になってくるし、
後者はMacbook Proですら生成が非常に遅いため時間的制約に困ることになる可能性があります。
プライベート(内容をChatGTP本体へ送信しない)で運用できるなら
月2,000円程度なら一時的に課金しちゃった方が諸々の面で良さそう。GTP-4も試せるし。


まあいずれにしろタグ付与問題はこれだけで数ヶ月は要する大きなタスクということです。
そもそもアーカイブの大半は引き続き公開しないことにする可能性大なので
今回の移転に合わせてやる必要もないと言ってしまえばそれまでですが、
まあできるかぎり足掻いてみようと思っています。



同じタグを含む記事(本家ブログ移転計画
#7536ブログの保存先をGitHubへ』(2024/08/04
本家ブログ移転計画今日の出来事
#7524ブログの立ち位置の変化』(2024/07/23
本家ブログ移転計画今日の出来事
#7491ブログ活動と問題解決プロセス』(2024/06/20
本家ブログ移転計画問題解決の問題今日の出来事
#7382自動タグの具体的手法』(2024/03/03
本家ブログ移転計画今日の出来事
#7348CMSレスという方針』(2024/01/29
本家ブログ移転計画今日の出来事
#5340三度の移設妄想』(2018/08/06
本家ブログ移転計画web制作
#3863HP移転計画』(2014/09/01
ブログ執筆環境旧今日の出来事本家ブログ移転計画web制作
#3857黒歴史検査の終着点』(2014/08/28
wordpress旧今日の出来事本家ブログ移転計画web制作
#3853新たなる不発弾』(2014/08/24
会社全国高校野球大会旧今日の出来事本家ブログ移転計画web制作, 今日の出来事, 文化
#3851夏の終わりに現れた兎』(2014/08/22
pc環境旧今日の出来事本家ブログ移転計画表計算ソフトweb制作, デジモノ
#3845秘密基地の夏 #3』(2014/08/16
旧今日の出来事本家ブログ移転計画web制作
#3829決闘者の魂込め』(2014/07/31
magic-the-gathering旧今日の出来事本家ブログ移転計画web制作, 文化
#3828雑文を縛り続ける』(2014/07/30
ゲームプレイ雑記旧今日の出来事本家ブログ移転計画web制作, ゲームのプレイ日記
#3787看板の確保』(2014/06/20
旧今日の出来事本家ブログ移転計画web制作
#3779興味の散乱』(2014/06/13
wordpress旧今日の出来事本家ブログ移転計画web制作
#3778興味の鎖』(2014/06/12
wordpress旧今日の出来事本家ブログ移転計画web制作
#3771象徴の欠片を集める』(2014/06/06
ゼルダの伝説-風のタクトhd旧今日の出来事本家ブログ移転計画web制作, ゲームのプレイ日記
#3757ちぎれる日課』(2014/05/24
ピクミン3旧今日の出来事本家ブログ移転計画web制作, ゲームのプレイ日記
#3696九年前の正義』(2014/03/24
タイトル修正済みの記事旧今日の出来事本家ブログ移転計画長期振り返りweb制作, 空想
#3694日記移住計画の初歩』(2014/03/22
外部リンクを含む記事旧今日の出来事本家ブログ移転計画web制作
#3617逆走再び』(2014/01/05
minecraftブログの後日投稿問題旧今日の出来事本家ブログ移転計画web制作, ゲームのプレイ日記, 自分
#3582錆び付いた指先』(2013/12/01
ブログ運営旧今日の出来事本家ブログ移転計画web制作
#3357再統合構想』(2013/04/22
webサイト運営旧今日の出来事本家ブログ移転計画遊戯王ocgweb制作, 文化
#3348感覚で書く』(2013/04/13
ブログ執筆旧今日の出来事本家ブログ移転計画web制作
#3342黒歴史検査』(2013/04/07
作業計画の問題旧今日の出来事本家ブログ移転計画web制作, 自分
#3338盲目の意欲』(2013/04/03
ゲームプレイ環境旧今日の出来事本家ブログ移転計画web制作, ゲームのプレイ日記
#3282濁っていくこだわり』(2013/02/06
旧今日の出来事本家ブログ移転計画web制作
#3277印を付ける為の逆走』(2013/02/01
旧今日の出来事本家ブログ移転計画web制作
#2974傲慢な作業意欲』(2012/04/08
ブログの文字数動画エンコード旧今日の出来事本家ブログ移転計画web制作, デジモノ
#2966本流を狂わす竜巻』(2012/03/31
skype旧今日の出来事本家ブログ移転計画web制作, 文化
#2956揺らぐシンボル』(2012/03/21
ハンドルネーム旧今日の出来事本家ブログ移転計画web制作, 空想
#2881移転妄想』(2012/01/08
旧今日の出来事本家ブログ移転計画web制作
#2852細っていく歴史』(2011/12/11
ブログの後日投稿問題旧今日の出来事本家ブログ移転計画楽天ブログweb制作, 自分
#1674未来の白い居場所』(2008/10/23
旧今日の出来事本家ブログ移転計画生活リズムの問題web制作, 自分
前後の記事
#7351現状棚卸し 2024年02月』(2024/02/01
現状棚卸し今日の出来事
#7352パルワールド雑感』(2024/02/02
パルワールドpcゲーム今日の出来事
#7353キャプチャボード壊れた』(2024/02/03
キャプチャーボード今日の出来事
#7354財布のアクセス性』(2024/02/04
財布今日の出来事
#7355都内積雪と防災意識』(2024/02/05
積雪今日の出来事
#7356カフェ激戦区』(2024/02/06
府中今日の出来事
#7357寝逃げでリセットリミックス』(2024/02/07
アニメソング今日の出来事
#7358乱立するSNSの使い分け』(2024/02/08
sns今日の出来事
#7359ゲーマーに向いていない』(2024/02/09
ゲーム一般今日の出来事
#7360都心に行くだけで充実感』(2024/02/10
外出イヤホン今日の出来事
#7361ブログという読みもの』(2024/02/11
ブログの価値今日の出来事
#7362CDを買う意味』(2024/02/12
音楽一般今日の出来事
#7363フリーミアム失敗と改悪』(2024/02/13
スマートフォンゲーム今日の出来事
#7364音楽ジャンルの形骸化』(2024/02/14
音楽ライブラリ今日の出来事
#7365浪費とメンタルの関係性』(2024/02/15
意欲の問題今日の出来事
#7366三度Apple Arcade契約へ』(2024/02/16
apple-arcade今日の出来事
#7367レガシーなスマホは入手困難』(2024/02/17
iphone今日の出来事
#7368キーボードの結論』(2024/02/18
キーボード今日の出来事
#7369奥の深いダンドリバトル』(2024/02/19
ピクミン4今日の出来事
#7370NFTゲームの可能性に賭ける』(2024/02/20
暗号資産今日の出来事
#7371仕事にモチベーションは要らない』(2024/02/21
キャリアプラン今日の出来事
#7372仕事用スマホが欲しい』(2024/02/22
スマートフォン今日の出来事
#7373出社の必要性』(2024/02/23
仕事の反省今日の出来事
#7374上野公園でシンオウイベント』(2024/02/24
ポケモンgo今日の出来事
#7375煩雑な仮想ウォレット管理』(2024/02/25
暗号資産今日の出来事
#7376恋愛観の整理』(2024/02/26
恋愛観今日の出来事
#7377ブロックチェーンゲーム解禁』(2024/02/27
ブロックチェーンゲーム今日の出来事
#7378エルフの森へ先行投資』(2024/02/28
ブロックチェーンゲーム今日の出来事
#7379レガシー端末新調』(2024/02/29
iphone32bitスマートフォン今日の出来事
#7380現状棚卸し 2024年03月』(2024/03/01
今日の出来事
#7381コワーキングスペース解約』(2024/03/02
コワーキングスペース今日の出来事
#7382自動タグの具体的手法』(2024/03/03
本家ブログ移転計画今日の出来事
#7383マイナー言語でゲーム開発』(2024/03/04
ゲーム制作今日の出来事
#7384実現できない空想にも意味はある』(2024/03/05
空想と現実今日の出来事
#7385追加投資と資金調達率』(2024/03/06
暗号資産今日の出来事
#7386計画管理アプリの再移行』(2024/03/07
デジタル計画管理今日の出来事
#7387高すぎるガス代』(2024/03/08
暗号資産今日の出来事
#7388やる気皆無時の気分転換手段』(2024/03/09
意欲の問題今日の出来事
#7389セキュリティの最終防衛線』(2024/03/10
32bitスマートフォン今日の出来事
#7390ながら作業としてのレベル上げ』(2024/03/11
minecraft今日の出来事
#7391パトロンサイトの転載問題』(2024/03/12
創作界隈今日の出来事
#7392世界サーバーへの接続制限』(2024/03/13
minecraft今日の出来事
#739313ヶ月ぶりの査定面談』(2024/03/14
仕事今日の出来事
#7394レトロゲームの定義』(2024/03/15
レトロゲーム今日の出来事
#7395マルチプラットフォーム問題が決着?』(2024/03/16
ゲームその他今日の出来事
#7396第13回自宅ゲーム会』(2024/03/17
小規模イベント今日の出来事
#7397Mini Metro復帰』(2024/03/18
mini-metro今日の出来事
#7398慢性的にパフォーマンスが低い』(2024/03/19
飲酒今日の出来事
#7399中途エンジニアの悪循環』(2024/03/20
キャリアプラン今日の出来事
#7400続・努力できない人の話』(2024/03/21
信念の問題独り言
#7401カタログを探しに昭島へ』(2024/03/22
レトロゲーム今日の出来事
#7402エンチャントは必要ない?』(2024/03/23
minecraft今日の出来事
#7403レトロフリーク再販』(2024/03/24
レトロゲーム今日の出来事
#7404アーリーリタイアの目標』(2024/03/25
長期計画今日の出来事
#7405ジャイロ操作の新たな真実』(2024/03/26
ピクミン2今日の出来事
#7406分譲マンションを買うべきか』(2024/03/27
長期計画今日の出来事
#7407自分に期待しないということ』(2024/03/28
自尊心の問題今日の出来事
#7408マルチプレイゲームを探す』(2024/03/29
ゲームその他今日の出来事
#7409落ちてくるナイフを掴む』(2024/03/30
暗号資産今日の出来事
#7410レトロゲームは高価だった』(2024/03/31
レトロゲーム今日の出来事