西川和久の不定期コラム
AIとGPUで染まった1年!2023年を振り返る
2023年12月28日 06:24
2023年扱ったもの
今年本連載で扱ったのは計47本で以下の通り。去年(2022年)も例年とは少し異なっていたが、今年はさらに傾向の違うものとなった。
PCとノートPC、そしてタブレットはほぼ変わらずだが、10本以上書いていたスマートフォンがたった2つになり、かわりにGPU関連、LLM、そして生成AI画像が大幅に増えている。記事の内訳は以下の通りだ。
- PC×13
- Note PC×9(うちChromebook×1)
- タブレット×6(うちAndroid×5、Windows×1)
- スマートフォン×2
- GPU関連×6
- LLM×4
- 生成AI画像×6
- その他(ストア版WSL2)×1
スマートフォンに関しては、今年買い替えてないことから分かるように、個人的な興味の対象から外れてしまったのが大きい。もちろん新しい機種ほど速く、そしてカメラも綺麗に写るものの、この数年以内の機種であればバッテリさえ弱ってなければ十分使える。現在、メインはGalaxy Z Flip4だが何一つ困っていない。
かわりに興味の対象となったのがAI関連。面白いことに2022年の記事では全く触れていないカテゴリだ。実際はLLMなどもお試し期間があり、もう少し早いタイミングから触れていたが、3月に掲載した記事から始まっている。
以降はご存知のようにGPUを入れ替えたり、外付けGPUボックスを使ってAI用PCを新たに組んだり、また新しい技術を試してみたりと、AI関連一色だった。ここでは、自作PC/画像生成AIネタ以外で印象に残ったものをいくつかピックアップした。
まず何と言ってもLLM、その代表格のChatGPTだろう。たとえばモデムが光ファイバーに、フィルムカメラがデジタルカメラに、ガラケーがスマホにと、これまであった何かの置き換えは数多く存在したが、このLLMに関しては(試験的なものを除き)広く一般に使われるようになったのは今回が初だろう。そして一気に世の中が変わってしまった。すでにこれなしでは仕事にならない人も多いのではないだろうか。
ただ個人的にLLMに関しては少し熱が冷め気味。理由は単純で尋ねることが無いからだ。筆者の場合、主な仕事は、IT関連の開発と執筆。前者に関してはたまに尋ねたりするものの、PHPなどあまり変わらないものはいいのだが、言語やライブラリによっては移り変わりが激しいものがある。たとえばPythonのGradioなどは、コードは出るが学習したタイミングのものではすでに古く、実行するとエラーになったりする。
後者は書く対象が最新の話ばかりなので、そもそも学習しておらず、ネットから引っ張ってくると違うものを引っ張ったりするので使えない(もしくは確認が面倒)。またこれとは無関係に”AIに書いてもらおうなど微塵も考えてない”のでこの用途では使うこともない。
企画やマーケティング、翻訳や要約することが多いなどの仕事がメインであれば、また違う話になるのだろうが、個人的にはこのような感じだ。
Intel N100プロセッサに関しては、結構前から存在を知っていて、意外とパフォーマンスがいいといった記事などでは読んでいたが、実際に触ったのは6月のこのタイミング。本当に第6〜7世代のモバイル用Core i5並の速度が出たので驚いた。おそらく普段使いであれば多くの人はこれで十分ではないだろうか。できれば外装(見た目)やパネルなど各コンポーネントがミドルレンジ以上のモバイルノートPCが欲しいところだ。
去年もOLED搭載ノートPCを数台ピックアップしたが今年は1台だった。パッケージから取り出し、パネルを開いて電源オン、画面を表示した瞬間に「お!」っとなるのがOLEDの特徴で圧倒的に綺麗だ。OLED搭載のデバイスは手持ちではAndroidタブレットだけなので、来年はノートPCもしくはモニターで1台欲しいと思っている。
今年も10台以上の(ミニ)PCをご紹介したが、イチオシは何と言ってもこれだろう。まず、そのままでパフォーマンス抜群、内容を考えると価格も安い。加えてOCuLinkで外部にGPU接続可能と、執筆時では最強だった。OCuLinkに関しては記事でGeForce RTX 3090を接続してテストもしたが、Thunderbolt 3/USB4接続より良好で文句なしだ。来年はCore Ultra搭載のミニPCを期待したい。
趣味関連
今年購入したのは以下の製品。GPU関連以外は何も買ってないと言うめずらしい年となった。スマホも冒頭に書いたようにGalaxy Z Flip4のままで、周辺機器やカメラ関連もなし。去年いろいろ揃えたので特に……といった感じだ。
GPU関連にハマったきっかけは、2月頃に別件で検索していたところ妙な画像を発見したこと。調べるとStable Diffusionを使った生成AI画像だった。グラビアを撮っていただけに、この手の画像は嫌いではなく(むしろ好き)、当初、手持ちのマシンでGPUが一番強いMacBook 14 Pro(M1 Pro搭載)で生成していた。
動くには動くものの、Stable Diffusion 1.5(SD 1.5)で1枚約40秒と結構な時間がかかる。そこでGoogle Colabへ引っ越して、1枚がGoogle Colabで約6秒、Google Colab Proで約3秒と、飛躍的に速くなった。
ただ、実際使い出すとファイルの設定やらいろいろ面倒なことがあり、「やはりローカルに速い環境が欲しいな……」と思ったらもう止まらない。GPUはしばらく編集担当のGeForce RTX 3070 Tiをお借りできることになり、GPUボックス「AKiTiO Node Titan」を購入した。
今思えばこれがそもそもの回り道。無理してでもPCを1台組むべきだった(笑)。というのも、日頃からそれなりの大きさのケースに入っているPCを使っていれば、ビデオカードを挿すだけで済むのだが、手持ちはもうミニPCばかりなのだ。
だが、新たにPCを用意する予算もなく、考えた末、Thunderbolt 3/USB4接続のeGPUを選択した。電源/ケース/インターフェイスの構成になっており5万円ほどするが、それでも新規でそれなりのPCを組むよりかなり安い。
USB4接続だとPCとの相性があるものの、無事動作し、速度はGoogle Colab Proと同等で十分な結果となった。いつまでもGPUをお借りしているのもと思い、 3月末にGeForce RTX 4070 Tiを購入し、生成速度も少し向上している。
この後、GeForce RTX 4090内蔵のGPUボックス「GIGABYTE GV-N4090IXEB-24GD」をお借りしたり、GPUボックスキットへRTX 3090を載せたりといろいろした結果、どうしてもRTX 4090が欲しくなり、PCを自作して、それにRTX 4090を乗せたのが以下の記事だ。もう2カ月以上、ほぼ電源を付けっぱなしだが、ノートラブルで調子よく動作中。GPUボックスを使わず最初からこうしておけば……と思っても後の祭りだ。
このGeForce RTX 4090の購入についてだが、今は大幅に値上がりしており、いいタイミングで購入した。一見衝動買いに見えるが、実は3月末に「次はRTX 4090!」と思って以降、夜一切飲みに行かず貯金していた。計画的だったりする(笑)。
こうしてRyzen 9搭載ミニPC:Windows 11+GPUボックス+RTX 3090(編集担当からの借り物)と、Core i7-12650H搭載自作PC:Ubuntu 22.04+RTX 4090の2台が揃った。どちらもVRAM 24GBで一般向けとしては最強の環境だ。前者は主にLLMとWindows環境でしか使えないアプリ、後者は生成AI画像専用で運用中だ。
番外編として、20年以上使っていたU-NEXT光01(旧Broad Gate01、100Mbps)のサービス停止に伴い、フレッツ光マンションタイプの1Gbpsへ乗り換えた。すでにマンションへフレッツ光が引き込まれており、工事自体は簡単だったが、もともと固定IPアドレスだったので、自宅サーバーや仕事の接続先でIPアドレス制限をしていたのを全部修正する必要があり、こちらの方が手間取った。
固定IPアドレスはオプション対応だったので追加したが、2024年1月まで880円/月なのが2月から1,980円/月と倍以上の値上げになる。仕事柄必要なので仕方ないものの、これはやり過ぎでは? と感じるところだ。
自宅サーバーは全てXserver VPSの2GBプランへ引っ越した。3コアCPU、メモリ2GB、SSD 50GBで580円/月と、結構安く、またスピードも個人のサイトなら十分以上だ。Mastodonだけ引っ越しが面倒なので閉じてしまったが、ほかは全て移行した。
以前は回線費だけで済んでいたのが、回線費+固定IP+外部サーバーとなり、トータルで月額は少し上がってしまったものの、回線速度は圧倒的に速くなった。AI関連のモデルは数GBあるのだが、あっという間にダウンロードでき、これはこれで満足している。
気になった業界動向(特にAI関連)
これは去年に引き続き円安だ。去年のまとめ記事で「執筆時点では1ドル137.33円」と書いていたが、今は一時期より少し高くなったとはいえ、142〜143円ぐらいで、更に安くなっている。コンビニでの買い物でさえかなり影響があり、ちょっとしたPCやスマホが10万円超えるのが普通に。といって収入が上がっているわけでもなく、困った状態が続いている。来年は安くなるのか、高くなるのか。
明るい話題としては、少し前にIntelが発表したCore Ultraだろう。筆者自身はまだ触ったことがないのだが、いろいろ読んだ記事によると”Stable Diffusionでの画像生成が10秒ほど”とあった。おそらくSD 1.5で512×512だと思うが、これだとGeForce GTX 1080あたりに相当する(=RTX 3060と比べて約2倍遅い)。この点は来年、実機を試用する機会があったら試したい。いずれにしても従来より高性能で省エネ。期待したいことろだ。
そしてAI関連。LLM、生成AI画像に動画も音もと、追いきれないほど山盛りの発表があった。
まずLLMに関しては、ANOBAKAから「大規模言語モデル(LLM)カオスマップ」2023年度6月版が公開されており(6月7日に公開)、これを見るのが一番分かりやすい。ダウンロード用のフォームがあるので誰でも閲覧可能だ。
掲載した図はその一部なのだが、非常に分かりやすく整理されており、馴染みの名称も多く並んでいる。一般的にはOpenAI GPT-4、個人的にはMeta LLaMA(Code LLaMA)となるだろうか。ただ6月までのものなので、GoogleのGeminiやイーロン・マスクのGrokなどは含まれていない。イーロン・マスクに関しては相変わらず迷走しているので、特にここで触れないが(笑) 。
いずれにしても、MicrosoftのCopilotなども含め、LLMは随分身近なものになりつつある(なった)と言うのが2023年の感想だ。
次は生成AI画像関連。全部は書き切れないので、huggingfaceのトレンディングTop 10(12月21日)が載っているものを参考にした。
Top 10 trending in text-to-image on the@huggingfaceHub:
— apolinario (multimodal.art) (@multimodalart)December 20, 2023
1️⃣ SDXL Turbo by@StabilityAI🏎️💨
2️⃣ DPO SDXL by@meihuadang⚙️⚡
3️⃣ Playground v2 by@Suhail's Playground 🛝
4️⃣ Stable Diffusion v1-5 by@runwayml🎨
5️⃣ Stable Diffusion XL by@StabilityAI🌌🔍
6️⃣ OpenDalle by…pic.twitter.com/0Nipc0thKs
- SDXL Turbo by @StabilityAI
- DPO SDXL by @meihuadang
- Playground v2 by @Suhail's Playground
- Stable Diffusion v1-5 by @runwayml
- Stable Diffusion XL by @StabilityAI
- OpenDalle by @DataPlusEngine
- IP Adapter Face Id by xiaohu
- DPO SD 1.5 by @meihuadang
- SDXL DPO Turbo by @thibaudz
- Segmind Vega by @_segmind
Step数を減らし高速化するTurboなど、いくつかは連載でも紹介しているが、未紹介のものを簡単に説明すると、DPO(Direct Preference Optimization)とPlayground v2、OpenDalleやSegmind Vegaは、SD 1.5やStable Diffusion XL(SDXL)のベースモデルをよりよく(もしくはより美しい、より芸術的)チューンしたモデルだ。
IP Adapter Face Idは簡単に言えば顔入れ替え。ただ現在SD 1.5版のみでSDXL版はなく、結果は大して似ない。デモ用UIがあるので試すことも可能だ。
おそらく少し前なら1枚の画像から短い動画を作るSVD(Stable Video Diffusion)がリストアップされていただろう。動画も今年後半はいろいろな発表があり、全く追いきれてない。
個人的に興味があるのは、Alibabaが発表したOutfit Anyone(衣服着せ替え)。現時点でコードやモデルが未だ出ておらず、論文とデモ用UIのみが公開されている。
Stable Diffusionは基本、「こんな感じ」のイメージ的なのは得意なのだが、広告などで必要となる学習した物や衣服など(つまり売りたいもの)の100%の再現性はなく、そのままでは使えない。パルコがAIを使った動画、「2023 PARCO HAPPY HOLIDAYS」を出していたが、あくまでもイメージで具体的な商品などがないので成立しているだけの話だ。
これが着せ替え可能となるとECサイトなどへのインパクトは大きい。ただ、この手のものは、実際ローカルで動かさないと信用できないので、コードとモデルが出るまで待ちの状態となる。
高速化の極みとしては、ほんの数日前にリリースされたStream Diffusionと言うのがある。これはStable Diffusion Turboを使い、GeForce RTX 4090なら100fps以上が出るという、とんでもない速度で画層生成できる技術だ。この速度ならたとえばWebカメラの映像をリアルタイムで画像変換することも可能だろう。まだ試してないので正月休み中にローカルで動かし、来年1発目はこの記事を書くかもしれない。
最後に、3月14日に掲載した記事中で、「いずれにしてもこれは2023年現在の技術。CGっぽいのはおそらく数年内に解決するだろう」と書いているが、数年内どころか年内でけりがついてしまった(笑)。以下が、その記事内に掲載した画像と、今現在のSDXLを使った画像だ。AIで作ったと前置きがあればやっぱり……と言う人もいるが、何も触れずInstagramなどに載っているとまず気付かないレベルではないだろうか。
データは、モデルにCherryPickerXL_v27、LoRAにeye_catching :1、sd_xl_dpo_lora_v1_128dim :1、LCMTurboMix_DPM_SDE_Karras :1、自作顔LoRA : 0.4を使い、Step 6 / CFG 1.8で生成、FaceDetailerで顔のみ詳細描画、FreeU V2、Kohya's HiresFixで一気に1,920×1,280を作っている。
参考までにLCMTurboMix_DPM_SDE_Karrasは、既存のモデルをLCM化するもの、sd_xl_dpo_lora_v1_128dimは上記したDPOのLoRA版だ。Kohya's HiresFixは一般的にSDXLは1,216×832、1,024×1,024など推奨解像度があり、これ以上の解像度、たとえばフルHDはアップスケールする(そうしないと超胴長だったり顔が複数などオカルト的な絵になる)。この場合高度な水増しといった感じとなるのだが、Kohya's HiresFixは、アップスケールせずいきなりフルHDの解像度が出せるため、より質感が向上する。
これらをComfyUIというアプリで自作ワークフローにして使用。ご覧のようにかなりマニアックだが、ノードを組み合わせて自分の希望するワークフローを組めるのでAUTOMATIC1111より自由度が高い。
以上、今年2023年を思いつくまま振り返って書いてみた。特にAI関連は進歩/進化が凄まじく、数カ月前はもう昔話になる。たった半年ちょっとで大きく変わったこともあり、2024年どうなるかなど全く予想ができない(=楽しみだ)。