1. 画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい
中国DeepSeekがトークン圧縮を目的に開発したOCRモデル。テキストを画像化してトークン化し、再度テキストに戻すアプローチで高精度を実現。3B MoEモデルで有価証券報告書や免許証の読み取りがほぼ完璧。位置検出機能も搭載し、Qwen3-VLと比較しても優位。
主なトピック:
- DeepSeek-OCR: テキストを画像化してトークン数を削減するアプローチで開発されたOCRモデル
- MoEモデル: 3Bでアクティブパラメータ0.6B、0.4Bの画像エンコーダーを搭載した効率的な構造
- 高精度OCR: 有価証券報告書の表や運転免許証を小数点やカンマまで完璧に読み取る性能
- 位置検出: <|grounding|>タグで座標を返し、特定の文字やオブジェクトの位置を検出
- Qwen3-VL比較: 8Bの画像言語モデルと比較して専門特化により精度が大幅に上回る
- その他: Transformers 4.46.3, InternVL 3.5, HuggingFace etc...
(コード例あり)
2. レガシーC#コード対比集(昔こう→今こう)
C#の急速な進化に伴うレガシーコードのモダン化ガイド。async/await、LINQ、record、Nullable Reference Typesなど、22個の実装パターンをBefore/After形式で網羅的に解説。保守性、パフォーマンス、型安全性が劇的に向上する書き方を紹介。
主なトピック:
- async/await: 従来のコールバック地獄やBackgroundWorkerから移行し可読性とデバッグ性を向上
- LINQ: 手続き型ループから関数型プログラミングへ移行し処理の意図を明確化
- record/with: 冗長なDTOクラスを簡潔にし値等価と不変性を実現
- Nullable Reference Types: null参照例外をコンパイル段階で防止し型安全性を向上
- HttpClient + IHttpClientFactory: 接続の再利用でTIME_WAIT問題を解決しDNS更新にも対応
- その他: System.Text.Json, PeriodicTimer, Dapper, RandomNumberGenerator, WinForms最適化 etc...
(コード例あり)
3. ChatGPT、ブラウザーになる 買い物代行もOK OpenAI「Atlas」公開
OpenAIが10月6日に発表したChatGPT Atlasは、AIを中核に据えたWebブラウザー。ブラウザーメモリー機能でサイト閲覧履歴を記憶し、エージェントモードでユーザー代わりに買い物やタスクを自動化。Chromiumベースで構築され、プロンプトインジェクション対策も実施。
主なトピック: