Система автоматического анализа скриншотов с использованием локального AI (Ollama/Llava) для распознавания интерфейсов, текстов и программного кода.
- Анализ из буфера обмена: Мгновенный захват скриншота (Win+Shift+S) и его описание.
- Анализ файлов: Поддержка прямой обработки изображений через аргументы командной строки.
- Drag-and-Drop: Просто перетащите изображение на
.batфайл для получения результата. - Локальный AI: Полная конфиденциальность — данные обрабатываются локально через Ollama (модель Llava).
- Распознавание:
- Элементы интерфейса и заголовки окон.
- Кириллический и латинский текст.
- Программный код на скриншотах.
- Ошибки операционной системы.
- Автоматизация: Все результаты сохраняются в папку
results/с меткой времени.
- ОС: Windows (тестировалось на Windows 10/11).
- Python: Версия 3.9 или выше.
- Ollama: Установленная система Ollama с загруженной моделью
llava.
-
Клонируйте репозиторий:
git clone https://github.com/drycool/Screenshot-Reading-Agent.git cd Screenshot-Reading-Agent -
Установите зависимости Python:
pip install Pillow
-
Подготовьте Ollama: Убедитесь, что Ollama запущена, и скачайте модель:
ollama pull llava
- Сделайте скриншот (нажмите
Win + Shift + S). - Запустите файл
скриншот_в_ollama.bat. - Результат появится в консоли и сохранится в папке
results/.
Просто перетащите файл изображения (.bmp, .png, .jpg) на файл скриншот_в_ollama.bat.
python clipboard_ollama.py --file путь/к/файлу.pngclipboard_ollama.py— основной скрипт обработки.скриншот_в_ollama.bat— запускной файл для Windows.results/— история анализов.memory/— контекст проекта и логи сессий.qwen.md— стандарты формирования ответов.
MIT