Форум программистов, компьютерный форум, киберфорум
Проекты
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.86/7: Рейтинг темы: голосов - 7, средняя оценка - 4.86
5 / 6 / 0
Регистрация: 18.08.2023
Сообщений: 14

Typos — поиск языков и ошибок в DOCX и XLSX

18.08.2023, 18:51. Показов 1728. Ответов 14

Студворк — интернет-сервис помощи студентам
Доделал небольшую утилиту "Typos" (MD5: 2588897ecd27f13181d2408b2a413741), проверяющую содержание docx-файлов на орфографические и грамматические ошибки: т.е. больше не требуется открывать файл > выделять нужный текст > присваивать ему соответствующий язык > и вычитывать всё, что подчёркнуто красным и/или синим. Вместо этого достаточно лишь перетащить документ на приложение и получить статистику + детализацию.


КЛЮЧЕВЫЕ ВОЗМОЖНОСТИ:

— Автоопределение языка (EN, RU) и проверка текста;

— Поддержка поочерёдной обработки нескольких файлов;

— Использование словаря исключений Microsoft Word;

— Перемещение к обнаруженной ошибке в один клик;

— Настраиваемый UI (тёмная тема, масштабируемость).

СКОРОСТЬ ОБРАБОТКИ: плавающая, но, к примеру, на стареньком Intel i5-2500 скорость составляет ~40.000 знаков в минуту.

КАЧЕСТВО РЕЗУЛЬТАТА: зависит от используемой версии Microsoft Word и встроенных в него инструментов проверки правописания и их словарей.

СИСТЕМНЫЕ ТРЕБОВАНИЯ: Windows 8/10/11 + Internet Explorer 11 + Word 2013/2016/2019/2021 + средства проверки правописания Microsoft Office (EN, RU) + интернет при первом запуске (для загрузки дополнений). Установка не нужна, права администратора не требуются, никакие данные не собираются и никуда не передаются.


p.s.
Утилита, естественно, без каких-либо претензий на что-либо, просто делюсь тем, чем пользуюсь сам, когда требуется подсветить все потенциально проблемные места после получения текстового массива из OCR и/или PDF — так что, возможно, она пригодится кому-то ещё.
2
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
18.08.2023, 18:51
Ответы с готовыми решениями:

Сохранение в файл в формате xlsx и docx
Всем привет. В общем я хочу узнать как можно в qt сохранить числа в формате файла xlsx и docx через ........ ...

Библиотека для генерирования docx и xlsx
Здравствуйте! Стоит задача генерации отчетов в docx, xlsx и pdf форматах. При чем по сути это будут одни и те же отчеты для каждого...

Как работать с файлами doc, docx,xlsx
Видел библиотеку ActiveQt, ну там про DOC я даже не понимаю как с ним раьотать, есть мейби пример, кучу времени облегчит ну или есть у...

14
45 / 38 / 8
Регистрация: 01.10.2015
Сообщений: 139
18.08.2023, 22:43
Karuzer, спасибо большое! Мне точно пригодится.
1
5 / 6 / 0
Регистрация: 18.08.2023
Сообщений: 14
19.08.2023, 08:23  [ТС]
vivka, спасибо)



Ещё чуть-чуть подробностей о приложении:

❔ Что требуется:

Internet Explorer 11 — по умолчанию идёт вместе с Windows 8.1/10/11, и вручную до/устанавливать ничего не нужно, но самое главное: конкретно в Typos он потребляет очень мало ресурсов даже с учётом CSS/JS — и именно поэтому в нём и рисуется весь UI (за исключением формы-контейнера):


Средства проверки правописания — для, собственно, поиска орфографических и грамматических ошибок на английском и русском языках в Microsoft Word:



❌ Если же вдруг что-то не установлено, то можно воспользоваться дистрибутивами с официального сайта:
ㅤ— Word 2013:
ㅤㅤㅤEN: x86 (32-bit) / x64 (64-bit)
ㅤㅤㅤRU: x86 (32-bit) / x64 (64-bit)

ㅤ— Word 2016:
ㅤㅤㅤEN: x86 (32-bit) / x64 (64-bit)
ㅤㅤㅤRU: x86 (32-bit) / x64 (64-bit)

ㅤ— Word 2019 и Word 2021:
ㅤㅤㅤссылки на загрузку для всех языков/архитектур можно найти в Microsoft Word через меню Файл > Параметры > Язык


❔ Первый запуск:

✅ Продолжительность самого первого запуска составляет почти минуту: это распаковка Python версии "3.10" в одноимённый каталог рядом с исполняемым файлом + установка двух дополнений к нему (pypi.org/project/lingua-language-detector и pypi.org/project/pywin32):


✅ Если всё нормально распаковалось и установилось, то все последующие открытия приложения занимают несколько секунд.

❌ Если же вдруг что-то зависает и/или вызывает какие-то непонятные ошибки, просто закройте приложение, удалите каталог "3.10" и запустите приложение заново. Однако, если с накопителем всё ок и доступ к интернету ничем не ограничен, то никаких проблем в процессе первичной настройки возникнуть не должно.


❔ Как выглядит:

✅ Статистика документа:


✅ Детализация ошибок:


❔ Как работает:

✅ Двойной клик по заголовку окна — развернуть приложение на весь экран (или восстановить до предыдущего размера), для установки предопределённого размера есть поддержка Aero Snap.

✅ Клик по иконке приложения в левом верхнем углу — отобразить главное меню.

✅ "Ctrl + scroll up/down" (или "Ctrl + plus/minus") — изменить масштаб (для сброса масштаба на значение по умолчанию можно использовать "Ctrl + 0").

✅ Клик по ссылке "+ добавить в словарь" — исключить данное слово из проверки, чтобы Microsoft Word не считал его ошибочным (обратите внимание на счётчик количества ошибок "=" и на порядковые номера "#" до и после клика):


✅ Редактирование (добавление, изменение, удаление) словаря исключений — в Microsoft Word через меню Файл > Параметры > Правописание > Настраиваемые словари:
1
45 / 38 / 8
Регистрация: 01.10.2015
Сообщений: 139
19.08.2023, 15:19
Спасибо за уточнения!
0
5 / 6 / 0
Регистрация: 18.08.2023
Сообщений: 14
20.08.2023, 19:59  [ТС]
0.0.0.2 (MD5: b9936e09fcdc9d6873aeb2f3a903e72e)

- исправлена ошибка открытия свёрнутых окон Microsoft Word
- удалена загрузочная заставка

p.s.
Размер приложения стал чуть меньше, запускаться приложение стало чуть быстрее)
1
5 / 6 / 0
Регистрация: 18.08.2023
Сообщений: 14
21.08.2023, 18:59  [ТС]
0.0.0.3 (MD5: 9e82502aff80a6554874c33f3add3eb6)

- исправлена всплывающая подсказка на ссылке "+ добавить в словарь"
- исправлено открытие файлов с пометкой "[Режим ограниченной функциональности]" в Microsoft Word

p.s.
❔ Небольшой FAQ:

- Почему приложение не работает в Windows 7?
- К сожалению, Python (который, по сути, является основой приложения) несовместим с Windows 7, начиная с версии 3.9.

- Почему приложение вылетает с ошибкой после старта проверки?
- Если сам файл в полном порядке и не занят, то в первую очередь нужно проверить активацию Microsoft Word — приложение не работает, если используется нелицензированный Microsoft Office.

- Документ оформлен на немецком языке, как его можно проверить?
- Прямо сейчас никак, но добавление других языков уже в процессе — следите за обновлениями.
1
5 / 6 / 0
Регистрация: 18.08.2023
Сообщений: 14
03.10.2023, 11:00  [ТС]
Обновление Typos 0.0.1.0 получилось очень большим (экспорт, фильтрация, новые языки, новый Python + масса всевозможных исправлений), поэтому опубликовал обзорную статью и записал несколько демонстрационных видео.

Помимо этого, приложение наконец-то обзавелось собственным сайтом и отдельным чатом — добро пожаловать!
1
5 / 6 / 0
Регистрация: 18.08.2023
Сообщений: 14
16.10.2023, 18:19  [ТС]
0.1.0.0 (MD5: 80661fa4786cef41754d7f4a88687129)

+ добавлена поддержка XLSX (Microsoft Excel)

- многочисленные исправления
0
5 / 6 / 0
Регистрация: 18.08.2023
Сообщений: 14
17.10.2023, 11:32  [ТС]
Обновлённая анатомия:

DOCX (Word):
поиск языков

поиск ошибок


XLSX (Excel):
поиск языков

поиск ошибок
0
5 / 6 / 0
Регистрация: 18.08.2023
Сообщений: 14
24.10.2023, 18:10  [ТС]
0.1.0.1 (MD5: 05fbebc793b88484aca3af35a1fadc5e)

+ 60 языков (к 10 уже имеющимся) для проверки правописания
0
5 / 6 / 0
Регистрация: 18.08.2023
Сообщений: 14
27.10.2023, 10:32  [ТС]
0.1.0.2 (MD5: 0c6801f5c20f7514d778034cb8e530d5)

- мелкие фиксы

p.s.
Теперь список доступных языков поиска ошибок в главном меню обновляется автоматически, и зависит от установленных средств проверки правописания Microsoft Office:
Миниатюры
Typos — поиск языков и ошибок в DOCX и XLSX  
0
5 / 6 / 0
Регистрация: 18.08.2023
Сообщений: 14
29.10.2023, 17:00  [ТС]
0.1.0.3 (MD5: a7f7545d2e7284ae6530483dc7d02ec9)

- мелкие фиксы

+ сортировка языков в главном меню по очерёдности нахождения имени
0
Эксперт .NET
 Аватар для Usaga
13523 / 9056 / 1328
Регистрация: 21.01.2016
Сообщений: 33,929
30.10.2023, 06:09
kazuser, когда публикуешь ссылку на конкретную версию программы своей, то там должна быть именно эта конкретная версия. А не как у тебя - кучка ссылок на архив с последней версией.

И для кого ты MD5-хеши публикуешь? 2023й год уже на исходе, везде HTTPS, в том числе и на твоём сайте. Этот протокол ну никак не позволит файл побить при скачивании. Кроме как, если скачку прервать. Но тогда архив и так не откроется нормально.

Какие-то подходы а-ля 90е...
0
5 / 6 / 0
Регистрация: 18.08.2023
Сообщений: 14
11.12.2023, 06:15  [ТС]
0.1.0.4 (MD5: af915288e2b9732ed3f4e3eba0c8c320)

+ поддержка Python 3.11.7

+ поддержка Lingua 2.0.0
0
5 / 6 / 0
Регистрация: 18.08.2023
Сообщений: 14
16.02.2024, 06:33  [ТС]
0.1.0.5 (MD5: 2022ff2808b8d8230ef90056b3add2c4)

+ поддержка Python 3.11.8
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
16.02.2024, 06:33
Помогаю со студенческими работами здесь

Работа с файлами в формате .doc, .docx, .xls, .xlsx
Добрый день! Подскажите, есть ли какая-то альтернатива COM-объектам для извлечения текста из форматов .doc, .docx, .xls, .xlsx? ...

Сохранение отформатированных печатных форм в .xlsx или .docx
Добрый день. Конфигурация ЗУП 2.5. Как можно передать параметры форматирования (отображения) в Excel при сохранении печатной формы ? ...

Вирус vault зашифрованы многие файлы xlsx docx dwg
Здравствуйте. По невнимательности подцепил из почты вирус vault, зашифрованы многие файлы xlsx, docx, dwg. Помогите пожалуйста с...

Рабочие файлы DOCX, XLSX, PDF и т.д. зашифрованы расширением vault
ПОМОГИТЕ РАСШИФРОВАТЬ ФАЙЛЫ. Сегодня утром на рабочем столе обнаружил файлы vault.txt, vault.key. При этом файле txt ссылает на сайт и...

Скрипт поиска слов в любых файлах, в т.ч. docx, doc, xlsx, xls
#!/bin/sh ######################################################################################################################## #...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
15
Ответ Создать тему
Новые блоги и статьи
Создаем микросервисы с Go и Kubernetes
golander 02.07.2025
Когда я только начинал с микросервисами, все спорили о том, какой язык юзать. Сейчас Go (или Golang) фактически захватил эту нишу. И вот почему этот язык настолько заходит для этих задач: . . .
C++23, квантовые вычисления и взаимодействие с Q#
bytestream 02.07.2025
Я всегда с некоторым скептицизмом относился к громким заявлениям о революциях в IT, но квантовые вычисления - это тот случай, когда революция действительно происходит прямо у нас на глазах. Последние. . .
Вот в чем сила LM.
Hrethgir 02.07.2025
как на английском будет “обслуживание“ Слово «обслуживание» на английском языке может переводиться несколькими способами в зависимости от контекста: * **Service** — самый распространённый. . .
Использование Keycloak со Spring Boot и интеграция Identity Provider
Javaican 01.07.2025
Два года назад я получил задачу, которая сначала показалась тривиальной: интегрировать корпоративную аутентификацию в микросервисную архитектуру. На тот момент у нас было семь Spring Boot приложений,. . .
Содержание темы с примерами на WebGL
8Observer8 01.07.2025
Все примеры из книги Мацуды и Ли в песочнице JSFiddle Пример выводит точку красного цвета размером 10 пикселей на WebGL 1. 0 и 2. 0 WebGL 1. 0. Передача координаты точки из главной программы в. . .
Основы WebGL. Простой треугольник
8Observer8 01.07.2025
Простой треугольник без трансформаций. Для трансформаций можно использовать glMatrix, как в примере: https:/ / plnkr. co/ edit/ qT6ZTwvncLPRamK5?preview На русском: . . .
Полиглотные микросервисы на C# и .NET
ArchitectMsa 30.06.2025
Полиглотная архитектура появилась не из желания усложнить жизнь разработчикам. Она родилась из практической необходимости решать разные задачи наиболее эффективным способом. В одном из проектов. . .
Стратегии кеширования
Javaican 29.06.2025
Кеширование — это хранение часто запрашиваемых данных в быстром хранилище (обычно в памяти), чтобы не обращаться к более медленному первоисточнику. Казалось бы, все просто. Но за этой простотой. . .
Наблюдаемость приложений ASP.NET Core с OpenTelemetry, Prometheus и Grafana
ArchitectMsa 29.06.2025
Наблюдаемость (observability) – это ключевое свойство современной системы, позволяющее понимать её внутреннее состояние на основе внешних данных. Если мониторинг отвечает на вопрос "что случилось?",. . .
Четыре главных модели отношений классов в с++
russiannick 28.06.2025
Продолжаю крестовый поход против c++. ideone. com/ юзаю для проверки валидности кода. Насчитал 4 модели отношений классов: одиночный класс, равноправные классы, слейв - мастер, терминатор. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru
OSZAR »