Pages in topic:   [1 2] >
Паразитные символы в Word -- "уголки" и "окошки"
投稿者: Alexander Grabowski
Alexander Grabowski
Alexander Grabowski  Identity Verified
ウクライナ
英語 から ロシア語
+ ...
Aug 9, 2014

После распознавания текста и в результате работы программы Trados в документе Word появляются "паразитные" символы "уголки" и "окошки". Они не ищутся и не удаляются по контексту автоматически, удаляются только при помощи клавиш del или backspace. Не подскажете, как их удалить автоматич... See more
После распознавания текста и в результате работы программы Trados в документе Word появляются "паразитные" символы "уголки" и "окошки". Они не ищутся и не удаляются по контексту автоматически, удаляются только при помощи клавиш del или backspace. Не подскажете, как их удалить автоматически?


Здесь две разные проблемы. Первая проблема. После распознавания программой ABBYY Fine Reader на местах переносов слов появляются символы-уголки, похожие на повернутую букву Г. Втора проблема. После перевода ТРАДОСОМ 2007 либо 2011, после того, как сгенерирован выходной файл doc (docx), иногда попадаются символы-окошки.

https://cloud.mail.ru/public/a8977840ce63/УГОЛКИ.png

https://cloud.mail.ru/public/5141da138c04/ОКОШКИ.png

Спасибо!

[Редактировалось 2014-08-09 11:39 GMT]

Спасибо, Натали, большое! С уголками ок. Что касается окошек, то они появляются после перевода Традосом не в контексте какого-либо процесса распознавания, а также при переводе готовых doc -- файлов. Смотрите тж. пож-та мои скриншоты. Вот такие мои вопросы.

[Редактировалось 2014-08-09 11:47 GMT]
Collapse


 
Sergei Leshchinsky
Sergei Leshchinsky  Identity Verified
ウクライナ
Local time: 14:14
2008に入会
英語 から ロシア語
+ ...
скриншот Aug 9, 2014

в студию!

 
esperantisto
esperantisto  Identity Verified
Local time: 15:14
2006に入会
英語 から ロシア語
+ ...
SITE LOCALIZER
Больше информации! Aug 9, 2014

a_grabo wrote:

После распознавания текста


Чем распознавали? В какой формат сохранили результат? С какими параметрами?

в результате работы программы Trados


Под общей торговой маркой Trados существуют совершенно разные программы. О какой именно речь?

в документе Word появляются "паразитные" символы "уголки" и "окошки".


Появляются где? В Trados? В Word (опять же, какой версии)? В других программах? А на печать выводятся? Стоит выложить куда-нибудь пример файла (снимок экрана хорошо, но далеко не всегда достаточно).

P. S. А ещё есть смысл научиться задавать вопросы по-умному.


 
Enote
Enote  Identity Verified
Local time: 15:14
英語 から ロシア語
Распознавание Aug 9, 2014

а не лучше ли распознавать текст в изображении специальной программой, типа Abbyy FR, а не программой CAT, которая вообще-то предназначена для другого?

 
Sergei Leshchinsky
Sergei Leshchinsky  Identity Verified
ウクライナ
Local time: 14:14
2008に入会
英語 から ロシア語
+ ...
Без фактического материала Aug 9, 2014

не о чем говорить

 
Natalie
Natalie  Identity Verified
ポーランド
Local time: 13:14
2002に入会
英語 から ロシア語
+ ...

このフォーラムのモデレーター
SITE LOCALIZER
Уголки-окошки Aug 9, 2014

Уголок (¬) можно заменить, вписав в строку поиска "^-" и заменив на пробел или на "ничто" (т.е. не вписывая в строку замены ничего). И в этом-то как раз и проблема, потому что "уголки" могут возникать вместо пробелов, вместо переносов, вместо еще чего-то, так что глобально устранить ... See more
Уголок (¬) можно заменить, вписав в строку поиска "^-" и заменив на пробел или на "ничто" (т.е. не вписывая в строку замены ничего). И в этом-то как раз и проблема, потому что "уголки" могут возникать вместо пробелов, вместо переносов, вместо еще чего-то, так что глобально устранить их вряд ли удастся (точнее, устранить-то удастся, только что в этом толку).

С окошками (полагаю, это такие пустые квадратики) еще хуже, потому что они обычно возникают при неправильном распознавании каких-то знаков, например, греческих букв, математических знаков и т.п. Все равно все это придется потом проверять вручную, то есть потратить кучу времени совершенно зря. Да и работа в Традосе с таким текстом дает намного худшие результаты.

Одним словом: не забавляйтесь распознаванием текста Традосом. Даже простое копирование текста через клипборд часто дает гораздо лучшие результаты. Распознавать же качественно, как уже сказано выше, лучше с помощью специальных программ, предназначенных именно для этой цели.



[Edited at 2014-08-09 11:31 GMT]
Collapse


 
Sergei Leshchinsky
Sergei Leshchinsky  Identity Verified
ウクライナ
Local time: 14:14
2008に入会
英語 から ロシア語
+ ...
Об уголках Aug 9, 2014

Вот бы не догадался... уголок (¬)...
Это мягкий перенос. Это нормально!


 
mk_lab
mk_lab  Identity Verified
ウクライナ
2004に入会
英語 から ロシア語
+ ...
Могу предположить, Aug 10, 2014

что эти "уголки-окошки" возникли в результате распознавания графических объектов, которые вовсе и не нужно распознавать.

Во-первых, такие объекты лучше предварительно убрать из файла. Объект для распознавания нужно всегда готовить, иначе результат будет плачевный.

Во-вторых, чистить этот "уголочно-окошечный" мусор автоматически (путем поиска) вряд-ли стоит. Я всегда делаю такие вещи вручную (мышкой и клавишей Del)


 
Alexander Grabowski
Alexander Grabowski  Identity Verified
ウクライナ
英語 から ロシア語
+ ...
TOPIC STARTER
Подготовка файла к распознаванию Aug 10, 2014

mk_lab wrote:

что эти "уголки-окошки" возникли в результате распознавания графических объектов, которые вовсе и не нужно распознавать.

Во-первых, такие объекты лучше предварительно убрать из файла. Объект для распознавания нужно всегда готовить, иначе результат будет плачевный.

Во-вторых, чистить этот "уголочно-окошечный" мусор автоматически (путем поиска) вряд-ли стоит. Я всегда делаю такие вещи вручную (мышкой и клавишей Del)


Напишите пож-та, как Вы готовите скажем пдф-файл к распознаванию? И не легче ли искать пути автоматического удаления, чем удалять вручную (иногда по несколько тысяч?)
С уголками любезно решила Натали. А кто подскажет, как автом-ски искать "окошки"?


 
Natalie
Natalie  Identity Verified
ポーランド
Local time: 13:14
2002に入会
英語 から ロシア語
+ ...

このフォーラムのモデレーター
SITE LOCALIZER
А вместо чего у вас образовались окошки? Aug 10, 2014

a_grabo wrote:
А кто подскажет, как автом-ски искать "окошки"?


Вряд ли кто-то сможет подсказать в этом случае - "окошки" образовываются вместо отсутствующих знаков. Это может быть связано со шрифтом, к примеру, да мало ли с чем еще.


 
Alexander Grabowski
Alexander Grabowski  Identity Verified
ウクライナ
英語 から ロシア語
+ ...
TOPIC STARTER
Ответ Натали Aug 10, 2014

Natalie wrote:

a_grabo wrote:
А кто подскажет, как автом-ски искать "окошки"?


Вряд ли кто-то сможет подсказать в этом случае - "окошки" образовываются вместо отсутствующих знаков. Это может быть связано со шрифтом, к примеру, да мало ли с чем еще.


Натали, спасибо Вам за ответ. Но у меня окошки (см. скриншот) добавились к одному пробелу в doc-файле, сгенерированном программой Традос 2011. (они всегда вставляются по два). А в исходном тексте, кроме пробела, ничего не было.


 
mk_lab
mk_lab  Identity Verified
ウクライナ
2004に入会
英語 から ロシア語
+ ...
Если у вас нет программ от ABBYY Aug 10, 2014

(в них есть специальные средства для выделения рисунков, для указания таблиц и др. особенностей форматирования),
a_grabo wrote:
Напишите пож-та, как Вы готовите скажем пдф-файл к распознаванию? И не легче ли искать пути автоматического удаления, чем удалять вручную (иногда по несколько тысяч?)
С уголками любезно решила Натали. А кто подскажет, как автом-ски искать "окошки"?

то откройте файл Acrobat'ом (или другим средством для редактирования PDF), поудаляйте все рисунки и всю другую "нечисть". Все что нужно, потом повставляете назад в готовый перевод. Желательно, чтобы остался чистый текст (хоть и в графическом виде). Тогда в распознанном тексте "уголков-окошек" будет минимально-разумное количество, а не "все небо в звездах"

Вручную чистить "уголки-окошки" нужно, конечно же, не посимвольно, а выделяя мышью целые области. Удалять их поиском, как мне кажется, просто практически невозможно - вылезет куча проблем (с частью из которых вы уже познакомились), поудаляете массу "не того", а другое просто не найдете.

А вообще-то, лучше бы приобрести ABBYY FineReader или PDF Transformer

[Edited at 2014-08-10 18:59 GMT]


 
Alexander Grabowski
Alexander Grabowski  Identity Verified
ウクライナ
英語 から ロシア語
+ ...
TOPIC STARTER
Ответ mk_lab Aug 11, 2014

mk_lab wrote:

(в них есть специальные средства для выделения рисунков, для указания таблиц и др. особенностей форматирования),
a_grabo wrote:
Напишите пож-та, как Вы готовите скажем пдф-файл к распознаванию? И не легче ли искать пути автоматического удаления, чем удалять вручную (иногда по несколько тысяч?)
С уголками любезно решила Натали. А кто подскажет, как автом-ски искать "окошки"?

то откройте файл Acrobat'ом (или другим средством для редактирования PDF), поудаляйте все рисунки и всю другую "нечисть". Все что нужно, потом повставляете назад в готовый перевод. Желательно, чтобы остался чистый текст (хоть и в графическом виде). Тогда в распознанном тексте "уголков-окошек" будет минимально-разумное количество, а не "все небо в звездах"

Вручную чистить "уголки-окошки" нужно, конечно же, не посимвольно, а выделяя мышью целые области. Удалять их поиском, как мне кажется, просто практически невозможно - вылезет куча проблем (с частью из которых вы уже познакомились), поудаляете массу "не того", а другое просто не найдете.

А вообще-то, лучше бы приобрести ABBYY FineReader или PDF Transformer

[Edited at 2014-08-10 18:59 GMT]


Уважаемый mk_lab, я имею и активно пользуюсь программой ABBYY FineReader, после которой в местах переносов появляются "уголки". Эта проблема решена полностью с помощью Натали. Остались "окошки" после Традоса. Как их найти при помощи Ctrl+F ? либо Ctrl+H ? -- Спасибо всем!


 
mk_lab
mk_lab  Identity Verified
ウクライナ
2004に入会
英語 から ロシア語
+ ...
Ok Aug 11, 2014

a_grabo wrote:
Остались "окошки" после Традоса. Как их найти при помощи Ctrl+F ? либо Ctrl+H ? -- Спасибо всем!

Расскажите потом, как получилось. Интересно будет воспользоваться вашим опытом


 
Maxim Manzhosin
Maxim Manzhosin  Identity Verified
ロシア連邦
Local time: 15:14
英語 から ロシア語
Поиск методом исключения Aug 11, 2014

a_grabo, в вашем тексте много символов, не являющихся буквами и цифрами?
Откройте документ в Word, нажмите Ctrl+F, нажмите кнопку «Больше», установите флажок «Подстановочные знаки» и в поле «Найти» введите вот это: [!(:,"a-zA-Z0-9^13\-\(\)\?\!\. )]

Такое регулярное выражение найдет все символы, кроме латинских букв, цифр, точек, запятых, двоеточий, пробелов, дефисов, скобок, кавычек, знаков абзаца, вопросительных или восклицательных знаков.


 
Pages in topic:   [1 2] >


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

Паразитные символы в Word -- "уголки" и "окошки"


Translation news in ロシア連邦





Pastey
Your smart companion app

Pastey is an innovative desktop application that bridges the gap between human expertise and artificial intelligence. With intuitive keyboard shortcuts, Pastey transforms your source text into AI-powered draft translations.

Find out more »
Wordfast Pro
Translation Memory Software for Any Platform

Exclusive discount for ProZ.com users! Save over 13% when purchasing Wordfast Pro through ProZ.com. Wordfast is the world's #1 provider of platform-independent Translation Memory software. Consistently ranked the most user-friendly and highest value

Buy now! »