Текст має ось такий вигляд – <div class="my-ds-product-advantages ds-product-advantages ds-product-tab-content content-block d-flex flex-column flex-md-row flex-xl-column px-3 px-md-0 px-xl-3 py-0 py-md-3 py-xl-0 mb-3"><!– Product advantages delivery –>
У цьому випадку HTML-теги в тексті закодовані як HTML-ентітети (наприклад, <
записаний як <
і >
як >
). Вам потрібно спочатку перетворити ці ентітети в символи, а потім видалити HTML-теги. Ось як це зробити в LibreOffice Calc (безкоштовна програма для роботи з електронними таблицями):
- Виберіть колонку або область, де міститься текст з HTML-ентітетами.
- Натисніть
Ctrl + H
, щоб відкрити діалогове вікно Пошук і заміна. - Замініть HTML-ентітети:
- В полі Знайти введіть
<
і в полі Замінити на введіть<
. Натисніть Замінити все. - Повторіть для
>
, замінивши його на>
. - Аналогічно, замініть
"
на"
.
- В полі Знайти введіть
- Видаліть HTML-теги:
- Поставте галочку напроти опції Регулярні вирази.
- В полі Знайти введіть
<[^>]*>
і залиште поле Замінити на порожнім. - Натисніть Замінити все.
Це має видалити всі HTML-теги з тексту, і залишити чистий контент.
Як видалити текст окрім цифр?
Щоб видалити всі символи, окрім цифр, у тексті в LibreOffice Calc, можна скористатися функцією Пошук і заміна з регулярними виразами:
- Виберіть колонку або область, де потрібно залишити лише цифри.
- Натисніть
Ctrl + H
, щоб відкрити діалогове вікно Пошук і заміна. - Поставте галочку навпроти опції Регулярні вирази (унизу вікна).
- У поле Знайти введіть наступний регулярний вираз:
[^0-9]+
Це знайде всі символи, окрім цифр. - Поле Замінити на залиште порожнім.
- Натисніть Замінити все, щоб видалити всі символи, окрім цифр, у вибраній області.
Після цього в клітинках залишаться тільки цифри.