Очищення тексту від тегів та отримання цифр

Текст має ось такий вигляд – <div class="my-ds-product-advantages ds-product-advantages ds-product-tab-content content-block d-flex flex-column flex-md-row flex-xl-column px-3 px-md-0 px-xl-3 py-0 py-md-3 py-xl-0 mb-3"><!– Product advantages delivery –>

У цьому випадку HTML-теги в тексті закодовані як HTML-ентітети (наприклад, < записаний як &lt; і > як &gt;). Вам потрібно спочатку перетворити ці ентітети в символи, а потім видалити HTML-теги. Ось як це зробити в LibreOffice Calc (безкоштовна програма для роботи з електронними таблицями):

  1. Виберіть колонку або область, де міститься текст з HTML-ентітетами.
  2. Натисніть Ctrl + H, щоб відкрити діалогове вікно Пошук і заміна.
  3. Замініть HTML-ентітети:
    • В полі Знайти введіть &lt; і в полі Замінити на введіть <. Натисніть Замінити все.
    • Повторіть для &gt;, замінивши його на >.
    • Аналогічно, замініть &quot; на ".
  4. Видаліть HTML-теги:
    • Поставте галочку напроти опції Регулярні вирази.
    • В полі Знайти введіть <[^>]*> і залиште поле Замінити на порожнім.
    • Натисніть Замінити все.

Це має видалити всі HTML-теги з тексту, і залишити чистий контент.

Як видалити текст окрім цифр?

Щоб видалити всі символи, окрім цифр, у тексті в LibreOffice Calc, можна скористатися функцією Пошук і заміна з регулярними виразами:

  1. Виберіть колонку або область, де потрібно залишити лише цифри.
  2. Натисніть Ctrl + H, щоб відкрити діалогове вікно Пошук і заміна.
  3. Поставте галочку навпроти опції Регулярні вирази (унизу вікна).
  4. У поле Знайти введіть наступний регулярний вираз:[^0-9]+ Це знайде всі символи, окрім цифр.
  5. Поле Замінити на залиште порожнім.
  6. Натисніть Замінити все, щоб видалити всі символи, окрім цифр, у вибраній області.

Після цього в клітинках залишаться тільки цифри.