Как почистить базу кейвордов от шлака?

Тема в разделе "Вопросы и ответы", создана пользователем mixwor, 17.12.15.

  1. mixwor

    mixwor Новичок

    Сообщения:
    70
    Симпатии:
    3
    Баллы:
    13
    Как почистить базу кеев от всякого шлака ( http://joxi.ru/L2106qBu66Oenm , http://joxi.ru/gmvqpDXUxxMBjr ) и это только то, что я смог углядеть при отсортировки "по длине", ведь среди 37кк кеейвордов могут оказаться экземпляры и похуже этих примеров которые явно пользователи не когда не будут искать в серпе.

    Для себя пока нашел это:
    1) Сортируем всю базу по длине - это дает возможность сразу увидеть брак ( http://joxi.ru/v29W3zYCGGN3Or ) и ручками удаляем подобное.
    2) С помощью функции "Найти\заменить" ищем такие символы как "./\();:,-" и заменяем на пробел.

    А как вы чистите свои базы от такого? Интересны ваши методы, давайте делиться.
     
    Последнее редактирование: 17.12.15
  2. noreff

    noreff Участник

    Сообщения:
    102
    Симпатии:
    44
    Баллы:
    29
    Можно регулярными выражениями удалять все, что больше какой-то длинны в нотпаде++ (или саблайме или любом другом адекватном блокноте), например. Спецсимволы там же можно заменять/удалять.
     
  3. Insider

    Insider Администратор Команда форума

    Сообщения:
    1.025
    Симпатии:
    685
    Баллы:
    209
    Я генерировал по всем ключам, а потом парсил стату ли ру в раздел "заголовки страниц". Получается, что со временем отбираются только тем ключи, по которым был траф.
     
  4. mixwor

    mixwor Новичок

    Сообщения:
    70
    Симпатии:
    3
    Баллы:
    13
    база слишком большая (более 30 млн кеев), нотпад++ и ему подобные идут лесом с таким размером
     
  5. Insider

    Insider Администратор Команда форума

    Сообщения:
    1.025
    Симпатии:
    685
    Баллы:
    209
    Penguin работает с такими большими файлами.
     
  6. mixwor

    mixwor Новичок

    Сообщения:
    70
    Симпатии:
    3
    Баллы:
    13
    есть в наличии, и что я смог я почистил, интересует как убрать подобное http://joxi.ru/gmvqpDXUxxMBjr ?
     
  7. noreff

    noreff Участник

    Сообщения:
    102
    Симпатии:
    44
    Баллы:
    29
    Прочитал к вместо кк, пардон.
     
  8. mixwor

    mixwor Новичок

    Сообщения:
    70
    Симпатии:
    3
    Баллы:
    13
    Подскажите регулярку какую,что бы убрать неявные повторения типо этих http://joxi.ru/gmvqpDXUxxMBjr
    Или же консольную команду что бы убрать все спец символы из файла с базой кейвордов?
    Буду премного благодарен за помощь :)
     
  9. sheck

    sheck Новичок

    Сообщения:
    47
    Симпатии:
    21
    Баллы:
    14
    Ну остальные может быть и идут, а нотпад++ умеет делать поиск и замену без открытия файла, даже массово https://yadi.sk/i/FG5HNzuMmJ5rS

    Можно гигабайты обрабатывать, но медленно получается
     
  10. Eric

    Eric Новичок

    Сообщения:
    81
    Симпатии:
    30
    Баллы:
    19
    ([А-ЯЁа-яёzA-Z0-9])\1{2,} - находит где один символ повторяется 3 и более раз
     
    mordvin нравится это.
  11. sheck

    sheck Новичок

    Сообщения:
    47
    Симпатии:
    21
    Баллы:
    14
    Очепятка: ([А-ЯЁа-яёa-zA-Z0-9])\1{2,}
     

Поделиться этой страницей