Как удалить дубли с большого файла?

Тема в разделе "Вопросы и ответы", создана пользователем Denchik, 04.02.16.

  1. Denchik

    Denchik Модератор Команда форума

    Сообщения:
    65
    Симпатии:
    14
    Баллы:
    14
    Кто знает, как удалить дубли с большого файла? Есть тхт-файл ~57gb и ~2ККК (миллиарда) строк.
    Нужно удалить дубли, но Penguin и KWK виснут.
     
  2. Insider

    Insider Администратор Команда форума

    Сообщения:
    1.025
    Симпатии:
    685
    Баллы:
    209
  3. Eric

    Eric Новичок

    Сообщения:
    81
    Симпатии:
    30
    Баллы:
    19
    Попробуй в линуксе командой
    Код:
    sort -u input.txt > result.txt
    
    Если не перварит такой файл, то могу помочь, но софт, дать не могу, удалял сам дубли в 50гб файле
     
    bro нравится это.
  4. Denchik

    Denchik Модератор Команда форума

    Сообщения:
    65
    Симпатии:
    14
    Баллы:
    14
    Penguin ошибку выдает
    [​IMG]
     
    Последнее редактирование: 04.02.16
  5. arg0n

    arg0n Новичок

    Сообщения:
    7
    Симпатии:
    2
    Баллы:
    3
    Зенкой не пробовал?
    Помню скармливал фид на 2 гига.
     
  6. Denchik

    Denchik Модератор Команда форума

    Сообщения:
    65
    Симпатии:
    14
    Баллы:
    14
    Не пробовал зенку. Поддержка пингвина говорит, что пингвином нереально такое сделать.:(
     
  7. dimitry

    dimitry Новичок

    Сообщения:
    76
    Симпатии:
    15
    Баллы:
    8
    Можно реализовать программно.
    ------------------- Добавлено 04.02.16 -------------------
    Хотя вот вариант @Eric неплохой.
     
  8. Denchik

    Denchik Модератор Команда форума

    Сообщения:
    65
    Симпатии:
    14
    Баллы:
    14
    А я с линуксом не дружу.
     
  9. Veemankm

    Veemankm Новичок

    Сообщения:
    61
    Симпатии:
    32
    Баллы:
    14
    Вряд ли какой-либо софт справится с такой задачей/

    Попробуй этим: rghost.ru/8ML9bRVSx
    Она пакетно чистит.
     
    Denchik нравится это.
  10. quick

    quick Новичок

    Сообщения:
    12
    Симпатии:
    12
    Баллы:
    8
    Denchik нравится это.
  11. Denchik

    Denchik Модератор Команда форума

    Сообщения:
    65
    Симпатии:
    14
    Баллы:
    14
    Veemankm - спасибо, но не прокатило.
    quick - спасибо, вроде прокатило, обработка 2ккк строк заняла 6,5 часов, НО.
    Решил проверить, как софт почистил дубли. Взял две базы (начальную и то что вышло). Взял для примера "android" и начал делать выборку в Penguin из двух баз.

    Начальная база:
    718 383 - получена выборка
    383 977 - почищена на дубли

    База, которая получилась после обработки на дубли:
    638 367 - получена выборка
    383 977 - почищена на дубли

    Т.е. база, которая получилась после чистки дублей, должна была содержать 383 977 строк, а не 638 367 строк.
    Вывод: софт удалил не все дубли. Или что-то не так настроил. Хотя, там настраивать толком нечего, пару галочек поставить.
    [​IMG]
     
  12. -07

    -07 Новичок

    Сообщения:
    43
    Симпатии:
    16
    Баллы:
    14
    TextPipe PRO, на торрентах есть.
     
  13. Hunter

    Hunter Новичок

    Сообщения:
    51
    Симпатии:
    8
    Баллы:
    14
    Интересно а это вообще возможно в принципе? У самого проблема, надо удалить повторы 150 лямов. Я так понимаю что бы почистить на дубли, софт должен загрузить всю базу в оперативу
     
  14. quick

    quick Новичок

    Сообщения:
    12
    Симпатии:
    12
    Баллы:
    8
    возможно проблема с кодировками/непечатными символами

    texpipe c таким объемом не справится. Вернее справится но работать будет крайне долго

    вполне возможно. 150кк не так долго будет обрабатывать. Попробуй а потом перепроверь
     
  15. AZANIR

    AZANIR Участник

    Сообщения:
    103
    Симпатии:
    27
    Баллы:
    30
    используйте gnuwin32
     
    Denchik нравится это.
  16. bro

    bro Участник

    Сообщения:
    228
    Симпатии:
    89
    Баллы:
    36
    btr, Denchik и Black Insider нравится это.

Поделиться этой страницей