Solve task

This commit is contained in:
2021-10-14 23:08:50 +03:00
parent 36e09fb2a1
commit 5411e26afc
4 changed files with 64 additions and 4 deletions
+10 -4
View File
@@ -47,6 +47,16 @@
- *Выходные данные:* таблица жанров, таблица связей со столбцами (игра, жанр)
- *Решение:* смотри файл scrape_genres.py
### Сопоставление базового с полным набором игр
Необходимо реализовать быстрый неточный поиск из базового набора в полном. Предложение: построить однословные индексы по базовому и полному набору, при сопоставлении использовать расстояние Левенштейна около 3.
Принято решение сравнивать очищенные названия триграммами. Ошибки присутствуют, для их отбора и исправления можно использовать расстояние Левенштейна.
- *Входные данные:* таблица игр, таблица архивов
- *Выходные данные:* таблица связей со столбцами (игра, архив)
- *Решение:* смотри файл fuzzy_search.py
## Задачи
### Выделить из базы данных кеш
@@ -57,10 +67,6 @@ html-страницы складывать в отдельную базу дан
Необходимо просмотреть жанры, маловстречающиеся и повторяющиеся объединить, построить примерное дерево категорий.
### Сопоставление базового с полным набором игр
Необходимо реализовать быстрый неточный поиск из базового набора в полном. Предложение: построить однословные индексы по базовому и полному набору, при сопоставлении использовать расстояние Левенштейна около 3.
### Построение результирующего набора игр
Необходимо решить задачу минимизации критериальной функции с ограничением в 15 Гб размера на основе критериев: