Solve task
This commit is contained in:
@@ -47,6 +47,16 @@
|
||||
- *Выходные данные:* таблица жанров, таблица связей со столбцами (игра, жанр)
|
||||
- *Решение:* смотри файл scrape_genres.py
|
||||
|
||||
### Сопоставление базового с полным набором игр
|
||||
|
||||
Необходимо реализовать быстрый неточный поиск из базового набора в полном. Предложение: построить однословные индексы по базовому и полному набору, при сопоставлении использовать расстояние Левенштейна около 3.
|
||||
|
||||
Принято решение сравнивать очищенные названия триграммами. Ошибки присутствуют, для их отбора и исправления можно использовать расстояние Левенштейна.
|
||||
|
||||
- *Входные данные:* таблица игр, таблица архивов
|
||||
- *Выходные данные:* таблица связей со столбцами (игра, архив)
|
||||
- *Решение:* смотри файл fuzzy_search.py
|
||||
|
||||
## Задачи
|
||||
|
||||
### Выделить из базы данных кеш
|
||||
@@ -57,10 +67,6 @@ html-страницы складывать в отдельную базу дан
|
||||
|
||||
Необходимо просмотреть жанры, маловстречающиеся и повторяющиеся объединить, построить примерное дерево категорий.
|
||||
|
||||
### Сопоставление базового с полным набором игр
|
||||
|
||||
Необходимо реализовать быстрый неточный поиск из базового набора в полном. Предложение: построить однословные индексы по базовому и полному набору, при сопоставлении использовать расстояние Левенштейна около 3.
|
||||
|
||||
### Построение результирующего набора игр
|
||||
|
||||
Необходимо решить задачу минимизации критериальной функции с ограничением в 15 Гб размера на основе критериев:
|
||||
|
||||
Reference in New Issue
Block a user