Solve task

This commit is contained in:
2021-10-14 23:08:50 +03:00
parent 36e09fb2a1
commit 5411e26afc
4 changed files with 64 additions and 4 deletions
+10 -4
View File
@@ -47,6 +47,16 @@
- *Выходные данные:* таблица жанров, таблица связей со столбцами (игра, жанр)
- *Решение:* смотри файл scrape_genres.py
### Сопоставление базового с полным набором игр
Необходимо реализовать быстрый неточный поиск из базового набора в полном. Предложение: построить однословные индексы по базовому и полному набору, при сопоставлении использовать расстояние Левенштейна около 3.
Принято решение сравнивать очищенные названия триграммами. Ошибки присутствуют, для их отбора и исправления можно использовать расстояние Левенштейна.
- *Входные данные:* таблица игр, таблица архивов
- *Выходные данные:* таблица связей со столбцами (игра, архив)
- *Решение:* смотри файл fuzzy_search.py
## Задачи
### Выделить из базы данных кеш
@@ -57,10 +67,6 @@ html-страницы складывать в отдельную базу дан
Необходимо просмотреть жанры, маловстречающиеся и повторяющиеся объединить, построить примерное дерево категорий.
### Сопоставление базового с полным набором игр
Необходимо реализовать быстрый неточный поиск из базового набора в полном. Предложение: построить однословные индексы по базовому и полному набору, при сопоставлении использовать расстояние Левенштейна около 3.
### Построение результирующего набора игр
Необходимо решить задачу минимизации критериальной функции с ограничением в 15 Гб размера на основе критериев:
BIN
View File
Binary file not shown.
+51
View File
@@ -0,0 +1,51 @@
import sqlite3
from ngram import NGram
tr_table = str.maketrans('','',' !$&\'()+,-.=@[]')
def key(s):
"""
!$&'()+,-.0123456789=@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]abcdefghijklmnopqrstuvwxyz
"""
return s.removesuffix('.zip').lower().translate(tr_table)
def test_key():
"""
1 vs 100 (Europe) [b].zip
1 vs 100 (europe) [b]
"""
s = '1 vs 100 (Europe) [b].zip'
assert key(s) == '1vs100europeb', key('1 vs 100 (Europe) [b].zip')
def select(name, xs):
while True:
print(f'?: {name}')
for i, ((_, name), _) in enumerate(xs,1):
print(f'{i}. {name}')
inp = input('1-9,n: ')
if inp=='':
return xs[0]
if inp=='n':
raise ValueError
if inp in set('123456789'):
return xs[int(inp)-1]
if __name__=='__main__':
test_key()
with sqlite3.connect("db.sqlite3") as db:
G = NGram(key=lambda x: key(x[1]))
for game in db.execute("SELECT ROWID, zip_name FROM archive;"):
G.add(game)
db.execute("DROP TABLE IF EXISTS game_to_archive;")
db.execute("CREATE TABLE game_to_archive (id_game INTEGER, id_archive INTEGER);")
for id_game, name in db.execute("SELECT ROWID, name FROM top_games;"):
try:
((id_a1, n1), p1), ((id_a2, n2), p2) = G.search(name)[:2]
if p1/p2<1.05:
(id_a1, n1), p1 = select(name, G.search(name)[:9])
db.execute("INSERT INTO game_to_archive VALUES (?, ?);", (id_game, id_a1))
except:
db.execute("INSERT INTO game_to_archive VALUES (?, NULL);", (id_game,))
+3
View File
@@ -0,0 +1,3 @@
ngram
requests
lxml