#python #count #sys
Вопрос:
Я создал программу подсчета слов с одной функцией, которая маркирует слова, подсчитывает слова и выводит наиболее часто встречающиеся слова.
Теперь мне нужно импортировать это в тест, который проверяет, все ли правильно.
Программа должна выполняться (число-это количество наиболее часто встречающихся слов):
topmost.py eng_stopwords.txt examples/arcticle1.text 20
Мне нужно создать путь для двух файлов, а также последний параметр для чисел, которые будут напечатаны.
Все мои функции токенизации, подсчета слов и печати должны быть в основной функции.
В файле стоп-слов мне также нужно удалить специальный символ (который символизирует конец строки).
Это то, что я делал до сих пор.
import wordfreq
import sys
inp_file = open(sys.argv[1])
for line in inp_file.readlines()
for line in inp_file(stopWords) = line.strip()
# Get tokenize function?
inp_file.close()
inp_stopWords.close()
Вероятно, здесь много плохих входных данных. Но если кто-то может мне в этом помочь, я был бы очень признателен!