Проблема перевода и модели на python

# #python #google-translate

Вопрос:

Таким образом, у меня есть полностью текстовый файл без числовых данных на английском, русском и других языках, смешанных. Я импортировал переводчик Google, чтобы решить эту проблему, но он перевел только одну из моих колонок и иногда показывает ошибку тайм-аута подключения. Файл данных довольно большой. Вот мой код:

 Train = pd.read_json('Train.jsonl',lines=True)
Train
train = Train.copy()
from googletrans import Translator
translator = Translator()
train.rename(columns=lambda x: translator.translate(x).text, inplace=True)
train.columns

translations = {}
for column in train.columns:
    # unique elements of the column
    unique_elements = train[column].unique()
    for element in unique_elements:
        # add translation to the dictionary
        translations[element] = translator.translate(element).text
    
print(translations) 
(CONNECTION TIMED OUT HERE BUT MY INTERNET IS FINE).
 

Как решить эту проблему?

  1. Кроме того, я использую эту полностью текстовую базу данных. Я хочу написать алгоритм, используя мои данные о поездах, чтобы проверить, есть ли у предложений что-то общее. Должен ли я преобразовать свои данные в float и использовать классификатор дерева решений? или линейная регрессия, или что?

P. S Я очень новичок в кодировании, так что извините, если этот вопрос звучит расплывчато или что-то еще.