# #python #google-translate
Вопрос:
Таким образом, у меня есть полностью текстовый файл без числовых данных на английском, русском и других языках, смешанных. Я импортировал переводчик Google, чтобы решить эту проблему, но он перевел только одну из моих колонок и иногда показывает ошибку тайм-аута подключения. Файл данных довольно большой. Вот мой код:
Train = pd.read_json('Train.jsonl',lines=True)
Train
train = Train.copy()
from googletrans import Translator
translator = Translator()
train.rename(columns=lambda x: translator.translate(x).text, inplace=True)
train.columns
translations = {}
for column in train.columns:
# unique elements of the column
unique_elements = train[column].unique()
for element in unique_elements:
# add translation to the dictionary
translations[element] = translator.translate(element).text
print(translations)
(CONNECTION TIMED OUT HERE BUT MY INTERNET IS FINE).
Как решить эту проблему?
- Кроме того, я использую эту полностью текстовую базу данных. Я хочу написать алгоритм, используя мои данные о поездах, чтобы проверить, есть ли у предложений что-то общее. Должен ли я преобразовать свои данные в float и использовать классификатор дерева решений? или линейная регрессия, или что?
P. S Я очень новичок в кодировании, так что извините, если этот вопрос звучит расплывчато или что-то еще.