Есть ли более быстрый способ преобразовать большой файл из hexa в двоичный и из двоичного в int?

#python #pandas #performance

#python #pandas #Производительность

Вопрос:

У меня есть большой фрейм данных (1999048 строк и 1col) с шестнадцатеричными данными. Я хочу поместить каждую строку в двоичный файл, разрезать его на части и перевести каждую часть в десятичный формат.

Я попробовал это:

 for i in range (len(df.index)):
    hexa_line=hex2bin(str(f1.iloc[i]))[::-1] 
    channel = int(hexa_line[0:3][::-1], 2)     
    edge = int(hexa_line[3][::-1], 2)      
    time = int(hexa_line[4:32][::-1], 2)   
    sweep = int(hexa_line[32:48][::-1], 2)  
    tag = int(hexa_line[48:63][::-1], 2)   
    datalost = int(hexa_line[63][::-1], 2)   
    line=np.array([[channel, edge, time, sweep, tag, datalost]])
    tab=np.concatenate((tab, line), axis=0)
  

Но это действительно очень долго…. Есть ли более быстрый способ сделать это?

Комментарии:

1. я не совсем уверен, почему вы делаете это в pandas, но, вероятно, это не большая часть ваших накладных расходов.

Ответ №1:

единственное, что, как я могу себе представить, могло бы сильно помочь, — это изменить эти строки:

 line=np.array([[channel, edge, time, sweep, tag, datalost]])
tab=np.concatenate((tab, line), axis=0)
  

конечно, в pandas, и я думаю, что также в numpy объединение является дорогостоящей задачей и зависит от общего размера обоих массивов (а не, скажем, list.append)

Я думаю, что это приводит к перезаписи всего массива tab при каждом его вызове. Возможно, вы могли бы попробовать добавить каждую строку в список, а затем объединить весь список вместе.

например, что-то более похожее на это:

 tab = []
for i in range (len(df.index)):
    hexa_line=hex2bin(str(f1.iloc[i]))[::-1] 
    channel = int(hexa_line[0:3][::-1], 2)     
    edge = int(hexa_line[3][::-1], 2)      
    time = int(hexa_line[4:32][::-1], 2)   
    sweep = int(hexa_line[32:48][::-1], 2)  
    tag = int(hexa_line[48:63][::-1], 2)   
    datalost = int(hexa_line[63][::-1], 2)   
    line=np.array([[channel, edge, time, sweep, tag, datalost]])
    tab.append(line)

final_tab = np.concatenate(tab, axis=0)
# or whatever the syntax is :p
  

Комментарии:

1. Да, спасибо, это намного быстрее! Я снова использую concatenate в следующем моем коде, я посмотрю, смогу ли я избавиться от этого…