Мультиплексор биологических последовательностей просматривает только первые 5 букв последовательности ДНК

#julia #bioinformatics

Вопрос:

В настоящее время я играю с библиотекой Biosequences.jl Джулии и хотел все демультиплексировать. Я попытался создать массив длинных последовательностей, подобных этому

 barcodes = LongDNASeq.(barcodeArray[1:3])
  3-element Array{LongSequence{DNAAlphabet{4}},1}:
   GAGAGTGT
   GAGATCAG
   GAGATCTC
 

Но когда я пытаюсь запустить его через демультиплексор, я получаю «ОШИБКА: Дублированные последовательности».

 dplxr = Demultiplexer(unique(barcodes),n_max_errors=1,distance=:hamming)
  ERROR: duplicated sequences
  Stacktrace:
   [1] BioSequences.BarcodeTrie(::Array{LongSequence{DNAAlphabet{4}},1}, ::Array{Int64,1}) at 
   /home/kos/.julia/packages/BioSequences/k4j4J/src/demultiplexer.jl:22
   [2] Demultiplexer(::Array{LongSequence{DNAAlphabet{4}},1}; n_max_errors::Int64, 
   distance::Symbol) at /home/kos/.julia/packages/BioSequences/k4j4J/src/demultiplexer.jl:168
   [3] top-level scope at REPL[38]:1
 

Демультиплексор работает, когда у меня есть только первые 2 элемента в массиве. Поэтому я подозреваю, что демультиплексор считывает только первые 6 символов?

Есть какое-нибудь решение по этому поводу?

Редактировать:

Ошибка исчезает, когда я устанавливаю n_max_errors=0 . Хотя я не понимаю, почему это работает. Это имело бы смысл, если GAGATCAG и GAGATCTC где на расстоянии одной буквы. Но это не так.