Group_by и group_concat в сценарии оболочки

#shell #maven #awk #dependencies #group-concat

#оболочка #maven #awk #зависимости #группа-объединение

Вопрос:

Я намереваюсь идентифицировать дубликаты jar в classpath. Итак, я использовал следующие команды для выполнения некоторой предварительной обработки.

 mvn -o dependency:list | grep ":.*:.*:.*" | cut -d] -f2- | sed 's/:[a-z]*$//g' | sort -u -t: -k2
  

и созданный файл имеет формат

 group_id:artifact_id:type:version
  

итак, теперь для примера, у меня есть следующие две строки в файле

 com.sun.jersey:jersey-client:jar:1.19.1
org.glassfish.jersey.core:jersey-client:jar:2.26
  

Я хочу создать файл со следующим содержимым.

 jersey-client | com.sun.jersey:1.19.1,org.glassfish.jersey.core:2.26
  

содержимое этого файла может меняться. может быть несколько библиотек с разной версией.
Есть идеи, как это сделать с помощью сценария оболочки? Я хочу избежать запроса к базе данных.

Добавляю сюда фрагмент файла примера…

 org.glassfish.jaxb:jaxb-runtime:jar:2.4.0-b180725.0644
    org.jboss.spec.javax.annotation:jboss-annotations-api_1.2_spec:jar:1.0.2.Final
    org.jboss.logging:jboss-logging:jar:3.3.2.Final
    org.jboss.spec.javax.transaction:jboss-transaction-api_1.2_spec:jar:1.0.1.Final
    org.jboss.spec.javax.websocket:jboss-websocket-api_1.1_spec:jar:1.1.3.Final
    com.github.stephenc.jcip:jcip-annotations:jar:1.0-1
    com.beust:jcommander:jar:1.72
    com.sun.jersey.contribs:jersey-apache-client4:jar:1.19.1
    org.glassfish.jersey.ext:jersey-bean-validation:jar:2.26
    com.sun.jersey:jersey-client:jar:1.19.1
    org.glassfish.jersey.core:jersey-client:jar:2.26
    org.glassfish.jersey.core:jersey-common:jar:2.26
    org.glassfish.jersey.containers:jersey-container-servlet:jar:2.26
    org.glassfish.jersey.containers:jersey-container-servlet-core:jar:2.26
    com.sun.jersey:jersey-core:jar:1.19.1
    org.glassfish.jersey.ext:jersey-entity-filtering:jar:2.26
    org.glassfish.jersey.inject:jersey-hk2:jar:2.31
    org.glassfish.jersey.media:jersey-media-jaxb:jar:2.26
    org.glassfish.jersey.media:jersey-media-json-jackson:jar:2.26
    org.glassfish.jersey.media:jersey-media-multipart:jar:2.26
    org.glassfish.jersey.core:jersey-server:jar:2.26
    org.glassfish.jersey.ext:jersey-spring4:jar:2.26
    net.minidev:json-smart:jar:2.3
    com.google.code.findbugs:jsr305:jar:3.0.1
    javax.ws.rs:jsr311-api:jar:1.1.1
    org.slf4j:jul-to-slf4j:jar:1.7.25
    junit:junit:jar:4.12
    org.latencyutils:LatencyUtils:jar:2.0.3
    org.liquibase:liquibase-core:jar:3.5.5
    log4j:log4j:jar:1.2.16
    org.apache.logging.log4j:log4j-api:jar:2.10.0
    com.googlecode.log4jdbc:log4jdbc:jar:1.2
    org.apache.logging.log4j:log4j-to-slf4j:jar:2.10.0
    ch.qos.logback:logback-classic:jar:1.2.3
    ch.qos.logback:logback-core:jar:1.2.3
    io.dropwizard.metrics:metrics-core:jar:4.1.6
    io.dropwizard.metrics:metrics-healthchecks:jar:4.1.6
    io.dropwizard.metrics:metrics-jmx:jar:4.1.6
    io.micrometer:micrometer-core:jar:1.0.6
    org.jvnet.mimepull:mimepull:jar:1.9.6
    com.microsoft.sqlserver:mssql-jdbc:jar:6.2.2.jre8
    com.netflix.netflix-commons:netflix-commons-util:jar:0.3.0
    com.netflix.netflix-commons:netflix-statistics:jar:0.1.1
    io.netty:netty-buffer:jar:4.1.27.Final
    io.netty:netty-codec:jar:4.1.27.Final
    io.netty:netty-codec-http:jar:4.1.27.Final
    io.netty:netty-common:jar:4.1.27.Final
    io.netty:netty-resolver:jar:4.1.27.Final
    io.netty:netty-transport:jar:4.1.27.Final
    io.netty:netty-transport-native-epoll:jar:4.1.27.Final
    io.netty:netty-transport-native-unix-common:jar:4.1.27.Final
    com.nimbusds:nimbus-jose-jwt:jar:8.3
  

Комментарии:

1. Не могли бы вы, пожалуйста, добавить свои усилия в свой вопрос, что настоятельно рекомендуется в SO.

2. Также, пожалуйста, укажите такие детали, как: будет ли файл всегда иметь одинаковое содержимое? Есть ли какая-либо логика для получения образца вывода (например, —> jersey-client:jar может иметь разные имена или стиль имен?). Также в файле всегда будет 2 строки? Пожалуйста, добавьте эти данные также в свой вопрос для лучшего понимания вопроса.

3. отредактировал вопрос. Спасибо!

Ответ №1:

Могут быть более простые методы, но это то, что я могу сделать сейчас… вероятно, можно сузить до одной строки с некоторой настройкой

 [07:38 am alex ~]$ date; cat a
Wed  4 Nov 07:38:21 GMT 2020
com.sun.jersey:jersey-client:jar:1.19.1
org.glassfish.jersey.core:jersey-client:jar:2.26

[07:38 am alex ~]$ FIRST=`cat a | awk -F'[:]' '{print $2}' | uniq`
[07:38 am alex ~]$ SECOND=`cat a | awk -F'[:]' '{print $1":"$4}' | xargs | sed 's/ /,/g'`
[07:38 am alex ~]$ echo "$FIRST | $SECOND"
jersey-client | com.sun.jersey:1.19.1,org.glassfish.jersey.core:2.26
  

Ответ №2:

Не могли бы вы попробовать следующее, это можно было бы сделать в одном awk самом. Полностью основано только на показанных вами примерах.

 awk '
BEGIN{
  FS=":"
  OFS=" | "
}
FNR==1{
  first=$1
  third=$3
  second=$2
  next
}
FNR==2{
  print second,first","$1":"$NF
}
' Input_file
  

Объяснение: добавление подробного объяснения выше.

 awk '                             ##Starting awk program from here.
BEGIN{                            ##Starting BEGIN section of this program from here.
  FS=":"                          ##Setting field separator colon here.
  OFS=" | "                       ##Setting output field separator as space | space here.
}
FNR==1{                           ##Checking conditon if this is first line then do following.
  first=$1                        ##Creating first with 1st field value.
  third=$3                        ##Creating third with 3rd field value.
  second=$2                       ##Creating second with 2nd field value of current line.
  next                            ##next will skip all further statements from here.
}
FNR==2{                           ##Checking condition if this is 2nd line then do following.
  print second,first","$1":"$NF   ##Printing second first first field and last field of current line.
}
' Input_file                      ##Mentioning Input_file name here.