#regex #grep
#регулярное выражение #grep
Вопрос:
Я хочу создать шаблон регулярных выражений для использования в терминале Ubuntu, чтобы получать все страны с более чем одним словом в названиях из текстового файла, в котором есть названия всех стран (список, как показано ниже):
Afghanistan
Albania
Algeria
Andorra
Angola
Antigua amp; Deps
Argentina
Armenia
Australia
Austria
Azerbaijan
Bahamas
Bahrain
Bangladesh
Barbados
Belarus
Belgium
Belize
Benin
Bhutan
Bolivia
Bosnia Herzegovina
Botswana
Brazil
Brunei
Bulgaria
Burkina
Burundi
Cambodia
Cameroon
Canada
Cape Verde
Central African Rep
Chad
Chile
China
Colombia
Comoros
Congo
Congo {Democratic Rep}
Costa Rica
Croatia
Cuba
Cyprus
Czech Republic
Denmark
Djibouti
Dominica
Dominican Republic
East Timor
Ecuador
Egypt
El Salvador
Equatorial Guinea
Eritrea
Estonia
Ethiopia
Fiji
Finland
France
Gabon
Gambia
Georgia
Germany
Ghana
Greece
Grenada
Guatemala
Guinea
Guinea-Bissau
Guyana
Haiti
Honduras
Hungary
Iceland
India
Indonesia
Iran
Iraq
Ireland {Republic}
Israel
Italy
Ivory Coast
Jamaica
Japan
Jordan
Kazakhstan
Kenya
Kiribati
Korea North
Korea South
Kosovo
Kuwait
Kyrgyzstan
Laos
Latvia
Lebanon
Lesotho
Liberia
Libya
Liechtenstein
Lithuania
Luxembourg
Macedonia
Madagascar
Malawi
Malaysia
Maldives
Mali
Malta
Marshall Islands
Mauritania
Mauritius
Mexico
Micronesia
Moldova
Monaco
Mongolia
Montenegro
Morocco
Mozambique
Myanmar, {Burma}
Namibia
Nauru
Nepal
Netherlands
New Zealand
Nicaragua
Niger
Nigeria
Norway
Oman
Pakistan
Palau
Panama
Papua New Guinea
Paraguay
Peru
Philippines
Poland
Portugal
Qatar
Romania
Russian Federation
Rwanda
St Kitts amp; Nevis
St Lucia
Saint Vincent amp; the Grenadines
Samoa
San Marino
Sao Tome amp; Principe
Saudi Arabia
Senegal
Serbia
Seychelles
Sierra Leone
Singapore
Slovakia
Slovenia
Solomon Islands
Somalia
South Africa
South Sudan
Spain
Sri Lanka
Sudan
Suriname
Swaziland
Sweden
Switzerland
Syria
Taiwan
Tajikistan
Tanzania
Thailand
Togo
Tonga
Trinidad amp; Tobago
Tunisia
Turkey
Turkmenistan
Tuvalu
Uganda
Ukraine
United Arab Emirates
United Kingdom
United States
Uruguay
Uzbekistan
Vanuatu
Vatican City
Venezuela
Vietnam
Yemen
Zambia
Zimbabwe
Текущий шаблон регулярных выражений, который у меня есть, grep -E '[A-Za-z]?[^ ]' countries.txt
но я получаю целую кучу пробелов и Zimbabwe
в конце
Комментарии:
1. Ваш шаблон соответствует любой строке, в которой есть символ, в котором нет пробела. Он должен вернуть все.
2. К вашему сведению: я удалил теги «linux» и «ubuntu». Пожалуйста, ознакомьтесь с их описанием, тогда должно стать ясно, почему. Поскольку ваш вопрос касается grep, я добавил этот тег на место.
Ответ №1:
Ваше регулярное выражение соответствует любому символу, который не является пробелом. Поскольку после него [A-Za-z]
стоит ?
, это необязательно, поэтому это не влияет на то, что соответствует, и [^ ]
соответствует любому символу, кроме пробела. Когда я пробую вашу команду, она возвращает весь файл, а не только пробелы и Зимбабве.
Вам просто нужно сопоставить пробел:
grep ' ' countries.txt
Комментарии:
1. @MasterIrfanElahee почему это не все, что вам нужно? У вас есть встречный пример?
2. @MasterIrfanElahee Содержит ли ваш файл новые строки CRLF для Windows? Попробуйте использовать
dos2unix
, чтобы исправить это. Есть ли пустые строки, разделяющие каждое название страны (я избавился от них в вопросе, потому что предположил, что это была просто ваша попытка удержать SO от объединения строк)?3. да, это была проблема, я использовал dos2unix, и теперь это работает
Ответ №2:
Вам понадобится шаблон, подобный следующему, который предоставит вам список всех стран с более чем одним словом в названии (исключая страны, которые имеют псевдоним в фигурных скобках).
grep -E '[A-Za-z] [^{].*'
Комментарии:
1.
{1,}
обычно записывается как просто.
2. Спасибо Barmar, упрощено.