כיצד להשתמש בפקודה awk בלינוקס

ב- Linux,  awkהוא דינמו מניפולציה של טקסט בשורת פקודה, כמו גם שפת סקריפטים חזקה. הנה מבוא לכמה מהתכונות הכי מגניבות שלו.

כמה מסורבל קיבל את שמו

awk הפקודה נקראה באמצעות התיבות של שלושת האנשים שכתבו את הגירסה המקורית ב 1977: אלפרד אהו, פיטר וינברגר, ואת בריאן קרניגהאן. שלושת הגברים הללו היו מהפנתיאון האגדי של AT&T Bell Laboratories Unix. עם תרומתם של רבים אחרים מאז, awk המשיך להתפתח.

זו שפת סקריפטים מלאה, כמו גם ערכת כלים מלאה למניפולציה של טקסט עבור שורת הפקודה. אם מאמר זה מעורר תיאבון, תוכל לבדוק כל פרט אודות  awk הפונקציונליות שלו.

כללים, דפוסים ופעולות

awkעובד על תוכניות המכילות כללים המורכבים מדפוסים ופעולות. הפעולה מבוצעת על הטקסט התואם לתבנית. דפוסים סגורים בפלטה מתולתלת ( {}). יחד, דפוס ופעולה מהווים כלל. awkהתוכנית כולה כלולה במרכאות בודדות ( ').

בואו נסתכל על סוג awkהתוכנית הפשוט ביותר . אין לו דפוס, ולכן הוא תואם לכל שורת טקסט המוזנת לתוכו. פירוש הדבר שהפעולה מבוצעת בכל שורה. נשתמש בו על הפלט whoמהפקודה.

הנה הפלט הסטנדרטי מ who:

Who

אולי אנחנו לא צריכים את כל המידע הזה, אלא רק רוצים לראות את השמות בחשבונות. אנחנו יכולים לצנן את הפלט whoאל תוך awk, ואז לומר awkלהדפיס רק את השדה הראשון.

כברירת מחדל, awkרואה בשדה מחרוזת של תווים המוקפים במרחב לבן, התחלה של שורה או סוף שורה. שדות מזוהים על ידי סימן דולר ( $) ומספר. אז,  $1מייצג את השדה הראשון, שבו נשתמש עם print הפעולה להדפסת השדה הראשון.

אנו מקלידים את הדברים הבאים:

מי | awk '{הדפס $ 1}'

awk מדפיס את השדה הראשון ומשליך את שאר הקו.

אנו יכולים להדפיס כמה שדות שנרצה. אם נוסיף פסיק כמפריד,  awkנדפיס רווח בין כל שדה.

אנו מקלידים את הדברים הבאים כדי להדפיס גם את הזמן בו נכנס האדם (שדה רביעי):

מי | awk '{הדפס $ 1, $ 4}'

ישנם כמה מזהי שדה מיוחדים. אלה מייצגים את כל שורת הטקסט ואת השדה האחרון בשורת הטקסט:

  • $ 0 : מייצג את כל שורת הטקסט.
  • $ 1 : מייצג את השדה הראשון.
  • $ 2 : מייצג את השדה השני.
  • 7 $ : מייצג את השדה השביעי.
  • 45 דולר : מייצג את השדה ה -45.
  • $ NF : מייצג "מספר שדות", ומייצג את השדה האחרון.

אנו נקליד את הדברים הבאים כדי להעלות קובץ טקסט קטן המכיל ציטוט קצר המיוחס לדניס ריצ'י:

חתול dennis_ritchie.txt

אנו רוצים  awkלהדפיס את השדה הראשון, השני והאחרון של הצעת המחיר. שים לב שלמרות שהוא עטוף בחלון המסוף, זו רק שורה אחת של טקסט.

אנו מקלידים את הפקודה הבאה:

awk '{הדפס $ 1, $ 2, $ NF}' dennis_ritchie.txt

איננו יודעים את ה"פשטות "ההיא. הוא השדה ה -18 בשורת הטקסט, ולא אכפת לנו. מה שאנחנו כן יודעים שזה השדה האחרון, ואנחנו יכולים להשתמש בו $NFכדי להשיג את הערך שלו. התקופה רק נחשבת לדמות אחרת בגוף השדה.

הוספת מפרידי שדה פלט

אתה יכול גם לומר awkלהדפיס תו מסוים בין שדות במקום תו החלל המוגדר כברירת מחדל. פלט ברירת המחדל  dateמהפקודה הוא מעט מוזר מכיוון שהזמן נחרץ ממש באמצעו. עם זאת, אנו יכולים להקליד את הדברים הבאים ולהשתמש בהם awkכדי לחלץ את השדות הרצויים:

תַאֲרִיך
תאריך | awk '{הדפס $ 2, $ 3, $ 6}'

נשתמש OFS במשתנה (מפריד שדה פלט) כדי להפריד בין חודש, יום ושנה. שים לב שלמטה אנו סוגרים את הפקודה במרכאות בודדות ( '), ולא בסוגריים מתולתלים ( {}):

תאריך | awk 'OFS = "/" {הדפס $ 2, $ 3, $ 6}'
תאריך | awk 'OFS = "-" {הדפס $ 2, $ 3, $ 6}'

כללי BEGIN ו- END

BEGINכלל מבוצע פעם לפני כל תחילת עיבוד הטקסט. למעשה, זה מבוצע לפני awk שאפילו קורא טקסט כלשהו. ENDכלל מבוצע לאחר כל השלמת העיבוד. יכול להיות לך מספר BEGIN ועל  ENDכללים, והם לבצע כדי.

לדוגמא BEGINלכלל, נדפיס את הציטוט כולו dennis_ritchie.txtמהקובץ שהשתמשנו בו בעבר עם כותרת מעליו.

לשם כך, אנו מקלידים פקודה זו:

awk 'BEGIN {print "Dennis Ritchie"} {print $0}' dennis_ritchie.txt

Note the BEGIN rule has its own set of actions enclosed within its own set of curly braces ({}).

We can use this same technique with the command we used previously to pipe output from who into awk. To do so, we type the following:

who | awk 'BEGIN {print "Active Sessions"} {print $1,$4}'

Input Field Separators

If you want awk to work with text that doesn’t use whitespace to separate fields, you have to tell it which character the text uses as the field separator. For example, the /etc/passwd file uses a colon (:) to separate fields.

We’ll use that file and the -F (separator string) option to tell awk to use the colon (:) as the separator. We type the following to tell awk to print the name of the user account and the home folder:

awk -F: '{print $1,$6}' /etc/passwd

The output contains the name of the user account (or application or daemon name) and the home folder (or the location of the application).

Adding Patterns

If all we’re interested in are regular user accounts, we can include a pattern with our print action to filter out all other entries. Because User ID numbers are equal to, or greater than, 1,000, we can base our filter on that information.

We type the following to execute our print action only when the third field ($3) contains a value of 1,000 or greater:

awk -F: '$3 >= 1000 {print $1,$6}' /etc/passwd

The pattern should immediately precede the action with which it’s associated.

We can use the BEGIN rule to provide a title for our little report. We type the following, using the (\n) notation to insert a newline character into the title string:

awk -F: 'BEGIN {print "User Accounts\n-------------"} $3 >= 1000 {print $1,$6}' /etc/passwd

Patterns are full-fledged regular expressions, and they’re one of the glories of awk.

Let’s say we want to see the universally unique identifiers (UUIDs) of the mounted file systems. If we search through the /etc/fstab file for occurrences of the string “UUID,” it ought to return that information for us.

We use the search pattern “/UUID/” in our command:

awk '/UUID/ {print $0}' /etc/fstab

It finds all occurrences of “UUID” and prints those lines. We actually would’ve gotten the same result without the print action because the default action prints the entire line of text. For clarity, though, it’s often useful to be explicit. When you look through a script or your history file, you’ll be glad you left clues for yourself.

The first line found was a comment line, and although the “UUID” string is in the middle of it, awk still found it. We can tweak the regular expression and tell awk to process only lines that start with “UUID.” To do so, we type the following which includes the start of line token (^):

awk '/^UUID/ {print $0}' /etc/fstab

That’s better! Now, we only see genuine mount instructions. To refine the output even further, we type the following and restrict the display to the first field:

awk '/^UUID/ {print $1}' /etc/fstab

If we had multiple file systems mounted on this machine, we’d get a neat table of their UUIDs.

Built-In Functions

awk has many functions you can call and use in your own programs, both from the command line and in scripts. If you do some digging, you’ll find it very fruitful.

To demonstrate the general technique to call a function, we’ll look at some numeric ones. For example, the following prints the square root of 625:

awk 'BEGIN { print sqrt(625)}'

This command prints the arctangent of 0 (zero) and -1 (which happens to be the mathematical constant, pi):

awk 'BEGIN {print atan2(0, -1)}'

In the following command, we modify the result of the atan2() function before we print it:

awk 'BEGIN {print atan2(0, -1)*100}'

Functions can accept expressions as parameters. For example, here’s a convoluted way to ask for the square root of 25:

awk 'BEGIN { print sqrt((2+3)*5)}'

awk Scripts

If your command line gets complicated, or you develop a routine you know you’ll want to use again, you can transfer your awk command into a script.

In our example script, we’re going to do all of the following:

  • Tell the shell which executable to use to run the script.
  • Prepare awk to use the FS field separator variable to read input text with fields separated by colons (:).
  • Use the OFS output field separator to tell awk to use colons (:) to separate fields in the output.
  • Set a counter to 0 (zero).
  • Set the second field of each line of text to a blank value (it’s always an “x,” so we don’t need to see it).
  • Print the line with the modified second field.
  • Increment the counter.
  • Print the value of the counter.

Our script is shown below.

The BEGIN rule carries out the preparatory steps, while the END rule displays the counter value. The middle rule (which has no name, nor pattern so it matches every line) modifies the second field, prints the line, and increments the counter.

The first line of the script tells the shell which executable to use (awk, in our example) to run the script. It also passes the -f (filename) option to awk, which informs it the text it’s going to process will come from a file. We’ll pass the filename to the script when we run it.

We’ve included the script below as text so you can cut and paste:

#!/usr/bin/awk -f  BEGIN { # set the input and output field separators FS=":" OFS=":" # zero the accounts counter accounts=0 } { # set field 2 to nothing $2="" # print the entire line print $0 # count another account accounts++ } END { # print the results print accounts " accounts.\n" }

Save this in a file called omit.awk. To make the script executable, we type the following using chmod:

chmod +x omit.awk

Now, we’ll run it and pass the /etc/passwd file to the script. This is the file awk will process for us, using the rules within the script:

./omit.awk /etc/passwd

The file is processed and each line is displayed, as shown below.

The “x” entries in the second field were removed, but note the field separators are still present. The lines are counted and the total is given at the bottom of the output.

awk Doesn’t Stand for Awkward

awk doesn’t stand for awkward; it stands for elegance. It’s been described as a processing filter and a report writer. More accurately, it’s both of these, or, rather, a tool you can use for both of these tasks. In just a few lines, awk achieves what requires extensive coding in a traditional language.

כוח זה נרתם על ידי המושג הפשוט של כללים המכילים תבניות, הבוחרים את הטקסט לעיבוד, ופעולות המגדירות את העיבוד.