banner

[Rule] Rules  [Home] Main Forum  [Portal] Portal  
[Members] Member Listing  [Statistics] Statistics  [Search] Search  [Reading Room] Reading Room 
[Register] Register  
[Login] Loginhttp  | https  ]
 
Forum Index Thảo luận hệ điều hành *nix Về giới hạn của tham số file-max của kernel  XML
  [Question]   Về giới hạn của tham số file-max của kernel 20/09/2010 09:44:43 (+0700) | #1 | 221076
[Avatar]
K4i
Moderator

Joined: 18/04/2006 09:32:13
Messages: 635
Location: Underground
Offline
[Profile] [PM]
Hi all,

Thỉnh thoảng một con server của mình xuất hiện một loạt thông báo trong /var/log/messages

Code:
Sep 14 16:57:53 xxxxsrv kernel: VFS: file-max limit 65536 reached


Thông báo này kéo dài trong khoảng 2, 3 phút, server down. Load average trong khoảng thời gian đó vọt lên cỡ 200 - 400.

Mình đã kiểm tra lại tham số file-max trong /proc

Code:
[root@xxxxsrv ~]# cat /proc/sys/kernel/file-max
cat: /proc/sys/kernel/file-max: No such file or directory


Dùng sysctl
Code:
[root@xxxxsrv ~]# sysctl -a | grep file-max
fs.file-max = 65536


Phiên bản của nhân
Code:
[user@xxxxsrv ~]$ uname -ra
Linux db09srv.ho.fpt.vn 2.6.9-67.0.22.ELlargesmp #1 SMP Fri Jul 11 10:59:18 EDT 2008 x86_64 x86_64 x86_64 GNU/Linux


Mình muốn hỏi mấy vấn đề:
- Có thể tăng giá trị file-max lên được không hay đây là giới hạn của hệ thống? Nếu như tăng lên thì lợi hại thế nào, liệu có thể giải quyết được vấn đề này không?

- Hiện tại mình đang nghi là có xảy ra hiện tượng memory leakage trên hệ thống nhưng đang chưa biết xử lý thế nào, debug ra sao?

Rất mong mọi người giúp đỡ.
Sống là để không chết chứ không phải để trở thành anh hùng
[Up] [Print Copy]
  [Question]   Về giới hạn của tham số file-max của kernel 20/09/2010 11:13:24 (+0700) | #2 | 221083
[Avatar]
quanta
Moderator

Joined: 28/07/2006 14:44:21
Messages: 7265
Location: $ locate `whoami`
Offline
[Profile] [PM]

K4i wrote:
Hi all,

Thỉnh thoảng một con server của mình xuất hiện một loạt thông báo trong /var/log/messages

Code:
Sep 14 16:57:53 xxxxsrv kernel: VFS: file-max limit 65536 reached


Thông báo này kéo dài trong khoảng 2, 3 phút, server down. Load average trong khoảng thời gian đó vọt lên cỡ 200 - 400.
 

Bạn kiểm tra xem có bị uninterruptible sleep không?
Code:
$ ps -eo pid,user,state,cmd | awk '$3 ~/[RD]/ { print $0 }'

K4i wrote:

Mình đã kiểm tra lại tham số file-max trong /proc

Code:
[root@xxxxsrv ~]# cat /proc/sys/kernel/file-max
cat: /proc/sys/kernel/file-max: No such file or directory

 

Nó nằm ở:
Code:
$ cat /proc/sys/fs/file-max 
204883

K4i wrote:

Mình muốn hỏi mấy vấn đề:
- Có thể tăng giá trị file-max lên được không hay đây là giới hạn của hệ thống? Nếu như tăng lên thì lợi hại thế nào, liệu có thể giải quyết được vấn đề này không?
 

Câu trả lời là có vì nhìn vào cái output mặc định của mình thì thấy.

K4i wrote:

- Hiện tại mình đang nghi là có xảy ra hiện tượng memory leakage trên hệ thống nhưng đang chưa biết xử lý thế nào, debug ra sao?
 

Bạn có thể check với valgrind.
Let's build on a great foundation!
[Up] [Print Copy]
  [Question]   Về giới hạn của tham số file-max của kernel 20/09/2010 11:34:17 (+0700) | #3 | 221085
[Avatar]
K4i
Moderator

Joined: 18/04/2006 09:32:13
Messages: 635
Location: Underground
Offline
[Profile] [PM]
Hi quanta,

Em muốn hỏi mấy thứ
1. uninterruptible sleep thì ảnh hưởng gì ở đây mà cần kiểm tra, trong trạng thái bình thường cũng có các uninterruptible sleep này cơ mà.

2. Việc tăng file-max lên thì có thể, nhưng đâu thể giải thích chung chung là như vậy được. Cái em quan tâm là việc này ảnh hưởng gì đến tính ổn định của hệ thống hay không?

Sống là để không chết chứ không phải để trở thành anh hùng
[Up] [Print Copy]
  [Question]   Về giới hạn của tham số file-max của kernel 20/09/2010 15:14:02 (+0700) | #4 | 221109
[Avatar]
quanta
Moderator

Joined: 28/07/2006 14:44:21
Messages: 7265
Location: $ locate `whoami`
Offline
[Profile] [PM]
Hi,

K4i wrote:

Em muốn hỏi mấy thứ
1. uninterruptible sleep thì ảnh hưởng gì ở đây mà cần kiểm tra, trong trạng thái bình thường cũng có các uninterruptible sleep này cơ mà.
 

Ảnh hưởng ở chỗ: nó có thể là nguyên nhân gây nên load average cao như vậy. Đã gọi là trạng thái bình thường thì không có process nào ở D state đâu (hoặc nếu có thì cũng chỉ 1, 2 cái là cùng).

K4i wrote:

2. Việc tăng file-max lên thì có thể, nhưng đâu thể giải thích chung chung là như vậy được. Cái em quan tâm là việc này ảnh hưởng gì đến tính ổn định của hệ thống hay không?
 

file-max là số lượng file descriptors lớn nhất có thể mở trên hệ thống. Khi gặp tình trạng này, bạn thử dùng lsof xác định xem con số thực là bao nhiêu. Việc tăng nó lên 2^16 * 1.5 hoặc 2^17 chắc chắn là không ảnh hưởng gì đến tính ổn định của hệ thống cả. Vấn đề cần tìm hiểu là tại sao cái process kia nó lại mở nhiều fd đến vậy.

PS: hệ thống của bạn có bao nhiêu RAM vậy?
Let's build on a great foundation!
[Up] [Print Copy]
  [Question]   Về giới hạn của tham số file-max của kernel 20/09/2010 15:25:52 (+0700) | #5 | 221113
[Avatar]
K4i
Moderator

Joined: 18/04/2006 09:32:13
Messages: 635
Location: Underground
Offline
[Profile] [PM]
Hi quanta,

Đây là một trường hợp phải debug thông qua log, do vậy em rất muốn hỏi các kinh nghiệm cần thiết vì không thể:
- Giả lập được tình huống đó trên thực tế vì thi thoảng mới xẩy ra tình huống đó nhưng đây là hệ thống most-critical nên cần phải giải quyết dứt điểm.
- Khi xuất hiện lỗi đó, average đột ngột tăng lên, hệ thống đờ đẫn ra và không thể nào control được.

Thêm nữa, nếu chỉ cố tăng file-max descriptor lên vô cùng thì em nghĩ chưa chắc đã giải quyết được vấn đề vì hoàn toàn có thể phòi ra một cái lỗi tương tự như đã từng xảy ra.

PS: máy chủ này 28GB RAM, đã cấu hình HugePages
Sống là để không chết chứ không phải để trở thành anh hùng
[Up] [Print Copy]
  [Question]   Về giới hạn của tham số file-max của kernel 20/09/2010 15:47:05 (+0700) | #6 | 221117
mR.Bi
Member

[Minus]    0    [Plus]
Joined: 22/03/2006 13:17:49
Messages: 812
Offline
[Profile] [PM] [WWW]
Nguyên tắc của việc xử lí sự cố là loại trừ tất cả khả năng dẫn đến sự cố. Nếu bạn cứ ngồi đó mà băn khoăn xem thử có nên như thế không trong khi đã xác định được không thiết lập được tình huống thực tế là phi thực tế.
Câu hỏi là có thể tăng giá trị file-max lên được không thì anh Quanta đã trả lời rồi, vậy bạn cứ thử xem thế nào?
Thêm nữa, hệ thống đang chạy là hệ thống gì, kiểm tra xem có thể upgrade lên phiên bản mới không? Phiên bản cũ có gặp lỗi gì critical không? ....
Khi không thể xác định ngay thì cách duy nhất là...mò chứ còn gì nữa :- )
All of my life I have lived by a code and the code is simple: "honour your parent, love your woman and defend your children"
[Up] [Print Copy]
  [Question]   Về giới hạn của tham số file-max của kernel 20/09/2010 15:56:38 (+0700) | #7 | 221118
[Avatar]
quanta
Moderator

Joined: 28/07/2006 14:44:21
Messages: 7265
Location: $ locate `whoami`
Offline
[Profile] [PM]

K4i wrote:
Hi quanta,

Đây là một trường hợp phải debug thông qua log, do vậy em rất muốn hỏi các kinh nghiệm cần thiết vì không thể:
- Giả lập được tình huống đó trên thực tế vì thi thoảng mới xẩy ra tình huống đó nhưng đây là hệ thống most-critical nên cần phải giải quyết dứt điểm.
- Khi xuất hiện lỗi đó, average đột ngột tăng lên, hệ thống đờ đẫn ra và không thể nào control được.
 

Thế thì nên thiết lập một hệ thống monitor để khi load average chạm ngưỡng nào đó là alert ngay để còn kịp gõ command chứ để đến khi nó vọt lên vài trăm và "không thể nào control được" thì bó tay.

K4i wrote:

Thêm nữa, nếu chỉ cố tăng file-max descriptor lên vô cùng thì em nghĩ chưa chắc đã giải quyết được vấn đề vì hoàn toàn có thể phòi ra một cái lỗi tương tự như đã từng xảy ra.
 

Thì mình đã nói là dựa vào kết quả lsof để mà tăng rồi mà, có ai nói tăng lên vô cùng đâu.

K4i wrote:

PS: máy chủ này 28GB RAM, đã cấu hình HugePages
 

Nếu vậy thì trên lý thuyết bạn có thể tăng file-max lên thành 65536 * 28.
Let's build on a great foundation!
[Up] [Print Copy]
  [Question]   Về giới hạn của tham số file-max của kernel 21/09/2010 14:03:37 (+0700) | #8 | 221189
[Avatar]
K4i
Moderator

Joined: 18/04/2006 09:32:13
Messages: 635
Location: Underground
Offline
[Profile] [PM]

quanta wrote:

K4i wrote:
Hi quanta,

Đây là một trường hợp phải debug thông qua log, do vậy em rất muốn hỏi các kinh nghiệm cần thiết vì không thể:
- Giả lập được tình huống đó trên thực tế vì thi thoảng mới xẩy ra tình huống đó nhưng đây là hệ thống most-critical nên cần phải giải quyết dứt điểm.
- Khi xuất hiện lỗi đó, average đột ngột tăng lên, hệ thống đờ đẫn ra và không thể nào control được.
 

Thế thì nên thiết lập một hệ thống monitor để khi load average chạm ngưỡng nào đó là alert ngay để còn kịp gõ command chứ để đến khi nó vọt lên vài trăm và "không thể nào control được" thì bó tay.
 


Đây là một ví dụ khi hệ thống gặp sự cố, output của lệnh #sar -a




Tần suất xuất hiện lỗi ngày càng
Sống là để không chết chứ không phải để trở thành anh hùng
[Up] [Print Copy]
  [Question]   Về giới hạn của tham số file-max của kernel 21/09/2010 14:47:22 (+0700) | #9 | 221191
[Avatar]
quanta
Moderator

Joined: 28/07/2006 14:44:21
Messages: 7265
Location: $ locate `whoami`
Offline
[Profile] [PM]
Bạn đang dùng distro nào, sar phiên bản bao nhiêu vậy? sysstat version 7.0.2 trên CentOS của mình không có -a option. Hơn nữa, bạn không đưa tên cột mình cũng chẳng biết đằng nào mà lần.

PS: vậy là bạn vẫn gõ được command đấy chứ nhỉ?
Let's build on a great foundation!
[Up] [Print Copy]
  [Question]   Về giới hạn của tham số file-max của kernel 21/09/2010 15:21:50 (+0700) | #10 | 221193
[Avatar]
K4i
Moderator

Joined: 18/04/2006 09:32:13
Messages: 635
Location: Underground
Offline
[Profile] [PM]
Output của sar -u

OS: RHEL 4.6 x64

PS: Gõ command sau khi restart
Sống là để không chết chứ không phải để trở thành anh hùng
[Up] [Print Copy]
  [Question]   Về giới hạn của tham số file-max của kernel 21/09/2010 16:01:13 (+0700) | #11 | 221195
[Avatar]
quanta
Moderator

Joined: 28/07/2006 14:44:21
Messages: 7265
Location: $ locate `whoami`
Offline
[Profile] [PM]
Còn tên mấy cái cột? Tóm lại bạn đã thử tăng file-max chưa, có giải quyết được vấn đề không? Bạn có biện pháp để phát hiện ngay khi nó chớm bị chưa? Restart lại server rồi mà %system vẫn còn khủng thế kia hả bạn?
Let's build on a great foundation!
[Up] [Print Copy]
  [Question]   Về giới hạn của tham số file-max của kernel 26/09/2010 11:21:15 (+0700) | #12 | 221493
[Avatar]
giobuon
Member

[Minus]    0    [Plus]
Joined: 10/09/2006 06:25:46
Messages: 72
Offline
[Profile] [PM]

K4i wrote:

Code:
[user@xxxxsrv ~]$ uname -ra
Linux db09srv.ho.fpt.vn 2.6.9-67.0.22.ELlargesmp #1 SMP Fri Jul 11 10:59:18 EDT 2008 x86_64 x86_64 x86_64 GNU/Linux

 

Hình như bạn K4i này là người quen smilie
Theo mình giờ phải thu nhỏ phạm vi nghi ngờ vào. Xem những ứng dụng chuyên biệt nào đang chạy (ví dụ như server này chỉ chạy db oracle thôi chẳng hạn), tìm xem có bug nào của ứng dụng này đẻ ra cái lỗi đó không?
Nếu vẫn không được thì phải mò:
-Log output của top và lsof ra file 1s 1 lần. Nhớ đặt rotate log không lại teo. Đành phải trâu bò tí vậy chứ biết sao smilie
[Up] [Print Copy]
  [Question]   Về giới hạn của tham số file-max của kernel 26/09/2010 11:33:48 (+0700) | #13 | 221494
[Avatar]
panfider
Member

[Minus]    0    [Plus]
Joined: 12/05/2010 01:51:04
Messages: 448
Offline
[Profile] [PM] [Email]
kernel 2.6.9 là quá cũ rùi, nên sử dụng kernel từ 2.6.20 trở lên
có thể bạn đang xài ext2/3 có giới hạn số file ở một thư mục
nếu vậy có thể chuyển sang ext4 nó tốt hơn
[Unix] live free or die
[Up] [Print Copy]
  [Question]   Về giới hạn của tham số file-max của kernel 09/10/2010 10:52:44 (+0700) | #14 | 222441
[Avatar]
K4i
Moderator

Joined: 18/04/2006 09:32:13
Messages: 635
Location: Underground
Offline
[Profile] [PM]
Đợt rồi lu bu quá, hôm nay update topic này phát.

1. Lỗi vẫn lặp. Sau lần cuối cùng lỗi này xuất hiện mình đã tăng tham số lên gấp đôi (65530 x 2). Chưa thấy hiện tượng gì xảy ra

2.

giobuon wrote:

K4i wrote:

Code:
[user@xxxxsrv ~]$ uname -ra
Linux db09srv.ho.fpt.vn 2.6.9-67.0.22.ELlargesmp #1 SMP Fri Jul 11 10:59:18 EDT 2008 x86_64 x86_64 x86_64 GNU/Linux

 

Hình như bạn K4i này là người quen smilie
Theo mình giờ phải thu nhỏ phạm vi nghi ngờ vào. Xem những ứng dụng chuyên biệt nào đang chạy (ví dụ như server này chỉ chạy db oracle thôi chẳng hạn), tìm xem có bug nào của ứng dụng này đẻ ra cái lỗi đó không?
Nếu vẫn không được thì phải mò:
-Log output của top và lsof ra file 1s 1 lần. Nhớ đặt rotate log không lại teo. Đành phải trâu bò tí vậy chứ biết sao smilie
 


Bạn là người thứ hai biết con server này chạy Oracle smilie. Nếu là người quen PM mình nhá smilie. Top thì vẫn treo ở terminal suốt, có tắt đâu. Output của lsof trung bình cỡ khoảng 20k.

3.

ernel 2.6.9 là quá cũ rùi, nên sử dụng kernel từ 2.6.20 trở lên
có thể bạn đang xài ext2/3 có giới hạn số file ở một thư mục
nếu vậy có thể chuyển sang ext4 nó tốt hơn 

Ô cứ nói thay là thay được đó bạn. Có những thứ không dám nghĩ đến việc thay đấy...
Sống là để không chết chứ không phải để trở thành anh hùng
[Up] [Print Copy]
  [Question]   Về giới hạn của tham số file-max của kernel 09/10/2010 15:48:52 (+0700) | #15 | 222456
[Avatar]
quanta
Moderator

Joined: 28/07/2006 14:44:21
Messages: 7265
Location: $ locate `whoami`
Offline
[Profile] [PM]
Có thể là bug của Oracle. Bạn vào Metalink search thử 5861703 xem.
Let's build on a great foundation!
[Up] [Print Copy]
  [Question]   Về giới hạn của tham số file-max của kernel 09/10/2010 15:58:37 (+0700) | #16 | 222459
[Avatar]
K4i
Moderator

Joined: 18/04/2006 09:32:13
Messages: 635
Location: Underground
Offline
[Profile] [PM]

quanta wrote:
Có thể là bug của Oracle. Bạn vào Metalink search thử 5861703 xem. 


Doc ID 5861703, this bug is fixed in 10.2.0.4.

Code:
system@PROD1> select version from v$instance;

VERSION
-----------------
10.2.0.4.0


@quanta: FYI
Sống là để không chết chứ không phải để trở thành anh hùng
[Up] [Print Copy]
  [Question]   Về giới hạn của tham số file-max của kernel 09/10/2010 16:22:01 (+0700) | #17 | 222463
[Avatar]
quanta
Moderator

Joined: 28/07/2006 14:44:21
Messages: 7265
Location: $ locate `whoami`
Offline
[Profile] [PM]

K4i wrote:

1. Lỗi vẫn lặp. Sau lần cuối cùng lỗi này xuất hiện mình đã tăng tham số lên gấp đôi (65530 x 2). Chưa thấy hiện tượng gì xảy ra.
 

Lúc này thông báo là "file-max limit 65536 reached" hay 131072?

K4i wrote:
Output của lsof trung bình cỡ khoảng 20k. 

Bạn tìm xem process nào mở nhiều fd nhất, là bao nhiêu, có liên quan đến Oracle không?



Let's build on a great foundation!
[Up] [Print Copy]
[digg] [delicious] [google] [yahoo] [technorati] [reddit] [stumbleupon]
Go to: 
 Users currently in here 
1 Anonymous

Powered by JForum - Extended by HVAOnline
 hvaonline.net  |  hvaforum.net  |  hvazone.net  |  hvanews.net  |  vnhacker.org
1999 - 2013 © v2012|0504|218|